안녕하세요 월가아재입니다. 데이터 과학 공부 및 입문법에 대해 물어보시는 분들이 상당히 많아서 영상을 준비했습니다. 아래는 영상에 나오는 서적 및 사이트입니다.
선형대수
- 프로그래머를 위한 선형대수: 히라오카 카즈유키 저, 직관적인 설명을 하려고 저자가 노력을 많이 했습니다.
- 코딩 더 매트릭스: 필립 클라인 저, 조금 더 깊게 공부하면서 코딩적인 면까지 보시려는 분께 추천합니다.
통계
- 세상에서 가장 쉬운 통계학 입문: 고지마 히로유키 저, 제목에서 알 수 있듯이 매우 기초적인 내용이므로 통계를 처음 하시는 분께 추천합니다.
- 세상에서 가장 쉬운 베이즈통계학 입문: 고지마 히로유키 저
- Practical Statistics for Data Scientists: O'Reilly 출판사, 어느 정도 기초 통계가 있고 데이터 사이언스 컨택스트에서의 통계를 훑고 싶은 분께 추천합니다.
코딩 공부 순서
1. Python의 기초 문법 익히기
- Datacamp - Intro to Python ($25/월)
- Udacity - Programming Foundations with Python (무료)
- Udacity - Introduction to Python Programming (무료)
- Coursera - Python for Data Science and AI ($49/월이지만 수료증 취득안하면 무료 수강 가능)
2. SQL 기초 알기
- SQL in 10 Minutes, Sam's Teach Yourself (분량도 적당히 얇고 필요한 부분이 잘 축약되어 있는 기초 책, 이 한권이면 충분합니다)
3. 각 코딩 문제풀이 사이트에서 매일 1~5개 문제 풀기
- Hackerrank
- Leetcode
- Topcoder
- Coderbyte
- Project Euler
- CodinGame
4. 머신러닝 공부하기
5. 머신러닝 알고리즘 직접 구현해보기 (Numpy, Pandas 라이브러리 사용)
6. 머신러닝 알고리즘 라이브러리 사용해보기
- 머신러닝: scikit-learn
- 딥러닝: PyTorch, Tensorflow(Keras)
- 강화학습: TF-Agent, stable-baselines, Google Dopamine
7. 라이브러리 소스코드를 뜯어보고 더 효율적인 구현 배우기
8. 논문 읽고 구현해보기
머신러닝 관련 최고의 책
- 핸즈온 머신러닝 2판: 오렐리앙 제롱 지음, 박해선 옮김 한빛 미디어 (1판은 X, 2판이 좋음)
데이터 사이언스 학습 사이트 정리
- Coursera.org: 머신러닝계의 슈퍼스타, 스탠포드의 앤드류 응 교수님께서 창업한 사이트입니다. 숱하게 좋은 온라인 강의들이 있으며 그 중 앤드류 응 교수님께서 직접 가르치신 머신러닝 수업과 딥러닝 수업은 이 분야의 정석책과 같은 존재입니다. 참고로, 강의들이 유료이지만 자세히 찾아보시면 청강(Audit) 옵션을 찾을 수 있습니다.
A. 앤드류 응 교수 머신러닝 수업 www.coursera.o...
B. 앤드류 응 교수 딥러닝 수업 시리즈 www.coursera.o...
- edX.org: 코세라와 비슷한 사이트인데, 여러 대학들과 협연을 맺고 Micromasters라는 프로그램을 운영하고 있습니다. 이 Micromasters는 수료증같은 느낌인데, 어떤 대학의 edX 수업을 몇 개 듣게 되면 향후 그 대학의 석사를 갔을 때 일정 학점을 면제해주는 식입니다. 예를 들어 콜럼비아 대학의 AI Micromasters 프로그램의 경우, 4개의 edX 수업을 $1200 가량을 내고 수료하면, 콜럼비아 컴퓨터 과학 석사에 진학하게 되면 졸업 요건인 30학점 중 7.5학점을 면제해주는데, 콜럼비아 학비가 학점당 $2000이상이니 거의 $15000를 면제받는 셈입니다.
- Udemy.com: 위의 두 사이트가 대학이나 기관에서 제작한 수업들이라면, Udemy는 아무나 본인의 강좌를 업로드할 수 있는 플랫폼입니다. 장점은 거의 모든 수업이 만원 정도로 쌉니다. 수업의 질은 위의 두 사이트에 비해 떨어지는 편이지만, 워낙 숱하게 많은 강좌들이 있어 천차만별이라, 좋은 강의들도 다수 포진해 있습니다.
- Udacity.com: 유다시티는 플랫폼이 아니라 그 자체가 학원과 같은 업체로, 여러 가지 Nanodegree 프로그램을 운영하고 있습니다. 필자도 여러 개를 들어보았는데, 솔직한 후기로는 인터페이스는 좋은데 언제나 가성비가 좋지 않다는 기분이 듭니다. Nanodegree 자체도 크게 이력서에 도움이 되지도 않기 때문에, 코세라나 edX를 추천하는 편입니다.
- Lynda.com: 취업계의 페이스북이라 할 수 있는 링크드인(Linkedin)에서 운영하는 온라인 강의 플랫폼입니다.
- Datacamp.com: 월 25달러 정도의 가격으로 여러 데이터 사이언스 수업들을 들을 수 있습니다. 위의 사이트들이 플랫폼이라면, 이 사이트는 이 사이트의 컨텐츠만 올라오는 온라인 학원 느낌입니다. 직접 들어본 적이 없어 수업의 질은 어떠한지 모르지만, 아주 초창기에 파이썬 투토리얼을 유익하게 봤던 기억이 납니다.
- Kaggle.com: 데이터 사이언스 관련 대회들이 올라오는 사이트입니다. 머신러닝, 딥러닝을 재미있게 공부하려면 이만한 사이트가 없다고 해도 과언이 아닙니다. 대회별 게시판도 많이 활성화되어 있고, 토론 게시판 점수 랭킹 제도도 있어서 많은 사람들이 본인의 모델을 게시판에 포스팅하고 친절히 설명도 하기 때문에 캐글 대회 몇 번 참가하게 되면 얻는 것이 정말 많을 것입니다.
- Fast.ai: 제레미 하워드라는 캐글 성적으로 유명한 사람이 운영하는 사이트입니다. 이곳에서 제러미 하워드가 직접 강연한 머신러닝과 딥러닝 강의를 무료로 들을 수 있습니다. 다만, 앤드류 응 교수님의 수업이 매우 기초적인 것부터 차근차근 배운다면, 제러미 하워드 수업은 일단 실전 적용부터 돌려보는 것부터 시작해서 점차적으로 이론으로 넘어갑니다. FastAI라는 딥러닝 라이브러리도 자체적으로 개발해서, 이 라이브러리를 많이 사용하기 때문에 처음 배우시는 분들께는 추천하지 않습니다.
- AICrowd.com: 캐글과 비슷한 대회 사이트인데 캐글의 경우 딥러닝 관련 대회가 많은 반면 여기서는 조금 더 강화학습에 관련된 대회들이 올라옵니다.
Негізгі бет [월가아재 고민상담 1편] 문과생을 위한 데이터 과학 기초 입문 방법
Пікірлер: 105