2020.12.24 ๋ฏธ๋์์ ์ฐ์ธ ๊ธ์
๋๋ค.
์๋ฌธ์ A Complete 52 Week Course to Become a Data Scientist in 2021 ์์ ํ์ธํ์ค ์ ์์ต๋๋ค.
๋ฒ์ญ์ ์ฌ์ค ํฌ๊ฒ ์๋ฏธ์๊ณ , ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๊ฐ ๋๊ธฐ ์ํด ๋์์ ๋ฐ์ ์ ์๋ ๋งํฌ๋ค์ ์ ๋ฆฌํด๋ ๊ธ์
๋๋ค. ์ฐธ๊ณ ์๋ฃ๋ค์ ๋ค ์์ด์
๋๋ค!
โ๋ ๋ก ๋จน๊ณ ์ถ์ดํ๋ ์ฌ๋์ ๋ง์ง๋ง, ์ง์ ์ฌ๋ฅ์ ๊ฐ๋ ค๋ ์ฌ๋์ ๋๋ฌผ๋คโ
์๊ฐ
๋ง์ฝ ๋ฐ์ดํฐ์ฌ์ด์ธํฐ์คํธ๊ฐ ๋๊ณ ์ถ์๋ฐ, ์์ง ์ค์ฒ์ ๋ชปํ๊ณ ์๋ค๋ฉด? ์ง๊ธ์ด ๋ฐ๋ก ์์ํ ๋์ผ.
์๋ ์ ๋๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ด๋ จ ์๋ก์ด ๊ฒ๋ค์ 52์ฃผ๊ฐ ๋ฐฐ์ฐ๊ธฐ๋ก ๋ง์์ ๋จน์๊ณ , ๊ทธ ๊ฒฐ์ ์ ๋ด๊ฐ ๋ด๋ฆฐ ๊ฒฐ์ ์ค ๊ฐ์ฅ ์ข์ ๊ฒฐ์ ์ด์๋ค๊ณ ์๊ฐํด. ์ผ ๋ ์ด๋ ์๊ฐ์ ์ผ๋ง๋ ๋ง์ ๊ฒ์ ์ป์ ์ ์๋์ง ์๊ฒ๋๋ฉด ์๋ง ๋๋๊ฑธ!
๊ทธ๋์, ๋ค๊ฐ 2021๋ (๋ฒ์ญ ์์ 2022๋ ) ์ ๋ ๊ณํ์ผ๋ก ์ธ์ธ ์ ์๋ 52์ฃผ๊ฐ์ ์ปค๋ฆฌํ๋ผ์ ๋ณด์ฌ์ฃผ๋ ค๊ณ ํด! ๋นก์ธ๊ณ ๊ฐ๋ฆฌ๋ ์ผ์ ์ด์ง๋ง ๊ฐ์น๊ฐ ์์ ๊ฑฐ์ผ.
์ด ๊ฐ์ด๋๊ฐ ๋จธ์ ๋ฌ๋์ผ๋ก ์์ํ์ง ์๋๋ค๋ ๊ฒ์ ๋์น์ฑ๊ฒ ์ง? ์ด์ ๊ฐ ์์ด. ๋ง์ฝ ์ ๋จธ์ ๋ฌ๋์ด ์ฒ์์ ๋์ค์ง ์๋๊ฑด์ง ๊ถ๊ธํ๋ค๋ฉด ๋ด ๋ค๋ฅธ ๊ธ์ ์ฐธ๊ณ ํด์ค : ๋ฐ๋ก๊ฐ๊ธฐ
์์ํ๊ธฐ ์ ์ ์์์ผ ํ ๊ฒ๋ค์ด ์๋ค๋ฉด:
- ์ด ๊ณผ์ ์ ๋ชจ๋ ๊ฑธ ๋ค ๊ฐ์ถ ์๋ฒฝํ ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๊ฐ ๋๊ธฐ ์ํ ๊ณผ์ ์ ์๋์ผ. ๋ด ๋ง์, ๋ด๊ฐ ์๊ฐํ๊ธฐ์ ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๋ก ์ค์ํ๋ค๊ณ ์๊ฐํ๋ ๊ธฐ์ด ์คํฌ๋ค์ ๋ค๋ฃฌ๋ค๋ ์๋ฏธ์ด์ง
- ์ด๋ฏธ ๋๊ฐ ๋ฏธ๋ถํ์ ์๊ณ ์๋ค๋ ์ ์ ์์ ์์ํด. ์ฐ๋ฆฌ ๊ณ ๋ฑํ๊ต ๋ ๋ค ๋ฐฐ์ ์์?
- ์ด ์ปค๋ฆฌํ๋ผ์ ๋ฅ๋ฌ๋ ๊ดํ ๊ฒ์ ์์ด. ๋ฅ๋ฌ๋์ ๊ทธ ์์ฒด๋ก๋ง 52์ฃผ๊ฐ ๊ฑธ๋ฆด๊ฑธ? ๊ทธ๊ฑธ ์ฌ๊ธฐ๋ค ๊พธ๊ฒจ๋ฃ๋ ๊ฒ์ ์ข ๋ถ์น์ ํ ๊ฒ ๊ฐ์์!
์ ์ด์ ์์ํด๋ณผ๊น!
๋ชฉ์ฐจ
- ํ๋ฅ ๊ณผ ํต๊ณ (Week 1 to Week 6)
- ์ํ (Week 7 to 12)
- SQL (Week 13 to Week 21)
- Python๊ณผProgramming (Week 22 to Week 28)
- Pandas (Week 29 to Week 33)
- ๋ฐ์ดํฐ ์๊ฐํ (Week 34 to Week 35)
- ๋ฐ์ดํฐ ํ์๊ณผ ์ ์ฒ๋ฆฌ(Week 36 to Week 39)
- ๋จธ์ ๋ฌ๋ (Week 40 to Week 51)
- ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํ๋ก์ ํธ (Week 52)
ํ๋ฅ ๊ณผ ํต๊ณ
์ ํ๋ฅ ๊ณผ ํต๊ณ์ผ๊น?
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์ ๋จธ์ ๋ฌ๋์ ํ๋ ๋ฒ์ ์ ํต๊ณํ์ด์ผ. ํต๊ณํ์ ๋จผ์ ๋ฐฐ์์ผ๋ก์จ ๋จธ์ ๋ฌ๋ ๊ฐ๋ ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ฐฐ์ฐ๋๋ฐ ์๊ฐ์ ๋จ์ถ์ํฌ ์ ์์ง! ๋น๋ก ์ค์ฒด์๋ ๊ฒ๋ค์ ์ฒซ ๋ช ์ฃผ๊ฐ ๋ฐฐ์ด๋ค๊ณ ์๊ฐํ ์ง ๋ชฐ๋ผ๋, ๋์ค์ ๋ค ๋์์ด ๋ ๊ฑฐ์ผ.
Week 1: ๊ธฐ์ ํต๊ณํ(Descriptive Statistics)
Week 2: ํ๋ฅ (Probability)
- Theoretical probability
- Sample spaces
- Set operations
- Addition rule
- Multiplication rule for independent events
- Multiplication rule for dependent events
- Conditional probability and independence
Week 3: ์์ด๊ณผ ์กฐํฉ(Combinations and Permutations)
Week 4: ์ ๊ท ๋ถํฌ์ ํ๋ณธ ๋ถํฌ(Normal Distribution and Sampling Distributions)
- Normal distribution and the Empirical rule
- Introduction to Sampling Distributions
- Sampling distribution of a sample proportion
- Sampling distribution of a sample mean
Week 5: ์ ๋ขฐ๊ตฌ๊ฐ(Confidence Intervals)
Week 6: ๊ฐ์ค ๊ฒ์ (Hypothesis Testing)
์ํ
์ ์ํ์ธ๊ฐ?
ํต๊ณ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ง์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์ ๊ฐ๋ ๋ค์ด ์ํ ๊ฐ๋ ์ ๊ธฐ์ดํด์์ด.
๋น์ฉ ํจ์๋ฅผ ์ดํดํ๊ธฐ ์ํด์ ์ต์ํ ๋ฏธ๋ถ์ ์์์ผ ํด. ๊ฐ์ค ๊ฒ์ ์ ์ดํดํ๊ธฐ ์ํด์๋ ์ ๋ถ ๊ฐ๋ ์ ์ดํดํด์ผ ํ๊ณ . ๊ทธ๋ฆฌ๊ณ ์์๋ฅผ ๋ ์ฃผ์๋ฉด, ์ ํ ๋์๋ ๋ฅ๋ฌ๋, ์ถ์ฒ ์์คํ , ์ฃผ์ฑ๋ถ ๋ถ์์ ๊ฐ๋ ์ ์ดํดํ๋๋ฐ ๊ผญ ํ์ํด!
Week 7: ๋ฒกํฐ ๊ณต๊ฐ (Vectors and Spaces)
- Vectors
- Linear Combinations and Spans
- Linear Dependence and Independence
- Subspaces and the basis for a subspace
Week 8: ์ค์นผ๋ผ๊ณฑ๊ณผ ๋ณํ ํ๋ ฌ part.1(Dot Product and Matrix Transformations pt. 1)
- Vector dot and cross products
- Functions and Linear Transformations
- Transformations and Matrix Multiplications
Week 9: ๋ณํ ํ๋ ฌ part.2 (Matrix Transformations pt. 2)
Week 10: ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ(Eigenvalues and Eigenvectors)
- Eigenvalues and Eigenvectors
- ๊ทธ๋ฆฌ๊ณ ์ง๋ ๋ช ์ฃผ๊ฐ ๋ชปํ๋ ๊ฒ ๋ณต์ต!!
Week 11: ์ ๋ถ part. 1(Integrals)
- Approximation with Riemann Sums
- Definite Integrals with Riemann Sums
- The Fundamental Theorem of Calculus and Accumulation Functions
- Properties of Definite Integrals
Week 12: ์ ๋ถ part.2(Integrals Part 2)
SQL
์ SQL?
SQL์ ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ. ๋ฐ์ดํฐ ์์ง๋์ด, ๋ฐ์ดํฐ ์ ๋๋ฆฌ์คํธ, ๋น์ฆ๋์ค ์ ๋๋ฆฌ์คํธ ๋ฑ ์ด๋ค ๋ฐ์ดํฐ ๊ด๋ จ ๋ถ์ผ๋ ์ง ๊ฐ์ฅ ์ค์ํ ๊ธฐ์ ์ด์ผ.
SQL์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ตฌ์ฒด์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํด์, ๊ทธ๊ฑธ๋ก ๋ถ์ํ๋ค๊ฑฐ๋, ์๊ฐํ, ๋ชจ๋ธ๋ง ๋ฑ๋ฑ์ ํ ์ ์๊ฒ ํด. ๊ทธ๋์ ํ๋ฅญํ SQL ์ค๋ ฅ์ ๊ฐ์ถ๋ค๋ฉด ํ ๋จ๊ณ ๋์ ๋ถ์, ์๊ฐํ, ๋ชจ๋ธ๋ง ๋ฑ์ ํ ์ ์๊ฒ ๋ ๊ฑฐ์ผ. ์๋? ๋๋ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๊ณ ๋ค๋ฃฐ ์ ์๊ฒ ๋ ํ ๋๊น!
๋๋ ์ฐ์ฐํ SQL ๊ด๋ จํด์ Modeโs curriculum ๋ฅผ ๋ฐ๊ฒฌํ๊ณ ์ด๊ฑฐ ์ต๊ณ ์ผ! using SQL in Mode ์์ ์ข ์ต์ํด์ง ๋ค์์ ์๋ ์ฃผ์ ๋ค๋ก ์์ฑ์์ผ๋๊ฐ์!!
Week 13: ๊ธฐ์ด SQL(Basic SQL)
Week 14: ๋ ผ๋ฆฌ ์ฐ์ฐ์/ ๋น๊ต ์ฐ์ฐ์ (LOGICAL and COMPARISON Operators)
Week 15: ์ง๊ณํจ์(AGGREGATES)
- Aggregate Functions (COUNT, SUM, MIN/MAX, AVG)
- GROUP BY clause
- HAVING clause
Week 16: DISTINCT, CASE WHEN
Week 17: JOINS, UNIONS
Week 18: Subqueries, Common Table Expressions
Week 19: ๋ฌธ์์ด ์กฐ์ฑ(String Manipulations)
- String Functions in SQL (LEFT/RIGHT, TRIM, STRPOS, SUBSTR, CONCAT, UPPER/LOWER, etcโฆ)
Week 20: Date-time manipulation
- EXTRACT
- DATE_ADD()
- DATE_SUB()
- DATE_DIFF()
- ๋ ๋ง์ ๊ธฐ๋ฅ์ ๋ณด๊ณ ์ถ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ๋ณด์ธ์
Week 21: Windows Functions
- Windows Functions (ROW_NUMBER(), RANK(), DENSE_RANK(), LAG, LEAD, SUM, COUNT, AVG)
- ๋ ๋ง์ Windows functions ๋ฅผ ๋ณด๊ธฐ ์ํด์๋ ์ฌ๊ธฐ๋ฅผ ๋ณด์ธ์.
ํ์ด์ฌ๊ณผ ํ๋ก๊ทธ๋๋ฐ
์ ํ์ด์ฌ?
๋๋ ํ์ด์ฌ์ผ๋ก ์์ํ๊ณ , ๋ ์๋ง ํ์ด์ฌ์ ํ์ ์ธ ๊ฒ ๊ฐ์. ํ์ด์ฌ์ ์คํ์์ค๋ ๋ง๊ณ , ๋ฐฐ์ฐ๊ธฐ๋ ์ง๊ด์ ์ด์ผ. ๋ง์ฝ ์ํ๋ค๋ฉด R๊ณผ ํจ๊ป ๋ฐฐ์๋ ๋๋๋ฐ, ๋๋ R ๊ด๋ จํด์ ๋์์ ์ฃผ๊ธฐ ํ๋ค ๊ฒ ๊ฐ์.
Week 22: ํ์ด์ฌ ๊ธฐ์ด
Week 23: List, Tuples, Functions, Conditional Statements, Comparisons
Week 24: Dictionaries, Loops, Comments
Week 25: Try/Except, Reading & Writing files, Classes and Objects
Week 26: Recursion
Week 27: Binary Trees
Week 28: APIs, Anaconda
Pandas
์ Pandas?
ํ๋ค์ค๋ ํ์ด์ฌ์์ ๊ฐ์ฅ ์ค์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ผ. ๋ฐ์ดํฐ ์กฐ์ ๋ฐ ๋ถ์ ์ฉ๋๋ก ์ฌ์ฉํด!
Week 29: ๋ฐ์ดํฐ ์ป๊ธฐ ๋ฐ ์์๊ฐ๊ธฐ
Week 30: Filtering, Sorting
Week 31: Grouping
Week 32: Apply
Week 33: Merge
๋ฐ์ดํฐ ์๊ฐํ?
์ ๋ฐ์ดํฐ ์๊ฐํ?
๋ฐ์ดํฐ์ ์ธ์ฌ์ดํธ๋ฅผ ์๊ฐํํ๋ ๋ฅ๋ ฅ์ ๋๋ฌด ์ค์ํด. ์๋ง์ ๋ค์์ธ ์ ๋ณด๋ค์ ํ ๋ฒ์ ์ํตํ ์ ์๋ ๊ฐ์ฅ ์ฌ์ด ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ด์ผ. ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ก์ ๋๋ ํญ์ ๋์ ๋์ ์์ด๋์ด๋ฅผ ์ ๋งํด์ผํ ํ ๋ฐ - ์๋ก์ด ํ๋ก์ ํธ๋ฅผ ํผ์นญํ๊ฑฐ๋ ๋์ ๋ชจ๋ธ์ด ์ํํ๋ ์ ์๋ค๊ณ ํ์ธ์ ์ค๋ํ๋ ์ผ - ๋ฐ์ดํฐ ์๊ฐํ๋ ์์ฒญ ์ ์ฉํ ๋๊ตฌ๊ฐ ๋ ๊ฑฐ์ผ!
์์ฒญ๋ ์๊ฐํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์๋๋ฐ, ๋๋ ๋ ๊ฐ์ ์ง์ค์ ํ ๊ฒ: Matplotlib์ Plotly.
Week 34: Matplotlib์ผ๋ก ๋ฐ์ดํฐ ์๊ฐํํ๊ธฐ
- Introduction to Matplotlib
- 3-D Visualizations in Matplotlib
- Types of Data Visualizations in Matplotlib
- Cheatsheet
Week 35: Plotly๋ก ๋ฐ์ดํฐ ์๊ฐํํ๊ธฐ
๋ฐ์ดํฐ ํ์๊ณผ ์ ์ฒ๋ฆฌ
์ ํ์ํ๊ฐ?
โ์ฐ๋ ๊ธฐ๊ฐ ๋ค์ด๊ฐ๋ฉด ์ฐ๋ ๊ธฐ๊ฐ ๋์จ๋คโ
๋ค๊ฐ ๋ง๋ค์ด๋ธ ๋ชจ๋ธ๋ค์ ๋ค๊ฐ ๋ฃ์ ๋ฐ์ดํฐ์ ๊ฐ์น์ ์ํด ์ข์ฐ๋ ๊ฑฐ์ผ. ๋ค๊ฐ ๋ฃ์ ๋ฐ์ดํฐ์ ์ํ๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋(์ข์์ง ๋์์ง), ๋ฐ์ดํฐ๋ฅผ ํ์ํ๊ณ ์ ์ฒ๋ฆฌ๋ฅผ ๊ฑฐ์ณ์ผ๊ฒ ์ง. ๋ฐ๋ผ์, ์์ผ๋ก 4์ฃผ๊ฐ, ๋ค๊ฐ ๋ฐ์ดํฐ ํ์๊ณผ ์ ์ฒ๋ฆฌ์ ๋ํด ์ ์ดํดํ ์ ์๋๋ก ๋ฉ์ง ์๋ฃ๋ค์ ์ ๊ณตํด์ฃผ๋ ค๊ณ ํด.
Week 36: Exploratory Data Analysis (EDA)
Exploratory Data Analysis (EDA) ๋ ์ด๋ ค์ธ ์ ์์ด. ์ ํด์ง ๋ฐฉ๋ฒ์ด ์๊ธฐ ๋๋ฌธ์ด์ผ. ํ์ง๋ง ์ด๊ฒ EDA๊ฐ ์ฌ๋ฏธ์๋ ์ด์ ์ด๊ธฐ๋ ํ์ง. ์ผ๋ฐ์ ์ผ๋ก ๋๋..
- ๊ธฐ์ ํต๊ณ๋ฅผ ํ ๊ฑฐ๊ณ (eg. central tendency)
- ์ผ ๋ณ๋ ๋ถ์(uni-variable analysis)์ ํ ๊ฑฐ๊ณ (distributions and spread)
- ๋ค๋ณ๋ ํต๊ณ๋ถ์(Perform multi-variable analysis)์ ํ ๊ฑฐ๊ณ (scatterplots, correlation matrix, predictive power score, ๋ฑโฆ)
- ์์ด๋ฒ๋ฆฐ ๋ฐ์ดํฐ๋ ์์๋ผ์ด์ด ๋ฐ์ดํฐ๋ฅผ ์ฒดํฌํ๊ธธ ์ํ ๊ฑฐ์ผ.
์ด์ฌ์๋ฅผ ์ํ EDA ๊ฐ์ด๋๋ ์ฌ๊ธฐ๋ฅผ ํ์ธํด๋ด!
Week 37: ๋ฐ์ดํฐ ์ค๋น: ๊ฒฐ์ธก๊ฐ ๋์ฒด์ ์ ๊ทํ
- ๊ฒฐ์ธก๊ฐ ๋์ฒด๊ฐ ๋ญ๊ฐ์?
- ์์ด๋ฒ๋ฆฐ ๋ฐ์ดํฐ๋ฅผ ์ฐ์ ํ๋ ์ฌ์ฏ ๊ฐ์ง ๋ฐฉ๋ฒ
- ์ ๊ทํ vs ํ์คํ
- ์ ๊ทํ vs ํ์คํ ๊ตฌํ ์์
Week 38: Feature Engineering, Feature Selection
Week 39: ๋ถ๊ท ํ ๋ฐ์ดํฐ(Imbalanced Datasets)
๋จธ์ ๋ฌ๋
์ ๋จธ์ ๋ฌ๋์ผ๊น?
๋๊ฐ ๋ฐฐ์ด ๋ชจ๋ ๊ฒ๋ค์ ๋ฐ๋ก ์ฌ๊ธฐ๋ก ๊ท๊ฒฐ๋ผ! ๋จธ์ ๋ฌ๋์ ํฅ๋ฏธ๋กญ๊ณ ์ ๋๊ธฐ๋ ํ๊ณ , ๋ชจ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๊ฐ ๊ฐ์ง๊ณ ์๋ ๊ธฐ์ ์ด๊ธฐ๋ ํด. ๋ฌผ๋ก ๋ชจ๋ธ๋ง์ด ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ์ ์๊ฐ์ ๊ทธ๋ ๊ฒ ๋ง์ด ์ฐจ์งํ๋๊ฑด ์๋์ง๋ง, ์ค์ํ์ง ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋๊ฑด ์๋์ผ.
์ข ์ง๋๋ค๋ณด๋ฉด, ๋ด๊ฐ ์๋ง k ์ต๊ทผ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ, Gradient Boost, CatBoost ๋ฑ ์๊ณ ๋ฆฌ์ฆ์ ํฌํจ์ํค์ง ์์๋ค๋๊ฑธ ๋์น์ฑ๊ฒ ๋ ๊ฑฐ์ผ. ์ด๊ฑด ์๋์ ์ผ๋ก ๊ทธ๋ฐ๊ฑฐ์ผ. ๋ง์ฝ ๋ค๊ฐ ์๋์ ๋จธ์ ๋ฌ๋ ๊ฐ๋ ๋ค์ ์ดํดํ ์ ์๋ค๋ฉด, ๊ณง ๋ค๋ฅธ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ๋ ์ถฉ๋ถํ ์ดํดํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋ ๊ฑฐ์ผ!
Week 40: ๋จธ์ ๋ฌ๋์ ๊ธฐ์ด
Week 41: ์ ํ ํ๊ท
- Linear Models: Linear Regression
- Linear Models: Multiple Regression
- Mathematics behind linear regression
Week 42: Logistic ํ๊ท
- Introduction to Logistic Regression
- Part 1: Coefficients
- Part 2: Maximum likelihood
- Part 3: R-squared and P-value
Week 43: ์ ์นํ(Regularization)
Week 44: ๊ฒฐ์ ํธ๋ฆฌ(Decision Trees)
- Decision Trees Introduction
- Feature Selection and Missing Date
- Implementing a Decision Tree in Python
Week 45: ๋์ด๋ธ ๋ฒ ์ด์ฆ(Naรฏve Bayes)
Week 46: Support Vector Machines
- Intuition of Support Vector Machines
- Support Vector Machines in Python
- A mathematical explanation of Support Vector Machines
Week 47: Clustering
Week 48: ์ฃผ์ฑ๋ถ ๋ถ์(Principal Component Analysis)
- Principal Component Analysis (PCA) step-by-step
- Another detailed explanation by Luis Serrano (I highly suggest you watch both)
- Mathematical explanation of PCA
Week 49: Bootstrap Sampling, Bagging, Boosting
Week 50: Random Forests and Other Boosted Trees
- Random Forests pt.1
- Random Forests pt.2
- XGBoost โ Regression
- XGBoost โ Classification
- XGBoost โ Mathematical Details
- XGBoost in Python
Week 51: Model Evaluation Metrics
Week 52: ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํ๋ก์ ํธ
์ ๋ด์ฉ๋ค์ ์ถฉ๋ถํ ์ต์ํด์ก๋ค๋ฉด, ๋๋ ์ด์ ๋ค ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํ๋ก์ ํธ๋ฅผ ์์ํ ๋๊ฐ ๋๊ฑฐ์ผ! ํน์ ๋ชฐ๋ผ์ ๋ค๊ฐ ์์ํ ์๊ฐ์ ์ป์ ์ ์๋ ์ธ ๊ฐ์ง ์์ด๋์ด๋ฅผ ์ค๊ฒ. ์ฌ์ฉํ๋๊ฑด ๋ค ์์ ์ผ!
Idea 1: SQL ์ผ์ด์ค ์คํฐ๋
์ด ์ผ์ด์ค์ ๋ชฉ์ ์ Yammer๋ผ๋ ์์ ๋คํธ์ํฌ์ ์ ์ ๊ด์ฌ๋์ ์์ธ์ ๊ฒฐ์ ํ๋ ๊ฑฐ์ผ. ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ธฐ ์ ์ Yammer๊ฐ ๋ญํ๋์ง ์ฌ๊ธฐ์ ๊ฐ๋ตํ๊ฒ ์ฝ์ด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ์. ์ด 4๊ฐ์ ํ๋ฅผ ์์ ํ๊ฒ ๋ ๊ฑฐ์ผ.
์ ๋งํฌ๋ ๋์๊ฒ ๋ฌธ์ ์ํฉ ๊ด๋ จ์ ๋ํ ์ผ, ๋ฐ์ดํฐ, ๋ตํด์ผํ ์ง๋ฌธ๋ค์ ์ ๊ณตํ ๊ฑฐ์ผ.
๋ด๊ฐ ์ด๋ป๊ฒ ์ ๊ทผํ๋์ง ๊ถ๊ธํ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ํ์ธํด๋ณด๋ ด!
๋๋ ์๋์ ์คํฌ๋ค์ ๋ฐ์ ์ํค๊ฒ ๋ ๊ฑฐ์ผ.
- SQL
- ๋ฐ์ดํฐ ๋ถ์
- (๋ง์ฝ ๋์ ์ธ์ฌ์ดํธ๋ฅผ ์๊ฐํํ๋ค๋ฉด) ๋ฐ์ดํฐ ์๊ฐํ
Idea 2: Trustpilot Webscraper
๋ฐ์ดํฐ ์น์คํฌ๋ํ์ ํ๋ ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ฒ์ ์ฝ์ง๋ง ๊ต์ฅํ ์ ์ฉํด. ํนํ ๊ฐ์ธ ํ๋ก์ ํธ๋ฅผ ์ํด ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ ๋ง์ด์ง. ์นํ์ด์ง์์ ๊ณ ๊ฐ ๋ฆฌ๋ทฐ๋ฅผ ์คํฌ๋ํํ๋ ๊ฒ์ ํ์ฌ์๊ฒ ์์ฃผ ์์คํด. ์๋ํ๋ฉด ๋ฆฌ๋ทฐ ํธ๋ ๋(์ข์ ์ชฝ์ด๋ ๋์ ์ชฝ์ด๋ ) ๋ฅผ ์ดํดํ๊ณ ์์ฐ์ด์ฒ๋ฆฌ๋ฅผ ํตํด ๊ณ ๊ฐ๋ค์ด ์ด๋ป๊ฒ ๋ณด๋์ง ์ ์ ์๊ธฐ ๋๋ฌธ์ด์ง.
๋จผ์ Trustpilot์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด์๋์ง ์ต์ํด์ง์, ๊ทธ๋ฆฌ๊ณ ๋ถ์ํ๊ณ ์ถ์ ๋น์ฆ๋์ค๋ฅผ ์ ํํด๋ณด์. ๊ทธ๋ฐ ๋ค์ Trustpilot ๋ฆฌ๋ทฐ ์คํฌ๋ํ ํ๋ ๋ฒ์ ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ์.
๋๋ ์๋์ ์คํฌ๋ค์ ๋ฐ์ ์ํค๊ฒ ๋ ๊ฑฐ์ผ.
- Python Scripts๋ฅผ ์ง๋ ๊ฒ
- Data Wrangling
- BeautifulSoup/Selenium (webscraping libraries)
- Data ๋ถ์
- ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํตํด ๋ฆฌ๋ทฐ์์ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํด๋ผ ์ ์์
Idea 3: Titanic Machine Learning Competition
๋ด ์๊ฐ์, ๋ํ๋ฅผ ํตํด์ ๋์ ์ฝ๋๋ฅผ ๋ณด์ฌ์ฃผ๋๊ฑด ๋๊ฐ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ด๋ จ ์ง์ ์ ์ค๋น๋์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ด์ผ. Kaggle์ ๋ฉํธ๋ฆญ์ค ์ต์ ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ค์ํ ๋ํ๋ฅผ ๊ฐ์ตํ๊ฑฐ๋ . ๊ทธ ์ค ํ๋๊ฐ Titanic Machine Learning Competition์ด์ผ.
๋ง์ฝ ์๊ฐ๊ณผ ๊ฐ์ด๋๋ฅผ ์ข ์ป๊ณ ์ถ๋ค๋ฉด this step-by-step walkthrough ์์ ์๋ฃจ์ ์ ์ฐพ์๋ณด๋ ๊ฒ๋ ์ข์๋ฏ!
๋๋ ์๋์ ์คํฌ๋ค์ ๋ฐ์ ์ํค๊ฒ ๋ ๊ฑฐ์ผ.
- Data Exploration and Cleaning with Pandas
- Feature Engineering
- Machine Learning Modelling
์ฝ์ด์ค์ ๊ณ ๋ง์!
๋์์ด ๋์์ผ๋ฉด ์ข๊ฒ ๋ค! ๋ง์ฝ ์ด๊ฑธ ๋ค ํ๋ค๋ฉด, ๋๋ ํต๊ณํ, ์ํ, SQL, ํ์ด์ฌ/ํ๋ค์ค ๋ฐ ์ฌ๋ฌ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์ด์ ๋ํด ์ดํดํ๊ฒ ๋ ๊ฑฐ์ผ! ๋๋ ์ด ๊ธ์ด ๋์๊ฒ ๊พธ์คํ ๊ณต๋ถํ ๋๊ธฐ๋ฅผ ๋ถ์ฌํ์ผ๋ฉด ์ข๊ฒ ์ด. ์์ง ๋ค๊ฐ ๊ณต๋ถํด์ผํ ๊ฒ๋ค์ด ๋ง์ด ๋จ์์๊ฑฐ๋ ! ์๋ฅผ ๋ค๋ฉด, ์ข ๋ ๋ฐ์ ๋ ๋ชจ๋ธ(eg. CatBoost), ๋ฅ๋ฌ๋, experimental design, Bayesian modeling, cloud architecture ๋ฑ๋ฑ ๋ง์ด์ผ.
๋ง์ฝ ์ด ๊ธ์ ์ข์ํ๊ณ , ์์ผ๋ก ๋ ๋ง์ ์ฝํ ์ธ ๋ฅผ ๋ณด๊ณ ์ถ๋ค๋ฉด Medium์์ ๋๋ฅผ ํ๋ก์ฐํด์ค! ์ธ์ ๋, ๋์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ฅผ ํฅํ ์ด์ ์ ํ์ด์ ๋น๋ฉฐ