Machine Learning
- ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํตํด์ ์
๋ ฅ๋ณ์์ ์ถ๋ ฅ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ง๋๋ ํจ์
$f$๋ฅผ ๋ง๋๋ ๊ฒ - ์ฃผ์ด์ง ๋ฐ์ดํฐ ์์์ ๋ฐ์ดํฐ์ ํน์ง์ ์ฐพ์๋ด๋ ํจ์
$f$๋ฅผ ๋ง๋๋ ๊ฒ
1. ๊ธฐ๋ณธ ๊ฐ๋ ๊ตฌ๋ถ
- ์ง๋ ํ์ต: ํ๊ท(Regression), ๋ถ๋ฅ(Classification)
- ๋น์ง๋ ํ์ต: PCA, ๊ตฐ์ง๋ถ์
- ๊ฐํ ํ์ต: ์๋ง์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ํ์ฌ์ ์ ํ์ด ๋จผ ๋ฏธ๋์ ๋ณด์์ด ์ต๋๋ก ํ๋ action์ ํ์ต
2. ๋ค์ํ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ
- ์ ํํ๊ท๋ถ์: ์ ํ๊ด๊ณ๋ฅผ ๊ฐ์ ํ์ฌ, ๋ ๋ฆฝ๋ณ์์ ์ค์๋์ ์ํฅ๋ ฅ ํ์
- DT(Decision Tree): ๋ ๋ฆฝ๋ณ์์ ์กฐ๊ฑด์ ๋ฐ๋ผ ์ข ์๋ณ์๋ฅผ ๋ถ๋ฆฌ
- KNN(K-Nearest Neighbor): ์๋ก ๋ค์ด์จ ๋ฐ์ดํฐ์ ์ฃผ๋ณ K๊ฐ์ ๋ฐ์ดํฐ์ class๋ก ๋ถ๋ฅ
- NN(Neural Network): ์ ๋ ฅ์ธต/์๋์ธต/์ถ๋ ฅ์ธต ์ผ๋ก ๊ตฌ์ฑ๋ ๋ชจํ. ๊ฐ ์ธต์ ์ฐ๊ฒฐํ๋ ๋ ธ๋์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ฉฐ ํ์ต
- SVM(Support Vector Machine): class ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ์ต๋๊ฐ ๋๋๋ก decision boundary ๋ง๋๋ ๋ฐฉ๋ฒ
- K-means Clustering: Label ์์ด ๋ฐ์ดํฐ์ ๊ตฐ์ง k๊ฐ ์์ฑ
- Ensemble Learning: ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์ฌ์ฉํ๋ ๋ชจ๋ธ๋ก, ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ ์ข
๋ฅ๊ฐ ์๋ค.
7-1. Bagging: ๋ชจ๋ธ์ ๋ค์ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์ฌ๊ตฌ์ฑ
7-2. Random Forest: ๋ชจ๋ธ์ ๋ค์ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฟ๋ง ์๋๋ผ ๋ณ์๋ ์ฌ๊ตฌ์ฑ
7-3. Boosting: ๋ง์ถ๊ธฐ ์ด๋ ค์ด ๋ฐ์ดํฐ์ ๋ํด ์ข ๋ ๊ฐ์ค์น๋ฅผ ๋์ด seqeuntialํ๊ฒ ํ์ตํ๋ ๊ฐ๋ (ex. AdaBoost, Gradient Boosting(Xgboost, LightGBM, CatBoost)
7-4. Stacking: ๋ชจ๋ธ์ output๊ฐ์ ์๋ก์ด ๋ ๋ฆฝ๋ณ์๋ก ํ์ฉ - Deep Learning: ๋ฅ๋ฌ๋์ ์ฌ์ค ๋จธ์ ๋ฌ๋์ ๋ถ๋ถ์งํฉ์ด๋ค. ํ์ง๋ง ์๋ ๊น๊ณ ๋ค์ํ๊ธฐ์ ๋ฐ๋ก ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค.
3. ๋ชจํ์ ์ ํฉ์ฑ ํ๊ฐ ๋ฐ ์คํ์ค๊ณ
๋ฐ์ดํฐ๋ฅผ Training-Validation-Test, ์ด ์ธ ๊ฐ์ง ์ธํธ๋ก ๋๋๋ค.
K-Fold Cross Validation
๋ฐ์ดํฐ๋ฅผ k๊ฐ ๋ถ๋ถ์ผ๋ก ๋๋ ๋ค, ํ๋๋ฅผ ๊ฒ์ฆ์งํฉ ๋๋จธ์ง๋ฅผ ํ์ต์งํฉ์ผ๋ก ํ๋ค. ์ด ๊ณผ์ ์ k๋ฒ ๋ฐ๋ณตํด์ k๊ฐ์ ์ฑ๋ฅ์งํ๋ฅผ ๊ตฌํ๊ณ ๊ทธ๊ฒ๋ค์ ํ๊ท ์ ๊ตฌํ๋ค.
LOOCV(Leave One Out Cross Validation)
๋ฐ์ดํฐ๋ฅผ k๊ฐ์ ๋ถ๋ถ์ผ๋ก ๋๋๊ธฐ์ ๋ถ์กฑํ ๋, ๋ฐ์ดํฐ ํ ๊ฐ์ฉ์ ๋นผ๊ฐ๋ฉด์ K-fold CV๋ฅผ ํ๋ ๋ฐฉ์๊ณผ ๋๊ฐ์ด ํ๋ค.
4. ๊ณผ์ ํฉ(Overfitting)
๋จธ์ ๋ฌ๋์์ ๊ฐ์ฅ ์ฃผ์ํด์ผ ํ ๊ฒ ์ค ํ๋๊ฐ ๋ฐ๋ก ๊ณผ์ ํฉ์ด๋ค. ์ด์ ๊ด๋ จํด์๋ Bias-Variance Tradeoff์ ๋ํ ์ดํด๊ฐ ํ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์์ฃผ ๊ฐ๋จํ๊ฒ ์ดํดํ๊ธฐ ์ํด์๋ ์๋ ๋ ์ฌ์ง์ ์ฐธ๊ณ ํ๋ฉด ๋ ๊ฒ์ด๋ค.
์ฐธ๊ณ
[1] https://medium.com/@cs.sabaribalaji/overfitting-6c1cd9af589
[2] https://www.researchgate.net/figure/The-overfitting-of-model-a-training-error-and-true-error-b-depiction-of-Eq-33_fig5_333505702