Imbalanced
1. Undersampling
1-1. Random Undersampling
๋ง๊ทธ๋๋ ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์์ ๋ฐ์ดํฐ์ ๊ฐ์์ ๋ง์ถ์ด ๋๋ค์ผ๋ก ์ ๊ฒ ๋ฝ๋ ๋ฐฉ์์ด๋ค. ๋ค์ ํด๋์ค์ ์ ๋ณด๊ฐ ์์ ํด๋์ค์ ์ ๋ณด๋ฅผ ์๋ํ๋ ๊ฒ์ ๋ง๊ธฐ ์ํจ์ด๋ค.
1-2. Tomek’s Link
๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๊ฐ ๋ค๋ฅธ ํด๋์ค์ผ ๊ฒฝ์ฐ, ํ ์์ผ๋ก ๋ฌถ๊ณ ์ด๋ฅผ ํ ๋ฉ ๋งํฌ๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๊ทธ์ค์์ ๋ค์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ์์ด๋ค.
1-3. CNN (Condensed Nearest Neighbors)
- ์์ ํด๋์ค ๋ฐ์ดํฐ๋ ๊ทธ๋๋ก ์ ์งํ๋ค.
- ๋ค์ ํด๋์ค ๋ฐ์ดํฐ๋, 1NN(KNN์์ K๋ฅผ 1๋ก ์ค์ ํ ๊ฒ)์์ NN์ด ์์ ํด๋์ค์ ์ํ๋ฉด ๋จ๊ธฐ๊ณ ์๋๋ฉด ์ ๊ฑฐํ๋ค.
1-4. One Sided Selection
Tomek’s Link + CNN(Condensed Nearest Neighbors)
Tomek’s Link๋ฅผ ๋จผ์ ์ ์ฉํ๊ณ CNN์ ์ด์ด์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค.
1-5. ENN (Edited Nearest Neighbors)
๋ค์ ํด๋์ค ๋ฐ์ดํฐ ์ค์์ K๊ฐ์ NN์ด ๋ค์ ํด๋์ค์ด๋ฉด ์ญ์ ํ๋ ๋ฐฉ์์ด๋ค. ๋จ, K๊ฐ์ NN์ด ๋ชจ๋ ๋ค์ ํด๋์ค์ผ ๋ ์ญ์ ํ๋ ๋ฐฉ๋ฒ(kind_sel="all")์ด ์๊ณ , ๊ณผ๋ฐ์ ์ด์์ผ ๊ฒฝ์ฐ ์ญ์ ํ๋ ๋ฐฉ๋ฒ(kind_sel="mode")์ด ์๋ค.
1-6. Neighborhood Cleaning Rule
CNN(Condensed Nearest Neighbors) + ENN(Edited Nearest Neighbors)
2. Oversampling
2-1. Random Oversampling
์์ ๋ฐ์ดํฐ๋ฅผ ๋๋ค์ผ๋ก ๋ณต์ ํ์ฌ ๋ค์ ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ๋ง์ถ๋ ๋ฐฉ์์ด๋ค.
2-2. ADASYN
ADASYN์ Adaptive Synthetic Sampling์ ์ฝ์์ด๋ค. ์์ ๋ฐ์ดํฐ ์ค์์ KNN์ ๊ณจ๋ผ์ ์ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ด๋ค.
2-3. SMOTE
SMOTE๋ Synthetic Minority Oversampling Technique์ ์ฝ์์ด๋ค. ADASYN์ฒ๋ผ ์์ ํด๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ง, ๋์ ์ ๋ฌด์กฐ๊ฑด ์์ ๋ฐ์ดํฐ๋ผ๊ณ ํ์ง ์๊ณ ๋ถ๋ฅ ๋ชจํ์ ๋ฐ๋ผ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๋ค๋ ๊ฒ์ด ์ฐจ์ด์ ์ด๋ค.
3. Hybrid
3-1. SMOTE + ENN
3-2. SMOTE + Tomek’s Link
—
์ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ชจ๋ python ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค์์ imblearn์์ ๋ชจ๋ ๊ตฌํ์ด ๋์ด์๋ค.
—
Reference
[1] ์ฐธ๊ณ ์ฌ์ดํธ