Yang, Y., Zha, K., Chen, Y. C., Wang, H., & Katabi, D. (2021). Delving into Deep Imbalanced Regression. arXiv preprint arXiv:2102.09554.
In Short
Imbalanced Regression(not classification) with LDS and FDS using kernel function
1. Introduction
๋ถ๊ท ํ๋ฐ์ดํฐ์ ๋ํด์ ํ์ตํ ๋, ๋ง์ ๊ฒฝ์ฐ์ ํ๊ท ๋ฌธ์ ๋ณด๋ค๋ ๋ถ๋ฅ ๋ฌธ์ ์ ์ด์ ์ด ๋ง์ถฐ์ ธ์๋ค. ๊ทธ๋ฌ๋ ํ์ค์์๋ ์ฐ์ํ ๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํ์ธ ๊ฒฝ์ฐ๋ ์ถฉ๋ถํ ์๋ค. ์๋ฅผ ๋ค์ด, ์ฐ๋ น ๋ถํฌ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ์๋ ๊ฐ ๋๋ผ์ ๋ฐ๋ผ์ ๋์ด๋๋ณ ๋ถํฌ๊ฐ ๋ค๋ฅด๋ค. ์ด์ธ์๋ ํ์์ด๋ ๋งฅ๋ฐ์์ ๊ฐ์ ํ์ ํ๋ ฅ ์งํ ๋ฐ์ดํฐ๋ ์๊ธ์ค ์ฒด๋ฅ์๊ฐ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ๋ค๋ ๊ทธ ์์๊ฐ ๋ ์ ์๊ฒ ๋ค.
2. Related Work
2-1. Imbalanced Classification
- Data-level
- ROS (Random Oversampling)
- RUS (Random Undersampling)
- SMOTE
- GAN (CGAN, FSC-GAN, MFC-GAN)
- Algorithm-level
- Inverse frequency weight
- Square root weight
- Focal Loss
- Two Stage Training
2-2. Imbalanced Regression
๋ถ๊ท ํ ์ฐ์ํ ๋ฐ์ดํฐ ํน์ง
- ํด๋์ค ๊ตฌ๋ถ์ด ์๋ค.
- ์ฃผ๋ณ๊ฐ์ ๋ถํฌ์ ๋ฐ๋ผ ๋ถ๊ท ํ ์์ค์ด ๋ค๋ฅด๋ค.
- ํน์ ํ๊ฒ๊ฐ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์์ ์ ์๋ค.
์์ ๊ฐ์ ํน์ง ๋๋ฌธ์ ๋ถ๊ท ํ ์ฐ์ํ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ์๋ imbalanced classification์ ๋ค๋ฅด๋ค. ๊ทธ๋์…!
- resampling ๋๋ reweighting ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
- ๋ถ๊ท ํ/๊ท ํ ๊ฒฝ๊ณ๊ฐ ๋๋ ทํ์ง ์๋ค.
- ์ฃผ๋ณ ๋ฐ์ดํฐ๋ฅผ ํตํด interpolation ๋๋ extrapolation์ ํด์ผ ํ๋ค.
- CIFAR-100: 100๊ฐ ํด๋์ค
- IMDB-WIKI: 0~99์ธ
์ฐ์ํ ๋ฐ์ดํฐ์ ํ์ต ๊ฒฐ๊ณผ๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ํ์ต ๊ฒฐ๊ณผ์ ๋ค์ ๋ค๋ฅธ ์์์ ๋ณด์ธ๋ค.
- ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ ๋ถ๊ท ํ์ ์ ๋๊ฐ ์ค๋ถ๋ฅ์จ ๋ถํฌ์ ๋ฐ์ ํ ๊ด๊ณ๊ฐ ์๋ค. (์๊ด๊ณ์ -0.76)
- ํํธ, ์ฐ์ํ ๋ฐ์ดํฐ๋ ๋ถ๊ท ํ ์ ๋๊ฐ ์๋์ ์ผ๋ก ๋ ์ ํํ๊ฒ ์ค๋ถ๋ฅ์จ ๋ถํฌ์ ๋ฐ์๋๋ค. (์๊ด๊ณ์ -0.47)
3. Methods
Problem Setting
- ์ธ์ ๋ฐ์ดํฐ ๊ฐ ์ ์ฌ์ฑ ํ์ฉ
- ์ปค๋ ํจ์๋ฅผ ํ์ฉํ์ฌ ๋ถ๊ท ํ ๋ฌธ์ ํด์
- ์ปค๋๋ฐ๋์ถ์ (KDE)
3-1. Label Distribution Smoothing (LDS)
๋ ์ด๋ธ ๊ณต๊ฐ ๊ด์
Figure2์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ์ด, ์ฐ์ํ ๋ฐ์ดํฐ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๊ฐ ์ฐจ์ด๊ฐ ๋๋ ์ด์ ๋ Empirical label distribution๊ณผ (unseen data๊ฐ ํฌํจ๋) Real label density distribution์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ ์ฐ์ํ ๋ฐ์ดํฐ๋ ์์์ ์ธ๊ธ๋ ๋ฐ์ ๊ฐ์ด ์ฃผ๋ณ ๋ ์ด๋ธ๊ฐ ์ฐ๊ด์ฑ์ ๊ฐ์ง๋ค.
๊ทธ๋์ LDS์ ์ปค๋ ๋ฐ๋ ์ถ์ ๊ณผ์ ์ ํตํด ์ฃผ๋ณ ๋ฐ์ดํฐ์ ์ฐ์ํ์ด ๋ฐ์๋ Effective Label Density๋ฅผ ์ถ์ถํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด, ์์ธก ํ์คํฌ์ ์ํฅ์ ๋ฏธ์น๋ ์ค์ ๋ถ๊ท ํ ์ ๋๋ฅผ ์ ๋ฐ์ํ๊ฒ ๋จ์ ์ ์ ์๋ค. ์ด๋ ์๊ด๊ณ์๊ฐ -0.47์์ -0.83๋ก, ๊ทธ ์ ๋๊ฐ์ด ์์นํ๋ค๋ ์ ์์๋ ์์น์ ์ผ๋ก ํ์ธ ๊ฐ๋ฅํ๋ค. ์ด๋ก ์ธํด $\tilde{p}(y')$์ ์๋์ ๊ฐ์ด ์ ์ํ๋ค๋ฉด, ์ด์ ์ญ์๋ฅผ ์์คํจ์์ ๊ฐ์ค์น๋ก ํ์ฉํ ์ ์๊ฒ ๋๋ค.
$$
\tilde{p}(y') = \int_{Y}k(y, y')p(y)dy
$$
์ฐธ๊ณ ๋ก ์ฌ๊ธฐ์ ์ปค๋ ํจ์๋, ์์ ์ ์ค์ฌ์ผ๋ก ๋์นญ์ด๋ฉฐ ์ ๋ถ๊ฐ์ด 1์ธ non-negative ํจ์๋ฅผ ๋ปํ๋ค. ๋ํ์ ์ผ๋ก๋ Gaussian ์ปค๋ ๋๋ Laplacian ์ปค๋์ด ์๋ค.
3-2. Feature Distribution Smoothing (FDS)
ํน์ง ๊ณต๊ฐ ๊ด์
ํ๊ฒ ๊ณต๊ฐ์์์ ์ฐ์์ฑ์ ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ง๊ณต๊ฐ์๋ ๋ฐ์๋๋ค.
bin = ํ๊ฒ ๊ณต๊ฐ์ b๊ฐ๋ก ๋๋๋ ๋์ผํ ๊ฐ๊ฒฉ (ex. ์ฐ๋ น: 1์ด)
์ ํ์ต๋ encoder๋ฅผ ํตํด์ ํน์ง ๊ณต๊ฐ์ ์ป์ ์ ์๊ฒ ๋๋ค. ์ฌ๊ธฐ์ ์ธ๋ฌผ image์ ํน์ง์ด ํ์ต๋ ํน์ง ๊ณต๊ฐ z์ ์์ฝํ๊ธฐ ์ํด์ ๊ธฐ์ดํต๊ณ๋์ ๊ตฌํ๊ฒ ๋๋ฉด, ๋ชจ๋ b์ ๋ํด์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค. ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ํน์ ๊ฐ $b_0$๋ฅผ ๊ณ ์ ํ์ฌ๋๊ณ ๋ค๋ฅธ $b$์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ค.
์ ๊ทธ๋ฆผ์์๋ ์ผ๋จ 30์ด์ ๊ธฐ์ค์ผ๋ก ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ๊ฒ์ด๋ค. ์์๊ณผ ๋น์ทํ๊ฒ, 30์ด ์ฃผ๋ณ์ ๊ฐ๋ค๊ณผ๋ ๋์ ์ ์ฌ๋ฅผ ๋ํ๋๋ค. ํ์ง๋ง, ํน์ดํ๊ฒ๋ 0~6์ด์ ํด๋นํ๋ ๊ฐ๋ค๊ณผ ์ ์ฌ๋๊ฐ ๊ฝค ๋๊ฒ ๋ํ๋๋ ์ด์ํ ํ์์ ํ์ธํ ์ ์๋ค. ์ด๋ ํด๋น ๋ฐ์ดํฐ๊ฐ ์๋์ ์ผ๋ก ์ ์ด์(few-shot region), ์ฆ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ก ์ธํด ๋ฐ์ํ ํ์์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ญ์ LDS์ฒ๋ผ ์ปค๋ ํจ์๋ฅผ ํตํด ํด๊ฒฐํ๋ค.
$$\mu_b = \frac{1}{N_b}\sum_{i=1}^{N_b}z_i \rightarrow \tilde{\mu_b} = \sum_{b' \in B}k(y_b,y_{b'})\mu_{b'} \\ \Sigma_b = \frac{1}{N_b-1}\sum_{i=1}^{N_b}(z_i-\mu_b)(z_i-\mu_b)^T \rightarrow \tilde{\Sigma_b} = \sum_{b' \in B}k(y_b,y_{b'})\Sigma_{b'}$$
ํ ์ํญ์์ ํ์ต๋ z์ ํต๊ณ๋์ ์ปค๋ํจ์๋ฅผ ์ ์ฉํด์ calibration์ํค๊ณ , regression layer๋ฅผ ํต๊ณผ์์ผ์ ์์คํจ์๋ฅผ ๊ณ์ฐํ๋ค.
์ฌ๊ธฐ์ LDS์ ๋ฌ๋ฆฌ ์ถ๊ฐ๋ ๋ถ๋ถ์ด ์๋๋ฐ, ์ด๋ ๋ฐ๋ก ์ ๋ฐ์ดํธ ๋ฐฉ์์ด๋ค. ํ์ต๊ณผ์ ์์ ์์ ์ ์ด๊ณ ์ ํํ ์ถ์ ์น๋ฅผ ์ป๊ธฐ ์ํด์, ๋งค epoch๋ง๋ค EMA๋ฅผ ์งํํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋งํ์๋ฉด, ํ์ฌ ์ํญ ๋ด์ ์๋ ์ํ์ ๋ํด์ ์งํ์ด ๋๋ฉด, ํต๊ณ๋์ ์ ๋ฐ์ดํธ ํ๊ธฐ ์ํด์ ๋ชจ๋ฉํ ์ ๋ฐ์ดํธ ๋ฐฉ์(EMA, exponential moving average)์ ํ์ฉํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋์ ๋ง์ง๋ง์ผ๋ก, ํ์ฌ ํต๊ณ๋์ ์ปค๋ํจ์๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ๋ค์ epoch์ผ๋ก ์ ๋ฌํด์ค๋ค.
Calibration
$$\tilde{z} = \tilde{\Sigma}_{b}^{\frac{1}{2}}\Sigma_{b}^{-\frac{1}{2}}(z-\mu_b)+\tilde{\mu_b}$$
FDS์ ๊ฒฐ๊ณผ๋ ์์ ๊ฐ๋ค. ์ผ์ชฝ์ FDS๋ฅผ ์ ์ฉํ์ง ์์ ๊ฒ์ด๊ณ , ์ค๋ฅธ์ชฝ์ FDS๋ฅผ ์ ์ฉํ ๊ฒ์ด๋ค. FDS๋ฅผ ์ ์ฉํ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ๊ฐ ๊ธฐ๋ณธ์ ์ธ ์์์ ๋ฐ์ํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค.
์ด์ธ์ FDS์ ์ฅ์ ์ ์ ๋ฆฌํด๋ณด์๋ฉด, ์ผ์ข ์ calibration layer๋ก์ ์ด๋ค ๋ชจ๋ธ์๋ ์ง์ ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๋ค๋ ์ ์ด๋ค.
4. Performace Comparison
4-1. Dataset
5๊ฐ์ Dataset์ด ์ฌ์ฉ๋์๋ค. ์ง์ ๋ง๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
- IMDB-WIKI-DIR (age)
- AgeDB-DIR (age)
- STS-B-DIR (text similarity score)
- NYUD2-DIR (depth)
- SHHS-DIR (health condition score)
๊ฐ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ ๋ถ๊ท ํํจ์ ํ์ธํ ์ ์๋ค.
4-2. Baseline
imbalanced classfication์์ ํ์ฉ๋๋ ๋ฐฉ๋ฒ๋ค์ ์ฐจ์ฉํจ.
- Synthetic samples: (1) SmoteR (2) SMOGN
- Error-aware loss: (3) Focal-R
- Two-stage training: (4) regressor re-training(RRT)
- Cost-sensitive re-weighting: (5) naive inverse(INV) (6) square-root inverse(SQINV)
์ด๋ฅผ (1) LDS (2) FDS (3) LDS+FDS๊ฐ ์ถ๊ฐ๋ ๋ฒ์ ๊ณผ ํจ๊ป ๋น๊ตํจ. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ ๊ฒ๋ค ์ค์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ VANILLA์ ๋ง์ง๋ง์ผ๋ก ๋น๊ตํ๋ค.
4-3. Main Results
๋น๊ต metrics์ MAE(Mean Average Eror)์ GM(Geometric Mean Error)๊ฐ ์๋ค.
IMDB-WIKI-DIR์์๋ ์์ ๊ฐ์ด Medium-Shot๊ณผ Few-Shot์์ ํนํ ์ ์๋ฏธํ ์ฑ๋ฅ ์์น์ด ์์๋ค๋ ์ ์ด ํนํ ์ฃผ๋ชฉํด๋ณผ ๋งํ๋ค. ์ด์ธ์ ๋ฐ์ดํฐ์์ ์ฑ๋ฅ์ ์๋์ ๊ฐ๋ค.
4-4. Further Analysis
Extraopolation & Interpolation
Training Dataset์๋ ์๊ณ , Test Dataset์๋ ์๋ ๋ถ๋ถ์ ๋ํด์์ ์ฑ๋ฅ์ ์ด์ผ๊ธฐํ๋ ๊ฒ ๊ฐ๋ค.
5. Conclusion
New task: Deep Imbalanced Regression(DIR)
New techniques: LDS & FDS
New benchmarks: IMDB-WIKI-DIR / AgeDB-DIR / STS-B-DIR / NYUD2-DIR / SHHS-DIR
—
Critical Point (MY OWN OPINION)
- bin์ ๋ช ๊ฐ์ b๋ก ๋๋์ง์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์๊ฒ ๋ค. ๋ง์ฝ ์์ฒญ ์ธ๋ถํํ๊ฒ ๋๋ค๋ฉด ์ฑ๋ฅ์ด ์ ํ๋ ๊ฒ์ผ๋ก ์์๋๋๋ฐ, ์ด๋ ๊ฒ ๋ณธ๋ค๋ฉด ์๋ฒฝํ ์ฐ์ํ ๋ฐ์ดํฐ๋ผ๊ณ ๋ ๋ณด๊ธฐ ํ๋ค์ง ์์๊น?