OโBrien, R., & Ishwaran, H. (2019). A random forests quantile classifier for class imbalanced data. Pattern recognition, 90, 232-249.
In Short
๋ถ๊ท ํ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด, quantile classifier์ ์ฌ์ฉํ Random Forest
1. Introduction
1-1. ๋ถ๊ท ํ๋ฐ์ดํฐ์ ์ ์
์ผ๋ฐ์ ์ผ๋ก ๋ ๊ฐ์ ํด๋์ค๊ฐ ์๋ ์ํฉ์์, ํ ํด๋์ค์ ์ํ ์์๊ฐ ๋๋จธ์ง ํด๋์ค์ ์ํ ์์์ ๋นํด ์๋ฑํ๊ฒ ๋ง์ ๊ฒฝ์ฐ๋ฅผ ๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ์ํฉ์ด๋ผ๊ณ ์ ์ํ๋ค. (์ฌ๊ธฐ์๋ $Y=1$์ด Minoritiy, $Y=0$์ด Majority๋ผ๊ณ ์๊ฐํ์.)
5๊ฐ์ ๊ทผ์ ์์๋ค์ ๋ํด์ Majority ํด๋์ค์ ์ํ๋ ์์๊ฐ 0~1๊ฐ์ธ ์์๋ฅผ Safe, 2~3๊ฐ๋ Borderline, 4~5๊ฐ๋ Rare๋ผ๊ณ ๋ถ๋ฅธ๋ค.
1-2. IR (Imbalance Ratio)
$$IR = \frac{\text{# of Majority class}}{\text{# of Minority class}}$$
1-3. Marginally imbalanced
์ ์: $p(x) \ll \frac{1}{2} \text{ for all } x \in X \text{ where } p(x) = P(Y=1|X=x)$
ํฌ์ธํธ๋ all x์ธ ๊ฒ ๊ฐ๋ค. ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด์ ํน์ ํด๋์ค(์์ ํด๋์ค)์ผ ํ๋ฅ ์ด ๊ทน๋จ์ ์ผ๋ก ์์ ๊ฒฝ์ฐ marginally imbalanced๋ผ๊ณ ํ๋ค.
1-4. Conditionally imbalanced
์ ์: $\text{there exists a set } A \subset X \text{ with nonzero probability, } P(X \in A) >0, \text{ such that } P(Y=1|X \in A) \approx 1 \text{ and } p(x) \ll \frac{1}{2} \text{ for } x \notin A$
ํน์ ๋ฐ์ดํฐ์
์ ๋ํด์๋ ์์ ํด๋์ค์ผ ํ๋ฅ ์ด 1์ ๊ฐ๊น์ง๋ง, ๊ทธ์ธ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์
์ ๋ํด์๋ ์์ ํด๋์ค์ผ ํ๋ฅ ์ด 0์ ๊ฐ๊น์ด ๊ฒฝ์ฐ๋ฅผ conditionally imbalanced๋ผ๊ณ ํ๋ ๊ฒ ๊ฐ๋ค. ๊ฐ์ธ์ ์ผ๋ก 1-3์ marginallly imbalanced๋ณด๋ค๋ conditionally imbalanced๊ฐ ์กฐ๊ธ ๋ ํ์ค์ ์ธ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ ๋ฐ์ํ๋ค๊ณ ์๊ฐ์ ๋ ๋ค.
1-5. Notation ์ ๋ฆฌ
์๋๋ ๋ณธ ๋
ผ๋ฌธ์ Table 1์ด๋ค.
2. Related Work
2-1. Data Level Methods
๋ฐ์ดํฐ ์์ฒด๋ฅผ ๊ฑด๋๋ ค์ ํด๊ฒฐํ๋ ๋ฐฉ์์ Data Level Method๋ผ๊ณ ์นญํ๋ค. ๋ณธ ๋
ผ๋ฌธ์์ ์ด์ผ๊ธฐํ๋ ๋ํ์ ์ธ ์์๋ก๋ Balanced Random Forest(BRF)๊ฐ ์๋ค. ์ด๋ ๋ค์ ํด๋์ค์ ์ํ๋ ๊ฒ๋ค์ ์ ๊ฒ ๋ฝ๋(undersampling) ๋ฐฉ์์ด๋ค. ์ด์ธ์ SMOTE์ ๊ฐ์ oversampling ๊ธฐ๋ฒ๋ค๋ ์๊ณ , undersampling๊ณผ oversampling์ด ๊ฒฐํฉ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์๋ ์๋ค. ์๋๋ ํด๋น ๋
ผ๋ฌธ์์ ์ถ๊ฐ์ ์ผ๋ก ์ธ๊ธ๋ ๋ฐฉ๋ฒ๋ก ๋ค์ด๋ค.
- One-sided Sampling: Tomek Links
- Neighborhood Balanced Bagging
- SMOTEBoost, RUSBoost, EUSBoost: combine boosting with sampling data at each boosting iteration
2-2. Algorithmic Level Methods
์์ฒ๋ผ ๋ฐ์ดํฐ์ ๊ท ํ์ ์ง์ ์ ์ผ๋ก ์กฐ์ ํ๋ ๋ฐฉ์์ด ์๋๊ฐํ๋ฉด, ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ๋ถ๋ฅ ์ฑ๋ฅ์ ๋์ด๊ณ ์ ํ๋ ๋ ธ๋ ฅ๋ค๋ ์์๋ค. ์๋๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค ์์์ด๋ค.
- SHRINK
- Helling Distance Decision Trees(HDDT)
- Near-Bayesian Support Vector Machines(NBSVM)
- Class Switching according to NEarest Enemy Distance
2-3. Bayes Decision Rule
$$\delta_B(x) = I\big( p(x) \geq 1/2 \big)$$
์ฐธ๊ณ ๋ก ์ฌ๊ธฐ์ $p(x) = P(Y=1 | X=x)$์ด๋ค. ์ด๋ IR์ด ์ปค์ง๋ฉด ๋ฌธ์ ๊ฐ ๋๋ค. $p(x)$๊ฐ 0์ ๊ฐ๊น์ฐ๋ฉด ํด๋น classifier๋ Majority ํด๋์ค๋ก ์์ธกํ๊ฒ ๋๋๋ฐ, ์ผ๋ฐ์ ์ผ๋ก ๋ค์์ ์์๊ฐ ์ํด์๋ ํด๋์ค๋ก ์์ธกํ๋๋ก $p(x)$๊ฐ 0์ ๊ฐ๊น๊ฒ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ Bayes error๋ ์๋์ ๊ฐ์ด 0์ ๊ฐ๊น๊ฒ ๋์ค๋ฏ๋ก ๋ง์น ์๋ฒฝํ ๋ถ๋ฅ๊ธฐ์ฒ๋ผ ์ฐฉ๊ฐ๋ ์ ์๋ค.
$$r(\delta_B) = E[\min\{p(X), 1-p(X)\}] = E[p(X)] \approx 0$$
2-4. Balanced Random Forests (BRF)
random forests with undersampling the majority class
2-5. Algorithm Procedure of Random Forest Classification
3. Q*-Classifier
3-1. Quantile classifier
$$\delta_q(x) = I\big( p(x) \geq q \big), \ 0<q<1$$
quantile classifer๊ฐ ๋ฌด์์ธ์ง ์ดํดํ๋ฉด, ํด๋น ๋
ผ๋ฌธ์ ํต์ฌ ํฌ์ธํธ์ธ q*-classifier์ ์ดํดํ ์ ์๋ค.
ํด๋น ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ฒ ๋ ๊ฐ์ง ์ฅ์ ์ด ์๋ค. ์ฒซ๋ฒ์งธ๋ TPR๊ณผ TNR์ ์ต๋ํํ๋ค๋ ์ ์ด๋ค. ๋๋ฒ์งธ๋ cost-weighted Bayes classifier๊ณผ ๊ฐ์ด ์๋ํจ์ผ๋ก์จ weighted risk๋ฅผ ์ต์ํํด์ค๋ค.
$$r(\hat{\delta}, \ell_0, \ell_1) = E\Big[\ell_{0}1_{(\hat{\delta}(X)=1, Y=0)} + \ell_{1}1_{(\hat{\delta}(X)=0, Y=1)}\Big]$$
์ฌ๊ธฐ์ $\ell_0$์ $\ell_1$์ ๊ฐ๊ฐ Majority ์์ ๋๋ Minority ์์๋ฅผ ์๋ชป ๋ถ๋ฅํ ๋์ cost์ด๋ฉฐ, ๋ชจ๋ ์์์ด๋ค.
cost-weighted risk์ ๊ด์ ์์ ๋ณด๋ฉด, ์ต์ ์ classifier๋ cost-weighted Bayes rule์ ํ์ฉํ๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
$$\delta_{WB}(x) = 1_{\big(p(x) \geq \frac{\ell_0}{\ell_0 + \ell_1}\big)}$$
$r(\delta_{WB}, \ell_0, \ell_1) \leq r(\hat{\delta}, \ell_0, \ell_1)$๋ฅผ ๋ง์กฑํ๋ฉฐ, ๊ทธ ๋ฆฌ์คํฌ๊ฐ ์๋๋ฅผ ๋ง์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค.$$r(\delta_{WB}, \ell_0, \ell_1) = E\Big[min\Big(\ell_1p(X), \ell_0(1-p(X))\Big)\Big]$$
์์ ๋ํ ์ฆ๋ช ์ ๋ ผ๋ฌธ Appendix1์ ์ ๋ฆฌ๋์ด์์ผ๋ฉฐ, ์ถํ ์ถ๊ฐ ์์ ํ๋๋ก ํ๊ฒ ๋ค.
3-2. TNR+TPR optimal
TNR(True Negative Rate)์ TPR(True Positive Rate)์ ํฉ์ ์ต๋ํ์์ผ์ฃผ๋ ๋ถ๋ฅ๊ธฐ๋ฅผ TNR+TPR optimal์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
$$TPR = \frac{TP}{TP+FN}, \ TNR = \frac{TN}{TN+FP}$$
์ฐธ๊ณ ๋ก ๊ธฐ๋ณธ Bayes Rule์ ํ์ฉํ ๋ถ๋ฅ๊ธฐ๋ TNR์ 1์ ๊ฐ๊น์ง๋ง, TPR์ 0์ ๊ฐ๊น๊ฒ ๋์จ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
3-3. q*-classifier
$$\delta_D(x) = 1_{\big(\Delta_D(x) \geq 1\big)} \text{, where } \Delta_D(x) = \frac{f_{X|Y}(x|1)}{f_{X|Y}(x|0)} = \frac{p(x)(1-\pi)}{(1-p(x))\pi} \qquad (4)$$
์ฌ๊ธฐ์ $\delta_{q*}(x) = I\big(p(x) \geq \pi \big) = \delta_D(x)$๋ฅผ q*-classifier๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ์ ์ํ๋ฉฐ, Density-based approach๋ผ๊ณ ํ ์ ์๋ค. ์๋ํ๋ฉด data density๋ฅผ ํ์ฉํ์ฌ ํด๋์ค๋ฅผ ๋ถ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
cf. Density-based approach
$$\delta_D(x) = 1_{\big(f_{X|Y}(x|1) \geq f_{X|Y}(x|0)\big)}$$
์ฌ๊ธฐ์ ์ฃผ๋ชฉํด์ผ ํ ์ ์ conditional density of the response ($p(x)$)๊ฐ ์๋๋ผ conditional density of the features($f_{X|Y}$)๋ฅผ ํ์ฉํ๋ค๋ ์ ์ด๋ค. ์ด๋ก ์ธํด ์์ ํด๋์ค์ prevalance ํจ๊ณผ๋ฅผ ์ ๊ฑฐํ ์ ์๋ค. (๊ฐ์ธ์๊ฐ: Bayesian์ ์ฉ์ด๋ก ํด์ํ๋ค๋ฉด, ์ ํ์ฐ๊ตฌ์ฒ๋ผ uniform prior๊ฐ ์๋๋ผ likelihood๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋ฅผ ํ๋ค๋ ๋ฐ์ ์์๊ฐ ์๋ ๊ฒ ๊ฐ๋ค.)
q*-classifier๋ TNR+TPR optimal์ด๋ค. (์ด์ ๋ํ ์์ธํ ๋ด์ฉ์ ์๋์ ๋์์๋ค.) ๋ฟ๋ง ์๋๋ผ, cost-weighted Bayes rule์ ์ฌ์ฉํ๋๋ฐ, $\ell_0 = \pi$์ด๊ณ , $\ell_1=(1-\pi)$์ด๋ค. ๊ทธ๋ ๊ฒ ํ๋ฉด marginal ๊ทธ๋ฆฌ๊ณ conditional imbalanced ์ํ์์ weighted risk๊ฐ ๋ชจ๋ 0์ ๊ฐ๊น๊ฒ ๋์จ๋ค. ์ด๋ฅผ ์์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค. ์ฐ๋ณ์ ์๋ ($\pi$)๋ marginally imbalancedํ ์ํฉ์์๋, conditionally imbalancedํ ์ํฉ์์๋ ๋ชจ๋ 0์ ๊ฐ๊น์์ผ ํ๋ค๋ ์ฌ์ค์ ์์๋์.
\begin{align} r(\delta_{q*}, \pi, 1-\pi) &= E[\min\{(1-\pi)p(X), \pi(1-p(X))\}] \\ &\leq E[\pi(1-p(X))] \\ &\leq \pi \end{align}
Theorem2 ์ค์์ TNR+TPR optimal์ ๋ํ ์ฆ๋ช
์ ์๋์ ๊ฐ๋ค. ์ฐธ๊ณ ๋ก, FPR = 1-TNR, FNR = 1-TPR์ด๋ฏ๋ก, TNR์ TPR์ ์ต๋ํํ๋ ๊ฒ์ FPR๊ณผ FNR์ ์ต์ํํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
\begin{align} FPR(\hat{\delta}) &+ FNR(\hat{\delta})\\ &= P\{\hat{\delta}(X)=1|Y=0\} + P\{\hat{\delta}(X)=0|Y=1\} \\ &= \frac{P\{\hat{\delta}(X)=1, Y=0\}}{P(Y=0)} + \frac{P\{\hat{\delta}(X)=0, Y=1\}}{P(Y=1)} \\ &= E\Big[\frac{1\{\hat{\delta}(X)=1, Y=0\}}{\ell_1} + \frac{1\{\hat{\delta}(X)=0, Y=1\}}{\ell_0}\Big] \end{align}
์์ $\ell_0\ell_1$์ ๊ณฑํด์ฃผ๋ฉด ์๋์ ์์ ์ต์ํํด์ฃผ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
$$E\Big[\ell_{0}1_{(\hat{\delta}(X)=1, Y=0)} + \ell_{1}1_{(\hat{\delta}(X)=0, Y=1)}\Big]$$
๊ทธ๋ฆฌ๊ณ ์ด๋ 3-1.์์ ๋ณด์๋ฏ์ด weighted risk์ ์์ ํ๊ฒ ๊ฐ์ ํํ์ด๋ค. ์ฆ, weighted risk๋ฅผ ์ต์ํํ๋ค๋ฉด TNR+TPR optimal ์กฐ๊ฑด๋ ์์ฐ์ค๋ฝ๊ฒ ๋ง์กฑ์ด ๋ ๊ฒ์์ ์ ์ ์๋ค.
3-4. Response-based sampling: Balancing the data
cf) Response-based sampling: where data values are selected with probability that depend only on the value of Y and not X.
$\delta^{S}_{B}$ is TNR+TPR optimal.
$$\begin{equation} P(S=1 |Y) = \begin{cases} \pi_S(1), &\mbox{if } Y=1 \\ \pi_S(0), &\mbox{otherwise} \end{cases} \end{equation} \quad (5)\\ \pi^S := P(Y=1|S=1) = \frac{P(S=1|Y=1)P(Y=1)}{P(S=1)} = \frac{\pi_S(1)\pi}{P(S=1)} \quad (6.1)$$
$$1-\pi^S = P(Y=0|S=1) = \frac{\pi_S(0)(1-\pi)}{P(S=1)} \quad (6.2) $$
balanced subsample๋ ๊ฒ๋ค์ด๋ฏ๋ก \(\pi^S=1/2\)์ด๊ณ , ์ด๋ ๊ณง \(\pi^S = 1-\pi^S\)์ด๋ฏ๋ก ์๋ (7)์ด ์ฑ๋ฆฝํ๋ค.
$$\therefore \frac{\pi_S(1)}{\pi_S(0)} = \frac{1-\pi}{\pi} \quad (7)$$
subsampled๋ ๋ฐ์ดํฐ๋ค๋ก ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์ํจ ๊ฒ์ $\delta_{B}^{S}$๋ผ๊ณ ํ์. ์ด๋ฅผ ์ดํ์๋ subsampled Bayes rule์ด๋ผ๊ณ ๋ถ๋ฅด๊ฒ ๋ค. (์ค๊ฐ ์ ๋ฆฌ๋ฅผ ํ์๋ฉด, (5)๋ response-based sampling์ด๊ณ , (7)๋ ๊ทธ์ค์์๋ balanced sampling์ด๋ค.)
$$\delta_{B}^{S}(x) = 1 \mbox{, if } \frac{p^S(x)}{1-p^S(x) }\geq 1 \\ \mbox{where } p^S(x) = \frac{f^S_{X,Y}(x,1)}{f^S_X(x)}, \ 1-p^S(x) = \frac{f^S_{X,Y}(x,0)}{f^S_X(x)} \\ \therefore \delta_{B}^{S}(x) = 1 \mbox{, if } \frac{f^S_{X,Y}(x,1)}{f^S_{X,Y}(x,0)}\\$$
$$\begin{align} \mbox{where } f^S_{X,Y}(x,1) &= P(X=x, Y=1 |S=1) \\ &= \frac{P(X=x, Y=1, S=1)}{P(S=1)} \\ &= \frac{P(S=1|X=x, Y=1)P(X=x,Y=1)}{P(S=1)} \\ &= \frac{P(S=1|Y=1)f_{X,Y}(x,1)}{P(S=1)} \\ &= \frac{\pi_S(1)p(x)f_X(x)}{P(S=1)} \end{align}\\$$
$$\therefore \frac{p^S(x)}{1-p^S(x)} = \frac{p(x)\pi_s(1)}{(1-p(x))\pi_S(0)} \qquad (8)\\ \therefore \delta_{B}^{S}(x) = 1 \mbox{, if } \frac{p(x)}{1-p(x)} \geq \frac{\pi_S(0)}{\pi_S(1)} = \frac{\pi}{1-\pi} \quad \mbox{by (7)} \\ \therefore \delta_B^S(x) = \delta_D(x)$$
3-5. q*-classifier is invariant to response-based sampling
\(q^*\)-classifier๋ target balance ratio์ ์๊ด์์ด TPN+TPR-optimality๋ฅผ ์ ์งํ๋ค. ์ฆ๋ช
์ ์๋์ ๊ฐ๋ค.
$$\text{By definition,} \quad \delta^S_{q^*}(x) = \textbf{1}_{\{p^S(x)\ge\pi^S\}} \\ \text{Equivalently,} \quad \delta^{S}_{q^*}(x)=1 \quad \text{if} \quad \frac{p^S(x)(1-\pi^S)}{(1-p^S(x))\pi^S} \ge 1 \\ \text{By (8),} \quad \delta^{S}_{q^*}(x)=1 \quad \text{if} \quad \frac{p(x)\pi_S(1)(1-\pi^S)}{\big(1-p(x)\big)\pi_S(0)\pi^S} = \frac{p(x)/\pi}{\big(1-p(x)\big)/(1-\pi)} \ge 1 \qquad (9)$$
(6)๊ณผ (8)๋ก ์ธํด (9)๊ฐ ๋์ถ๋๋ค. ๊ทธ๋ฆฌ๊ณ (4)์ (9)๊ฐ ๊ฐ๋ค๋ ์ ์ ์ฃผ๋ชฉํด๋ณผ ํ์๊ฐ ์๋ค. \(\delta^S_{q^*} = \delta_{q^*}\) ๊ทธ๋ฌ๋ฏ๋ก ์์์ ๋งํ๋๋ก, \(q^*\)-classifier๋ target balance ratio์ ์๊ด์์ด TPN+TPR-optimality๋ฅผ ์ ์งํ๋ค.
$\delta^{S}_{q*} = \delta_{q*}$์ด๋ฏ๋ก $\delta^{S}_{q*}$๋ TNR+TPR optimal์ด๋ค.๊ทธ๋ฆฌ๊ณ balanced sampling (7)์ ์ํด
$\delta^S_B = \delta^{S}_{q*} = \delta_{q*}$์ด๋ฉฐ, ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋ชจ๋ TNR+TPR optimal์ด๋ค.
4. Application to Random Forests
- RFQ์
q*-classifier์์$q* = \pi$๋ก ์ฌ์ฉํ๋๋ฐ, empirical relative frequency๋ก์จ$\hat{\pi} = \frac{N_1}{N_0 + N_1}$์ ์ฌ์ฉํ๋ค.
5. Comparison to BRF
5-1. ์๊ณ ๋ฆฌ์ฆ ๋ํ ์ผ ์ฐจ์ด
-
RFQ๊ณผ BRF์ ์ฐจ์ด์ ์, ๋ถํธ์คํธ๋ฉ ๊ณผ์ ์์ ์ํ์ฌ์ด์ฆ๋ฅผ
$N$์ด ์๋๋ผ$2N_1$๋งํผ์ ์ฌ์ฉํ๊ณ , ์ํ๋ง ํ๋ฅ ์$\pi_S(1) = \frac{N_0}{N_1}\pi_S(0)$๋ก ์ค์ ํ๋ค๋ ์ ์์ ๋ค๋ฅด๋ค. (์ฐธ๊ณ ๋ก ๊ธฐ๋ณธ RF๋ ์ํ์ฌ์ด์ฆ๋ N์ผ๋ก ํ๋ค.) -
๊ธฐ๋ณธ RF์ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ RFQ๋,
\(\delta_{RF}(x) = \textbf{1}_{\{\hat{p}_{RF}(x) \geq \frac{1}{2}\}}\)๋์ ์\(\delta_{RFQ}(x) = \textbf{1}_{\{\hat{p}_{RF}(x) \geq \pi\}}\)๋ฅผ ์ด๋ค๋ ์ฐจ์ด์ ์ด ์๋ค.
5-2. Why RFQ is better
์ฐ์ ๊ธฐ๋ณธ์ ์ผ๋ก BRF์ RFQ ๋ชจ๋ TNR+TPR property๋ฅผ ๊ฐ๊ณ ์๊ธฐ๋ ํ๋ค. BRF์ ๊ฒฝ์ฐ๋ Theorem 3์์ balancing condition (7)์ ์ํด, RFQ์ ๊ฒฝ์ฐ๋ Theorem 2์์ q*-classification์ ์ฌ์ฉํ๋ค๋ ์ ์์ ํ์ธํ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ค์ ํ๋ฅ ํจ์์ธ $p(x)$๊ฐ ์์ธก์ ํ์ฉ์ด ๋๋๋ฐ, ์ค์ ์์๋ ์ด๋ฅผ estimateํ์ฌ ํ์ฉํ์ฌ์ผ ํ๋ค๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. BRF์ ๋นํด์ RFQ๊ฐ ํจ์ฌ ๋ง์ ์ซ์์ ์ํ์ ํ์ฉํ๊ธฐ ๋๋ฌธ์, ์ผ๋ฐ์ ์ผ๋ก BRF์ ๋นํด RFQ๊ฐ $p(x)$์ estimateํ๋ ๋ฐ์ ์ ๋ฆฌํ๋ค๊ณ ํ ์ ์๋ค. ํนํ IR์ด ์ปค์ง๋ฉด ์ปค์ง์๋ก $2N_1$์ $N$์ ๋นํด์ ํจ์ฌ ์์์ง๊ธฐ ๋๋ฌธ์, IR์ด ์ปค์ง๋ฉด ์ปค์ง์๋ก BRF๋ณด๋ค RFQ๊ฐ ๋์ฑ ์ ๋ฆฌํ๋ค. ๋ฟ๋ง ์๋๋ผ ์ฐจ์์ด ์ปค์ง์๋ก estimation์ด ์ด๋ ค์์ง๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ์ํฉ์์๋ RFQ๊ฐ ์ ๋ฆฌํ๋ค๊ณ ๋ณผ ์ ์๋ค.
6. Performance
6-1. G-mean
$$\mbox{G-mean} = (TNR \times TPR)^{1/2}$$
q๊ฐ ๊ทผ์ฌ์ ์ผ๋ก $\hat{\pi}$์ ๊ฐ๊น์์ก์ ๋, RFQ์ ์ํ G-mean์ด ์ต๋์น์ ๊ฐ๊น๋ค๋ ๊ฒ์ 143๊ฐ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ํตํด์ ํ์ธํ๋ค.(10-fold CV๋ฅผ 250๋ฒ์ฉ ์ํํ์๋ค.) ์ด๋ ๋ถ๋ฅ๊ธฐ์ ์์ด์ TNR+TPR optimality๊ฐ ์ค์ํ ํน์ง์ด๋ผ๋ ๊ฒ์ ์์ฌํ๋ค.
(splitting criterion์ผ๋ก์ Gini index ๋์ Hellinger distance๋ฅผ ์ฌ์ฉํด๋ณด๊ธด ํ์์ผ๋ ํฌ๊ฒ ์ ์๋ฏธํ์ง๋ ์์๋ค.)
G-mean์ performance metrics๋ก์จ ํ์ฉํ ๋, ๊ฐ์คํ๊ท ์ ์ฌ์ฉํ๋ฉด ์กฐ๊ธ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋์ง ์์๊น? ์๋ฅผ ๋ค์ด, TPR์ ์กฐ๊ธ ๋ ๊ฐ์ค์น๋ฅผ ๋์ด์
$\mbox{weighted G-mean} = TNR^{0.2} \times TPR^{0.8}$์ฒ๋ผ?6-2. ex1) Simulated data
epoch: 250, trees: 5000, nodesize=1, mtry=d/3
์ Table์ complex imbalanced data in high dimensional settings์์ RFQ๊ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
6-3. ex2) Cognitive impairment data
Alzheimers Disease CSF Data from AppliedPredictiveModeling (N=333, d=130 where $N_0=242, N_1=91$ with IR=2.66)
epoch: 250, trees: 5000, nodesize=1, mtry=d/3
BRF์ ๊ฒฝ์ฐ์๋ high dimensional์ด ๋ ์๋ก ์ฑ๋ฅ์ด ๋ฎ์์ง์ ์ ์ ์๋ค.
6-4. ex3) Customer churn data
N=3333 with $N_1=483$ and IR=5.90
epoch: 250, trees: 5000, nodesize=1, mtry=d/3
6-3์ ๊ฐ์ด, BRF๋ high dimension์ผ ๋ ์ฑ๋ฅ์ด ์ข์ง ์์์ง์ ์ ์ ์๋ค.
6-5. Multiclass Imbalanced Data
Binary๊ฐ ์๋๋ผ Multiclass์ ๊ฒฝ์ฐ์๋ RFQ๊ฐ ์ ์๋ํ๋์ง ํ์ธํด๋ณด์๋ค.
6-5-1. ex1) Waveform simulations
$$\mbox{weighted G-mean} = \Big(TPR1^{\beta_1} + TPR2^{\beta_2} + TPR3^{\beta_3}\Big)^{1/(\beta_1+\beta_2+\beta_3)}$$
2๊ฐ ์๋๋ผ, 3๊ฐ์ ํด๋์ค๋ก ๋๋์ด์ ธ์๋ ๊ฒฝ์ฐ์ G-mean์ ํตํด ์ธ ๋ชจ๋ธ์ ๋ถ๋ฅํ์๋ค. \(\binom{3}{2} = 3\)์ด๋ฏ๋ก, ์ด ์ธ ๊ฒฝ์ฐ์ ์์ ์์ด์ TPR๊ณผ TNR์ ๊ณ์ฐํ ํ weighted G-mean์ ๊ณ์ฐํ์๋ค. ์๋์ ๋ ํ
์ด๋ธ์ ์ฐจ์ด๋ ๊ฐ ๊ทธ๋ฃน๋ณ TPR์ ๊ฐ์ค์น๋ฅผ ์ด๋ป๊ฒ ๋๊ณ G-mean์ ๊ณ์ฐํ๋์ง์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. ์ฐธ๊ณ ๋ก unweighted G-mean์ multiclass ์ํฉ์์ ์ ์ ํ์ง๋ ์๋ค. ํนํ ์ฌ๊ฐํ ๋ถ๊ท ํ์ด ์กด์ฌํ ๊ฒฝ์ฐ ๋์ฑ ๊ทธ๋ฌํ๋ค. ์๋์ ๊ฒฝ์ฐ์๋ \(\beta_1, \beta_2, \beta_3\)๋ฅผ ๊ฐ๊ฐ ๋ฌํํ๊ฒ 1/2, 1, 1๋ก ๋ฃ์์ง๋ง, ์ด๋ ์ ์๊ฐ ์๋ํ๋ ๋ฐ๋ฅผ ๋ด๊ธฐ์๋ ์ถฉ๋ถํ ์ฐจ์ด๋ฅผ ๋ณด์ด๊ธด ํ๋ค. ์๋์ ํ๋ฅผ ํตํด์ ๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ํ์ธํด๋ณด๋๋ก ํ์.
6-5-2. ex2) Cassini simulations
์์ ์์์ ์์ฌํ๋ ๋ฐ๋ ๋์ผํ๋ค.
7. Variable Importance
-
Breiman-Culter importance(tree-based) : not fit
๋๋ถ๋ถ์ ๋ ธํธ๋ค์ด 0์ ๊ฐ๊ณ ์์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ถ๊ท ํ๋ฐ์ดํฐ์์๋ ํด๋น ๊ธฐ์ค์ผ๋ก VIMP์ ๋ํ๋ด๋ ๋ฐ์๋ ์ ์ ํ์ง ๋ชปํ๋ค. -
G-mean with Ishwaran-Kogalur importance(ensemble) : do fit
blocked ensemble์ prediction error๋ฅผ ํตํด์ ๊ณ์ฐํ๋ค.
|
|
## Warning: ํจํค์ง 'randomForestSRC'๋ R ๋ฒ์ 3.6.3์์ ์์ฑ๋์์ต๋๋ค
##
## randomForestSRC 2.11.0
##
## Type rfsrc.news() to see new features, changes, and bug fixes.
##
|
|
## Sample size: 194
## Frequency of class labels: 148, 46
## Number of trees: 3000
## Forest terminal node size: 1
## Average no. of terminal nodes: 27.20167
## No. of variables tried at each split: 6
## Total no. of variables: 32
## Resampling used to grow trees: swor
## Resample size used to grow trees: 123
## Analysis: RFQ
## Family: class
## Splitting rule: gini *random*
## Number of random split points: 10
## Normalized brier score: 73.24
## AUC: 55.29
## G-mean: 0.54
## Imbalanced ratio: 3.22
## Error rate: 0.46
##
## Confusion matrix:
##
## predicted
## observed N R class.error
## N 73 75 0.5068
## R 19 27 0.4130
##
## Overall error rate: 46.19%
|
|


##
## Importance Relative Imp
## SE_perimeter 0.0384 1.0000
## worst_fractaldim 0.0343 0.8932
## mean_perimeter 0.0322 0.8401
## mean_symmetry 0.0311 0.8098
## SE_texture 0.0239 0.6223
## pnodes 0.0210 0.5480
## mean_texture 0.0203 0.5295
## worst_area 0.0188 0.4889
## worst_radius 0.0188 0.4889
## worst_concavity 0.0173 0.4521
## worst_perimeter 0.0149 0.3897
## SE_area 0.0149 0.3897
## mean_compactness 0.0149 0.3897
## mean_area 0.0149 0.3897
## mean_radius 0.0149 0.3897
## worst_concavepoints 0.0137 0.3568
## worst_compactness 0.0137 0.3568
## mean_fractaldim 0.0137 0.3568
## mean_concavepoints 0.0137 0.3568
## tsize 0.0133 0.3459
## SE_smoothness 0.0101 0.2622
## worst_symmetry 0.0074 0.1935
## SE_compactness 0.0074 0.1935
## SE_radius 0.0074 0.1935
## worst_texture 0.0065 0.1683
## SE_concavity 0.0065 0.1683
## mean_smoothness 0.0065 0.1683
## SE_concavepoints 0.0037 0.0964
## worst_smoothness -0.0037 -0.0958
## SE_fractaldim -0.0037 -0.0958
## mean_concavity -0.0073 -0.1909
## SE_symmetry -0.0181 -0.4724
|
|
8. Comparison to Boosting
Figure 6 and 7 are the cases of low or high dimensional task, respectively.
- Spline Boost: boosted parametric splines using binomial loss
- Tree Boost: boosted trees using binomial loss (nonparametric boosting)
- Tree HBoost: boosted trees using Huber loss (nonparametric boosting)
- RFQ: Random Forest with q-classifier
- RFQvsel: RFQ with variable selection
9. Discussion
high complexity, high imbalancedness, high dimensionality์์ RFQ๊ฐ ํจ๊ณผ์ ์ด์๋ค.
BRF๊ฐ ์์ง ๊ณ์ฐ์ด ๋ ๋น ๋ฅด๊ธฐ๋ ํ์ง๋ง ํฐ ์ฐจ์ด๋ ์๋๋ค. ์ฌ์ง์ด Theorem 4์ ์ํด subsampling์ ํ๋ค๋ฉด computational load๋ ์ค์ด๋ฉด์ TNR+TPR optimal์ ๋์น์ง ์์ ์ ์๋ค.
10. Further Reference
๋ถ๊ท ํ๋ฐ์ดํฐ์ ๋ํด์ ์๊ณ ์ถ๋ค๋ฉด ์๋์ ์ธ ๋ ผ๋ฌธ์ ์ถ๊ฐ ์ฐธ๊ณ ํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
- Krawczyk, B. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, 5(4), 221-232.
- Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H., & Bing, G. (2017). Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications, 73, 220-239.
- Das, S., Datta, S., & Chaudhuri, B. B. (2018). Handling data irregularities in classification: Foundations, trends, and future challenges. Pattern Recognition, 81, 674-693.
์ด ๋ ผ๋ฌธ์ ๋ํด์ ์์ด๋ก ์ ๋ฆฌ๋ ๊นํ ํ์ด์ง๊ฐ ์๋ค.
—
Critical Point (MY OWN OPINION)
-
์ค๊ฐ์๋ ์ธ๊ธํ์ง๋ง, Bayesian์ ์ฉ์ด๋ก ํด์ํ๋ค๋ฉด, uniform prior๊ฐ ์๋๋ผ likelihood๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋ฅผ ํ๋ค๋ ๋ฐ์ ์์๊ฐ ์๋ ๊ฒ ๊ฐ๋ค. ๋ฌ๋ฆฌ ๋งํ๋ฉด, ๋จ์ํ classifier์ threshold๋ฅผ 1/2์ด ์๋
\(\pi\)๋ก ํ๋ค๊ณ ๋ณผ ์ ์์ง๋ง, ๊ทธ ์ด๋ฉด์ ์ํ์ ์๋ฏธ๋ฅผ ์ ์ฆ๋ช ํด๋ธ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํ๋ค. -
G-mean์ performance metrics๋ก์จ ํ์ฉํ ๋, ๊ฐ์คํ๊ท ์ ์ฌ์ฉํ๋ฉด ์กฐ๊ธ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋์ง ์์๊น? ์๋ฅผ ๋ค์ด, TPR์ ์กฐ๊ธ ๋ ๊ฐ์ค์น๋ฅผ ๋์ด์
\(\mbox{weighted G-mean} = TNR^{0.2} \times TPR^{0.8}\)์ฒ๋ผ? -
Regression ๋ฌธ์ ์๋ ์ด ์์ด๋์ด๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ ์ ์์๊น?