Entropy
์ ๋ณด๋ = ๋ถํ์ค์ฑ \[\begin{align} H(p) &= \sum_{i=1}p_i log\frac{1}{p_i} \\ &= -\sum_{i=1}p_i log(p_i) \end{align}\]
์ฌ๊ธฐ์ $\frac{1}{p_i}$๋ ๋ฐ์ํ๋ฅ ์ ์ญ์๋ก, ๋ค๋ฅด๊ฒ ๋ณด๋ฉด ๊ฐ๋ฅํ ๊ฒฐ๊ณผ์ ์๋ผ๊ณ ๋ณผ ์ ์๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ $log\frac{1}{p_i}$๋ ํ์ํ ์ง๋ฌธ์ ์๋ผ๊ณ ์๊ฐํ ์ ์๋ค.
ํฉ์ณ์ ์๊ฐํด๋ณด๋ฉด, ์ ๋ณด๋์ด๋ผ๊ณ ํ๋ ๊ฒ์ ํ์ํ ์ง๋ฌธ์ ์ x ํ๋ฅ ์ ์ดํฉ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค.
Cross Entropy
p์ ๋ํด, ์ ๋ต Q๋ฅผ ์ฌ์ฉํ์ ๋์ ๋ถํ์ค์ฑ ์ฆ, ํน์ ์ ๋ต์ ์ธ ๋, ์์๋๋ ์ง๋ฌธ๊ฐ์์ ๋ํ ๊ธฐ๋๊ฐ
๊ทธ๋ฅ Entropy์์ ์ฐจ์ด์ ์ log ์์ $p_i$๊ฐ $q_i$๋ก ๋ฐ๋์๋ค๋ ๊ฒ์ด๋ค.
์ด๊ฒ์ ์๋ฏธ๋ฅผ ์ ํ์
ํด์ผ ํ๋ค.
\[\begin{align} H(p,q) &= \sum_{i=1}p_i log\frac{1}{q_i} \\ &= -\sum_{i=1}p_i log(q_i) \end{align}\]
Cross Entropy๋ Log Loss ๋๋ Negative Log Likelihood๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ค. ์ฆ, Cross Entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ log likelihood๋ฅผ ์ต๋ํํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
KL-Divergence
์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ(Kullback-Leibler Divergence)๋ ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด์์ ๊ณ์ฐ๋ ์ํธ๋กํผ ์ฐจ์ด๋ฅผ ๋ปํ๋ค. ์ฐธ๊ณ ๋ก, H(p)๋ ์์๊ฐ์ด๊ธฐ ๋๋ฌธ์ Cross Entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ KLD๋ฅผ ์ต์ํ๋ ๊ฒ๊ณผ ๊ฐ์ task์ด๋ค. ์ฆ, KLD๋ฅผ ์ต์ํํ๋ ๊ฒ์ log likelihood๋ฅผ ์ต๋ํํ๋ ๊ฒ๊ณผ ๊ฐ์์ง๋ค.
\[\begin{align} KL(p||q) &= H(p,q) - H(p) \\ &= \sum_{i=1}p_i log\frac{p_i}{q_i} \\ &= -\sum_{i=1}p_i log\frac{q_i}{p_i} \end{align}\]
KL-Divergence๋ ํญ์ 0 ์ด์์ด๋ค. ์ง๊ด์ ์ผ๋ก๋ $H(p,q)$์ lower bound๊ฐ $H(p)$(์์๊ฐ)์ด๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ฆ๋ช
ํ๊ณ ์ ํ๋ค๋ฉด, convex function์ธ -log๋ฅผ f(x)๋ก ์๊ฐํ๊ณ Jensenโs inequality๋ก ์ฆ๋ช
ํ ์ ์๋ค.
Jensen-Shannon Divergence
KL-Divergence๋ ๋์นญ์ด ์๋๋ค. ์ฆ, p์ q์ ์์น๋ฅผ ๋ฐ๊ฟ์ธ ์ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ฑฐ๋ฆฌ ๊ฐ๋
์ผ๋ก ํผ๋ํ๋ฉด ์๋๋ค.
์ง๊ด์ ์ผ๋ก ์ดํดํ ๋, KL-Divergence๋ ๋ ํ๋ฅ ๋ถํฌ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ผ๊ณ ์ค๋ช
ํ๊ณค ํ์ง๋ง, ๊ทธ๊ฒ์ด ์ณ์ง ์๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ผ๋ก ํ์ฉํ๊ณ ์ถ๋ค๋ฉด, Jensen-Shannon Divergence๋ฅผ ํ์ฉํ๋ฉด ๋๋ค.
\[JSD(p||q) = \frac{1}{2}KL(p||M) + \frac{1}{2}KL(q||M) \\ \text{where } M = \frac{1}{2}(p+q)\]