Chapter 02.
Belief, Probability and Exchangeability
๋ณธ ํฌ์คํ ์ First Course in Bayesian Statistical Methods๋ฅผ ์ฐธ๊ณ ํ์๋ค. ์ด๋ฒ ์ฅ์ ๋ชฉํ๋ independence์ exchangeability๋ฅผ ์ดํดํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก de Finettiโs theorem์ด Bayesian์ ๊ฐ๋ ์์๋ฅผ ์ดํดํ๋ค๋ฉด, ๋ฒ ์ด์ฆ ํต๊ณ๋ฅผ ๊ณต๋ถํ ์ค๋น๊ฐ ๋ ๊ฒ์ด๋ค.
Belief functions and Probabilities
$Be()$๋ belief function์ด๋ผ๊ณ ํ์. ์๋ฅผ ๋ค์ด, $Be(F) > Be(G)$๋ G๋ณด๋ค F๋ฅผ ๋ ๋ฏฟ๋๋ค๊ณ ํด์ํ๋ฉด ๋๋ค. F, G, H๋ฅผ ์๋์ ๊ฐ์ ๊ฐ๊ฐ์ ์ํฉ์ด๋ผ๊ณ ๊ฐ์ ํด๋ณด์.
F : ์ขํ ํ๋ณด์๋ฅผ ํฌํํ๋ ๊ฒฝ์ฐ
G : ์๋์ด ํ์ 10%์ ์ํ๋ ๊ฒฝ์ฐ
H : ๋๋์์ ๊ฑฐ์ฃผํ๋ ๊ฒฝ์ฐ
Axioms of beliefs
$Be($not$H|H) \le Be(F|H) \le Be(H|H)$$Be(F $or$G|H) \ge max(Be(F|H), Be(G|H))$$Be(F $and$G|H)$can be drvied from$Be(G|H)$and$Be(F|G $and$H)$
Axioms of probability
$0 = Pr($not$H|H) \le Pr(F|H) \le Pr(H|H) \le = 1$$Pr(F \cup G|H) = Pr(F|H) + Pr(G|H)$if$F \cap G = \emptyset$$Pr(F \cap G|H) = Pr(G|H)Pr(F|g \cap H)$
belief์ probability์ ๋ํ ๊ฐ๊ฐ์ ๊ณต๋ฆฌ๋ค์ด ๋งค์นญ๋๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋ฏฟ์์ ์ ๋๋ฅผ ๊ณ์ฐํ ๋ ํ๋ฅ ํจ์๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ฒ๋ผ ๋ค๋ค๋ ๋ฌด๋ฐฉํ๋ค๊ณ ๊ฒฐ๋ก ๋ผ ์ ์๋ค.
Conditional Independence
์ฌ๊ฑด F์ G๋ ์๋์ ๊ฐ์ ์ํฉ์์ ์กฐ๊ฑด๋ถ ๋
๋ฆฝ(conditional independence)์ด๋ผ๊ณ ํ๋ค.
\[Pr(F \cap G|H) = Pr(F|H)Pr(G|H)\]
์ด๋ฅผ ํ์ด์ ํด์ํด๋ณด์๋ฉด, H๋ฅผ ์๊ณ ์๋ ์ํฉ์์, ์ถ๊ฐ์ ์ผ๋ก G์ ๋ํด์ ์๊ฒ ๋๋ ๊ฒ์ F์ ๋ํ ๋ฏฟ์์ ๋ณํ์ํค๋ ๋ฐ์ ์ํฅ์ด ์๋ค๋ ๊ฒ์ด๋ค. ์๋ฅผ ํตํด์ ์๋๋ฅผ ์ ์ ์๋ ๊ฒ์ด๋ค.
\[Pr(F|H \cap G) = Pr(F|H) \]
Exchangeability
$Y_1, ..., Y_n$์ด ์์ ๋, ์ด ์์๋ฅผ ์ด๋ป๊ฒ ์๋๋ผ๋ ๊ฒฐํฉํ๋ฅ ์ ๋ฐ๊พธ์ง ์์ ๋ exchangeableํ๋ค๊ณ ํ๋ค. ์ด๋ ์ง๊ด์ ์ผ๋ก ํ์ด์ด ๊ฒ์ด๋ฉฐ, ๋ค์ ํ ๋ฒ ์ํ์ ์ ์๋ก ์์ธํ ์จ๋ณด์๋ฉด ์๋์ ๊ฐ๋ค.
Let $p(y_1, ... y_n)$ be the joint density of $Y_1, ..., Y_n$. If $p(y_1, ..., y_n) = p(y_{\pi_1}, ..., y_{\pi_n})$ for all permutations $\pi$ of {1, โฆ, n}, then $Y_1, ..., Y_n$ are exchangeable.
\[\begin{equation} \left.\begin{aligned} Y_1, ..., Y_n|\theta \text{ i.i.d} \\ \theta \sim p(\theta) \end{aligned}\right\} \Rightarrow Y_1, ... Y_n \text{ are exchangeable} \end{equation}\]
de Finettiโs Theorem
๋ง์ฝ $Y_1, ..., Y_n$์ด exchangeability๋ฅผ ๋ง์กฑํ๋ค๋ฉด, ์๋์ ๊ฐ์ด ๋งํ ์ ์๋ค.
\[p(y_1, ..., y_n) = \int{\Bigg\{\prod_{1}^{n}p(y_i|\theta)\Bigg\} \:p(\theta)d\theta} \\ \text{for some parameter} \: \theta\]
์ด๋ ํ๋ฅ ๋ณ์ $Y_1, ..., Y_n$์ ๋ํด์ exchangeability๋ฅผ ๋ง์กฑํ๋ค๋ฉด, $p(y_1, ..., y_n)$์ ๋ํด $\theta$๋ผ๋ parameter๋ฅผ ํ์ฉํ์ฌ ์์ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ผ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด ์ ๋ฆฌ๊ฐ ๋ฒ ์ด์ง์์๊ฒ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋ ๊ฒ์ผ๊น? ์ด๋ ์ฌ์ ํ๋ฅ ๋ถํฌ(prior model)์ ๊ฐ๋ฅ๋ํจ์(sampling model)๊ฐ belief model $p(y_1, ..., y_n)$์ ์์กดํจ์ ์๋ฏธํ๋ค. ํ์ด์ ์ด์ผ๊ธฐํ์๋ฉด, parameter $\theta$๊ฐ ํ๋ฅ ๋ก ์๊ฐ ์ฃผ์ฅํ๋ ๊ฒ์ฒ๋ผ ๋ฏธ์ง์ ๊ณ ์ ๋ ๊ฐ์ด ์๋๋ผ, ์ด๋ค ๋ถํฌ๋ฅผ ๊ฐ๋ ํ๋ฅ ๋ณ์๋ก ๋ณผ ์ ์๋ค๋ ๊ฒ์ด๋ค. (๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ์ ์ฐ๋ฆฌ๋ ์ฌ์ ํ๋ฅ ๋ถํฌ prior distribution์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.)
์ฃผ์์ฌํญ
Bayesโ rule์ ๋ฐ์ดํฐ๋ฅผ ์ ํ ์ดํ, ์ฐ๋ฆฌ์ ๋ฏฟ์์ด ์ด๋ป๊ฒ ์
๋ฐ์ดํธ๋๋์ง์ ๋ํ ์์์ด๋ค.
์ฌ๊ธฐ์ ํท๊ฐ๋ฆฌ๋ฉด ์๋๋ ๊ฒ์ด ์๋ค. Bayesโ rule์ ์ฐ๋ฆฌ์ ๋ฏฟ์์ด ์ด๋์ผ ํ๋์ง(should be)์ ๋ํด์ ์ด์ผ๊ธฐํ๊ณ ์๋ ๊ฒ์ด ์๋๋ผ ์ด๋ป๊ฒ ๋ณํด์ผ ํ๋์ง(should change)์ ๋ํด์ ์ด์ผ๊ธฐํ๋ ๊ฒ์ด๋ค.
Conclusion
๋ฏฟ์(Belief)๋ ํ๋ฅ (Probability)๋ก์จ ์ด์ผ๊ธฐํ ์ ์๋ค.
paramter $\theta$๋ ๋ถํฌ๋ฅผ ๊ฐ๋ ํ๋ฅ ๋ณ์์ด๋ค.
ํน์ ๊ถ๊ธํ ์ ์ด๋ ์๋ชป๋ ๋ด์ฉ์ด ์๋ค๋ฉด, ๋๊ธ๋ก ์๋ ค์ฃผ์๋ฉด ์ ๊ทน ๋ฐ์ํ๋๋ก ํ๊ฒ ์ต๋๋ค.