Chapter 01.
Introduction and Examples
๋ณธ ํฌ์คํ
์ First Course in Bayesian Statistical Methods๋ฅผ ์ฐธ๊ณ ํ์๋ค.
์ด๋ฒ ์ฅ์ ํตํด์๋ Likelihood and Prior๋ฅผ ์ดํด๋ณด๊ณ Full probability model์ ์๋ฏธ๋ฅผ ๋ณด๋ ๋ฐ์ ์ฃผ๋ชฉํด๋ณด์.
๋ฒ ์ด์ง์ ์ถ๋ก ์ ๋ชฉ์
์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ ํ๋์ ํตํด, ๋ชจ์ง๋จ ํน์ฑ์ ๋ํ ๋ถํ์ค์ฑ์ ์ค์ฌ๋๊ฐ๊ณ ์ ํ๋ค. ์ด๋, ๋ถํ์ค์ฑ ์ ๋์ ๋ณํ ์์ค์ ๊ณ๋ํํ๋ ๊ฒ์ด ๋ฒ ์ด์ง์ ์ถ๋ก ํต๊ณ์ ๋ชฉ์ ์ด๋ผ๊ณ ํ ์ ์๋ค.
ํต์ฌ ๊ฐ๋
- prior distribution
$p(\theta)$- ์ฌ์ ํ๋ฅ
- ๋ชจ์์ ๋ํด ๊ธฐ์กด์ ๊ฐ๊ณ ์๋ ๋ฏฟ์์ ์ ๋
- sampling model
$p(y|\theta)$- ์ผ์ข ์ ๊ฐ๋ฅ๋ ํจ์(likelihood)
- ์ฌ์ ํ๋ฅ ์ด ์ฐธ์ด๋ผ๋ ๊ฐ์ ํ์, ํน์ ๋ฐ์ดํฐ๊ฐ ๊ด์ฐฐ๋ ํ๋ฅ
- posterior distribution
$p(\theta|y)$- ๋ฐ์ดํฐ๊ฐ ๊ด์ฐฐ๋์์ ๋, ์ด๋ฅผ ๋ฐํ์ผ๋ก ์์ ๋ ๋ชจ์์ ๋ํ ๋ฏฟ์์ ์ ๋
Bayes' Rule
$$p(\theta|y) = \frac{p(y|\theta)p(\theta)}{\int_{\Theta}p(y|\tilde{\theta})p(\tilde{\theta})d\tilde{\theta}}$$
์ด๋ ์ฌํ๋ถํฌ๊ฐ ์ฌ์ ๋ถํฌ์ ๊ฐ๋ฅ๋ ํจ์์ ์ํด ์ด๋ป๊ฒ ์
๋ฐ์ดํธ ๋๋์ง๋ฅผ ์์์ ์ผ๋ก ๋ํ๋ ๊ฒ์ด๋ค.
๋ฒ ์ด์ฆ ํต๊ณ์ ์ ๋ถ๋ผ๊ณ ํด๋ ๋ฌด๋ฐฉํ๋ค.
ํ์ฉ์์
- ํฌ์์ฌ๊ฑด ํ๋ฅ ์ถ์ (Estimation)
- ๊ฐ์ผ ํ๋ฅ (infectious probability)
- ํ๋ฅ ๋ก ์(frequentist)๋ sample์ด ์ ์ ๋ ํ๋ฅ ์ถ์ ์ ํฉ๋ฆฌ์ ์ผ๋ก ํ๋ ๋ฐ์ ์์ด์ ์ทจ์ฝํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, 20๋ช ๋ง์ ๋์์ผ๋ก ๊ฐ์ผ ์ฌ๋ถ๋ฅผ ํ์ธํ๊ณ ๊ฐ์ผ ํ๋ฅ ์ ์ถ๋ก ํ๋ค๋ฉด, ๊ฐ์ผํ๋ฅ ์ 0%๋ผ๊ณ ์ ์ํ๋ ๊ฒ์ ํต๊ณ์ ์ผ๋ก๋ ๊ทธ๋ด ๋ฏํ๊ฒ ๊ณ์ฐ๋ ์ ์๋ค. ํ์ง๋ง ์ด๋ ํ์ค๊ณผ๋ ๋ค์ ๊ฑฐ๋ฆฌ๊ฐ ์์ ์ ์๋ค.
- ์ด์ ๋ฐํด, ๋ฒ ์ด์ง์์ ๊ฐ์ผ ํ๋ฅ ์ ๋ถํฌ๋ก์ ์ ์ํ ๋ฟ๋๋ฌ ๊ธฐ์กด์ ๋ฏฟ์์ ์ฌ์ ํ๋ฅ ๋ก์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ถ๋ถ์ ์์ด์ ๋ ์ทจ์ฝํ ์ ์๋ค.
- ์์ธก ๋ชจ๋ธ ๊ตฌ์ถ(Prediction)
- ๋น๋จ๋ณ(diabetes progression)
- 50% ํ๋ฅ ๋ก ๋ณ์์ coefficient๊ฐ 0๋ผ๊ณ ์ฌ์ ํ๋ฅ ์ ์ ์ํ๋ค๋ฉด, ๋ณ์์ ํ์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
- ์ด์ ๊ด๋ จ๋ ์์ธํ ๋ด์ฉ์ FCB chapter 09์ Bayesian Linear Regression๊ณผ ๊ด๋ จํ์ฌ ์ค๋ช ๋ ์์ ์ด๋ค.
ETC
- ‘Adjusted’ Wald interval
ํํ ์๋ ค์ง ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ฒ ์ด์ง์์ ์ผ๋ก ๋ฐ๊พผ ํํ์ด๋ค.
`\hat{\theta} \pm 1.96\sqrt{\hat{\theta}(1-\hat{\theta})//n}` , where
`\hat{\theta} = \frac{n}{n+4}\bar{y} + \frac{4}{n+4}\frac{1}{2}`
- Lasso
๋ณ์ ์ ํ์ ํ ๋ฐฉ๋ฒ์ด๋ค. ์๋ ์ ์๋ SSR๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋ฒ ์ด์ง์์ ๋งฅ๋ฝ์์ ์ฒ์ ์ฐ๊ตฌ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋์ง๋ง, ํน์ ์ฌ์ ํ๋ฅ ์ ์ ์ฉํ๋ค๋ฉด ๋ฒ ์ด์ง์์ ๊ด์ ๊ณผ ์ผ์นํ๋ค.
์ฌ๊ธฐ์ ๋งํ๋ ๊ทธ ํน์ ์ฌ์ ํ๋ฅ ๋ถํฌ๋,$\beta_j$๊ฐ 0์์ ์ฒจ์ ์ ๊ฐ๋ ๋ผํ๋ผ์ค ๋ถํฌ(๋๋ double-exponential distribution)๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ lasso estimate์$\beta$์ ์ฌํ ์ต๋น๊ฐ(posterior mode)๊ณผ ๊ฐ๋ค.
$$SSR(\beta:\lambda) = \sum_{i=1}^{n}(y_i-\boldsymbol{x_i}^T\boldsymbol{\beta})^2 + \lambda\sum_{j=1}^{n}|\beta_j|$$
Conclusion
"All models are wrong, but some are useful"
- Box and Draper, 1987
ํน์ ๊ถ๊ธํ ์ ์ด๋ ์๋ชป๋ ๋ด์ฉ์ด ์๋ค๋ฉด, ๋๊ธ๋ก ์๋ ค์ฃผ์๋ฉด ์ ๊ทน ๋ฐ์ํ๋๋ก ํ๊ฒ ์ต๋๋ค.