Chapter 05.
Normal Model
๋ณธ ํฌ์คํ ์ First Course in Bayesian Statistical Methods์ Bayesian Data Analysis๋ฅผ ์ฐธ๊ณ ํ์๋ค.
Warm up!
- Gamma Distribution
- Inverse Gamma Distribution
- Scaled Inverse Chi-squared Distribution
1. Single Parameter Conjugacy
ํ๊ท ์ด๋ ๋ถ์ฐ ์ค ํ๋๋ง์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ
1-1. ํ๊ท ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ
Prior: $\mu \text{ ~ } N(\mu_0, \tau_0^{2})$
Likelihood: $y|\mu \text{ ~ } N(\mu, \sigma^2)$
Posterior: $\mu|y \text{ ~ } N(\mu_n, \tau_n^{2})$
where $\frac{1}{\tau_n^{2}} = \frac{1}{\tau_0^{2}} + \frac{n}{\sigma^2}$ and $\mu_n = \frac{\frac{1}{\tau_0^{2}}}{\frac{1}{\tau_0^{2}} + \frac{n}{\sigma^2}}\mu_0 + \frac{\frac{n}{\sigma^2}}{\frac{1}{\tau_0^{2}} + \frac{n}{\sigma^2}}\bar{y} $
Posterior Predictive: $\tilde{y}|y \text{ ~ } N(\mu_n, \sigma^2+\tau_n^{2})$
1-2. ๋ถ์ฐ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ
Prior: $\sigma^2 \text{ ~ } \chi^{-2}(\nu_0, \sigma_0^2)$
Likelihood: $y|\sigma^2 \text{ ~ } N(\mu, \sigma^2)$
Posterior: $\sigma^2|y \text{ ~ } \chi^{-2}(\nu_n, \sigma_n^2)$
where $\nu_n = \nu_0 + n$ and $\sigma_n^2 = \frac{\nu_0\sigma_0^2 + ns(y)}{\nu_0 + n}$
c.f. $s(y) = \frac{1}{n}\sum_{i=1}^{n}(y_i-\mu)^2$, ์ด๋ MLE์ด๋ค(biased estimator). ์ฐธ๊ณ ๋ก, ๋ฒ ์ด์ง์์ frequentist๋ค์ ๊ธฐ์ค์ธ unbiasedness๋ฅผ ์ค์ํ๊ฒ ์๊ฐํ์ง ์๋๋ค.
2. Two Parameter
marginal distribution ์ป๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ
Integreation: joint posterior distribution์ ๊ตฌํ ํ, ๊ด์ฌ ์๋ ๋ชจ์(nuisance parameter)์ ๋ํด ์ ๋ถSimulation: joint posterior distribution์์ sample์ ๊ตฌํ ํ, ๊ด์ฌ ์๋ ๋ชจ์์ ๋ถํฌ๋ง ๊ณ ๋ ค(๋๋จธ์ง๋ ๋ฌด์)
๊ทธ๋ ๋ค๋ฉด joint posterior distribution์ ์ด๋ป๊ฒ ๊ตฌํ ๊น?
- marginal and conditional simulation์ ํตํด์ ๊ตฌํ ์ ์๋ค.
$\theta_2 \text{ ~ } \theta_2|y$and$\theta_1 | \theta_2, y$
$\rightarrow (\theta_1, \theta_2) \text{ ~ } (\theta_1, \theta_2|y)$
2-1. noninformative prior
Prior: $p(\mu, \sigma^2) = p(\mu)p(\sigma^2) \propto (\sigma^2)^{-1} $ (๋
๋ฆฝ ๊ฐ์ , improper prior)
Likelihood: $p(y|\mu, \sigma^2) \propto \sigma^{-n}exp(\frac{-1}{2}\sigma^2\sum_{i=1}^{n}(y_i - \mu)^2) $
Posterior: $\mu, \sigma^2 |y \text{ ~ } N(\bar{y}, \frac{\sigma^2}{n}) \times \chi^{-2}(n-1, s^2)$
Posterior Predictive: $\tilde{y}|y \text{ ~ } t_{n-1}(\bar{y}, (1+\frac{1}{n}s^2))$
์ด๋ posterior๊ณผ ๋น๊ตํด์, data์ uncertainty($s^2$)์ด ์ถ๊ฐ๋ ํํ๋ผ๊ณ ํด์ํ ์ ์๋ค.
Posterior Distribution ๊ตฌํ๊ธฐ (Noninformative)
ํด๋น Posterior Distribution์ ๊ตฌํ๋ ๊ณผ์ ์ ๋ค์ ๋ณต์กํ๊ธฐ ๋๋ฌธ์ ์์ธํ๊ฒ ์์ ํด๋ณด๋๋ก ํ๊ฒ ๋ค.
์ฐ์ ์์ํ๊ธฐ์ ์์, ํ๋ง๋๋ก ์ด ๊ณผ์ ์ ์์
ํ๋ค๋ฉด Conditional Posterior X Marginal์ผ ๊ฒ์ด๋ค.
STEP1. $p(\mu|\sigma^2,y)$ $p(\sigma^2|y)$์ ํํ๋ฅผ ํ์
ํ๋ค.
-
$\mu|\sigma^2,y \text{ ~ } N(\bar{y}, \frac{\sigma^2}{n})$
์ด๋ถ๋ถ์ ์์ ํ๊ท ์ ๋ชจ๋ฅด์ง๋ง, ๋ถ์ฐ์ ์๋ ๊ฒฝ์ฐ์์ prior precision$\frac{1}{\tau^2}=0$์ผ๋ก ์ฃผ๋ฉด ์์ ๊ฐ์ด ๋์จ๋ค. prior precision์ 0์ผ๋ก ์ฃผ๋ ์ด์ ๋, non-informative prior๋ฅผ ๊ฐ์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค. -
$\sigma^2|y \text{ ~ } \chi^{-2}(n-1, s^2)$
์ด๋ ์๋์ ์์์ ๊ณ์ฐํด์ ์ป์ ์ ์๋ค.
\begin{align} p(\mu, \sigma^2|y) &\propto p(\mu, \sigma^2) \times p(y|\mu, \sigma^2) \\ &\propto \sigma^{-n-2}exp\bigg(\frac{-1}{2\sigma^2}\big[(n-1)s^2 + n(\bar{y}-\mu)^2\big]\bigg) \\ \rightarrow p(\sigma^2|y) &= \int p(\mu,\sigma^2|y)d\mu \end{align}
STEP2. ๋ฒ ์ด์ฆ๋ฃฐ์ ์ด์ฉํ์ฌ posterior distribution์ ๊ณ์ฐํด์ค๋ค.
์์ ๊ณผ์ ์ ๊ฑฐ์น๋ค๋ฉด, ๊ทธ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ด ์ ๋ฆฌํ ์ ์๋ค.
\begin{align} \mu|\sigma^2,y &\text{ ~ } N(\bar{y}, \frac{\sigma^2}{n}) \\ \sigma^2|y &\text{ ~ } \chi^{-2}(n-1, s^2) \\ \mu, \sigma^2 |y &\text{ ~ } N(\bar{y}, \frac{\sigma^2}{n}) \times \chi^{-2}(n-1, s^2) \end{align}
Posterior Mean์ Marginal Distribution ๊ตฌํ๊ธฐ
๋ฒ์ธ๋ก, $\mu$์ marginal posterior distribution $p(\mu|y)$์ $\int p(\mu,\sigma^2)d\sigma^2$๋ฅผ ํตํด์ ๊ตฌํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ํํ๋ ์๋์ ๊ฐ๋ค.
$$p(\mu|y) \text{ ~ } t_{n-1}(\bar{y}, \frac{s^2}{n})$$
Posterior Prediction ๊ตฌํ๋ ๊ณผ์
\begin{align} p(\tilde{y}|y) &= \int\int p(\tilde{y}|\mu,\sigma^2) p(\mu, \sigma^2|y)\ d\mu \ d\sigma^2 \\ &= \int\int p(\tilde{y}|\mu,\sigma^2) \ p(\mu|\sigma^2,y)\ d\mu \cdot p(\sigma^2|y) \ d\sigma^2 \\ &= \int p(\tilde{y}|\sigma^2) \ p(\sigma^2|y) \ d\sigma^2 \end{align}
Posterior Predictive: $\tilde{y}|y \text{ ~ } t_{n-1}(\bar{y}, (1+\frac{1}{n}s^2))$
์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ก ์์ Posterior Mean์ marginal ๋ถํฌ์ ๋น๊ตํด๋ณด๋ ๊ฒ์ด ์ค์ํ๋ค.
์๋ํ๋ฉด prediction์ ํ ๋์ $s^2$, ์ฆ uncertainty๊ฐ ์ถ๊ฐ๋๋ค๊ณ ํด์ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
Two parameter Normal model์ด ์ค์ํ ์ด์ ๋ ๋ค์ 3. Frequentist์ Bayesian์ ์ฐจ์ด์ ๋ณด๋ฉด ๋ช ํํ๋ค. Frequentist์ Bayesian์ ๊ธฐ๋ณธ์ ์ธ ์ ์ ์ ์ ์ฅ ์ฐจ์ด๋ฅผ ์ดํดํ๋ค๋ฉด, ์ ๋ณด๊ฐ ์๋ prior๊ฐ ๊ฒฐ๊ตญ ์ด๋ ํ ๊ฒฐ๋ก ์ผ๋ก ์ด์ด๊ฐ๋์ง ์ดํดํ ์ ์๋ค.
2-2. conjugate prior
Prior: $p(\mu, \sigma^2) = p(\mu|\sigma^2) \times p(\sigma_0^2) \text{ ~ N-Inv-} \chi^2(\mu_0, \frac{\sigma^2}{k_0}; v_0, \sigma_0^2)$
\begin{align} \mu|\sigma^2 &\text{ ~ } N(\mu_0, \frac{\sigma^2}{k_0}) \\ \sigma^2 &\text{ ~ } \chi^{-2}(v_0, \sigma^2_0) \\ \rightarrow \mu, \sigma^2 &\propto \sigma^{-1}(\sigma^2)^{-(\frac{v_0}{2}+1)}exp\bigg(\frac{-1}{2\sigma^2}\big[v_0\sigma_0^2 + k_0(\mu_0 - \mu)^2\big]\bigg) \end{align}
Likelihood: $p(y|\mu, \sigma^2) \propto \sigma^{-n}exp\bigg(\frac{-1}{2\sigma^2}\sum_{i=1}{n}(y_i-\mu)^2\bigg)$
Posterior: $p(\mu, \sigma^2|y) \text{ ~ N-Inv-}\chi^2(\mu_n, \frac{\sigma_n^2}{k_n}; v_n, \sigma_n^2) $
\begin{align} \mu_n &= \frac{k_0}{k_0+n}\mu_0 + \frac{n}{k_0+n}\bar{y} \\ k_n &= k_0 +n \\ v_n &= v_o + n \\ v_n\sigma_n^2 &= v_0\sigma_0^2 + (n-1)s^2 + \frac{k_0n}{k_0+n}(\bar{y}-\mu_0)^2 \\ \rightarrow \text{posterior ss} &= \text{prior ss} + \text{sample ss} + \text{additional uncertainty}(\bar{y}-\mu_0) \end{align}
3. Frequentist์ Bayesian์ ์ฐจ์ด
Frequentist: parameter๋ฅผ ์ ๋, ํต๊ณ๋์ ๋ถํฌ์ ๋ํด ์ด์ผ๊ธฐํ๋ค.
let $y \text{ ~ } N(\mu, \sigma^2)$
$\bar{y} \text{ ~ } N(\mu, \frac{\sigma^2}{n}) $$\frac{(n-1)s^2}{\sigma^2} \text{ ~ } \chi^2(n-1)$$\frac{\bar{y}-\mu}{s/\sqrt{n}}|\mu,\sigma^2 \text{ ~ } t_{n-1}$
Bayesian: data๋ฅผ ์ ๋, parameter์ ๋ถํฌ์ ๋ํด ์ด์ผ๊ธฐํ๋ค.
$\mu \text{ ~ } N(\bar{y}, \frac{\sigma^2}{n})$$\sigma^2 \text{ ~ } \chi^{-2}(n-1, s^2)$$\frac{\mu-\bar{y}}{s/\sqrt{n}}|y \text{ ~ } t_{n-1} $
๋ง์ฝ Bayesian์ด noninformative prior๋ฅผ ๊ฐ์ ํ๋ค๋ฉด, ์ฆ prior๊ฐ ๊ฑฐ์ ์๋ค๊ณ ์๊ฐํ๋ค๋ฉด frequetist๋ ๊ฒฐ๊ณผ๊ฐ ๋น์ทํ๊ฒ ๋์ค๋ ๊ฒ์ ๋น์ฐํ๋ค.
4. Multinomial Model
Likelihood: $y|\theta \text{ ~ Multinomial}(\theta) \propto \prod_{j=1}^{k}\theta_j^{y_j}$
Prior: $\theta \text{ ~ } Dir(\alpha) \propto \prod_{j=1}^{k}\theta_j^{\alpha_j-1}$
Posterior: $\theta|y \text{ ~ } Dir(\alpha +y) \propto \prod_{j=1}^{k}\theta_j^{\alpha_j-y_j-1}$
์ฐธ๊ณ ๋ก Multinomial distribution์ ์ดํญ๋ถํฌ์ ํ์ฅ์ด๋ฉฐ, Dirichlet distribution์ ๋ฒ ํ๋ถํฌ์ ํ์ฅ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ฝ๋ค. ์๋ํ๋ฉด Beta-Binomial ๋ชจ๋ธ์ ๋ํด์๋ Chapter3์์ ์ด๋ฏธ ์ถฉ๋ถํ ๋ค๋ฃจ์๊ธฐ ๋๋ฌธ์ด๋ค.
ํน์ ๊ถ๊ธํ ์ ์ด๋ ์๋ชป๋ ๋ด์ฉ์ด ์๋ค๋ฉด, ๋๊ธ๋ก ์๋ ค์ฃผ์๋ฉด ์ ๊ทน ๋ฐ์ํ๋๋ก ํ๊ฒ ์ต๋๋ค.