ESC 2021 SPRING Final Project
- 분석기간: 2021 May ~ 2021 June
- 연세대학교 통계학회 ESC 2021년 봄학기에 진행한 파이널 프로젝트 내용이다. 베이지안 회귀분석 코딩 파트를 맡았다.
My Role
- 베이지안 회귀분석 코딩
- BMA(Bayesian Model Averaging)을 통해 최종 변수 선택
conditional probability,g-prior,BMA과정을 모두 직접 코딩하였다.
- 명목형 변수 전처리
- 심리학 논문에서 접한 Platt’s Probability 개념 활용
What I Have Learned
- 타겟 변수 변경
- 낙찰가(Hammer_price)가 타겟 변수였는데, 아파트마다 가격 편차가 크고 최저경매액(경매 시작 금액)이라는 변수와 큰 상관관계가 있어서 다른 변수의 설명력을 다 잡아먹는 문제가 있었다.
- 그래서 낙찰가를 최저경매액으로 나눈 ‘최저경매액 대비 상승률(y2)‘를 타겟 변수로 변경하여 예측 task에 활용하였다.
- 그 결과, 성능이 크게 향상되었다.
- 타겟 변수를 유의미하게 처리한 후 예측을 시도한 첫 번째 프로젝트여서 개인적으로 큰 배움을 얻을 수 있었다.
- Platt’s Probability
- 흔하게 사용되는
One-hot Encoding이나, CatBoost에서 활용하는Greedy target statistics가 아닌 새로운 방법을 시도해보았다는 데에 의의가 있다. - 추후 다양한 데이터에 적용해봄으로써 명목형 변수를 전처리하는 법에 대해서 연구해보고자 한다.
- Bayesian Linear Regression
- 빈도주의자 관점에서 MSE를 최소화하는 최적의
$\beta$를 찾는 것이 아니라, 베이지안 관점에서$\beta$가 fixed value가 아니라 분포를 갖는 모수로서 보고 최적의 값을 찾아나가는 코딩을 할 수 있었다. - 해당 과정을 R이 아니라 python으로 함에 따라,
conditional probability,g-prior,BMA과정을 모두 직접 코딩하면서 python 코딩 실력도 적당히 향상시킬 수 있었다.
Presentation