데이터분석/with Python
[Python] P-value, VIF 확인하기 (회귀분석)
nonameyet
2018. 6. 14. 03:06
해당 데이터는 1990년 캘리포니아 주택 가격 데이터입니다.
Hands-on Machine Learning Chapter 2를 참고하였습니다.
*전체 코드 확인 및 copy가 필요하신 분들은 제 커널 페이지에 가시면 됩니다
전체적인 데이터 정보는 위와 같습니다
우선 P-value부터 확인해 보겠습니다.
필요한 라이브러리 및 모듈을 임포트 해줍니다.
features에는 housing data에 있는 칼럼명들을 + 구분자로 저장합니다.
위와 같이 result 변수에 해당 값을 저장한 후, print해 줍니다.
위 설명에 나와있는 것처럼, multicollinearity가 의심된다고 합니다.
P-value가 0.5가 넘을 경우, 다중공산성을 의심해봐야 하기때문에 total_bedrooms 칼럼을 드랍하였습니다.
VIF를 확인해 보겠습니다. 과정은 위와 흡사합니다.
VIF값이 10이 넘을 경우 다중공산성을 의심해볼 필요가 있습니다.
다만 무조건적으로 feature를 drop하는 것이 아닌, drop 전 후 RMSE값의 변화를 체크해보셔야 합니다.