[Python] P-value, VIF 확인하기 (회귀분석)

2018. 6. 14. 03:06

해당 데이터는 1990년 캘리포니아 주택 가격 데이터입니다.

Hands-on Machine Learning Chapter 2를 참고하였습니다.

*전체 코드 확인 및 copy가 필요하신 분들은 제 커널 페이지에 가시면 됩니다

전체적인 데이터 정보는 위와 같습니다

우선 P-value부터 확인해 보겠습니다.

필요한 라이브러리 및 모듈을 임포트 해줍니다.

features에는 housing data에 있는 칼럼명들을 + 구분자로 저장합니다.

위와 같이 result 변수에 해당 값을 저장한 후, print해 줍니다.

위 설명에 나와있는 것처럼, multicollinearity가 의심된다고 합니다.

P-value가 0.5가 넘을 경우, 다중공산성을 의심해봐야 하기때문에 total_bedrooms 칼럼을 드랍하였습니다.

VIF를 확인해 보겠습니다. 과정은 위와 흡사합니다.

VIF값이 10이 넘을 경우 다중공산성을 의심해볼 필요가 있습니다.

다만 무조건적으로 feature를 drop하는 것이 아닌, drop 전 후 RMSE값의 변화를 체크해보셔야 합니다.

[Python] ANN 인공신경망의 정의 및 예시 코드(텐서플로우) (2) (0)	2018.06.24
[Python] ANN 인공신경망의 정의 및 예시 코드(텐서플로우) (1) (0)	2018.06.24
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (4) (2)	2018.05.23
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (3) (0)	2018.05.23
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (2) (0)	2018.05.23

nonameyet