해당 데이터는 1990년 캘리포니아 주택 가격 데이터입니다.
Hands-on Machine Learning Chapter 2를 참고하였습니다.
*전체 코드 확인 및 copy가 필요하신 분들은 제 커널 페이지에 가시면 됩니다
전체적인 데이터 정보는 위와 같습니다
우선 P-value부터 확인해 보겠습니다.
필요한 라이브러리 및 모듈을 임포트 해줍니다.
features에는 housing data에 있는 칼럼명들을 + 구분자로 저장합니다.
위와 같이 result 변수에 해당 값을 저장한 후, print해 줍니다.
위 설명에 나와있는 것처럼, multicollinearity가 의심된다고 합니다.
P-value가 0.5가 넘을 경우, 다중공산성을 의심해봐야 하기때문에 total_bedrooms 칼럼을 드랍하였습니다.
VIF를 확인해 보겠습니다. 과정은 위와 흡사합니다.
VIF값이 10이 넘을 경우 다중공산성을 의심해볼 필요가 있습니다.
다만 무조건적으로 feature를 drop하는 것이 아닌, drop 전 후 RMSE값의 변화를 체크해보셔야 합니다.
'데이터분석 > with Python' 카테고리의 다른 글
[Python] ANN 인공신경망의 정의 및 예시 코드(텐서플로우) (2) (0) | 2018.06.24 |
---|---|
[Python] ANN 인공신경망의 정의 및 예시 코드(텐서플로우) (1) (0) | 2018.06.24 |
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (4) (2) | 2018.05.23 |
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (3) (0) | 2018.05.23 |
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (2) (0) | 2018.05.23 |