해당 데이터는 1990년 캘리포니아 주택 가격 데이터입니다.

Hands-on Machine Learning Chapter 2를 참고하였습니다.


*전체 코드 확인 및 copy가 필요하신 분들은 제 커널 페이지에 가시면 됩니다


전체적인 데이터 정보는 위와 같습니다



우선 P-value부터 확인해 보겠습니다.

필요한 라이브러리 및 모듈을 임포트 해줍니다.

features에는 housing data에 있는 칼럼명들을 + 구분자로 저장합니다.



위와 같이 result 변수에 해당 값을 저장한 후, print해 줍니다.





위 설명에 나와있는 것처럼, multicollinearity가 의심된다고 합니다.

P-value가 0.5가 넘을 경우, 다중공산성을 의심해봐야 하기때문에 total_bedrooms 칼럼을 드랍하였습니다.



VIF를 확인해 보겠습니다. 과정은 위와 흡사합니다.




VIF값이 10이 넘을 경우 다중공산성을 의심해볼 필요가 있습니다.

다만 무조건적으로 feature를 drop하는 것이 아닌, drop 전 후 RMSE값의 변화를 체크해보셔야 합니다.





+ Recent posts