해당 대회는 캐글의 Iowa 부동산 데이터를 바탕으로 집값을 예측하는 모델을 만든 것입니다

대회 링크: https://www.kaggle.com/c/house-prices-advanced-regression-techniques


*코드 복붙이 필요하신 분들은 제 커널 페이지에 가시면 됩니다


순서는 아래와 같습니다.


Step 1.

Data Explore


Step 2. 

Feature Engineering


Step 3. 

Modeling





오늘은 Rattle을 사용한 기계학습을 통한 알고리즘을 구현해볼 것이다.

말은 복잡하지만 지금까지 라이브러리를 통해 구현한 SVM, neuralnet, decision tree 등 다양한 학습 알고리즘을

GUI로 작동하는 프로그램으로 구현하는 것이다.



rattle 패키지를 설치하고 실행한다.



요런 창이 뜬다. 상당히 직관적이여서 쉽게 사용할 수 있지만 간단히 몇가지 실습을 진행해 보겠다.

오늘 실습할 데이터는 KNN 구현때 사용했던 유방암 진단 데이터를 사용할 것이다 (클릭시 이동).



cancer 데이터는 이런식으로 되어있는데, 숫자의 편차가 크기때문에 정규화를 진행해 보도록 하겠다.



정규화할 칼럼을 선택한 후, 위에 실행을 눌러준다 



스크롤을 내려보면 R01_로 시작하는 정규화된 칼럼들이 추가되었을 것이다. 이제 정규화 된 칼럼들을 제외한 나머지 칼럼들을

삭제해보도록 하자. 위에 클린업을 체크하고 실행을 눌러준다. 



아래와 같은 메세지가 뜬다면 성공이다.


이제 이렇게 전처리된 데이터를 활용하여 의사결정트리를 만들어 보겠다.

방법은 아래와 같다. 



실행을 누른 후, 오른쪽 Draw를 누르면 R스튜디오 플럿 창에 아래와 같은 그림이 나온다.

.


의사결정트리에 대해 알고싶다면 이전 포스팅 으로 가보자.



이렇게 의사결정트리 구현을 마무리 하였으면, 이 결과를 평가하고 csv파일로 저장할 것이다.


전체 에러 4.7%로 비교적 준수한 결과를 보여주고 있다.



Score 선택후 실행을 눌러서 CSV파일을 저장할 수 있다.



CSV파일을 열어보면 왼쪽이 진짜 진단결과고, 오른쪽이 의사결정트리를 통한 예측 결과인 것을 알 수 있다.


이를 응용하여 SVM, neuralnet 등 다양한 알고리즘을 구현할 수 있다.

참고로 Log를 보면 구현 결과를 R언어로 다시 한번 볼 수 있으니 참고해도 좋다.




+ Recent posts