지금까지 데이터 전처리를 진행하였다.
이제 K-fold cross validation을 써서 가장 좋은 정확도를 보이는 모델을 찾고,
해당 모델로 test set의 survived를 예측해 보겠다.
사이키 런 라이브러리를 통해 구현한다
kNN 구현 코드는 다음과 같다.
교차검증 결과 평균 정확도 82.6
의사결정나무 구현 코드는 다음과 같다
교차검증 결과 평균 정확도 79.58
랜덤포레스트 구현 코드는 다음과 같다
교차검증 결과 평균 정확도 80.81
나이브베이즈 구현 코드는 다음과 같다
교차검증 결과 평균 정확도 78.78
SVM 구현 코드는 다음과 같다
교차검증 결과 평균 정확도 83.5
*즉 SVM이 제일 정확도가 높기 때문에, Test Set을 SVM으로 예측한다.
Test set을 SVM으로 예측하고, 해당 결과물을 다시 csv로 저장한다 (to_csv 명령어)
SVM에 대한 설명은 여기 참고.
해당 결과물을 캐글에 제출하면 모델의 정확도를 측정해 주는데, 오늘 우리가 만든 모델의 정확도는..
'
정확도는 0.789고 이는 전체 제출 모델의 상위 31퍼.에 해당하는 성적이다.
Reference:
https://www.youtube.com/channel/UCxP77kNgVfiiG6CXZ5WMuAQ
http://scikit-learn.org/stable/index.html
*코드 복붙이 필요하신분은 제 캐글 커널페이지에서 하실 수 있습니다.
'데이터분석 > with Python' 카테고리의 다른 글
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (1) (0) | 2018.05.23 |
---|---|
[Python] K-means clustering 구현 (0) | 2018.05.02 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (3) (0) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (2) (3) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (1) (0) | 2018.05.01 |