지난 포스팅에 이어서 전처리를 마무리해 보겠다.
Embarked 칼럼부터 시작한다.
Cabin에 대해서 좀 더 보충해서 설명하자면, Cabin은 객실을 뜻하는 것인데 알파뱃과 숫자의 조합으로 이루어진다.
여기서 숫자까지 분류를 하기에는 조금 무리가 있기 때문에, 우리는 제일 앞에 있는 알파벳만 추출하여 연관성을 보기 위해
시각화를 진행한 것이다.
기존에 SibSP 랑 Parch 두 개로 나누어져있던 칼럼을 Familysize 하나로 합친다
그리고 해당 두 칼럼을 drop한다.
이제 전처리를 마무리하였고, 모델 학습을 진행해 보겠다.
*코드 복붙이 필요하신분은 제 캐글 커널페이지에서 하실 수 있습니다.
'데이터분석 > with Python' 카테고리의 다른 글
[Python] K-means clustering 구현 (0) | 2018.05.02 |
---|---|
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (4) (0) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (2) (3) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (1) (0) | 2018.05.01 |
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (2) (0) | 2018.04.15 |