[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (2)

2018. 5. 1. 02:20

저번 포스팅에 이어 데이터 전처리를 진행해보도록 하겠다.

본문에도 써놨지만 이렇게 전처리를 하는 가장 큰 이유들은

1. 머신러닝 알고리즘은 텍스트를 읽을수 없는 경우가 많음

2. Scale이 클경우 제대로 된 모델 학습이 힘듬

이 두 가지로 요약할 수 있다.

사진을 클릭하면 더 큰 원본 사이즈로 볼 수 있다.

아래 데이터들과 코드를 함께 보자.

화면에 첨부한 웹사이트 주소는 https://regexr.com/ 이며, 해당 홈페이지에서 정규표현식의 시각화를 해주니

쉽게 이해할 수 있다.

Name에 대한 전처리를 끝냈다. 이제 성별로 넘어가보자.

성별도 매핑작업을 해준다

Age는 Nan값을 해당 그룹이 속하는 Median값으로 대체해준다.

중앙부분 코드 참고

Age를 Binning하는 코드이다. 설명은 중앙에 있으며 그냥 C언어나 Java시간에 한 점수대별 학점 부여하는

Switch문이나 if else문 생각하면 편하다.

bar chart를 그리면 다음과 같으며, 마지막 그룹에 속하는 사람들은 거의 생존하지 못한 상황을 보여주고 있다.

다음 포스팅에 이어서 전처리를 마무리 하겠다

*코드 복붙이 필요하신분은 제 캐글 커널페이지에서 하실 수 있습니다.

[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (4) (0)	2018.05.01
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (3) (0)	2018.05.01
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (1) (0)	2018.05.01
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (2) (0)	2018.04.15
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (1) (0)	2018.04.15

nonameyet