저번 포스팅에 이어 데이터 전처리를 진행해보도록 하겠다.
본문에도 써놨지만 이렇게 전처리를 하는 가장 큰 이유들은
1. 머신러닝 알고리즘은 텍스트를 읽을수 없는 경우가 많음
2. Scale이 클경우 제대로 된 모델 학습이 힘듬
이 두 가지로 요약할 수 있다.
사진을 클릭하면 더 큰 원본 사이즈로 볼 수 있다.
아래 데이터들과 코드를 함께 보자.
화면에 첨부한 웹사이트 주소는 https://regexr.com/ 이며, 해당 홈페이지에서 정규표현식의 시각화를 해주니
쉽게 이해할 수 있다.
Name에 대한 전처리를 끝냈다. 이제 성별로 넘어가보자.
성별도 매핑작업을 해준다
Age는 Nan값을 해당 그룹이 속하는 Median값으로 대체해준다.
중앙부분 코드 참고
Age를 Binning하는 코드이다. 설명은 중앙에 있으며 그냥 C언어나 Java시간에 한 점수대별 학점 부여하는
Switch문이나 if else문 생각하면 편하다.
bar chart를 그리면 다음과 같으며, 마지막 그룹에 속하는 사람들은 거의 생존하지 못한 상황을 보여주고 있다.
다음 포스팅에 이어서 전처리를 마무리 하겠다
*코드 복붙이 필요하신분은 제 캐글 커널페이지에서 하실 수 있습니다.
'데이터분석 > with Python' 카테고리의 다른 글
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (4) (0) | 2018.05.01 |
---|---|
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (3) (0) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (1) (0) | 2018.05.01 |
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (2) (0) | 2018.04.15 |
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (1) (0) | 2018.04.15 |