머신러닝을 공부한다면 한번쯤은 들어봤을만한 케글.
케글에서는 튜토리얼용 대회로 타이타닉 생존자 예측 모형 만드는 대회를 제공하고 있다.
데이터 셋만 보면 만만해 보이지만 의외로 까다로워 적당한 난이도지만,
유명하기 때문에 이미 100퍼에 가까운 정확도를 가진 모형들의 커널이 공개되어 있기 떄문에,
그만큼 보면서 공부하기 좋다고 생각한다.
사진을 클릭하면 더 큰 원본 사이즈로 볼 수 있다.
이번 포스팅에서는 데이터 탐색 및 전처리에 대해 다루어보도록 하겠다.
판다스 라이브러리를 이용해 csv를 불러오고, 확인한다
참고로 Data Dictionary는 이렇다.
이제 데이터 시각화를 진행하여 데이터 셋에 대해 대략적인 이해를 해보겠다.
다음 포스팅에서 데이터 전처리를 이어서 해보도록 하겠다.
*코드 복붙이 필요하신분은 제 캐글 커널페이지에서 하실 수 있습니다.
'데이터분석 > with Python' 카테고리의 다른 글
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (3) (0) | 2018.05.01 |
---|---|
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (2) (3) | 2018.05.01 |
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (2) (0) | 2018.04.15 |
[Python] SVM 서포트 백터 머신의 정의 및 예시 코드(sklearn) (1) (0) | 2018.04.15 |
Stratified Sampling(층화추출법) 설명 (0) | 2018.04.03 |