Intro
오늘 포스팅에서 다룰 주제는 Seaborn 라이브리러를 활용한 데이터 시각화 튜토리얼입니다.
해당 라이브러리에 대한 자료는 아리 링크에서 확인하실수 있습니다.
http://seaborn.pydata.org/index.html
참고자료
http://seaborn.pydata.org/tutorial.html (공식 홈페이지 튜토리얼)
https://datascienceschool.net/view-notebook/4c2d5ff1caab4b21a708cc662137bc65/
Scatter plot 산포도
replot()는 아래와 같은 경우에 사용할 수 있습니다
- 분석하고자 하는 데이터가 모두 numeric 실수 값인 경우 = 데이터가 2차원이고 모두 연속적인 실수값
- 라이브러리 import 및 데이터셋 확인
- 기본적인 scatterplot 형태 - x축과 y축을 인자로 지정가능
- total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능
- 카테고리형 데이터가 섞여 있는 경우에는 hue 파라미터에 카테고리 변수 이름을 지정한다
- 이를 통해 카테고리 값에 따라 색상을 다르게 할 수 있다
- smoker 여부에 따라 total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능
- style 파라미터를 통해 모양을 다르게 줄 수 있다
- hue에는 numeric data 실수형 데이터도 줄 수 있다
- 이 때, 점의 색 혹은 크기로 hue 표시
- size 크기에 따라 total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능
- 점(scatter)의 크기로 hue를 설정할수 있다.
- 분석하고자 하는 데이터가 categorical 이라면 아래와 같은 함수를 이용할 수 있다
- 라이브러리 import 및 데이터셋 확인
- 기본적인 scatterplot 형태 - x축과 y축을 인자로 지정가능
- 요일에 따라 total_bills가 어떻게 분포되어 있는지 확인 가능
- jitter 파라미터를 활용해 데이터 분포 출력 방법을 조절할 수 있음(위 그림과 비교)
- scatterplot과 마찬가지로 hue로 categoril 변수를 줄 수 있으며 다른 색으로 구분 가능
- kind="swarm" 파라미터를 활용해 데이터 분포 출력 방법을 조절할 수 있음(위 그림과 비교)
- smoker에 따라 tip을 얼마나 주는지 표시 - smoker은 yes/no 두 개 output으로만 구분되는 변수이다.
'데이터분석 > with Python' 카테고리의 다른 글
Confusion matrix와 Precision, Recall, F1-score의 이해 (0) | 2018.12.13 |
---|---|
[Python] seaborn을 사용한 데이터 시각화 (2) (0) | 2018.08.19 |
[Python] fbprophet를 사용한 시계열 데이터 예측 (0) | 2018.07.29 |
Batch, Mini-Batch, SGD 정의와 설명 및 예시 (5) | 2018.07.22 |
[Python] Voting Classifiers(다수결 분류)의 정의와 구현 (0) | 2018.07.09 |