Intro

오늘 포스팅에서 다룰 주제는 Seaborn 라이브리러를 활용한 데이터 시각화 튜토리얼입니다.

해당 라이브러리에 대한 자료는 아리 링크에서 확인하실수 있습니다.

  • http://seaborn.pydata.org/index.html

참고자료

  • http://seaborn.pydata.org/tutorial.html (공식 홈페이지 튜토리얼)

  • https://datascienceschool.net/view-notebook/4c2d5ff1caab4b21a708cc662137bc65/


Scatter plot 산포도

replot()는 아래와 같은 경우에 사용할 수 있습니다

  • 분석하고자 하는 데이터가 모두 numeric 실수 값인 경우데이터가 2차원이고 모두 연속적인 실수값


  • 라이브러리 import 및 데이터셋 확인


  • 기본적인 scatterplot 형태 - x축과 y축을 인자로 지정가능
  • total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능


  • 카테고리형 데이터가 섞여 있는 경우에는 hue 파라미터에 카테고리 변수 이름을 지정한다
  • 이를 통해 카테고리 값에 따라 색상을 다르게 할 수 있다
  • smoker 여부에 따라 total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능

  • style 파라미터를 통해 모양을 다르게 줄 수 있다


  • hue에는 numeric data 실수형 데이터도 줄 수 있다 
  • 이 때, 점의 색 혹은 크기로 hue 표시
  • size 크기에 따라 total_bills에 따라 tip이 얼마나 분포되어 있는지 확인가능


  • 점(scatter)의 크기로 hue를 설정할수 있다.


  • 분석하고자 하는 데이터가 categorical 이라면 아래와 같은 함수를 이용할 수 있다 

  • 라이브러리 import 및 데이터셋 확인

  • 기본적인 scatterplot 형태 - x축과 y축을 인자로 지정가능
  • 요일에 따라 total_bills가 어떻게 분포되어 있는지 확인 가능 


  • jitter 파라미터를 활용해 데이터 분포 출력 방법을 조절할 수 있음(위 그림과 비교)

  • scatterplot과 마찬가지로 hue로 categoril 변수를 줄 수 있으며 다른 색으로 구분 가능 


  • kind="swarm" 파라미터를 활용해 데이터 분포 출력 방법을 조절할 수 있음(위 그림과 비교)



  • smoker에 따라 tip을 얼마나 주는지 표시 - smoker은 yes/no 두 개 output으로만 구분되는 변수이다.


+ Recent posts