K-means Clustering에 대한 설명은 위 영상을 참고하면 된다.
간단히 설명하면 K개의 센트로이드를 기준으로 클러스터링을 진행하여 K개의 집단을 만든다는 것이다.
Clustering은 비지도 학습중 하나로 데이터에 대한 라벨링이 없을 때 대략적인 패턴 및 클래스를 파악하기 위하여 진행한다.
(만약 라벨링이 되어 있으면 SVM등의 classification을 사용한다)
오늘도 사이키 런 라이브러리를 사용한다.
데이터를 임의로 부여한다
이차원 공간에 시각화한 결과 그래프
클러스터링을 진행한다.
kmeans.labels_ 는 각 데이터가 어떤 클러스터에 속하는지 그 결과를 표현한다
이를 cluster_id라는 칼럼에 표시하여 추가해준다.
결과물을 시각화한 결과.
Reference:
https://www.youtube.com/channel/UCxP77kNgVfiiG6CXZ5WMuAQ
'데이터분석 > with Python' 카테고리의 다른 글
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (2) (0) | 2018.05.23 |
---|---|
[Python] 집값 예측 모델 만들기 (캐글 House Prices: Regression ) (1) (0) | 2018.05.23 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (4) (0) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (3) (0) | 2018.05.01 |
[Python] 타이타닉 생존자 예측모델 만들기 (Kaggle 캐글 튜토리얼) (2) (3) | 2018.05.01 |