K-means Clustering에 대한 설명은 위 영상을 참고하면 된다.

간단히 설명하면 K개의 센트로이드를 기준으로 클러스터링을 진행하여 K개의 집단을 만든다는 것이다.

Clustering은 비지도 학습중 하나로 데이터에 대한 라벨링이 없을 때  대략적인 패턴 및 클래스를 파악하기 위하여 진행한다. 

(만약 라벨링이 되어 있으면 SVM등의 classification을 사용한다)


오늘도 사이키 런 라이브러리를 사용한다.

데이터를 임의로 부여한다



이차원 공간에 시각화한 결과 그래프



클러스터링을 진행한다.

kmeans.labels_ 는 각 데이터가 어떤 클러스터에 속하는지 그 결과를 표현한다

이를 cluster_id라는 칼럼에 표시하여 추가해준다.


결과물을 시각화한 결과.



Reference:

https://www.youtube.com/channel/UCxP77kNgVfiiG6CXZ5WMuAQ

+ Recent posts