Open LOOKatKimhyein opened 4 years ago
1) cluster 갯수인 K를 설정한다 2) data중에서 k개의 중심점을 random으로 선택한다.
3) 각 cluster의 중심점에 가까운 쪽으로 data들을 할당한다 이 과정을 Expectaion STEP으로 칭하기도 한다
4) 생성된 cluster의 중심점으로 재설정한다 이 과정을 Maximization STEP으로 칭하기도 한다
5) 4)에서 재설정된 중심점을 기준으로 재 군집화(3,4번 과정을 반복)
언제까지 반복하여 중심을 찾아 clustering 하는가?
https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/
K-means clustering의 단점
군집 중심의 초기값에 따라 cluster가 달라질 수 있다 (-> K-Means++은 이를 보완하여 초기값을 선택할 수 있다)
군집의 크기가 다를 경우
군집의 밀도가 다를 경우
데이터 분포가 특이한 경우
=> 위 문제들은 cluster를 3개보다 더 늘릴 경우, 문제점이 해소될 수 있다.
1) data에서 첫번째 중심점만 random 선택
2) initial centroid 와 각 data point간의 거리 계산 D(x) 3) D(x)의 제곱값이 가장 큰 data point를 다음 중심점으로 선택
4) data point들은 가까운 중심점과의 거리를 재계산하여 제곱값이 가장 큰 점을 다음 중심점으로 선택
출처 https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/
Unsupervised learning
y label 이 존재하지 않은 data의 clustering
Clustering Types
[https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/]
(`)