LOOKatKimhyein / study_ML

study with papers. ML
0 stars 1 forks source link

Unsupervised learning #3

Open LOOKatKimhyein opened 4 years ago

LOOKatKimhyein commented 4 years ago

Unsupervised learning

y label 이 존재하지 않은 data의 clustering image

Clustering is the process of dividing the entire data into groups(also known as clusters) based on the patterns in the data

Clustering Types

[https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/]

(image`)

LOOKatKimhyein commented 4 years ago

3

1) K-means Clustering

image

1) cluster 갯수인 K를 설정한다 2) data중에서 k개의 중심점을 random으로 선택한다. image

3) 각 cluster의 중심점에 가까운 쪽으로 data들을 할당한다 이 과정을 Expectaion STEP으로 칭하기도 한다

image

4) 생성된 cluster의 중심점으로 재설정한다 이 과정을 Maximization STEP으로 칭하기도 한다

image

5) 4)에서 재설정된 중심점을 기준으로 재 군집화(3,4번 과정을 반복) image

언제까지 반복하여 중심을 찾아 clustering 하는가?

https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/

K-means clustering의 단점

=> 위 문제들은 cluster를 3개보다 더 늘릴 경우, 문제점이 해소될 수 있다.

K-means ++

1) data에서 첫번째 중심점만 random 선택 image

2) initial centroid 와 각 data point간의 거리 계산 D(x) 3) D(x)의 제곱값이 가장 큰 data point를 다음 중심점으로 선택 image

4) data point들은 가까운 중심점과의 거리를 재계산하여 제곱값이 가장 큰 점을 다음 중심점으로 선택

image

출처 https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/

적정 군집 수 결정하는 방법 "elbow curve"

image