Open lIms0 opened 1 year ago
k-nn 알고리즘은 일반적으로 유클리드 계산법을 사용
두 점 사이의 거리를 계산하는 기법
2차원에 있는 점 a와 b 사이의 거리를 구하는 공식
n차원에서의 두 점 사이의 거리 구하는 공식
k-nn 알고리즘 내부의 거리 측정 방법으로 사용됨
유클리드 거리와의 차이: 각 차원의 차를 제곱해서 사용하는 게 아니라 절대값을 바로 합산
초록색 직선 > 유클리드 거리 (검은색 두 점 사이의 최단거리)
빨간색, 파란색, 노란색 > 맨해튼 거리(세 선의 총 거리가 동일함)
2차원에서 점 a와 b 사이의 맨해튼
맨해튼 거리는 항상 유클리드 거리보다 크거나 같다
n차원에서의 두 점 사이의 맨해튼
데이터의 범위를 임의로 조정하는 것
데이터 분포의 모양은 변하지 않고 기존 데이터와 동일한 비율을 유지한 채 범위를 조정
사용 목적
대표적인 기법
최소값은 0, 최대 값은 1
모든 데이터가 [0, 1] 범위 안에 들어가도록 조절하는 기법
Min Max normalization, Rescaling, 최소 최대 정규화, Scaling, Normalization이라고도 불림
데이터를 평균 0, 표준편차 1인 표준정규분포로 만들어 주는 기법
Z-Score Normalization, 표준화, 일반화, Z-Score 정규화라고도 불림
평균으로 구한 분포의 표준 편차를 1로 맞추기 위해 데이터를 바꾸는 것
각 feature 간의 상대적 거리를 왜곡시킬 수 있는 점을 고려하여야 함
사용 목적
가중치를 조정할 때 추가적인 제약을 주는 것
사용 목적
대표적인 기법
모든 데이터셋을 훈련에 활용할 수 있음
모든 데이터셋을 평가에 활용할 수 있음
p.14
p.17
p.24~26
p.27
++ 군집화 파트에서 분류 / 군집 다시 정리하기
++ 코드 볼 때 라이브러리 사이트 봐 보기 http://scikit-learn.org/