2022/05/27~2022/06/02 - Githubissues

5. 서포트 벡터 머신

SVM은 선형 또는 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 모델

5.1 선형 SVM 분류

(왼쪽) 그래프에서 점선이 아닌 두 실선은 클래스를 적절하게 분류, 하지만 결정 경계가 샘플에 너무 가까워서 새로운 샘플에 대해서는 잘 작동하지 않을 것

(오른쪽) 그래프에서 실선은 SVM의 결정 경계로, 두 클래스를 나눌 뿐만 아니라 제일 가까운 훈련 샘플로부터 가능한 한 멀리 떨어짐, 라지 마진 분류

붉은 동그라미로 표시된 도로 경계에 위치한 샘플에 전적으로 결정되고, 이 샘플을 서포트 벡터 라고 함

5.1.1 소프트 마진 분류

위의 그림처럼 모든 샘플이 경계 바깥쪽에 완벽히 분류된다면 하드 마진 분류

하지만, 하드 마진 분류는 1. 데이터가 선형적으로 구분될 수 있을 때 제대로 작동 2. 이상치에 민감

아래와 같은 경우에는 하드 마진을 찾을 수 없음

그래서 조금 더 유연한 모델 필요

경계 사이의 폭을 가능한 넓게 유지하는 것과 마진 오류(잘못 분류된 것) 사이에 적절한 균형을 잡는 것, 소프트 마진 분류

SVM에 하이퍼파라미터 C는 잘못 분류된 마진 오류에 대한 Cost

왼쪽은 C가 작아서 마진 내로 잘못 분류된 서포트 벡터가 있더라도 용인이 많이 되어 마진 폭이 큼, 오른쪽은 C가 커서 마진 내로 잘못 분류된 서포트 벡터가 있다면 높은 비용이 따르므로 마진 폭이 좁음

SVM이 과대적합이라면 C를 감소시켜 모델을 규제할 수 있음

선형 SVM 훈련을 위해 다음 세 가지 방법


LinearSVC(C=1, loss="hinge")
SVC(kernel="linear", C=1) # 데이터셋이 크면 속도가 매우 느리기 때문체 추천은 하지 않음
SGDClassifier(loss="hinge", alpha=1/(m*C)) # LinearSVC보다 수렴은 느리나 메모리보다 크기가 큰 데이터셋을 다룰 때는 유용

5.2 비선형 SVM 분류

비선형 데이터셋을 다루는 한 가지 방법은 다항 특성과 같은 특성을 더 추가하는 것. 이렇게 하면 선형적으로 구분되는 데이터셋이 만들어질 수 있음


from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

X, y = make_moons(n_samples=100, noise=0.15) polynomial_svm_clf = Pipeline([ ("poly_features", PolynomialFeatures(degree=3)), ("scaler", StandaradScaler()), ("svm_clf", LinearSVC(C=10, loss="hinge")) ])

polynomial_svm_clf.fit(X, y)

![image](https://user-images.githubusercontent.com/26505830/171621524-502318d7-8b84-410e-8f8b-11e686c2b321.png) ### 5.2.1 다항식 커널 - 다항식 특성을 추가하는 것은 간단하고 모든 머신러닝 알고리즘에서 잘 작동함 - 하지만 낮은 차수의 다항식은 매우 복잡한 데이터셋을 잘 표현하지 못하고, 높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모델을 느리게 만듦 - SVM의 경우 커널트릭을 사용해 실제로는 특성을 추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을 수 있음 - 모델이 과대적합이라면 다항식 차수를 줄여야하고, 과소적합이라면 차수를 늘려야 함 - coef0는 모델이 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절 ```python from sklearn.svm import SVC poly_kernel_svm_clf = Pipeline([ ("scaler", StandardScaler()), ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5)) ]) poly_kernel_svm_clf.fit(X,y)

4.6.4 소프트맥스 회귀

소프트맥스 회귀 (다항 로지스틱 회귀): 로지스틱 회귀 모델을 여러 개의 이진 분류기를 훈련시켜 연결하지 않고 직접 다중 클래스를 지원화하도록 일반화한 것
- 샘플 x가 주어지면 소프트맥스 회귀 모델이 각 클래스 k에 대한 점수 sk(x)를 계산
- 그 점수에 소프트맥스 함수를 적용하여 각 클래스의 확률을 추정
- sk(x)를 계산하는 식 (식 4-19)
- 각 클래스는 자신만의 파라미터 벡터가 있으며, 이 벡터들은 파라미터 행렬에 행으로 저장됨
- 소프트맥스 함수는 각 점수에 지수함수를 적용한 후 정규화함 (식 4-20)
- 추정 확률이 가장 높은 클래스를 선택 (가장 높은 점수를 가진 클래스) (식 4-21)
훈련 방법
- 모델이 타깃 클래스에 대해서 높은 확률을 추정하도록 만드는 것이 목적
- 크로스 엔트로피 비용 함수를 최소화하는 것은 이 목적에 부합함
- 크로스 엔트로피는 추정된 클래스의 확률이 타깃 클래스에 얼마나 잘 맞는지 측정하는 용도로 종종 사용됨
- 크로스 엔트로피 비용함수 (식 4-22)
- 딱 두 개의 클래스가 있을 때 이 비용함수는 로지스틱 회귀의 비용함수와 같음
- 크로스 엔트로피
- 정보 이론에서 유래
- 8가지 정보 (맑음, 비 등)이 있는 경우 이 선택 사항을 3비트를 사용해 인코딩할 수 있지만, 대부분의 날이 맑음이라면 '맑음'을 1비트로, 다른 7개의 선택사항을 4비트로 표현하는 것이 효율적
- 크로스 엔트로피는 선택 사항마다 전송한 평균 비트 수를 측정함
- 날씨에 대한 가정이 완벽하면 크로스 엔트로피는 날씨 자체의 엔트로피와 동일함
- 가정이 틀렸다면 크로스 엔트로피는 쿨백-라이블러 발산이라 불리는 양만큼 커질 것
- 비용함수의 그레이디언트 벡터 (식 4-23)
- 각 클래스에 대한 그레이디언트 벡터 계산 > 비용함수를 최소화하기 위한 파라미터 행렬을 찾기 위해 경사하강법 사용
예시 코드 (붓꽃을 세 개의 클래스로 분류)
- LogisticRegression에서 multi_class 매개변수를 multinomial로 바꿔주면 클래스가 일대다 (OvA) 전략이 아닌 소프트맥스 회귀를 사용할 수 있음
- solver 매개변수에 "lbfgs"와 같이 소프ㅡ맥스 회귀를 지원하는 알고리즘을 지정해야 함
- 기본적으로 하이퍼파리미터 C를 사용하여 조절할 수 있는 l2 규제가 적용됨
```
X = iris["data"][:, (2, 3)]  # 꽃잎 길이, 꽃잎 너비
y = iris["target"]
```

softmax_reg = LogisticRegression(multi_class="multinomial", solver="lbfgs", C=10) softmax_reg.fit(X, y)

- 꽃잎 길이 5, 너비 2인 붓꽃의 경우 94.2%의 확률로 Iris-Virginica (클래스2)라고 출력함
```python
>>> softmax_reg.predict([[5, 2]])
array([2])
>>> softmax_Reg.predict_proba([[5, 2]])
array([[6.38014896e-09, 5.74929995e-01, 9.42506362e-01]])

그림
- 만들어진 결정 경계를 배경색으로 구분하여 나타냄
- 클래스 사이의 결정 경계가 모두 선형
- Iris-Versicolor 클래스에 대한 확률을 곡선으로 나타냈음
- 이 모델은 추정 확률 50% 이하인 클래스를 예측할 수도 있음 (모든 결정 경계가 만나는 지점에서는 모든 클래스가 동일하게 33%의 추정 확률을 가짐)

njs03332 / ml_study

2022/05/27~2022/06/02 #30

5. 서포트 벡터 머신

5.1 선형 SVM 분류

5.1.1 소프트 마진 분류

5.2 비선형 SVM 분류

4.6.4 소프트맥스 회귀