2022/04/07~2022/04/14 - Githubissues

njs03332 commented 2 years ago

~4/14 목 10:00 PM~ 4/21 목 PM 10:00

danbi5228 commented 2 years ago

3.5 에러분석

모델의 성능을 향상시킬 한 가지 방법은 만들어진 에러의 종류를 분석하는 것

오차 행렬

y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3) # 예측 만들기
conf_mx = confusion_matrix(y_train, y_train_pred) # 오차 행렬 생성

# 오차행렬을 이미지로 표현
plt.matshow(conf_mx, cmap=plt.cm.gray) # 숫자가 높을수록(분류를 잘할 수록) 흰색에 가까움
plt.show()

p.149 (ebook 기준) 오른쪽 하단 이미지 기준, 숫자 5가 다른 숫자들 보다 좀 더 어두움 -> 데이터셋에 숫자 5의 이미지가 적거나 분류기가 숫자 5를 다른 숫자만큼 잘 분류하지 못함
에러 비율 비교
- 오차 행렬의 각 값을 대응되는 클래스의 이미지 개수로 나누어 (에러의 절대 개수가 아니라) 에러비율을 비교
- 개수로 비교하면 이미지가 많은 클래스가 상대적으로 나쁘게 보임
```
row_sums = conf_mx.sum(axis=1, keepdims=True)
norm_conf_mx = conf_mx / row_sums
```

np.fill_diagonal(norm_conf_mx, 0) # 주 대각선 0으로 채우기 (처음 보는 함수! 싱기) plt.matshow(norm_conf_mx, cmap=plt.cm.gray) # 행: 실제, 열: 예측 plt.show()


- p.150 (ebook 기준) 중단 이미지 기준 오차행렬 분석
  - 클래스 8열이 다른 열에 비해 밝다 : 많은 이미지가 8로 잘못 분류됨
  - 클래스 8행은 많이 밝지 않음 : 실제 8은 적절히 8로 분류됨
  - (3,5) 와 (5,3) 이 밝음: 3과 5가 서로 많이 혼동되고 있음
  - 오차 행렬은 반드시 대칭은 아님
- 분류기 성능 향상 방안 - 8로 잘못 분류되는 것을 줄이도록 개선
  - 방안 1. 8처럼 보이는, 하지만 실제 8은 아닌 숫자의 훈련 데이터를 더 많이 모아서 실제 8과 구분하도록 분류기를 학습
  - 방안 2. 분류기에 도움 될 만한 특성을 더 찾아볼 것 (ex. 동심원의 수를 세는 알고리즘)
  - 방안 3. 동심원 같은 어떤 패턴이 드러나도록 scikit-image, pillow, openCV 등을 사용해서 이미지를 전처리
- 개개의 에러를 분석해보면 분류기가 무슨 일을 하고, 왜 잘못되었는지에 대해 통찰을 얻을 수 있지만 더 어렵고 시간이 오래 걸림
- 3과 5의 샘플을 확인해본 결과 일부는 정말 잘못쓰여있지만, 대부분은 분류기 에러로 보임
  - 원인은 선형 모델인 SGDClassifier를 사용했기 때문
  - 선형 분류기는 클래스마다 픽셀에 가중치를 할당하고 새로운 이미지에 대해 단순히 픽셀 강도의 가중치 합을 클래스의 점수로 계산
  -> 3과 5는 몇 개의 픽셀만 다르기 때문에 모델이 쉽게 혼동
- 분류기가 이미지 위치나 회전 방향에 매우 민감하므로
이미지를 중앙에 위치시키기고 회전되어있지 않도록 전처리하면 에러가 감소할 것으로 예상됨

givitallugot commented 2 years ago

3.6 다중 레이블 분류

다중 레이블 분류

다중 레이블 분류 (분류기가 샘플마다 하나의 클래스에 할당되는게 아니라 여러 개의 클래스를 출력)
KNeighborsClassifier(): 다중 레이블 분류를 지원
모든 분류기가 다중 레이블 분류를 지원하는 것은 아님

from sklearn.neighbors import KNeighborsClassifier

y_train_large = (y_train >= 7) # [7,8,9] 레이블로 로 예측 ex [1, 0, 1]
y_train_odd = (y_train % 2 == 1) # 홀수인지 나타냄
y_multilabel = np.c_[y_train_large, y_train_odd]

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)

다중 레이블 분류기 평가

각 레이블의 F1 점수를 구하고 평균으로 계산, average="macro"
타겟 레이블에 속한 샘플 수(지지도)를 가중치로 둘 수 있음, average="weighted"로 설정

y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_multilabel, cv=3)
f1_score(y_multilabel, y_train_knn_pred, average="macro")

njs03332 commented 2 years ago

3.7 다중 출력 분류

다중 레이블 분류에서 한 레이블이 다중 클래스가 될 수 있도록 일반화한 것
예: 이미지에서 잡음을 제거하는 시스템
- 입력: 잡음이 많은 숫자 이미지
- 출력: 깨끗한 숫자 이미지
- 입출력 형태: 픽셀의 강도를 담은 배열
- 출력이 픽셀당 한 레이블이므로 다중 레이블, 각 레이블이 값을 여러개 가지므로 다중 클래스
note: 때때로 분류와 회귀 사이의 경계가 모호한 경우가 있음 (위 예시처럼)
- 샘플마다 클래스와 값을 모두 포함하는 다중 레이블을 출력하는 시스템도 가능함

코드 예시: randint() 함수를 이용하여 픽셀 강도에 잡음 추가 후 분류기를 훈련시켜 이미지를 깨끗하게 만듦


noise = np.random.randint(0, 100, (len(X_train), 784))
X_train_mod = X_train + noise
noise = np.random.randint(0, 100, (len(X_test), 784))
X_test_mod = X_test + noise
y_train_mod = X_train
y_test_mod = X_test

knn_clf.fit(X_train_mod, y_train_mod) clean_digit = knn_clf.predict([X_test_mod[some_index]]) plot_digit(clean_digit)

njs03332 / ml_study