2023/01/11 ~ 2023/01/20

givitallugot commented 1 year ago

2023/01/20 (금) pm 10:30 이후

1/17 (화) pm9:00 이후
1/20 (금) pm10:30 이후

11.1.4 ~ 11.2 (11.2.1 전까지)
11.2.1
11.2.2 ~ 11.2.3

njs03332 commented 1 year ago

11.2.1 케라스를 사용한 전이 학습

8개의 클래스만 담겨있는 패션 MNIST 데이터셋에서
- 작업 A: 클래스 분류하는 모델 - 누군가 모델을 만들어서 90% 이상의 정확도를 냄
- 작업 B: 샌들과 셔츠 이미지를 구분하는 모델 - 레이블된 이미지 수가 매우 적음
- 작업 B는 작업 A와 매우 비슷하므로 전이 학습이 도움이 되지 않을까?

모델 A를 로드하여 이 모델의 층을 기반으로 새로운 모델을 만듦 (출력층 제외 모든 층을 재사용)

model_A = keras.models.load_model("my_model_A.h5")
model_B_on_A = keras.models.Sequential(model_A.layers[:-1])
model_B_on_A.add(keras.layers.Dense(1, activation="sigmoid"))

model_A와 model_B_on_A는 일부 층을 공유하므로, model_B_on_A를 훈련할 때 model_A도 영향을 받음
- 이를 언치 않는 경우 clone_model() 메서드 이용
작업 B를 위해 model_B_on_A를 훈련
- 처음 몇 번의 에포크 동안 재사용된 층을 동결하고 새로운 층 (출력층)에게 적절한 가중치를 학습할 시간을 줌
- 새로운 출력층이 랜덤하게 초기화되어있으므로 큰 오차를 만들어 오차 그레이디언트가 커지면 재사용된 가중치를 망칠 수 있기 때문
- 모든 층의 trainable 속성을 False로 지정하고 모델을 컴파일하고 몇 번의 에포크 동안 모델을 훈련함
- 이후 재사용된 층의 동결을 해제하고 모델을 컴파일한 후 작업 B에 맞게 재사용된 층을 세밀하게 튜닝하기 위해 훈련을 계속함
- 일반적으로 재사용된 층의 동결 해제 후에는 학습률을 낮추는 것이 좋음 (재사용된 가중치가 망가지는 것을 막아줌)

for layer in model_B_on_A.layers[:-1]:
    layer.trainable = False

model_B_on_A.compile(loss="binary_crossentropy", optimizer="sgd", metrics=["accuracy"])
history = model_B_on_A.fit(X_train_B, y_train_B, epochs=4, validation_data=(X_valid_B, y_valid_B))

for layer in model_B_on_A.layers[:-1]:
    layer.trainable = True

optimizer = keras.optimizers.SGD(lr=1e-4)  # 기본 학습률은 1e-2
model_B_on_A.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["accuracy"])
history = model_B_on_A.fit(X_train_B, y_train_B, epochs=16, validation_data=(X_valid_B, y_valid_B))

최종 점수 확인 -> 오차율을 2.8%에서 약 0.7%까지 낮춤
그러나 믿으면 안되는 결과임
- '될 때까지 데이터 들들 볶기' - 높은 성능을 가진 모델을 찾기까지 여러 가지 설정을 시도해봄
- 타깃 클래스나 랜덤 초깃값을 바꾸면 성능이 떨어질 것
- 논문 저자들은 여러 시도를 해보고 그중 가장 좋은 결과만을 제출하므로 논문의 결과가 너무 긍정적이라면 의심해보아야 함
전이 학습은 조금 더 일반적인 특성을 (특히 아래쪽 층에서) 감지하는 경향이 있는 심층 합성곱 신경망에서 잘 동작함
- 작은 완전 연결 네트워크에서는 잘 동작하지 않음
- 작은 네트워크는 패턴 수를 적게 학습하고 완전 연결 네트워크는 (다른 작업에는 유용하지 않은) 특정 패턴을 학습하기 때문

danbi5228 commented 1 year ago

11.1.4 그레이디언트 클리핑

역전파될 때 일정 임계값을 넘어서지 못하게 그레이디언트를 잘라내는 것
- 순환 신경망은 배치 정규화를 적용하기 어려워서 이 방법을 많이 사용함

# 그레이디언트 벡터의 모든 원소를 -1에서 1 사이로 클리핑
# --> 손실의 모든 편미분값을 -1에서 1 사이로 잘라냄

optimizer = keras.optimizers.SGD(clipvalue=1.0)
model.compile(loss="mse", optimizer=optimizer)

이 경우, 그레이디언트 벡터의 방향이 바뀔 수 있음 -방향을 바꾸지 못하게 하려면 clipvalue대신 clipnorm을 지정해서 노름으로 클리핑 -ex. 벡터 [0.9, 100.0 ] - clipvalue [0.9, 1.0] / clipnorm [0.00899964, 0.9999595]

11.2 사전훈련된 층 재사용하기

일반적으로 아주 큰 규모의 DNN을 처음부터 새로 훈련하기 보다는, 비슷한 유형의 문제를 처리한 신경망을 찾아서 그 신경망의 하위층을 재사용하는 것이 좋다 (전이 학습 transfer learning)
- (NOTE) 원래 문제에서 사용한 것과 입력이 다를 경우 동일하게 맞춰주는 전처리 단계 추가 필요
- (TIP) 작업이 비슷할수록 낮은 층부터 시작해서 더 많은 층을 재사용. 아주 비슷한 작업일 경우 모든 은닉층을 유지하고 출력층만 교체

재사용할 적절한 은닉층 갯수 찾기

재사용하는 층을 모두 동결 (가중치가 바뀌지 않도록 훈련되지 않는 가중치로 만들기)
모델 훈련 및 성능 평가
맨 위에 있는 한 두개의 은닉층의 동결을 해제하고 역전파를 통해 가중치 조정 후 성능 향상 확인
훈련데이터가 많을수록 많은 층의 동결을 해제할 수 있음 (재사용층의 동결 해제시 학습률을 줄이면 가중치를 세밀하게 튜닝하는데 도움)
성능이 좋지 않고 훈련 데이터가 적다면 상위 은닉층(들)을 제거하고 남은 은닉층 동결. 2부터 반복
- 훈련데이터가 아주 많다면 은닉층 제거 대신 다른 것으로 바꾸거나 더 많은 은닉층을 추가할 수도 있음

givitallugot commented 1 year ago

11.2.2 비지도 사전훈련

레이블된 훈련 데이터가 많지 않을 때 비지도 사전훈련
레이블되지 않은 훈련 데이터를 많이 모을 수 있다면 이를 사용하여 오토인코더나 생성적 적대 신경망과 같은 비지도 학습 모델로 훈련 -> 하위층을 재사용하고 새로운 출력층 추가하여 레이블된 훈련 데이터 활용하여 최종 네트워크 세밀하게 튜닝
딥러닝 성공을 이끈 RBM(볼츠만 머신)을 사용한 비지도 사전훈련이 심층 신경망의 표준
딥러닝 초기, 층이 많은 모델 학습이 어려움: 하나의 층을 가진 비지도 학습 모델 훈련 후 다른 층을 추가한 다음 모델을 다시 훈련, 이를 반복
오늘날, 전체 비지도 학습 모델 훈련 후 오토인코더나 GAN 사용

11.2.3 보조 작업에서 사전훈련

레이블된 훈련 데이터가 많지 않을 때 보조 작업에서 사전훈련
레이블된 데이터를 얻거나 생성할 수 있는 보조 작업에서 첫 번째 신경망을 훈련
ex) 얼굴 인식 시스템, 개인별 이미지가 별로 없다면 인터넷에서 무작위로 이미지를 수집해서 두 개의 다른 이미지가 같은 사람의 것인지 감지하는 첫 번째 신경망을 먼저 훈련 -> 이는 얼굴 특성을 잘 감지하도록 학습됨 -> 하위층을 재사용해서 적은 양의 훈련 데이터(개인별 이미지)에서 얼굴을 잘 구분하는 분류기 훈련
ex) NLP에서 레이블된 데이터 자동 생성, 일부 단어 랜덤하게 지우고 누락된 단어 예측하는 모델 훈련 -> 이를 재사용하고 레이블된 데이터를 사용하여 세부 튜닝

njs03332 / ml_study