2023/01/25 ~ 2023/02/02

njs03332 commented 1 year ago

1: 11.3.5
2: 11.3.6
3: 11.4.1~11.4.2
2/2 목요일 10:00pm

givitallugot commented 1 year ago

11.3.5 Adam과 Nadam 최적화

Adam

Adam: Adaptive Moment Estimation(적응적 모멘트 추정)으로 모멘텀 최적화(지난 그레이디언트의 지수 감소 평균)와 RMSProp(지난 그레이디언트 제곱의 지수 감소된 평균)의 아이디어를 합침
모멘텀 감쇠 파라미터 β1은 보통 0.9로 초기화하고 스케일 감쇠 하이퍼파라미터 β2는 0.999로 초기화하는 경우가 많음

optimizer = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999)

Adam이 AdaGrad나 RMSProp처럼 적응적 학습률 알고리즘이기 때문에 학습률 하이퍼파라미터 η=0.001을 튜닝할 필요가 적음

AdaMax

Adam에서 단계2를 s <- max(βs, ΔJ(θ))로 바꾸고 단계 4를 삭제, 단계 5에서 s에 비례하여 그레이디언트 업데이트의 스케일을 낮춤 (시간에 따라 감쇠된 그레이디언트의 최댓값)
실전에서 AdaMax가 Adam보다 더 안정적이나 일반적으로 Adam의 성능이 더 나음
Adam이 잘 동작하지 않을 때 시도할 수 있는 옵티마이저 중 하나

Nadam

Adam 옵티마이저에 네스테로프 기법을 더한 것, Adam보다 조금 더 빠르게 수렴
Adam보다 조금 더 빠르게 수렴, 일반적으로 Adam보다 성능이 좋았지만 PMSProp이 더 나을 때 존재

지금까지 논의한 모든 최적화 기법은 1차 편미분(Jacobian)에만 의존, 최적화 이론에는 2차 편미분(Hessian)을 기반으로 뛰어난 알고리즘도 존재하나 심층 신경망 적용이 어려움, 하나의 출력마다 n개의 1차 편미분이 아니라 n 제곱개의 2차 편미분을 계산해야 하기 때문

희소 모델 훈련

모든 최적화 알고리즘은 대부분 파라미터가 0이 아닌 밀집 모델을 만듦
빠른 속도, 적은 메모리 모델이 필요하면 희소 모델을 만들어가면서 훈련 (훈련하는 동안 l1 규제를 강하게 적용하면 가능한 많은 가중치를 0으로 만들도록 강제하기 때문에)

njs03332 commented 1 year ago

11.3.6 학습률 스케줄링

학습률 설정의 중요성
- 너무 크게 잡으면 훈련이 발산
- 너무 작게 잡으면 수렴까지 시간이 오래 걸림
- 조금 높게 잡으면 최적점 근처에서 요동해서 수렴하지 못함
- 컴퓨팅 자원이 한정적인 경우 완전히 수렴하기 전에 훈련을 멈춰 차선의 솔루션을 만들어야 함
학습률을 매우 작은 값에서 매우 큰 값까지 지수적으로 증가시키면서 모델 훈련을 수백 번 반복하여 좋은 학습률을 찾을 수 있음
그러나 일정한 학습률보다 큰 학습률로 시작해 학습 속도가 느려질 때 학습률을 낮추면 좋은 솔루션을 더 빨리 발견할 수 있음
- 학습 스케줄: 학습률을 감소시키는 전략
종류
- 거듭제곱 기반 스케줄링: 학습률을 반복 횟수 t에 대한 아래 함수로 정의. 초기 학습률 𝜂₀, 거듭제곱 수 c (일반적으로 1), 스텝 횟수 s (하이퍼파라미터). s번 스텝마다 학습률이 감소되며, 점점 느리게 감소됨. 𝜂₀ 과 s 튜닝 필요
- 지수 기반 스케줄링: 학습률을 반복 횟수 t에 대한 아래 함수로 정의. s 스텝마다 학습률이 10배씩 감소
- 구간별 고정 스케줄링: 일정 횟수의 에포크 동안 일정한 학습률을 사용하고, 또 다른 횟수의 에포크 동안 작은 학습률을 사용. 적절한 학습률과 에포크 횟수의 조합을 찾기 위해 이리저리 바꿔봐야 함
- 성능 기반 스케줄링: N 스텝마다 검증 오차를 측정하고, 오차가 줄어들지 않으면 λ배만큼 학습률을 감소
- 1사이클 스케줄링: 훈련 절반 동안 초기 학습률 𝜂₀을 선형적으로 𝜂₁까지 증가시킴. 나머지 절반 동안 선형적으로 𝜂₀까지 다시 감소시킴. 마지막 몇 번의 포크는 소수점 몇 째 자리까지 줄임
- 𝜂₁은 최적의 학습률을 찾을 때와 같은 방식으로 선택
- 𝜂₀은 대략 10배 정도 낮은 값 선택
- 모멘텀 사용시 처음에 높은 모멘텀으로 시작, 훈련 절반 동안 낮은 모멘텀으로 감소, 나머지 절반 동안 최댓값으로 다시 증가, 마지막 몇 번의 에포크는 최댓값으로 진행
- 레슬리 스미스 (2018)는 많은 실험을 통해 이 방식이 훈련 속도와 성능을 높여준다는 것을 보임
앤드루 시니어 등 (2013)은 모멘텀 최적화를 사용한 음성 인식용 심층 신경망 훈련시 학습률 스케줄링 성능 비교
- 성능 기반 스케줄링 & 지수 기반 스케줄링 모두 잘 작동
- 튜닝이 쉽고 최적점에 빨리 수렴하는 지수 기반 스케줄링이 더 선호된다
- 1사이클 방식이 더 좋은 성능
케라스에서의 구현
- 거듭제곱 기반 스케줄링: decay 매개변수 지정 (s의 역수)

optimizer = keras.optimizers.SGD(lr=0.01, decay=1e-4)

지수 기반 스케줄링: 에포크를 받아 학습률을 반환하는 함수를 정의하고, 이 함수를 전달하여 LearningRateScheduler 콜백을 만들어 fit() 메서드에 전달

def exponential_decay(lr0, s):
    def exponential_decay_fn(epoch):
        return lr0 * 0.1 ** (epoch / s)
    return exponential_decay_fn

exponential_decay_fn = exponential_decay(lr0=0.01, s=20)

# LearningRateScheduler는 에포크를 시작할 때마다 옵티마이저의 learning_rate 속성을 업데이트함
lr_scheduler keras.callbackes.LearningRateScheduler(exponential_decay_fn)
history = model.fit(X_train_scaled, y_train, [...], callbacks=[lr_scheduler])

스케줄 함수는 두 번째 매개변수로 현재 학습률을 받을 수 있음 - 이 구현은 옵티마이저의 초기 학습률에만 의존하므로 이를 적절히 설정해야 함

def exponential_decay_fn(epoch, lr):
    return lr * 0.1**(1 / 20)

모델 저장시 옵티마이저와 학습률이 함께 저장됨
- 스케줄 함수가 epoch 매개변수를 사용하는 경우 에포크는 저장되지 않고 fit() 메서드 호출시마다 0으로 초기화됨 -> epoch에서 시작하도록 fit() 메서드의 initial_epoch 매개변수를 수동으로 지정하는 방법이 있음
구간별 고정 스케줄링: 다음과 같은 스케줄 함수를 만들어 똑같이 LearningRateScheduler 콜백을 만들어 fit() 메서드에 전달
```
def piecewise_constant_fn(epoch):
if epoch < 5:
    return 0.01
elif epoch < 15:
    return 0.005
else:
    return 0.001
```

성능 기반 스케줄링: ReduceLROnPlateau 콜백 정의하여 fit() 메서드에 전달

# 최상의 검증 손실이 다섯 번의 연속적인 에포크 동안 향상되지 않을 때마다 학습률에 0.5를 곱함
lr_scheduler = keras.callbacks.ReduceLROnPlateau(factor=0.5, patience=5)

tf.keras를 이용한 학습률 스케줄링
- keras.optimizers.schedules에 있는 스케줄 중 하나를 사용해 학습률 정의하여 옵티마이저에 전달
- 에포크가 아닌 매 스텝마다 학습률을 업데이트함
```
s = 20 * len(X_train) // 32  # 배치 크기 = 32
learning_rate = keras.optimizers.schedules.ExponentialDecay(0.01, s, 0.1)
optimizer = keras.optimizers.SGD(learning_rate)
```
- 모델 저장시 학습률과 스케줄도 함께 저장됨
- 표준 Keras API는 아님
1사이클 스케줄링: 매 반복마다 학습률을 조정하는 사용자 정의 콜백 만들기 (self.model.optimizer.lr을 바꾸어 옵티마이저의 학습률 업데이트
- 결론: 지수 기반 스케줄링, 성능 기반 스케줄링, 1사이클 스케줄링이 수렴 속도를 크게 높일 수 있음
최근 구글 브레인팀의 논문(2017)에서는 SGD, 모멘텀, 네스테로프 가속 경사 등에서 학습률 감소 대신 배치 크기를 늘려서 같은 성능을 얻었다고 함

danbi5228 commented 1 year ago

11.4 규제를 사용해 과대적합 피하기

심층 신경망은 전형적으로 수만 개, 때로는 수백만 개의 파라미터를 가지고 있어 자유도가 매우 높음
- 그래서 대규모의 복잡한 데이터셋을 학습할 수 있지만, 훈련 세트에 과대적합되기 쉬울 수 있음
10장에서 조기종료 구현한 것과 배치 정규화도 규제 방법으로 사용할 수 있음

11.4.1 L1과 L2 규제

신경망의 연결 가중치를 제한하기 위해 L2규제를 사용하거나, 많은 가중치가 0인 희소 모델을 만들기 위해 L1 규제를 사용할 수 있음

규제 강도 0.01을 사용하여 L2 규제를 적용하는 방법

layer = keras.layers.Dense(100, activation="elu", kernel_initializer="he_normal", kernel_regularizer=keras.regularizer.l2(0.01))

L1과 L2가 모두 필요하면 keras.regularizers.l1_l2() 사용. l1(), l2(), l1_l2() 모두 기본값은 0.01

일반적으로 네트워크의 모든 은닉층에 동일한 활성화 함수/초기화 전략/규제 를 적용하므로

높은 가독성을 위해 functools.partial() 함수를 이용할 수 있음

from functools import partial RegularizedDense = partial(keras.layers.Dense, activation="elu", kernel_initializer="he_normal", kernel_regularizer=keras.regularizer.l2(0.01))

model = keras.models.Sequential([ keras.layers.Flatten(input_shape=[28, 28]), RegularizedDense(300), RegularizedDense(100), RegularizedDense(10, activation="softmax", kernel_intializer="glorot_uniform") ])



### 11.4.2 드롭아웃
- 매 훈련 스텝에서 각 뉴런(입력 뉴런 포함. 출력 뉴런은 제외)은 임시적으로 드롭아웃될 확률 p를 가짐
  - 이번 훈련 스텝에는 완전히 무시되지만 다음 스텝에서는 활성화될 수 있음

![image](https://user-images.githubusercontent.com/26505830/216330148-f63e1530-4e7f-4355-b436-4eb502cd8977.png)

- 하이퍼파라미터 p를 드롭아웃 비율이라고 하고 보통 10%-50% 사이 지정
  - 순환 신경망에서는 20%-30%에 가까움
  - 합성곱 신경망에서는 40%-50%에 가까움
  - 훈련이 끝난 후에는 뉴런에 더는 드롭아웃을 적용하지 않음
- 드롭아웃으로 훈련된 뉴런은 이웃한 뉴런에 맞추어 적응될 수 없으므로 가능한 한 자기 자신이 유용해져야 함
  - 그래서 입력값의 작은 변화에 덜 민감해지고, 더 안정적인 네트워크가 되어 일반화 성능이 좋아짐
- TIP) 일반적으로 출력층을 제외한 맨 위의 층부터 세 번째 층까지 있는 뉴런에만 드롭아웃을 적용함
- p=50%로 하면 테스트하는 동안에는 하나의 뉴런이 훈련 때보다 평균적으로 두 배 많은 입력 뉴런과 연결됨
  - 훈련이 끝난 후 각 입력의 연결 가중치에 보존 확률(1-p)를 곱하거나
  - 훈련하는 동안 각 뉴런의 출력을 보존 확률로 나눌 수도 있음 (위의 방법과 동일하진 않지만 잘 동작함)
- 케라스에서는 `keras.layers.Dropout` 층을 사용하여 드롭아웃을 구현
- 주의) 드롭아웃은 훈련하는 동안에만 활성화되므로 훈련 손실과 검증 손실을 비교하면 안됨
비슷한 손실이더라도 훈련 세트에 과대적합될 수 있으므로 훈련이 끝난 후 드롭아웃을 빼고 훈련 손실을 평가해야함
- 모델이 과대적합되었다면 드롭아웃 비율을 늘리고, 반대로 과소적합되면 드롭아웃 비율을 낮춰야 함
- 층이 클 때는 드롭아웃 비율을 늘리고 작으 ㄴ층에는 드롭아웃 비율을 낮추는 것이 도움이 됨
  - 많은 최신 신경망 구조는 마지막 은닉층 뒤에만 드롭아웃을 사용함
- 드롭아웃은 수렴을 상당히 느리게 만드는 경향이 있지만 적절히 튜닝하면 훨씬 좋은 모델을 만들 수 있음
- TIP) 자기 정규화하는 네트워크를 규제하고 싶다면 알파 드롭아웃을 사용해야 함. 일반 드롭아웃은 자기 정규화하는 기능을 망가뜨릴 수 있음

njs03332 / ml_study