2023/01/20 ~ 2023/01/25

givitallugot commented 1 year ago

1/25 (수) 10시

11.3.1
11.3.2
11.3.3-11.3.4

njs03332 commented 1 year ago

11.3.3 AdaGrad

한쪽이 길쭉한 그릇 문제에서 경사 하강법은 가장 가파른 경사를 따라 빠르게 내려가기 시작해서 골짜기 아래로 느리게 이동함
- 알고리즘이 이를 일직 감지하고 전역 최적점 쪽으로 좀 더 정확한 방향을 잡았다면 좋았을 것
AdaGrad 알고리즘은 가장 가파른 차원을 따라 그레이디언트 벡터의 스케일을 감소시켜 이 문제를 해결함
- 첫 번째 단계: 그레이디언트의 제곱을 벡터 s에 누적함 (⊗는 원소별 곱셈)
- s_i는 파라미터 Θ_i에 대한 비용 함수의 편미분을 제곱하여 누적함
- 비용 함수가 i번째 차원을 따라 가파르다면 s_i는 반복이 진행됨에 따라 점점 커질 것
- 두 번째 단계: 경사 하강법과 거의 같으나 그레이디언트 벡터를 sqrt(s + ε) 으로 나누어 스케일을 조정함 (⊘는 원소별 나눗셈, ε는 0으로 나누는 것을 막기 위한 값)
- 적응적 학습률 (adaptive learning rate): 학습률을 감소시키는데, 경사가 완만한 차원보다 가파른 차원에 대해 더 빠르게 감소됨
- 전역 최적점 방향으로 더 곧장 가도록 갱신되는 데 도움이 됨
- 학습률 하이퍼파라미터를 덜 튜닝해도 됨
AdaGrad는 신경망을 훈련할 때 너무 일찍 멈추는 경우가 종종 있음 (학습률이 너무 감소되어 전역 최적점 도달 전에 멈춤)
- 선형 회귀 같은 간단한 작업에는 효과적일 수 있으나, 심층 신경망에는 사용하지 말아야 함

11.3.4 RMSProp

AdaGrad와 달리 가장 최근 반복에서 비롯된 그레이디언트만 누적하여 너무 빨리 느려지는 문제를 해결함
알고리즘 첫 단계에서 지수 감소를 사용
- 감쇠율 β는 보통 0.9로 설정 (기본값이 잘 작동하는 경우가 많아 튜닝할 필요 없음)
케라스 RMSprop 옵티마이저
```
optimizer = keras.optimizers.RMSprop(lr=0.001, rho=0.9)
```
- rho 매개변수는 β에 해당
RMSProp 옵티마이저는 (아주 간단한 문제 제외) 항상 AdaGrad보다 훨씬 성능이 좋음
Adam 최적화가 등장하기 전까지 가장 선호되었음

danbi5228 commented 1 year ago

11.3 고속 옵티마이저

더 빠른 옵티마이저를 사용하여 훈련 속도를 높이는 방법도 있음

11.3.1 모멘텀 최적화

볼링공이 매끈한 표면의 완만한 경사를 따라 굴러간다고 가정
- 표준 경사하강법의 경우 일정한 크기의 스텝으로 조금씩 내려감
- 모멘텀 최적화는 종단속도에 도달할 때까지 빠르게 가속하며 내려감
경사 하강법의 가중치 갱신 공식: θ = θ - η∇_θJ(θ)
- J(θ): 가중치에 대한 비용 함수
- ∇_θJ(θ): 비용 함수의 그레이디언트
- 이전 그레이디언트가 얼마였는지 고려하지 않고, 비용 함수의 그레이디언트에 학습률 η를 곱한 것을 차감하여 가중치 갱신
모멘텀 최적화는 매 반복에서 현재 그레이디언트를 학습률 η를 곱한 후 모멘텀 벡터 m에 더하고 이 값을 빼는 방식으로 가중치 갱신
- 즉, 그레이디언트를 속도가 아니라 가속도로 사용
모멘텀이 너무 커지는 것을 막기 위해 모멘텀 이라는 새로운 하이퍼파라미터 β를 설정
- 0~1 사이로 설정 (숫자가 클수록 마찰 저항이 감소). 일반적인 모멘텀 값은 0.9
? 그레이디언트가 일정하다면 가속도가 0이므로 종단속도 m = βm이 되어 m = 1/(1-β) 가 됨
- ? β=0.9 라면 종단속도는 그레이디언트와 학습률을 곱하고 다시 10을 곱한 것과 같다 ..? m=10인데.. 어.. 어디에.. 곱하는겨
모멘텀 최적화 구현: optimizer = keras.optimizers.SGD(learning_rate=0.001, momentum=0.9
모멘텀 최적화의 단점은 튜닝할 파라미터(모멘텀)이 하나 더 늘어난다는 것이지만, 보통 0.9에서 잘 동작하고 경사 하강법보다 거의 항상 더 빠름

givitallugot commented 1 year ago

11.3.2 네스테로프 가속 경사

모멘텀 최적화의 한 변종으로 기본 모멘텀 최적화보다 거의 항상 더 빠름
현재 위치가 θ가 아니라 모멘텀의 방향으로 조금 앞선 θ + βm에서 비용 함수의 그래디언트를 계산
일반적으로 모멘텀 벡터가 최적점을 향하는 방향을 가리킬 것이므로 이런 변경이 가능
▽1은 시작점 θ에서 측정한 비용함수의 그레이디언트를 나타내고, ▽2은 θ + βm에서 측정한 그레이디언트를 나타냄
네스테로프 업데이트가 최적값에 조금 더 가까움
모멘텀이 골짜기를 가로지르도록 가중치에 힘을 가할 때 ▽1은 골짜기를 더 가로지르도록 독려하는 반면 ▽2는 계곡의 아래쪽으로 잡아당기게 됨 => 진동을 감소시키고 수렴을 빠르게 함
기본 모멘텀 최적화보다 훈련 속도가 빠름, SGD 옵티마이저를 만들 때 use_nesterov=True라고 설정
```
optimizer = keras.optimizer.SGD(lr=0.001, momentum=0.9, nesterov=True)
```

njs03332 / ml_study

2023/01/20 ~ 2023/01/25 #55

11.3.3 AdaGrad

11.3.4 RMSProp

11.3 고속 옵티마이저

11.3.1 모멘텀 최적화

11.3.2 네스테로프 가속 경사