11장. 심층 신경망 훈련하기

복잡한 문제를 다뤄야하는 경우, 수백 개의 뉴런으로 구성된 10개 이상의 층을 수십만 개의 가중치로 연결해 깊은 심층 신경망을 훈련해야 함
심층 신경망 훈련에서 마주할 수 있는 문제
- 그레이디언트 소실, 그레이디언트 폭주 - 심층 신경망 아래쪽으로 갈수록 그레이디언트가 점점 더 작아지거나 커지는 현상
- 데이터가 충분하지 않거나 레이블을 만드는 작업에 많은 비용이 들 수 있음
- 훈련이 극단적으로 느려질 수 있음
- 수백만 개의 파라미터를 가진 모델은 훈련 세트에 과대적합될 위험이 큼 (특히 샘플이 충분하지 않거나 잡음이 많은 경우)
이 장에서는 이 문제들을 차례로 살펴보고 해결방법을 제시함

11.1 그레이디언트 소실과 폭주 문제

그레이디언트 소실: 알고리즘이 하위층으로 진행될수록 그레이디언트가 점점 작아지는 경우, 경사 하강법이 하위층의 연결 가중치를 변경되지 않은 채로 두어 훈련이 좋은 솔루션으로 수렵되지 않음
그레이디언트 폭주: 그레이디언트가 점점 커져서 여러 층이 비정상적으로 큰 가중치로 갱신되고, 알고리즘이 발산함 (순환신경망에서 주로 나타남)
일반적으로 불안정한 그레이디언트는 층마다 학습 속도가 달라지게 하여 심층 신경망 훈련을 어렵게 만듦
이러한 학습 패턴의 원인을 2010년 세이비어 글로럿과 요슈아 벤지오가 발표함
- 로지스틱 시그모이드 활성화 함수 & 당시 인기 있던 가중치 초기화 방법 (평균이 0이고 표준편차가 1인 정규분포) 의 조합
- 각 층에서 출력의 분산이 입력의 분산보다 커짐 -> 가장 높은 층에서는 활성화 함수가 0이나 1로 수렴
- 로지스틱 활성화 함수에서 입력이 양수나 음수로 커지면 0이나 1로 수렴해 기울기가 0에 매우 가까워짐 -> 역전파가 될 때 전파할 그레이디언트가 거의 없거나 약해져서 아래쪽 층에는 아무것도 도달하지 않게 됨

11.1.1 글로럿과 He 초기화

글로럿과 벤지오가 제안한 불안정한 그레이디언트 문제 완화 방법
- 양방향 신호가 적절하게 흐르게 하기 위해 아래 두가지를 지켜야 함
- 각 층의 출력에 대한 분산이 입력에 대한 분산과 같아야 한다
- 역방향에서 층을 통과하기 전과 후의 그레이디언트 분산이 동일해야 한다
- 층의 입력과 출력 연결 개수 (팬-인 & 팬-아웃) 가 같지 않다면 이 두 가지를 보장할 수 없으나,
- 아래의 세이비어 초기화 (글로럿 초기화) 방법이 실전에서 매우 잘 작동한다고 입증됨
- 각 층의 연결 가중치를 아래 식에 기술한 방식대로 무작위로 초기화 (fan_avg = (fan_in + fan_out)/2)
- 르쿤 초기화: 글로럿 초기화의 식에서 fan_avg를 fan_in로 바꾼 것
- fan_in = fan_avg이면 르쿤 초기화는 글로럿 초기화와 동일
- 글로럿 초기화를 사용하면 훈련 속도를 상당히 높일 수 있음
다른 활성화 함수에 대해 제안된 비슷한 전략들
- 분산의 스케일링이나 fan_avg 또는 fan_in을 쓰는 것만 다름
케라스는 기본적으로 균등분포의 글로럿 초기화를 사용
- 층을 만들 때 kernel_initializer를 설정해주면 He 초기화를 사용할 수 있음
- VarianceScaling을 사용하면 fan_in 대신 fan_out 기반의 균등분포 He 초기화를 사용할 수 있음

keras.layers.Dense(10, activation="relu", kernel_initializer="he_normal")

he_avg_init = keras.initializers.VarianceScaling(scale=2., mode='fan_avg', distribution='uniform')
keras.layers.Dense(10, activation="sigmoid", kernel_initializer=he_avg_init)

11.1.3 배치 정규화

ELU (ReLU의 변종) 와 He 초기화 사용 시 그레디언트 소실이나 폭주 문제를 감소시킬 수 있으나, 훈련 도중 재발생 가능
대신 배치 정규화(Batch Normalization) 기법 제안
각 층에서 활성화 함수를 통과하기 전이나 후에 모델 연산 하나 추가
입력을 원점에 맞추고 정규화한 후 스케일을 조정하고 이동
신경망의 첫 번째 층이 배치 정규화일 경우 표준화 필요 없음

1,2 미니배치에서 평균과 표준편차
3 평균이 0이고 정규화된 출력
4 배치 정규화 연산의 출력, 입력 스케일 조정 및 이동

배치 정규화, 테스트 적용 방법

훈련처럼 특정 배치가 아니라, 테스트셋 전체에 적용할 평균과 표준편차, 스케일이 필요
층의 입력 평균과 표준편차의 이동 평균을 사용해 훈련하는 동안 최종 통계를 추정
keras의 BatchNormalization은 이를 자동으로 수행

배치 정규화 장점

그래디언트 소실 문제가 크게 감소하여 하이퍼볼릭 탄젠트나 로지스틱 활성화 함수 등 사용 가능
가중치 초기화에 네트워크가 훨씬 덜 민감
훨씬 큰 학습률을 사용하여 학습 과정의 속도를 높임
다른 규제 기법(ex 드롭아웃)의 필요성 줄임

배치 정규화 단점

모델의 복잡도를 높임
실행 시간 면에서 손해

keras로 배치 정규화 구현하기

model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, activation="relu"),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation="softmax")
])

배치 정규화 논문의 저자들은 활성화 함수 이후보다 활성화 함수 이전에 배치 정규화 층을 추가하는 것이 좋다고 조언
그러나 어떤 것이 주어진 데이터셋에 잘 맞는지 확인 필요

배치 정규화 구현하기

momentum: 평균과 표준편차의 이동 평균을 업데이트할 때 필요한 하이퍼파라미터로, 1에 가까운 숫자를 사용하며, 데이터셋이 크고 미니배치가 작으면 소수점 뒤에 9를 더 넣어 1에 가깝게 함
axis: 정규화할 축을 결정, 기본값은 -1, 다른 축을 따라 계산한 평균과 표준편차를 사용하여 마지막 축을 정규화

11.1.2 수렴하지 않는 활성화 함수

글로럿과 벤지오의 논문에서 얻은 통찰 중 하나는 활성화 함수를 잘못 선택하면 그레이디언트 소실이나 폭주로 이어질 수 있다는 것
그 전에는 시그모이드가 최선의 선택으로 여겨졌으나, 다른 활성화 함수가 심층 신경망에서 더 잘 동작함을 밝혀냄
RELU
- 장점
- 특정 양숫값에 수렴하지 않음
- 계산이 빠름
- 단점
- 죽은 ReLU 문제: 훈련하는 동안 일부 뉴런이 0 이외의 값을 출력하지 않음. 가중치가 바뀌어 훈련 세트의 모든 샘플에 대한 가중치 합이 음수가 되면 그레이디언트가 0이 되어 경사 하강법이 더 작동하지 않음 (첫 번째 은닉층이 아니라면 이전 층의 뉴런을 바꾸어 죽은 뉴런의 입력에 대한 가중치 합이 다시 양수가 될 수 있음)
  - 이 문제를 해결하기 위해 LeakyReLU 같은 변종이 등장
LeakyReLU
- 하이퍼파라미터 a로 z<0 일 때 함수의 기울기를 결정함. 이 작은 기울기가 LeakyReLU를 절대 죽지 않도록 만들어줌
- 일반적으로 a = 0.01로 설정
RReLU : randomized leaky ReLU
- LeakyReLU에서의 하이퍼파라미터 a를 훈련하는 동안 주어진 범위에서 무작위로 선택하고 테스트시에 평균을 사용하는 방식
PReLU : parametric leaky ReLU
- LeakyReLU에서의 하이퍼파라미터 a가 훈련하는 동안 학습이 되는 방식. 다른 모델 파라미터와 마찬가지로 역전파에 의해 변경됨
- 대규모 이미지 데이터셋에서는 ReLU보다 성능이 훨씬 좋았지만, 소규모 데이터셋에서는 훈련 세트에 과대적합될 위험이 있음
ELU : exponential linear unit (2015)
- 장점
- z < 0 일 때 음숫값이 들어오므로 평균 출력이 0에 더 가까워져, 그레이디언트 소실 문제가 완화됨
- z < 0 이어도 그레이디언트가 0이 아니므로 죽은 뉴런을 만들지 않음
- a = 1이면 z = 0에서 급격히 변동하지 않아서 모든 구간에서 매끄러워, 경사하강법의 속도를 높여줌
- 다른 모든 ReLU 변종의 성능을 앞지른 활성화 함수. 훈련시간이 줄고 신경망 테스트 성능도 더 높았음
- 단점
- 계산이 느림. 수렴 속도가 빨라서 느린 계산이 상쇄되지만 테스트 시에는 ReLU보다 느릴 것
SELU : Scaled ELU (2017)
- 완전 연결 층만 쌓아서 신경망을 만들고 모든 은닉층이 SELU 활성화 함수를 사용한다면 네트워크가 자기 정규화가 됨을 확인
- 훈련하는 동안 각 층의 출력이 평균 0과 표준편차 1을 유지하는 경향이 있음 -> 그레이디언트 소실과 폭주 문제를 방지
- 아주 깊은 네트워크에서 다른 활성화 함수보다 뛰어난 성능을 종종 냄
- 자기 정규화가 일어나기 위한 조건
- 입력 특성이 반드시 표준화(평균 0, 표준편차 1)되어야 함
- 모든 은닉층의 가중치는 르쿤 정규분포 초기화를 사용해 초기화 되어야 함
- 네트워크는 일렬로 쌓은 층으로 구성되어야 함. 순차적이지 않은 구조에서는 보장되지 않음 ex) 순환 신경망, 스킵 연결(건너뛰어 연결된 층)
TIP) 일반적으로 SELU > ELU > LeakyReLU(+ 변종들) > ReLU > tanh > 로지스틱. 다른 조건에 따른 권장 함수는 p.419 확인

LeakyReLU 활성화 함수 사용

모델에서 적용하려는 층 뒤에 추가하면 됨

model = keras.models.Sequential([ ... keras.layers.Dense(10, kernel_initializer="he_normal"), keras.layers.LeakyReLU(alpha=0.2) ... ])

njs03332 / ml_study

2022/12/31 ~ 2023/01/11 #53

11장. 심층 신경망 훈련하기

11.1 그레이디언트 소실과 폭주 문제

11.1.1 글로럿과 He 초기화

11.1.3 배치 정규화

배치 정규화, 테스트 적용 방법

배치 정규화 장점

배치 정규화 단점

keras로 배치 정규화 구현하기

배치 정규화 구현하기

11.1.2 수렴하지 않는 활성화 함수

LeakyReLU 활성화 함수 사용

모델에서 적용하려는 층 뒤에 추가하면 됨

PReLU 사용

RReLU는 따로 구현되어있지 않음. 직접 구현에서 사용 가능

SELU 활성화 함수 사용