[MJ] Transformer에서 Batch normalization 대신 layer normalization을 사용하는 이유

boost-devs / peer-session

🚀 부스트캠프 AI Tech 1기 U-Stage 4조 피어 세션 자료/질문 모음 (archived)

8 stars 2 forks source link

[MJ] Transformer에서 Batch normalization 대신 layer normalization을 사용하는 이유 #73

Closed mj950425 closed 3 years ago

mj950425 commented 3 years ago

🙌 질문자

MJ @mj950425

❓ 질문 내용

Transformer에서 Batch normalization 대신 layer normalization을 사용하는 이유

jjerry-k commented 3 years ago

참고 자료

Heeseok-Jeong commented 3 years ago

제리님이 주신 참고 자료를 읽어보니 normalization 은 벡터에서 하나의 값 (배치 기준이면 한 배치의 분산이 너무 클 때) 이 너무 클 때 학습이 잘 안되는 문제를 해결하는 방법인 것 같습니다. Transformer 에서 batch normalization 이 아닌 Layer normalization 을 해주는 이유는 배치가 아닌 한 레이어 (단어) 에 대해 튀는 값을 잡아주기 위한 것이라 생각됩니다.