Closed mj950425 closed 3 years ago
제리님이 주신 참고 자료를 읽어보니 normalization 은 벡터에서 하나의 값 (배치 기준이면 한 배치의 분산이 너무 클 때) 이 너무 클 때 학습이 잘 안되는 문제를 해결하는 방법인 것 같습니다. Transformer 에서 batch normalization 이 아닌 Layer normalization 을 해주는 이유는 배치가 아닌 한 레이어 (단어) 에 대해 튀는 값을 잡아주기 위한 것이라 생각됩니다.
🙌 질문자
❓ 질문 내용