boost-devs / peer-session

🚀 부스트캠프 AI Tech 1기 U-Stage 4조 피어 세션 자료/질문 모음 (archived)
8 stars 2 forks source link

[히스] Gradient Vanishing 해결을 위한 ReLU 와 ResNet #52

Closed Heeseok-Jeong closed 3 years ago

Heeseok-Jeong commented 3 years ago

🙌 질문자


❓ 질문 내용

  1. tanh 나 시그모이드 함수를 쓰면 gradient vanishing 문제가 왜 생기나요?
  2. ReLU 로 gradient vanishing 가 해결된거 아닌가요? 왜 resnet 을 사용하나요?

Heeseok-Jeong commented 3 years ago
  1. ReLU는 양수의 경우, y=x 꼴이라 계속 미분해도 값이 유지되는 반면, 저 두 활성함수는 미분을 계속하면 0에 가까워짐
  2. ReLU 로 어느정도 해소되지만, 레이어가 많은 (파라미터가 많은) 딥러닝은 애초에 학습이 잘 안됨 + 오버피팅 문제가 있음, 그래서 residual 을 사용해서 이를 해결함

-피어 세션-

jjerry-k commented 3 years ago

edwith에도 동일한 질문이 들어왔었네요!

https://www.edwith.org/bcaitech1/forum/48979

Heeseok-Jeong commented 3 years ago

오 감사합니다 에듀위드 글 보고 이해됐습니다 :)