Open long8v opened 1 year ago
paper
degration이라는 현상. 깊으면 training error가 더 높음. 즉 overfitting이 문제가 아니라 학습 자체가 잘 안된 상황
residual하는 block은 최소 2개 이상이어야(1개면 그냥 linear하는 효과), 차원도 같아야 함.
궁금증 해결 ^^ 101개 레이어 쌓은 것임
초기 논문들 읽으면 재밌을 듯
paper
TL;DR
Details
Motivation
degration이라는 현상. 깊으면 training error가 더 높음. 즉 overfitting이 문제가 아니라 학습 자체가 잘 안된 상황
Residual learning
residual하는 block은 최소 2개 이상이어야(1개면 그냥 linear하는 효과), 차원도 같아야 함.
Network architecture
Network variants
궁금증 해결 ^^ 101개 레이어 쌓은 것임
training error on ImageNet
기타
초기 논문들 읽으면 재밌을 듯