Open getElementsByName opened 4 years ago
l2 l1 비교 https://dailyheumsi.tistory.com/57
xavier
https://mathworld.wolfram.com/L2-Norm.html
overffiting 판단
regularization
overffiting 판단
regularization
b보다 w에 적용
L2 regularization is the most common type of regularization.
L1 regularization to make your model sparse, helps only a little bit. So I don't think it's used that much, at least not for the purpose of compressing your model.
Frobenius norm (a matrix norm)
weight decay
(shrink weight)
제한된 weight의 크기로 아껴씀
구현
keep_prob
: hidden unit이 유지될 확률
Inverted dropout
: input 크기로 맞추기 위해 scaling
orthogonalization
관점에서는 좋지 않음
vanishing/exploding gradients 문제가 있기 때문에 초기에 적절한 parameter를 세팅하면 빠르게 학습시킬 수 있음
layer의 activation output이 평균 0, 편차 1로 유지되도록 초기화
layer수가 커지면 w가 작은 값이어야 결과값을 유지시킬 수 있음
+/- epsilon (two triangle) 에 대한 결과 값의 차이로 기울기의 근사값을 추정할 수 있음
backward propagation 검증
분자: 차이값의 Euclidean distance
분모: normalize by the lengths
https://mathworld.wolfram.com/L2-Norm.html https://developers.google.com/machine-learning/crash-course