dhkim0225 / 1day_1paper

read 1 paper everyday (only weekday)
54 stars 1 forks source link

[79] Visualizing the Loss Landscape of Neural Nets #108

Open dhkim0225 opened 2 years ago

dhkim0225 commented 2 years ago

paper code

image

Contribution

기존 Loss plot 하는 법

1D linear interpolation

두 개의 parameter set θ, θ` 을 갖고, 각각의 loss 를 구한 뒤, 이를 plot 한다 (x 축은 param set, y 축은 loss)

contour plots & random directions

center point θ*, random vector δ, η 을 구하고, 2d surface 로 다음과 같은 식을 plot 한다. 알파와 beta 값 하나하나 넣어보면서 구하는 방식 (x 축은 알파, y 축은 베타, z 축은 loss) image

Filter-Wise Normalization

기존 방법은 weight 들의 scale invariance 때문에 제대로 측정되지 않는다. (BN, ReLU 는 문제를 더 심각하게 만든다) scaling effect 를 최소화 하기 위해 filter-wise norm 을 새롭게 제시.

  1. parameters θ 와 같은 dimension을 갖는 gaussian direction vector d 를 구함
  2. d 를 paramters θ 의 norm 크기가 맞아 떨어지게 filter 당 normalize 수행. i 번째 layer, j 번째 filter. image
  3. FC 도 1x1 conv 라 생각하고 filter normalize 수행.

1-3 을 한 번 더 반복해서 d1, d2 를 구하고, contour-plot 을 수행함.

Flat vs Sharp minima

image Large batch는 시각적으로 더 sharp한 minima를 만들어내고 더 높은 test error를 보였음.

What Makes Neural Networks Trainable? Insights on the (Non)Convexity Structure of Loss Surfaces

loss 의 non-convexity 가 왜 특정한 상황에서만 문제가 될까? 왜 일부 archicture들은 large-batch 를 써도 안정적이게 훈련 할 수 있고 일부 architecture들이initialization에 매우 민감한 이유는 무엇인가?

architecture 구조에 따라 달라진다고 얘기함 skip conn 은 깊은 네트워크에서 loss landscape 를 평평하게 만들어줌, wider filter 또한 효과적임. weight decay 를 쓰면 안정적이게 변하더라.

image image image

주의 할 점. high dimension 을 결국 low 로 가져오는 것이기 때문에, low 에서 convex 한 것이 high dim 에서 convex 한 것은 아니다. high dim 에서는 non convex 가 당연히 있을 수 있다. 그래도, 대부분의 feature 들이 convex 하다는 것을 어느정도 보여준다.

image 각각의 filter-normalized surface plot에 대해 Hessian의 maximum과 minimum eigenvalue를 계산하고, 이 두 eigenvalue에 대한 비율을 map으로 나타냈다. no short 의 경우 negative hessian 이 많아서 saddle point 가 굉장히 많다는 것을 알 수 있다.

Visualizing Optimization Paths

θ_i == i 번째 epoch 의 parameter n번의 학습을 수행했으면, 다음 matrix M 에 대해 PCA 를 적용하고, 2개의 방향을 지정한다. image

이 2개의 vector 를 갖고 loss landscape 를 구하고, trajectory 를 쭉 찍어보면 다음과 같이 나온다. image