Lecture 7: hyperparameter tuning, Batch Normalization and Programming Frameworks

batch normalization의 의미는 제가 스터디 마지막에 말씀드린 게 맞습니다~!
- 각 feature 에 대해 각각 mean, var 를 구하여 normalization하는 것!
- (엄밀히 말하면 hidden layer의 node 수만큼 mean, var이 나오고 이를 이용해 각 node들에 대해 normalization 해주는 것!)
- (input feature 하나씩 normlization 하듯이 hidden layer 에 대해서도 동일하게 한다고 생각하시면 되어요~)
- (input normalization이 잘 기억안나신다면? coursera link)
참고한 자료
- https://en.wikipedia.org/wiki/Batch_normalization
- https://zaffnet.github.io/batch-normalization#fpropapi
- 해당 페이지의 'Python Numpy Implementation' 구현에서 N : batch size, D: number of features 인데, X 의 shape 이 (N, D) 어서 mean, var 을 axis=0 에 대해 구하는 게 (컬럼별로 mean, var) 맞는 구현임
- 우리 coursera 수업에서는, X의 shape을 (D, N)으로 시각화하셨으므로 이 경우엔 np.mean(x, axis=1) np.var(x, axis=1) - 즉 제가 스터디 마지막에서 말씀드린대로 row별로 mean, var 구하는 것 - 을 쓰는 게 맞습니다.

KimDahye / deeplearning_study