해당 페이지의 'Python Numpy Implementation' 구현에서 N : batch size, D: number of features 인데, X 의 shape 이 (N, D) 어서 mean, var 을 axis=0 에 대해 구하는 게 (컬럼별로 mean, var) 맞는 구현임
우리 coursera 수업에서는, X의 shape을 (D, N)으로 시각화하셨으므로 이 경우엔 np.mean(x, axis=1) np.var(x, axis=1) - 즉 제가 스터디 마지막에서 말씀드린대로 row별로 mean, var 구하는 것 - 을 쓰는 게 맞습니다.
https://www.notion.so/Lecture-6-Improving-Deep-Neural-Networks-Optimizaton-Algorithms-52f1679a5eac420a90303acbbabf995e