vmtmxmf5 / Pytorch-

pytorch로 머신러닝~딥러닝 구현
3 stars 0 forks source link

MLE 관점에서 본 Cross Entropy #6

Open vmtmxmf5 opened 3 years ago

vmtmxmf5 commented 3 years ago

Loss func.으로서 CEE

CEE 최소화 -> KLD 최소화 -> 추정한 분포 Q와 데이터 분포 P의 차이 최소화

로그 가능도와 CEE

CE 최소화 == 로그 가능도 최대화

교차 엔트로피? Y분포를 사용해서 Y_hat의 entropy를 측정하는 방법.

로그 가능도에 교차 엔트로피를 대입하면, 음의 로그 가능도가 나온다.

즉, 음의 로그 가능도는 작을 수록 교차 엔트로피도 최소화가 되는데, 그 말은 곧 로그 가능도가 최대화가 된다는 의미이다(부호가 반대이므로)

vmtmxmf5 commented 3 years ago

DNN에서 CEE

네트워크 출력값: f_theta(x) = mu

f_theta는 확률분포다

우리가 추정하는 조건부 확률분포 (for mle)

-log(Pr[y | f_theta(x) ])

-log는 계산(backpropagation)을 편하게 하기 위해서 붙였음

크로스 엔트로피와 같다!!!

f_theta(x) = p

p(y | p) = p^y * (1-p)^(1-y)
-log(p(y | p)) = -[ylogp + (1-y)log(1-p)]

즉, 이산 문제(분류 문제)에서는 크로스 엔트로피를 쓰는게 MLE임을 알 수 있다!

또, 엔트로피를 가장 높일 수 있다! (가장 등확률에 가까우므로 공정함)

P.s. 위와 같은 수식으로 -log(Pr[y | f_theta(x) ])이 가우시안 분포를 따른다고 가정하면, MSE와 비례함을 보일 수 있다! 즉, 연속형 자료의 경우 MSE가 MLE인 셈이다.

vmtmxmf5 commented 3 years ago

https://hyunlee103.tistory.com/12

https://ratsgo.github.io/deep%20learning/2017/09/24/loss/

https://ratsgo.github.io/statistics/2017/09/22/information/