MLE 관점에서 본 Cross Entropy

vmtmxmf5 commented 3 years ago

Loss func.으로서 CEE

MSE : 두 점 사이의 거리
CEE : 데이터 확률분포 P와, P를 이용해 계산한 확률분포 Q 간의 차이
Q의 확률이 1에 가까울 수록 패널티를 적게 주고,
0에 가까울 수록 패널티를 급격하게 준다

CEE 최소화 -> KLD 최소화 -> 추정한 분포 Q와 데이터 분포 P의 차이 최소화

CE 최소화 == 로그 가능도 최대화

교차 엔트로피? Y분포를 사용해서 Y_hat의 entropy를 측정하는 방법.

로그 가능도에 교차 엔트로피를 대입하면, 음의 로그 가능도가 나온다.

즉, 음의 로그 가능도는 작을 수록 교차 엔트로피도 최소화가 되는데, 그 말은 곧 로그 가능도가 최대화가 된다는 의미이다(부호가 반대이므로)

vmtmxmf5 commented 3 years ago

f_theta는 확률분포다

우리가 추정하는 조건부 확률분포 (for mle)

-log(Pr[y | f_theta(x) ])

-log는 계산(backpropagation)을 편하게 하기 위해서 붙였음

만약 고정된 값을 출력하고 싶다면? 조건부 확률이 따르는 분포의 평균을 출력하면 된다
고정된 입력 / 고정된 출력을 안 쓰는 이유는? 다양한 출력을 쓴다는 의미는 곧 분포에서 y_new를 샘플링할 수 있다는 의미다. 예컨대, 강아지 사진을 고정된 1장만 출력하는 게 아니라 다양한 강아지 사진을 생성할 수 있다는 의미이다.
조건부 확률분포가 베르누이 분포를 따른다고 가정하면?

크로스 엔트로피와 같다!!!

f_theta(x) = p

p(y | p) = p^y * (1-p)^(1-y)
-log(p(y | p)) = -[ylogp + (1-y)log(1-p)]

즉, 이산 문제(분류 문제)에서는 크로스 엔트로피를 쓰는게 MLE임을 알 수 있다!

또, 엔트로피를 가장 높일 수 있다! (가장 등확률에 가까우므로 공정함)

P.s. 위와 같은 수식으로 -log(Pr[y | f_theta(x) ])이 가우시안 분포를 따른다고 가정하면, MSE와 비례함을 보일 수 있다! 즉, 연속형 자료의 경우 MSE가 MLE인 셈이다.

vmtmxmf5 commented 3 years ago