Open CharlesLiuyx opened 5 years ago
写的挺好的,维基百科都没有你这篇解释的通俗易懂
楼主,你的交叉熵那部分我觉着有问题。“是用确定性更大的概率乘以确定性更小的存储因子”,这句话我觉着不对。如果按照这个结论来看那么交叉熵H(W,P)应该是最大的,但是显然不是。我觉着交叉熵是为了衡量给定的概率分布相对于真实概率分布的差距。
我认为,相对熵和交叉熵都能用于深度学习充当损失函数,只不过相对熵的局部极小点是信息熵的值,而交叉熵的局部极小点是0.
$H(Z)=\frac{7}{8}+\log {2} \frac{4}{3}=1.29$ 计算错误吧,应该是$H(Z)=\frac{7}{8} + \frac{3}{4}\log{2}\frac{4}{3}$ 下面的 H(Q,Z)同样也存在这样的问题,其它也检查下?
讲得太棒了!
写的太好啦
@ysmintor $H(Z)=\frac{7}{8}+\log {2} \frac{4}{3}=1.29$ 计算错误吧,应该是$H(Z)=\frac{7}{8} + \frac{3}{4}\log{2}\frac{4}{3}$ 下面的 H(Q,Z)同样也存在这样的问题,其它也检查下?
感谢指出,已修改💯
@RawOnion 我认为,相对熵和交叉熵都能用于深度学习充当损失函数,只不过相对熵的局部极小点是信息熵的值,而交叉熵的局部极小点是0.
是不是说反了,相对熵的局部极小值是0,交叉熵的局部极小值是信息熵。
https://charlesliuyx.github.io/2017/09/11/%E4%BB%80%E4%B9%88%E6%98%AF%E4%BF%A1%E6%81%AF%E7%86%B5%E3%80%81%E4%BA%A4%E5%8F%89%E7%86%B5%E5%92%8C%E7%9B%B8%E5%AF%B9%E7%86%B5/
【阅读时间】10min - 13min【内容简介】使用一个现实中直观的例子详解信息熵、交叉熵及相对熵的核心概念,读完后,希望能帮助你建立起这三个概念的固有直觉,不再疑惑 要完成题目的最终解释,必须从熵这个神奇的概念开始讲起