Open PaPaPaPatrick opened 1 year ago
熵的定义: 我们刚才计算的是熵。这是一个很好的衡量事件有多不确定的指标。它是由,
熵的方程现在完全有意义了。它测量你每天学习天气时得到的平均信息量。一般来说,它给出了我们从一个给定概率分布的样本中得到的平均信息量,它告诉我们概率分布是多么不可预测。
现在,很明显,预测的分布q与真实的分布p有很大的不同。
因此,现在我们可以将交叉熵表示为真概率分布p和预测概率分布q的函数,其表示为:
注意,我们示例中使用的是以2为基数的。
如你所见,它看起来与熵方程非常相似,除了我们在这里使用预测概率的对数。如果我们的预测是完美的,即预测分布等于真分布,那么交叉熵就是简单的熵。但是,如果分布不同,那么交叉熵将比熵大一些位。交叉熵超过熵的量称为相对熵,或者更常见的称为Kullback-Leibler散度(KL散度)。简而言之,
从上面的例子,我们得到K-L散度=交叉熵 - 熵=4.58–2.23=2.35位。 ———————————————— 版权声明:本文为CSDN博主「deephub」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/deephub/article/details/106966542
熵的定义: KL散度(相对熵) 交叉熵 https://www.bilibili.com/video/BV15V411W7VB/?spm_id_from=333.788&vd_source=6ed3d0ed0a847103a02913a24b8a9117
熵的定义: 我们刚才计算的是熵。这是一个很好的衡量事件有多不确定的指标。它是由,
熵的方程现在完全有意义了。它测量你每天学习天气时得到的平均信息量。一般来说,它给出了我们从一个给定概率分布的样本中得到的平均信息量,它告诉我们概率分布是多么不可预测。
现在,很明显,预测的分布q与真实的分布p有很大的不同。
因此,现在我们可以将交叉熵表示为真概率分布p和预测概率分布q的函数,其表示为:
注意,我们示例中使用的是以2为基数的。
如你所见,它看起来与熵方程非常相似,除了我们在这里使用预测概率的对数。如果我们的预测是完美的,即预测分布等于真分布,那么交叉熵就是简单的熵。但是,如果分布不同,那么交叉熵将比熵大一些位。交叉熵超过熵的量称为相对熵,或者更常见的称为Kullback-Leibler散度(KL散度)。简而言之,
从上面的例子,我们得到K-L散度=交叉熵 - 熵=4.58–2.23=2.35位。 ———————————————— 版权声明:本文为CSDN博主「deephub」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/deephub/article/details/106966542