KL散度/对称散度等

熵的定义：我们刚才计算的是熵。这是一个很好的衡量事件有多不确定的指标。它是由，

熵的方程现在完全有意义了。它测量你每天学习天气时得到的平均信息量。一般来说，它给出了我们从一个给定概率分布的样本中得到的平均信息量，它告诉我们概率分布是多么不可预测。

现在，很明显，预测的分布q与真实的分布p有很大的不同。

因此，现在我们可以将交叉熵表示为真概率分布p和预测概率分布q的函数，其表示为：

注意，我们示例中使用的是以2为基数的。

如你所见，它看起来与熵方程非常相似，除了我们在这里使用预测概率的对数。如果我们的预测是完美的，即预测分布等于真分布，那么交叉熵就是简单的熵。但是，如果分布不同，那么交叉熵将比熵大一些位。交叉熵超过熵的量称为相对熵，或者更常见的称为Kullback-Leibler散度（KL散度）。简而言之，

PaPaPaPatrick / NN