Closed PengEC17 closed 2 months ago
1.为什么在训练时直接把模型的输出传入损失函数,但在预测时是把softmax后的模型输出传入损失函数? 2.使用KL散度计算损失时,真值是服从高斯分布的,但预测值使用的是对数概率分布。为什么要这样计算,而不是把预测值也用高斯分布表示?
1.为什么在训练时直接把模型的输出传入损失函数,但在预测时是把softmax后的模型输出传入损失函数? 2.使用KL散度计算损失时,真值是服从高斯分布的,但预测值使用的是对数概率分布。为什么要这样计算,而不是把预测值也用高斯分布表示?