nndl / solutions

《神经网络与深度学习》课后习题答案-分享讨论
697 stars 79 forks source link

习题 8-2 #77

Open Jasonmils opened 2 years ago

Jasonmils commented 2 years ago

输入x的方差越大, exp(x)的方差就越大,所以softmax后得到的向量分布更加趋近于0或者1,softmax的梯度如下

image

因此其梯度更加趋近于0

缩小x的方差可以限制softmax的两级(01)分化趋势,从而减缓梯度消失