Open golovin017 opened 2 months ago
联想到对于数据进行规范化的方式,利用维度D能够有效的减小X的方差从而避免因为X方差过大带来的softmax梯度较小的问题,相当于对于原始数据进行一个scaling down
联想到对于数据进行规范化的方式,利用维度D能够有效的减小X的方差从而避免因为X方差过大带来的softmax梯度较小的问题,相当于对于原始数据进行一个scaling down