Closed bigwoodpecker closed 3 years ago
请问readout function问题里面使用sotf attention的时候为什么是sigmoid 函数,而不是使用softmax,只使用sigmoid不是没有归一化么?
@bigwoodpecker
您好,应该不会差别很大,目的是为了得到相对的权重,而且最后有mean pooling做平均,归一化之后平均值可能会偏小。
感谢您的回复 @Magicat128 请问那是不是可以这样理解,sigmoid的作用就是为了得到每个word节点对于document的相对重要性,也就是相应的权值,而提前归一化会导致数据值太小,导致最后结果比较小,可能会影响训练效果
嗯嗯,可以这么理解。
请问readout function问题里面使用sotf attention的时候为什么是sigmoid 函数,而不是使用softmax,只使用sigmoid不是没有归一化么?