Closed guihonghao closed 1 year ago
最近在把bart模型换成t5模型,但是loss很高,初始在400左右,迭代30个epoch后仍有200,仔细看了下代码,里面有个convert_pointer_logits_to_lm_logits函数,fill_value=-1000是怎么选取的?
fill_value = -1000 的作用是把不在输入里的词的概率调整到接近0,达到constrained decoding的目的。这个数值只要选择一个比较小的数字,比一般输出的logit小很多就行。
最近在把bart模型换成t5模型,但是loss很高,初始在400左右,迭代30个epoch后仍有200,仔细看了下代码,里面有个convert_pointer_logits_to_lm_logits函数,fill_value=-1000是怎么选取的?