raspberryice / gen-arg

Code for paper "Document-Level Argument Extraction by Conditional Generation". NAACL 21'
MIT License
119 stars 30 forks source link

convert_pointer_logits_to_lm_logits函数中的fill_value=-1000是怎么选取的? #24

Closed guihonghao closed 1 year ago

guihonghao commented 1 year ago

最近在把bart模型换成t5模型,但是loss很高,初始在400左右,迭代30个epoch后仍有200,仔细看了下代码,里面有个convert_pointer_logits_to_lm_logits函数,fill_value=-1000是怎么选取的?

raspberryice commented 1 year ago

fill_value = -1000 的作用是把不在输入里的词的概率调整到接近0,达到constrained decoding的目的。这个数值只要选择一个比较小的数字,比一般输出的logit小很多就行。