Open zhajiahe opened 4 years ago
论文分析了机器翻译在推理时的校准Calibration问题:即模型输出分布与结果不吻合,存在差距。 文章使用的评价指标是ECE(期望校准误差),发现训练的ECE远远小于推理ECE,说明缩小训练和推理之间的差距需要做很多工作。 论文分析了一些NMT在语言学方面的现象: Frequency, Position, Fertility, Syntactic Roles, Word Granularity : 模型在这几个方面会出现一些over-estimation和under-estimation的现象,值得进一步关注。
Calibration
ECE(期望校准误差)
ECE
NMT
Frequency, Position, Fertility, Syntactic Roles, Word Granularity
over-estimation
under-estimation
well calibrated
graduated label smoothing
BLEU
over-estimate
under-estimate
作者给了计算ECE的代码,但是目前还没有graduated label smooth的代码
graduated label smooth
简介
论文分析了机器翻译在推理时的校准
Calibration
问题:即模型输出分布与结果不吻合,存在差距。 文章使用的评价指标是ECE(期望校准误差)
,发现训练的ECE
远远小于推理ECE
,说明缩小训练和推理之间的差距需要做很多工作。 论文分析了一些NMT
在语言学方面的现象:Frequency, Position, Fertility, Syntactic Roles, Word Granularity
:模型在这几个方面会出现一些
over-estimation
和under-estimation
的现象,值得进一步关注。NMT
模型校准问题,最后给出了两个解决方案:label smooth && larger model size
贡献
well calibrated
之后,可以开很大的Beam(100),这点有意思不足
graduated label smoothing
虽然很大程度缓解了问题,但BLEU
提升不明显。而且under-estimation反而变多了??ECE
,那么如何证明翻译质量提升和ECE
相关呢?总结
Calibration
有了一点点理解,但是还有点模糊,似乎就是在讲我们训练的模型能否很好的拟合数据,不能over-estimate
,也不能under-estimate
。论文信息