Closed FrankWork closed 1 year ago
用你的配置训练的bert纠错模型,用你的评测脚本:
Sentence Level: acc:0.793636, precision:0.828810, recall:0.732472, f1:0.777669
使用realise模型的评测脚本:
{'sent-detect-acc': 82.18181818181817, 'sent-detect-p': 72.86689419795222, 'sent-detect-r': 78.9279112754159, 'sent-detect-f1': 75.77639751552793, 'sent-correct-acc': 79.9090909090909, 'sent-correct-p': 68.60068259385666, 'sent-correct-r': 74.3068391866913, 'sent-correct-f1': 71.33984028393967}
你只在src == tgt时统计了FP,统计出的FP偏小,导致计算precision时的分母偏小,最终的precision偏大
您好,感谢您的指正,由于实际使用中,绝大多数句子是不用做纠错的,我们更关注模型在有错的句子上的表现,故将无需纠错(src==tgt)的sample作为负样本,需要纠错且预测正确的样例为TP,以使得模型指标更能反映在真实场景下的表现。
用你的配置训练的bert纠错模型,用你的评测脚本:
使用realise模型的评测脚本:
你只在src == tgt时统计了FP,统计出的FP偏小,导致计算precision时的分母偏小,最终的precision偏大