Closed lwj2001 closed 1 month ago
For evaluating the quality of generation, we support five metrics including token-level F1 score, exact match, accuracy, BLEU [69], and ROUGE-L [70].
请问上述的指标和论文中说明的指标有对应关系吗
论文中用的是em(exact match)和f1(token-level f1 score)
那请问仓库里用的指标em和sub_em的含义和是如何计算的呢?
@lwj2001 em计算模型的输出是否与标准答案完全一致,sub_em(也就是论文中的acc)计算模型的输出中是否包含标准答案。
对于有多个标准答案的case,依次计算模型的输出与每个标准答案的得分,并取最大的作为最终的分数。
metrics: ['em','f1','sub_em','precision','recall'] 您好,我想请问:f1,precision,recall是比较常见的指标,'em'和'sub_em'代表的含义是什么呢?