Closed skykiseki closed 1 year ago
这真的让人很好奇。。。如果是因为测评后F1较低而rouge-L较高,所以采用后者?(无质疑和贬义,只是探讨)如果是的话,对这个benchmark第一眼看起来会觉得很奇怪
谢谢您的关注~为了评测的准确性起见,对于基于原有数据集构建的任务,我们在该任务上使用的指标与原数据集工作中使用的保持一致,DuReader原始论文中使用的指标是ROUGE-L。
OK,明白了,感谢答疑
这真的让人很好奇。。。如果是因为测评后F1较低而rouge-L较高,所以采用后者?(无质疑和贬义,只是探讨)如果是的话,对这个benchmark第一眼看起来会觉得很奇怪