THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
MIT License
620 stars 43 forks source link

好奇为什么多文档QA(中文)的部分又使用的rouge-L,而不是保持跟英文一致的F1? #13

Closed skykiseki closed 1 year ago

skykiseki commented 1 year ago

这真的让人很好奇。。。如果是因为测评后F1较低而rouge-L较高,所以采用后者?(无质疑和贬义,只是探讨)如果是的话,对这个benchmark第一眼看起来会觉得很奇怪

bys0318 commented 1 year ago

谢谢您的关注~为了评测的准确性起见,对于基于原有数据集构建的任务,我们在该任务上使用的指标与原数据集工作中使用的保持一致,DuReader原始论文中使用的指标是ROUGE-L。

skykiseki commented 1 year ago

谢谢您的关注~为了评测的准确性起见,对于基于原有数据集构建的任务,我们在该任务上使用的指标与原数据集工作中使用的保持一致,DuReader原始论文中使用的指标是ROUGE-L。

OK,明白了,感谢答疑