好奇为什么多文档QA（中文）的部分又使用的rouge-L，而不是保持跟英文一致的F1？

THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MIT License

620 stars 43 forks source link

Closed skykiseki closed 1 year ago

skykiseki commented 1 year ago

这真的让人很好奇。。。如果是因为测评后F1较低而rouge-L较高，所以采用后者？（无质疑和贬义，只是探讨）如果是的话，对这个benchmark第一眼看起来会觉得很奇怪

bys0318 commented 1 year ago

谢谢您的关注～为了评测的准确性起见，对于基于原有数据集构建的任务，我们在该任务上使用的指标与原数据集工作中使用的保持一致，DuReader原始论文中使用的指标是ROUGE-L。

skykiseki commented 1 year ago

谢谢您的关注～为了评测的准确性起见，对于基于原有数据集构建的任务，我们在该任务上使用的指标与原数据集工作中使用的保持一致，DuReader原始论文中使用的指标是ROUGE-L。

OK，明白了，感谢答疑