THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
MIT License
679 stars 55 forks source link

关于评测的合理性 #41

Closed rayleoyoung closed 12 months ago

rayleoyoung commented 12 months ago

评测分数似乎比较受回答长度的倾向性影响,例如,gt比较短但pred比较长,但没有事实性错误,造成f1计算偏低。仅针对6个中文任务做了case by case的分析

bys0318 commented 12 months ago

谢谢你的关注。先前也有很多研究工作表明,像F1、ROUGE-L等自动评测指标存在如你所说的等诸多问题。目前也有基于LLM(如GPT4)的评测方式,被证明会比这一类自动评测指标更加准确,但由于这一类评测的时长以及成本较高,我们暂时没有将其融入我们的测试框架中。

bys0318 commented 12 months ago

同时,为了尽可能避免你说的问题,我们在prompt中加了诸如“只告诉我答案,不要输出任何其他字词”“Only give me the answer and do not output any other words”的指令,以希望模型输出能像对应的groundtruth一样尽可能短。GPT系列模型对此类指令理解较好,但一些模型对此类指令理解较差可能会导致其输出过长而与gt匹配低。