关于评测的合理性

THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MIT License

679 stars 55 forks source link

关于评测的合理性 #41

Closed rayleoyoung closed 12 months ago

rayleoyoung commented 12 months ago

评测分数似乎比较受回答长度的倾向性影响，例如，gt比较短但pred比较长，但没有事实性错误，造成f1计算偏低。仅针对6个中文任务做了case by case的分析

bys0318 commented 12 months ago

谢谢你的关注。先前也有很多研究工作表明，像F1、ROUGE-L等自动评测指标存在如你所说的等诸多问题。目前也有基于LLM（如GPT4）的评测方式，被证明会比这一类自动评测指标更加准确，但由于这一类评测的时长以及成本较高，我们暂时没有将其融入我们的测试框架中。

bys0318 commented 12 months ago

同时，为了尽可能避免你说的问题，我们在prompt中加了诸如“只告诉我答案，不要输出任何其他字词”“Only give me the answer and do not output any other words”的指令，以希望模型输出能像对应的groundtruth一样尽可能短。GPT系列模型对此类指令理解较好，但一些模型对此类指令理解较差可能会导致其输出过长而与gt匹配低。