zuucan / NeedleInAHaystack-PLUS

To assess the longtext capabilities more comprehensively, we propose Needle-in-a-Haystack PLUS, which shifts the focus from simple fact retrieval to more challenging single-document/multi-document question answering tasks.
10 stars 0 forks source link

【评估求问】请问测试后的评估指标和visual 的脚本可以分享一下吗 #1

Open randomtutu opened 6 months ago

randomtutu commented 6 months ago

hi,看到了各位的工作非常nice

但是我没有注意到metric比较细节的信息和visual的脚本,

metric使用 exact match 或者LLM-based的评估acc的方案吗?

求visual的脚本是希望可以无diff 复现paper的结果。

谢谢,祝好!