IAAR-Shanghai / CRUD_RAG

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
https://arxiv.org/abs/2401.17043
209 stars 18 forks source link

我们的千问1.5-7B模型,复现论文结果,发现比论文结果偏低,长度看起来比论文中更长,请问可能是什么原因呐? #17

Closed Syno8 closed 1 month ago

Syno8 commented 1 month ago

@haruhi-sudo

"info": { "task": "QuestAnswer3Docs", "llm": "{'model_name': 'qwen7b', 'temperature': 0.1, 'max_new_tokens': 1280, 'top_p': 0.9, 'top_k': 5}" }, "overall": { "avg. bleu-avg": 0.10584956545081725, "avg. bleu-1": 0.301704790254444, "avg. bleu-2": 0.1317940421050265, "avg. bleu-3": 0.07843837541887554, "avg. bleu-4": 0.05359908179097372, "avg. rouge-L": 0.2662197757976094, "avg. bertScore": 0.0, "avg. length": 319.9121706398996, "num": 797 },

image
haruhi-sudo commented 1 month ago

可能原因1: 使用不当,你建立检索数据库了么?第一次使用需要传递--construct-index参数

可能原因2: 大模型分点回答了,导致信息密度变得很低。这种现象主要出现在Qwen1.5和Qwen2。论文中的模型是Qwen1,Qwen1不会这么回答。

比如Qwen1.5的回答可能是:徐顺娟医生在大暑期间提出的养生建议主要围绕养“心阴”和护“脾气”。具体建议如下:\n\n1. 生活起居:\n - 注意调节室内环境,保持通风,控制适宜的温度和湿度。\n - 避免长时间暴露在高温环境中,减少户外活动时间,尤其是午后最热的时候。\n - 确保充足的休息,避免过度劳累。\n\n2. 饮食方面:\n - 建议饮食以清淡、易消化的食物为主,避免过于油腻或辛辣的食物,以防加重脾胃负担。\n - 多食用具有清热解暑作用的食物,如西瓜、黄瓜、苦瓜、绿豆汤等。\n - 适量饮水,补充体内流失的水分,但避免过量饮用冷饮,以免损伤脾胃。\n\n3. 特殊人群的关注:\n - 特别关注老年人、婴幼儿、免疫力低下以及有基础疾病患者的健康状况,确保他们的生活环境舒适,饮食健康,适当增加营养摄入。\n\n4. 预防中暑:\n - 讲解了中暑的原因、症状及紧急处理方法,强调了预防的重要性,如避免高温时段外出,及时补充水分,穿着透气、轻薄的衣物等。\n\n综上所述,大暑期间的养生重点在于调整生活习惯,注意饮食卫生,特别是对特定群体给予额外的关注,以确保健康度夏。

实际参考答案:徐顺娟医生建议,在大暑期间,应避免长时间在高温环境下工作和活动,特别是避开阳光直射的户外和高温高湿的密闭环境。户外工作者应尽量避开正午时分的长时间暴露,穿着透气、轻便、宽松的衣物,并在工作1到2小时后到阴凉通风处休息,补充水分和电解质。建议少量多次饮用温开水,并适量饮用盐开水、茶水、酸梅汤、绿豆汤等。同时,强调不要快速饮用大量冷开水或冰镇饮料,运动劳作后不要立即用冷水洗头冲凉,也不要立即站在空调下吹强风,以防止血管痉挛或强烈收缩,引起脏器缺血并发疾病。

这两个回答确实是一个意思,但Qwen1.5的回答太长,信息密度比较低,导致bleu这种基于字符串重叠的指标不太可靠

haruhi-sudo commented 1 month ago

如果使用bleu指标评测qwen系列模型,建议在prompt后添加一句话:请模仿例子,使用一段话回答问题,简短有力,不需要额外分段分点。控制生成内容的长度。或者直接放弃这个指标,使用其他基于大模型的评估指标

Syno8 commented 1 month ago

@haruhi-sudo 1. 建立了索引库

  1. 放弃这个指标的话,“使用其他基于大模型的评估指标” 这个是指哪些?
  2. 是否意味着这个数据集的答案不适合用于评估跟例子格式不一致的模型?
haruhi-sudo commented 1 month ago
  1. 比如论文中使用的RAGQuestEval。更多指标可以参考相关综述A Survey on Evaluation of Large Language Models
  2. 我认为,此数据集可以评估任何模型。但是bleu指标不适合评估跟例子格式不一致的生成文本。所以必要时需要控制一下格式和长度。尽管大家都意识到了bleu这个指标的局限性,但文本生成领域的评估一直没有公认的基准。所以论文仍然报告了相关传统指标的结果。

还有一点,本仓库使用的prompt是为ChatGPT系列模型设计的,prompt里包括几个例子,实际包含了格式控制的内容。ChatGPT能很好的理解这些prompt,但是7B的小模型做不到。所以推荐你为小模型多试几个prompt。