IAAR-Shanghai / CRUD_RAG

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
https://arxiv.org/abs/2401.17043
233 stars 20 forks source link

运行出现除0等错误 #23

Closed kikiLQQ closed 19 hours ago

kikiLQQ commented 1 week ago

作者您好,我使用以下命令运行: python quick_start.py --temperature 0.1 --max_new_tokens 1280 --shuffle True --docs_path 'data/80000_docs' --docs_type 'doc' --chunk_size 128 --chunk_overlap 0 --retriever_name 'base' --retrieve_top_k 8 --task 'continuing_writing' --num_threads 20 --show_progress_bar True --construct_index

但是运行会产生如下一些错误: image image

而生成的文件看上去运行的结果和论文中差异较大,如下所示: { "info": { "task": "ContinueWriting", "llm": "{'model_name': 'qwen7b', 'temperature': 0.1, 'max_new_tokens': 1280, 'top_p': 0.9, 'top_k': 5}" }, "overall": { "avg. bleu-avg": 0.0, "avg. bleu-1": 0.13312434691745037, "avg. bleu-2": 0.007017543859649122, "avg. bleu-3": 0.0035714285714285713, "avg. bleu-4": 0.0, "avg. rouge-L": 0.018538505032228883, "avg. bertScore": 0.0, "avg. length": 21.4, "num": 5 }, "results": [ { "id": "64fa9b2bb82641eb8ecbedd8", "metrics": { "bleu-avg": 0.0, "bleu-1": 0.2413793103448276, "bleu-2": 0.03508771929824561, "bleu-3": 0.017857142857142856, "bleu-4": 0.0, "rouge-L": 0.07432432432432433, "bertScore": 0.0, "QA_avg_F1": 0.0, "QA_recall": 0.0, "length": 78 }, "log": { "generated_text": "您abbix\n您是新华社新闻工作者。我希望你能辅助我完成一篇新闻的撰写。\n\n请你根据我已经写好的文本,和检索到的文档,为我我我我我我我我我我我我我我我我我我", "ground_truth_text": "队员们厚植爱国奋进情怀,在泉州市阳山社区、阳江社区举办的夏令营活动中开展了侨情侨史教育、国学经典等多门课程,实现从受教育者到教育者的转换,提升了对侨文化传播的参与度,向青少年播撒希望的种子。\n\n学侨史、悟侨情、赏侨韵,本次活动丰富了队员们对归侨历史文化的认识,也让他们更加深刻地感悟到归侨的家国情怀。来自印尼的志愿者表示,这是一个很宝贵的机会,丰富了她对侨文化的认识;与从印尼回国的归侨交谈,让她倍感亲切和欣喜。\n\n据悉,华侨大学归根情•情暖归侨侨眷志愿服务队由泉州市侨联、厦门市侨联与华侨大学团委联合指导成立,始终秉承“奉献、友爱、互助、进步”的志愿者精神,与泉厦两市侨联一起,维护侨益,温暖侨心。今年的社会实践中,服务队共探访归侨侨眷175位,夏令营教学受众达60人,拍摄制作出微电影《归根》,共同为归侨文化传播贡献来自侨校的青年力量。(华侨大学归根情志愿服务队 林彦吟 赵紫朵 文/洪圣 图)", "quest_eval_save": {}, "evaluateDatetime": "2024-10-10 13:13:07.867962" }, "valid": true }, { "id": "64fa9b2cb82641eb8ecbefbf", "metrics": { "bleu-avg": 0.0, "bleu-1": 0.0, "bleu-2": 0.0, "bleu-3": 0.0, "bleu-4": 0.0, "rouge-L": 0.0, "bertScore": 0.0, "QA_avg_F1": 0.0, "QA_recall": 0.0, "length": 5 }, "log": { "generated_text": "你访谈 (", "ground_truth_text": "至此,一个以李某为首的吸贩毒团伙浮出水面。民警推断,李某、邓某二人关系密切,每天频繁联络,且有较强的反侦查意识,为避免打草惊蛇,遂决定同时收网。7月初,当民警准备伺机抓捕时,李某搬家到邓某住处附近,觉察有陌生面孔,李某再次连夜搬家。在锲而不舍地追踪中,民警掌握了其动向,7月26日,成功抓获从李某家出来的邓某,而此时民警对李某的抓捕落空,遂直接赶至邓某出租屋抓获高某,现场缴获毒品9.94克。李某仓皇逃走,东西还没来得及拿走,会不会再次返回出租屋,果不其然,民警守株待兔静候“佳音”。8月1日凌晨,李某及其女友李某某落网,在其家中缴获毒品27.84克、管制刀具2把。目前,邓某、李某等4人已被依法刑事拘留,案件正在进一步侦办中。", "quest_eval_save": {}, "evaluateDatetime": "2024-10-10 13:12:21.914178" }, "valid": true }, { "id": "64fa9b2cb82641eb8ecbf1e6", "metrics": { "bleu-avg": 0.0, "bleu-1": 0.3333333333333333, "bleu-2": 0.0, "bleu-3": 0.0, "bleu-4": 0.0, "rouge-L": 0.008368200836820085, "bertScore": 0.0, "QA_avg_F1": 0.0, "QA_recall": 0.0, "length": 4 }, "log": { "generated_text": "你是一名", "ground_truth_text": "其次是在数字经济和技术等方面加强合作。南非目前正处于经济数字化和生产方式转型的早期阶段,中方的发展经验对南非非常有帮助。此外就是人员交流,这不仅限于旅游业,还包括教育、体育和医疗保健等领域的交流。谈及部分西方政客和媒体声称共建“一带一路”倡议在一些非洲国家制造了所谓的“债务陷阱”,谢胜文告诉《环球时报》记者:“据我们了解,非洲国家在共建‘一带一路’倡议提出之前就已面临严重的负债问题,这并非因为向金砖国家或中国借债,而是由于其他发达经济体的债务所致。自很早以前起,非洲国家就一直面临着巨大的债务压力。我们不认为共建‘一带一路’倡议造成了非洲国家的债务问题。我们彼此间的关系是平等相待,双方正积极接洽合作,确保项目具备良好的可贷性和可持续性。该倡议为非洲带来的大规模经济基础设施建设是有目共睹的,没有这些基建,我们是无法在全球市场经济中获得竞争力的。对非洲人而言,共建‘一带一路’倡议为我们带来的只有好处。”", "quest_eval_save": {}, "evaluateDatetime": "2024-10-10 13:12:53.217929" }, "valid": true }, { "id": "64fa9b2db82641eb8ecbf406", "metrics": { "bleu-avg": 0.0, "bleu-1": 0.09090909090909091, "bleu-2": 0.0, "bleu-3": 0.0, "bleu-4": 0.0, "rouge-L": 0.009999999999999998, "bertScore": 0.0, "QA_avg_F1": 0.0, "QA_recall": 0.0, "length": 15 }, "log": { "generated_text": "你现在是一名新华社发踹踹踹踹踹", "ground_truth_text": "林龙表示,根据作业时间的不同,本航次海冰综合调查分为短期作业站位和长期作业站位两种。每个短期作业站位作业时间为4至5小时,而长期作业站位时间则可持续3至5天。此外,考察队将借助作业中布放的无人值守设备对海冰进行长期观监测。中国极地研究中心(中国极地研究所)工程师、大洋队队长陈超表示,本次北冰洋科考海冰综合调查将体现诸多科考创新,如首次在北极布放次网格尺度浮标阵列、首次在北冰洋使用延绳钓方法调查冰下鱼类等。海冰综合调查作业是在考察队结束第一阶段任务——中北冰洋太平洋扇区大洋科考主要作业任务后立即开始的。根据计划安排,考察队将继续前往位于北纬85度附近的加克洋中脊区域,抵达后将开展洋中脊地质和地球物理相关专业的调查工作,航行期间根据海冰情况择机开展海冰综合调查。", "quest_eval_save": {}, "evaluateDatetime": "2024-10-10 13:12:16.640590" }, "valid": true }, { "id": "64fa9b31b82641eb8ecc0666", "metrics": { "bleu-avg": 0.0, "bleu-1": 0.0, "bleu-2": 0.0, "bleu-3": 0.0, "bleu-4": 0.0, "rouge-L": 0.0, "bertScore": 0.0, "QA_avg_F1": 0.0, "QA_recall": 0.0, "length": 5 }, "log": { "generated_text": "r\nr\nr", "ground_truth_text": "要求响应期间加强信息报送,重要情况按规定及时报告。此外,未来三天西南地区东部至长江中下游一带仍有降雨过程,国家防总办公室、应急管理部向安徽、湖北、重庆等省份发出做好近期强降雨过程防范应对的工作提示,督促各地落实本轮降雨各项应对措施。", "quest_eval_save": {}, "evaluateDatetime": "2024-10-10 13:12:58.784465" }, "valid": true } ] } 不知道哪里运行时出现了问题,希望能够有幸获得您的帮助。谢谢!

haruhi-sudo commented 1 week ago

你好,

  1. 这个错误是由前面的"RuntimeError(‘CUDA error..."造成的,模型没能正确生成文本,导致生成了""这样的空字符串,然后才出现除0错误(bleu计算的输入不能为"")。
  2. RuntimeError报错的可能原因太多了,和版本cuda环境等因素都可能相关,建议看看具体是哪行代码出了问题。