THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
MIT License
620 stars 43 forks source link

Llama2-7B-chat-4k测试出来结果不一样 #55

Closed slatter666 closed 6 months ago

slatter666 commented 6 months ago

拉了代码下来测试Llama2-7B-chat-4k结果和论文不一样呢,对于代码只取消了flash attention的使用,机器使用V100,测试结果出来要比论文好一些,请问不使用flash attention会导致这种差异吗 { "passage_count": 2.92, "lsht": 18.25, "samsum": 41.25, "lcc": 58.23, "musique": 8.02, "qmsum": 20.84, "narrativeqa": 18.61, "passage_retrieval_zh": 9.12, "trec": 64.0, "2wikimqa": 31.32, "multi_news": 26.34, "triviaqa": 83.51, "multifieldqa_en": 36.91, "dureader": 6.64, "hotpotqa": 27.77, "gov_report": 26.82, "repobench-p": 52.12, "vcsum": 0.17, "multifieldqa_zh": 11.82, "passage_retrieval_en": 7.0, "qasper": 21.69 }

bys0318 commented 6 months ago

您的结果和我们测试的结果差异不大,由于到模型本身生成过程是存在随机性的(同样的prompt生成两次可能也不一样),所以是正常现象。flash attn按说不会导致结果的差异,当然,也不排除会有精度影响。

slatter666 commented 6 months ago

您的结果和我们测试的结果差异不大,由于到模型本身生成过程是存在随机性的(同样的prompt生成两次可能也不一样),所以是正常现象。flash attn按说不会导致结果的差异,当然,也不排除会有精度影响。

使用同样机器的情况下,在固定了seed以及使用贪心解码的情况下模型的生成过程应该是完全一致的。这里基本只有机器不一致,以及没有使用flash attn,怀疑可能是机器不一致导致的(python package不一致应该不会导致这样的差异?)

bys0318 commented 6 months ago

没错,是这样的