Llama2-7B-chat-4k测试出来结果不一样

THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MIT License

620 stars 43 forks source link

Llama2-7B-chat-4k测试出来结果不一样 #55

Closed slatter666 closed 6 months ago

slatter666 commented 6 months ago

拉了代码下来测试Llama2-7B-chat-4k结果和论文不一样呢，对于代码只取消了flash attention的使用，机器使用V100，测试结果出来要比论文好一些，请问不使用flash attention会导致这种差异吗 { "passage_count": 2.92, "lsht": 18.25, "samsum": 41.25, "lcc": 58.23, "musique": 8.02, "qmsum": 20.84, "narrativeqa": 18.61, "passage_retrieval_zh": 9.12, "trec": 64.0, "2wikimqa": 31.32, "multi_news": 26.34, "triviaqa": 83.51, "multifieldqa_en": 36.91, "dureader": 6.64, "hotpotqa": 27.77, "gov_report": 26.82, "repobench-p": 52.12, "vcsum": 0.17, "multifieldqa_zh": 11.82, "passage_retrieval_en": 7.0, "qasper": 21.69 }

bys0318 commented 6 months ago

您的结果和我们测试的结果差异不大，由于到模型本身生成过程是存在随机性的（同样的prompt生成两次可能也不一样），所以是正常现象。flash attn按说不会导致结果的差异，当然，也不排除会有精度影响。

slatter666 commented 6 months ago

您的结果和我们测试的结果差异不大，由于到模型本身生成过程是存在随机性的（同样的prompt生成两次可能也不一样），所以是正常现象。flash attn按说不会导致结果的差异，当然，也不排除会有精度影响。

使用同样机器的情况下，在固定了seed以及使用贪心解码的情况下模型的生成过程应该是完全一致的。这里基本只有机器不一致，以及没有使用flash attn，怀疑可能是机器不一致导致的（python package不一致应该不会导致这样的差异？）

bys0318 commented 6 months ago

没错，是这样的