Closed slatter666 closed 8 months ago
您的结果和我们测试的结果差异不大,由于到模型本身生成过程是存在随机性的(同样的prompt生成两次可能也不一样),所以是正常现象。flash attn按说不会导致结果的差异,当然,也不排除会有精度影响。
您的结果和我们测试的结果差异不大,由于到模型本身生成过程是存在随机性的(同样的prompt生成两次可能也不一样),所以是正常现象。flash attn按说不会导致结果的差异,当然,也不排除会有精度影响。
使用同样机器的情况下,在固定了seed以及使用贪心解码的情况下模型的生成过程应该是完全一致的。这里基本只有机器不一致,以及没有使用flash attn,怀疑可能是机器不一致导致的(python package不一致应该不会导致这样的差异?)
没错,是这样的
拉了代码下来测试Llama2-7B-chat-4k结果和论文不一样呢,对于代码只取消了flash attention的使用,机器使用V100,测试结果出来要比论文好一些,请问不使用flash attention会导致这种差异吗
{ "passage_count": 2.92, "lsht": 18.25, "samsum": 41.25, "lcc": 58.23, "musique": 8.02, "qmsum": 20.84, "narrativeqa": 18.61, "passage_retrieval_zh": 9.12, "trec": 64.0, "2wikimqa": 31.32, "multi_news": 26.34, "triviaqa": 83.51, "multifieldqa_en": 36.91, "dureader": 6.64, "hotpotqa": 27.77, "gov_report": 26.82, "repobench-p": 52.12, "vcsum": 0.17, "multifieldqa_zh": 11.82, "passage_retrieval_en": 7.0, "qasper": 21.69 }