在测试llama3-8B-instruct时候，指标特别低

RUC-NLPIR / FlashRAG

⚡FlashRAG: A Python Toolkit for Efficient RAG Research

https://arxiv.org/abs/2405.13576

MIT License

891 stars 69 forks source link

在测试llama3-8B-instruct时候，指标特别低 #34

Closed lwj2001 closed 2 weeks ago

lwj2001 commented 3 weeks ago

您好！在 generate 过程中，出现了以下 warning Setting pad_token_id to eos_token_id :128001 for open-end generation.
最终的输出结果： {'em': 0.004651162790697674, 'f1': 0.032358761012563415, 'sub_em': 0.6046511627906976} 其中 em 和 f1 指标特别的低，这是什么情况呢？

ignorejjj commented 3 weeks ago

sub_em的指标看起来没问题，有可能是修改了输入的prompt导致模型输出过程中会有一些其他的内容。如果可以的话，提供一下使用的代码和具体设置的参数。或者检查一下模型的输出结果是否有问题，以及是否有其他的提示信息？

lwj2001 commented 2 weeks ago

sub_em的指标看起来没问题，有可能是修改了输入的prompt导致模型输出过程中会有一些其他的内容。如果可以的话，提供一下使用的代码和具体设置的参数。或者检查一下模型的输出结果是否有问题，以及是否有其他的提示信息？

您好！感谢及时回复！原因似乎是模型的回复停不下来，会一直吐 token 到 max_tokens为止。在该模型的 modelscope 上的地址中找到了解决方法，需要设置 "stop": ["<|eot_id|>"]