Closed cackako closed 8 months ago
inference_hf.py 使用的是原模型+lora权重,web_demo或者cli-demo使用的是原模型或者合并后的模型。 我觉得两者多轮会话只是把历史会话和新的回话合并一起做推理,和单次推理没有什么不同,不应该出现那么大的差异。 你能不能具体描述一下你的测试过程(每次测试的命令和参数文件等等)
是的,跟你说的一样,我在使用web_demo和cli_demo推理的时候,已经使用finetune-demo/inference.py中读取模型的方式进行了替换,如图:
建议你可以使用我写的那个模型合并的代码,这样就不用修改用官方库提供的web_demo或者cli-demo了。
好的,已经使用啦,但是微调后不清楚历史记录再次提问对结果影响还是挺大,这是怎么回事
在用inference_hf.py直接挂载微调后模型推理时返回正常,但是在用官方库提供的web_demo或者cli-demo进行多轮会话时,除了第一次是跟微调数据集相关的,后面再次调用与第一次回答差异很大,且后续多次调用返回一样。请问这是微调的时候配置文件存在问题吗,应该修复哪里