微调后模型推理存在的问题

We-IOT / chatglm3_6b_finetune

基于chatglm3-6b模型的lora方法的微调

GNU General Public License v3.0

76 stars 13 forks source link

微调后模型推理存在的问题 #8

Closed cackako closed 8 months ago

cackako commented 8 months ago

在用inference_hf.py直接挂载微调后模型推理时返回正常，但是在用官方库提供的web_demo或者cli-demo进行多轮会话时，除了第一次是跟微调数据集相关的，后面再次调用与第一次回答差异很大，且后续多次调用返回一样。请问这是微调的时候配置文件存在问题吗，应该修复哪里

We-IOT commented 8 months ago

inference_hf.py 使用的是原模型+lora权重，web_demo或者cli-demo使用的是原模型或者合并后的模型。我觉得两者多轮会话只是把历史会话和新的回话合并一起做推理，和单次推理没有什么不同，不应该出现那么大的差异。你能不能具体描述一下你的测试过程（每次测试的命令和参数文件等等）

cackako commented 8 months ago

是的，跟你说的一样，我在使用web_demo和cli_demo推理的时候，已经使用finetune-demo/inference.py中读取模型的方式进行了替换，如图：微信图片_20240312175513

We-IOT commented 8 months ago

建议你可以使用我写的那个模型合并的代码，这样就不用修改用官方库提供的web_demo或者cli-demo了。

cackako commented 8 months ago

好的，已经使用啦，但是微调后不清楚历史记录再次提问对结果影响还是挺大，这是怎么回事