使用vllm_cli_demo.py推理会报错

System Info / 系統信息

cuda12

Who can help? / 谁可以帮助到您？

No response

Information / 问题信息

[X] The official example scripts / 官方的示例脚本
[x] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

经过lora微调后，使用llamafactory合并了模型，在llamafactory上使用合并后的模型没问题。使用vllm_cli_demo.py可以加载模型，但是输入input后，就会报以下错误 1e864f4a-9782-4079-be1d-282bdbf2f19e 使用的训练集是这样的 2e1700df-c392-47a8-ad8b-61d481508795 请问这是什么问题呢？

Expected behavior / 期待表现

能够正常对话

THUDM / GLM-4

使用vllm_cli_demo.py推理会报错 #255

System Info / 系統信息

Who can help? / 谁可以帮助到您？

Information / 问题信息

Reproduction / 复现过程

Expected behavior / 期待表现