从 chat 接口内部调用 generate 接口的处理逻辑看，使用上述拼接方式生成的 input_ids 不符合你们对于特殊符（如<|user|>、<|assistant|>）的 id 定义，这部分是否只是为了兼容通用的 generate 接口？且存在对模型性能的损失？

Tesla-jiang commented 1 month ago

          从 chat 接口内部调用 generate 接口的处理逻辑看，使用上述拼接方式生成的 input_ids 不符合你们对于特殊符（如<|user|>、<|assistant|>）的 id 定义，这部分是否只是为了兼容通用的 generate 接口？且存在对模型性能的损失？

Originally posted by @Tesla-jiang in https://github.com/THUDM/ChatGLM3/issues/1238#issuecomment-2144113809

zRzRzRzRzRzRzR commented 1 month ago

这个是我们训练的时候用的special token，模板是这样，所以对话需要使用这种模板 chat方案出来的编码是能对上的呀

在glm-4仓库中我们做了一个对齐apply_chat_template的版本

Tesla-jiang commented 1 month ago

另我看到了你们新上线的 THUDM/glm-4-9b-chat，这个是 chatGLM3 的迭代版本么？或者是功能相同，但底层路线有很大差异的模型才在命名上做出区别？我也看到了 glm-4-9b-chat 里的 apply_chat_template 方法，我会先仔细研究下，谢谢您的回答和指导哈，祝心情愉悦，笑口常开，手动笔芯

zRzRzRzRzRzRzR commented 1 month ago

是GLM3 的迭代，技术路线是相同的，关于你提到的模板。预训练模型不存在模板一说，模板是chat模型才有的哦。也就是在微调的时候，如果微调chat模型，才要求严格根据模板的。

THUDM / ChatGLM3

从 chat 接口内部调用 generate 接口的处理逻辑看，使用上述拼接方式生成的 input_ids 不符合你们对于特殊符（如<|user|>、<|assistant|>）的 id 定义，这部分是否只是为了兼容通用的 generate 接口？且存在对模型性能的损失？ #1256