运行Chatglm6b_ModelParallel代码时候，模型是下载 huggingface上的THUDM/chatglm-6bcommit为d2bbc82a2出错

Ardang666 commented 1 year ago

大佬请教一下，跑 Chatglm6b_ModelParallel 下载的model为：只用了 pytorch_model- 和 ice_text.model，其他文件用的工程代码中的

运行中出现报错：

其中transformer是自己安装的，4.26.1版本。基于这个transformer环境，跑 simple_thu_chatglm6b/ 没问题（使用 dddd的模型）

尝试另一个模型，dddd 在Chatglm6b_ModelParallel工程下切换到 dddd的模型，可以加载模型，但是最后会发现 torch layernorm，input dev 在 cuda0，layer norm的weight在cuda 1，导致错误。

大佬，请问一下，模型使用错误了吗？

ibuwei commented 1 year ago

这个问题我也遇到了, 应该是 config.json 中的配置有错误, 要跟下载 model 的 config.json 一致, 因为模型更新了, 配置也要新的, 不过也可能会遇到其他错误

Ardang666 commented 1 year ago

把 input.to(当前layer.weight.device)上，可以解决。

yuanzhoulvpi2017 / zero_nlp