yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.85k stars 355 forks source link

运行Chatglm6b_ModelParallel代码时候,模型是下载 huggingface上的THUDM/chatglm-6bcommit为d2bbc82a2出错 #130

Closed Ardang666 closed 1 year ago

Ardang666 commented 1 year ago

大佬请教一下,跑 Chatglm6b_ModelParallel 下载的model为: image 只用了 pytorch_model- 和 ice_text.model,其他文件用的工程代码中的

运行中出现报错: image

其中transformer是自己安装的,4.26.1版本。 基于这个transformer环境,跑 simple_thu_chatglm6b/ 没问题(使用 dddd的模型)


尝试另一个模型,dddd 在Chatglm6b_ModelParallel工程下切换到 dddd的模型,可以加载模型,但是最后会发现 torch layernorm,input dev 在 cuda0,layer norm的weight在cuda 1,导致错误。

大佬,请问一下,模型使用错误了吗?

ibuwei commented 1 year ago

这个问题我也遇到了, 应该是 config.json 中的配置有错误, 要跟下载 model 的 config.json 一致, 因为模型更新了, 配置也要新的, 不过也可能会遇到其他错误

Ardang666 commented 1 year ago

把 input.to(当前layer.weight.device)上,可以解决。