THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.19k stars 1.52k forks source link

用这里的ChatGLM3 + 魔搭社区的ChatGLM3-6B的模型在阿里云微调官方示例,但Running Evaluation时出错,请求指导。 #1264

Closed easychu closed 1 month ago

easychu commented 1 month ago

System Info / 系統信息

环境:阿里云PAI-DSW环境,A10 ,modelscope:1.15.0-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04。

Who can help? / 谁可以帮助到您?

@Btlmd 请大佬帮我诊断一下哪里出问题了。

Information / 问题信息

Reproduction / 复现过程

1.在阿里云的PAI-DSW申请一个新的环境,A10 ,modelscope:1.15.0-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04。 2.下载 ChatGLM 示例demo ; git clone https://github.com/THUDM/ChatGLM3 3.进入 ChatGLM 目录下载 ChatGLM3-6B , git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git 4.将官网示例的Advgen数据拷贝到ChatGLM3/finetune_demo目录,对configs/lora.yaml修改了存储步数 5.ChatGLM3 目录 和 finetune_demo目录下分别执行 pip install -r requirements.txt

  1. python finetune_ht.py xxx xxx xxx开始微调。 7.到存储步数,比如500,时无法执行,出错如附件errlog所示。 errlog.txt

Expected behavior / 期待表现

按例程完成微调。 我摸索了一下,是Running Evaluation时出错的。这个要如何修正请大牛指教,谢谢!

easychu commented 1 month ago

我摸索了一下,是Running Evaluation时出错的。这个要如何修正请大牛指教,谢谢!

easychu commented 1 month ago

@Btlmd 请帮忙指导一下,谢谢!

zRzRzRzRzRzRzR commented 1 month ago

你估计是所有数据都被跳过吧,你看看是不是长度都超过500了,确定你设置的max token超过你数据集中的长度

hy0310 commented 1 month ago

@Btlmd 请帮忙指导一下,谢谢!

Transformers降到4.40.0就可以跑了,环境问题

easychu commented 1 month ago

@Btlmd 请帮忙指导一下,谢谢!

Transformers降到4.40.0就可以跑了,环境问题

谢谢指导!降到4.40.0就行了。感谢!!!

easychu commented 1 month ago

谢谢各位大牛!问题解决,关议题。特别感谢 @hy0310!!! 也谢谢 @Btlmd @zRzRzRzRzRzRzR!