用这里的ChatGLM3 + 魔搭社区的ChatGLM3-6B的模型在阿里云微调官方示例，但Running Evaluation时出错，请求指导。

easychu commented 1 month ago

System Info / 系統信息

环境：阿里云PAI-DSW环境，A10 ，modelscope:1.15.0-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04。

Who can help? / 谁可以帮助到您？

@Btlmd 请大佬帮我诊断一下哪里出问题了。

Information / 问题信息

[X] The official example scripts / 官方的示例脚本
[ ] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

1.在阿里云的PAI-DSW申请一个新的环境，A10 ，modelscope:1.15.0-pytorch2.3.0tensorflow2.16.1-gpu-py310-cu121-ubuntu22.04。 2.下载 ChatGLM 示例demo ; git clone https://github.com/THUDM/ChatGLM3 3.进入 ChatGLM 目录下载 ChatGLM3-6B , git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git 4.将官网示例的Advgen数据拷贝到ChatGLM3/finetune_demo目录，对configs/lora.yaml修改了存储步数 5.ChatGLM3 目录和 finetune_demo目录下分别执行 pip install -r requirements.txt

python finetune_ht.py xxx xxx xxx开始微调。 7.到存储步数，比如500，时无法执行，出错如附件errlog所示。 errlog.txt

Expected behavior / 期待表现

按例程完成微调。我摸索了一下，是Running Evaluation时出错的。这个要如何修正请大牛指教，谢谢！

easychu commented 1 month ago

我摸索了一下，是Running Evaluation时出错的。这个要如何修正请大牛指教，谢谢！

easychu commented 1 month ago

@Btlmd 请帮忙指导一下，谢谢！

zRzRzRzRzRzRzR commented 1 month ago

你估计是所有数据都被跳过吧，你看看是不是长度都超过500了，确定你设置的max token超过你数据集中的长度

hy0310 commented 1 month ago

@Btlmd 请帮忙指导一下，谢谢！

Transformers降到4.40.0就可以跑了，环境问题

easychu commented 1 month ago

@Btlmd 请帮忙指导一下，谢谢！

Transformers降到4.40.0就可以跑了，环境问题

谢谢指导！降到4.40.0就行了。感谢！！！

easychu commented 1 month ago

谢谢各位大牛！问题解决，关议题。特别感谢 @hy0310！！！也谢谢 @Btlmd @zRzRzRzRzRzRzR！

THUDM / ChatGLM3