THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
5.28k stars 435 forks source link

GLM4训练过程中进行验证速度非常慢,比chatGLM3慢很多 #488

Closed guvsta closed 2 months ago

guvsta commented 3 months ago

System Info / 系統信息

CUDA 12.1

Who can help? / 谁可以帮助到您?

No response

Information / 问题信息

Reproduction / 复现过程

企业微信截图_17237119114827 GLM4训练过程时,进行验证速度非常慢,500个样本验证要33分钟, 训练chatGLM3时每完成一轮训练 ,几千个样本很短的时间就可以完成验证

Expected behavior / 期待表现

提升验证的速度

zRzRzRzRzRzRzR commented 3 months ago

你把combine改成true,不然每一轮对话都验证了

guvsta commented 3 months ago

你把combine改成true,不然每一轮对话都验证了

改成true了,测试 100个样本 ,需要7分钟 企业微信截图_17237969881287 之前chatglm3几千个样本 ,十几秒就跑完了

zhipuch commented 2 months ago

主要两个原因:

  1. chatglm3验证集只取了前50条数据
  2. 拿到验证结果去compute_metrics计算分数时需要分词,GLM4的词表是chatglm3的2倍还要多,因此样本多的时候总的分词时间也剧增,这部分优化不了 我们对模型在验证集推理速度上做了优化,这会起到加速作用,后续会更新微调代码
sssssshf commented 2 months ago

你这是微调的训练 还是全量参数训练, 作者有公开从0开始的训练代码吗

guvsta commented 2 months ago

你这是微调的训练 还是全量参数训练, 作者有公开从0开始的训练代码吗

lora微调