OpenMOSS / MOSS

An open-source tool-augmented conversational language model from Fudan University
https://txsun1997.github.io/blogs/moss.html
Apache License 2.0
11.95k stars 1.15k forks source link

在8张40g A100上运行微调代码,bsz=1,报显存不够错误,请问最低训练硬件条件是什么? #189

Open KUANWB opened 1 year ago

xyltt commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

KUANWB commented 1 year ago

好的, 我把deepspeed里面offload到cpu就可以了

jiangxiaohuai520 commented 1 year ago

你哪来的这么多张A100,v我50吃顿冒菜呗

KUANWB commented 1 year ago

你管呢

starplatinum3 commented 1 year ago

请问int8微调 用一张80G的卡够吗,或者int4呢 /(ㄒoㄒ)/~~

hjing100 commented 1 year ago

请问int8微调 用一张80G的卡够吗,或者int4呢 /(ㄒoㄒ)/~~

请问int8微调 用一张80G的卡够吗?

zweny commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024,要如何操作?

BigTaige commented 1 year ago

一张A100(80G)微调不动

lhtpluto commented 1 year ago

好的, 我把deepspeed里面offload到cpu就可以了

非常感谢 把deepspeed offload到cpu 可行

insist93 commented 1 year ago

好的, 我把deepspeed里面offload到cpu就可以了

请问是下面这样修改config/sft.yaml吗? deepspeed_config: offload_optimizer_device: cpu offload_param_device: cpu

修改后,又报了另一个错, deepspeed.runtime.zero.utils.zero runtimeexception client provided optimizer...... 请问有没有遇到?

lhtpluto commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024,要如何操作? 尝试在finetune_moss.py中找到以下语句,看到2048改成1024

if len(input_ids + cur_turn_ids) > 2048: break

                    input_ids.extend(cur_turn_ids)
                    no_loss_spans.extend(cur_no_loss_spans)

                if len(input_ids) == len(instruction_ids):
                    continue

                assert len(input_ids) > 0 and len(input_ids) <= 2048