在8张40g A100上运行微调代码，bsz=1，报显存不够错误，请问最低训练硬件条件是什么？

OpenMOSS / MOSS

An open-source tool-augmented conversational language model from Fudan University

https://txsun1997.github.io/blogs/moss.html

Apache License 2.0

11.95k stars 1.15k forks source link

在8张40g A100上运行微调代码，bsz=1，报显存不够错误，请问最低训练硬件条件是什么？ #189

Open KUANWB opened 1 year ago

xyltt commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

KUANWB commented 1 year ago

好的，我把deepspeed里面offload到cpu就可以了

jiangxiaohuai520 commented 1 year ago

你哪来的这么多张A100，v我50吃顿冒菜呗

KUANWB commented 1 year ago

你管呢

starplatinum3 commented 1 year ago

请问int8微调用一张80G的卡够吗，或者int4呢 /(ㄒoㄒ)/~~

hjing100 commented 1 year ago

请问int8微调用一张80G的卡够吗，或者int4呢 /(ㄒoㄒ)/~~

请问int8微调用一张80G的卡够吗？

zweny commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024，要如何操作？

BigTaige commented 1 year ago

一张A100(80G)微调不动

lhtpluto commented 1 year ago

好的，我把deepspeed里面offload到cpu就可以了

非常感谢把deepspeed offload到cpu 可行

insist93 commented 1 year ago

好的，我把deepspeed里面offload到cpu就可以了

请问是下面这样修改config/sft.yaml吗？ deepspeed_config: offload_optimizer_device: cpu offload_param_device: cpu

修改后，又报了另一个错， deepspeed.runtime.zero.utils.zero runtimeexception client provided optimizer...... 请问有没有遇到？

lhtpluto commented 1 year ago

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024，要如何操作？尝试在finetune_moss.py中找到以下语句，看到2048改成1024

if len(input_ids + cur_turn_ids) > 2048: break

                    input_ids.extend(cur_turn_ids)
                    no_loss_spans.extend(cur_no_loss_spans)

                if len(input_ids) == len(instruction_ids):
                    continue

                assert len(input_ids) > 0 and len(input_ids) <= 2048