Macielyoung / Bloom-Lora

Finetune Bloom big language model with Lora method
28 stars 2 forks source link

fine-tuning的训练时长 #9

Open seanychen opened 1 year ago

seanychen commented 1 year ago

我训练了已有的alpaca Chinese 和 aplaca translate Chinese的两个数据集 + 我自己一个很小的数据json。

看截图里面显示要训练5个小时?Lora也需要这么久吗?另外那个2052数字是什么意思? 是epoch吗 Screenshot 2023-06-16 045130

Macielyoung commented 1 year ago

2052是训练总步数,时长取决于你的数据集大小和机器速度。

seanychen commented 1 year ago

我用两个4090显卡 总共48GB 数据集50MB 为何需要跑5个小时那么久?

Macielyoung commented 1 year ago

如果显存充足,可以把batch_size设置大一些,使用deepspeed来加速。验证集也可以设置小一点,设置验证步数更长,降低总训练时长。另外你可以观察一下你训练一步的时长。

seanychen commented 1 year ago

我用两个4090显卡 总共48GB 跑数据集50MB, 最后GPU不够用是什么原因呢? Screenshot 2023-06-19 215747

Macielyoung commented 1 year ago

那和batch_size和句子max_length有关系,这些你可能设置的太大了,降低一下试试