fine-tuning的训练时长

Macielyoung / Bloom-Lora

Finetune Bloom big language model with Lora method

28 stars 2 forks source link

Open seanychen opened 1 year ago

seanychen commented 1 year ago

我训练了已有的alpaca Chinese 和 aplaca translate Chinese的两个数据集 + 我自己一个很小的数据json。

看截图里面显示要训练5个小时？Lora也需要这么久吗？另外那个2052数字是什么意思？是epoch吗 Screenshot 2023-06-16 045130

Macielyoung commented 1 year ago

2052是训练总步数，时长取决于你的数据集大小和机器速度。

seanychen commented 1 year ago

我用两个4090显卡总共48GB 数据集50MB 为何需要跑5个小时那么久？

Macielyoung commented 1 year ago

如果显存充足，可以把batch_size设置大一些，使用deepspeed来加速。验证集也可以设置小一点，设置验证步数更长，降低总训练时长。另外你可以观察一下你训练一步的时长。

seanychen commented 1 year ago

我用两个4090显卡总共48GB 跑数据集50MB，最后GPU不够用是什么原因呢？ Screenshot 2023-06-19 215747

Macielyoung commented 1 year ago

那和batch_size和句子max_length有关系，这些你可能设置的太大了，降低一下试试