Open seanychen opened 1 year ago
2052是训练总步数,时长取决于你的数据集大小和机器速度。
我用两个4090显卡 总共48GB 数据集50MB 为何需要跑5个小时那么久?
如果显存充足,可以把batch_size设置大一些,使用deepspeed来加速。验证集也可以设置小一点,设置验证步数更长,降低总训练时长。另外你可以观察一下你训练一步的时长。
我用两个4090显卡 总共48GB 跑数据集50MB, 最后GPU不够用是什么原因呢?
那和batch_size和句子max_length有关系,这些你可能设置的太大了,降低一下试试
我训练了已有的alpaca Chinese 和 aplaca translate Chinese的两个数据集 + 我自己一个很小的数据json。
看截图里面显示要训练5个小时?Lora也需要这么久吗?另外那个2052数字是什么意思? 是epoch吗