Open Guochry opened 1 year ago
您好!我想要在自己的数据集上复现RRHF的工作,用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100,打开gradient_checkpointing来实现吗? 万分感谢!
肯定可以打开gradient_checkpointing OOM的话你可以再确认下max len的设置
您好!我想要在自己的数据集上复现RRHF的工作,用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100,打开gradient_checkpointing来实现吗? 万分感谢!