GanjinZero / RRHF

[NIPS2023] RRHF & Wombat
792 stars 49 forks source link

训练过程OOM的问题 #41

Open Guochry opened 1 year ago

Guochry commented 1 year ago

您好!我想要在自己的数据集上复现RRHF的工作,用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100,打开gradient_checkpointing来实现吗? 万分感谢!

GanjinZero commented 1 year ago

肯定可以打开gradient_checkpointing OOM的话你可以再确认下max len的设置