Open ucaslei opened 2 months ago
Please provide a clear and concise description of what the question is.
用大约2B token数据进行13B模型的增量预训练,训练一个epoch,不使用peft,8个a800,预计耗时400小时,远超出理论时间,可能是什么原因,正常情况下一般多久
Describe the Question
Please provide a clear and concise description of what the question is.
用大约2B token数据进行13B模型的增量预训练,训练一个epoch,不使用peft,8个a800,预计耗时400小时,远超出理论时间,可能是什么原因,正常情况下一般多久