Open Anrui224 opened 6 months ago
你好,我正在用scripts_llama/order_1.sh在llama-7b模型上训练,每次在yahoo数据集上训练时都会遇到loss直接降到0的情况(其他数据集上正常),能帮忙看看有什么问题吗?用的80G显存单卡A100,训练batch size为8,测试batch size为32,梯度累积步长为1.
你好,我正在用scripts_llama/order_1.sh在llama-7b模型上训练,每次在yahoo数据集上训练时都会遇到loss直接降到0的情况(其他数据集上正常),能帮忙看看有什么问题吗?用的80G显存单卡A100,训练batch size为8,测试batch size为32,梯度累积步长为1.