Closed Double-bear closed 1 year ago
显存有剩余的话把fp16
关掉试试,或者开启bf16
训练
显存有剩余的话把
fp16
关掉试试,或者开启bf16
训练
好的,谢谢,我看了一下显存应该是不够,还想再请教一下是只剩开启bf16训练这个方法吗?因为我之前测试过用bf16进行pretrain,然后loss没法收敛,从8训到6然后炸了飙回10,不知道是不是8bit下bf16训练会有什么问题还是我哪里操作不对,也不知道sft会不会也出现loss训飞的问题。
显存有剩余的话把
fp16
关掉试试,或者开启bf16
训练
bf16训练似乎也不太行,依旧是nan
@Double-bear +1
显存有剩余的话把
fp16
关掉试试,或者开启bf16
训练
开启bf16训练,torch_type需要改成bfloat16吗?
我将bf16设置为false,torch_type改成bfloat16,验证集上还是出现了nan
问题可能出现在超参的设置上,尝试调小warmup_ratio,如0.001;或者调大per node 的batch_size
我将bf16设置为false,torch_type改成bfloat16,验证集上还是出现了nan
请问一下这个问题最后怎么解决,我改用bf16之后,验证集也是NaN,直接关闭fp16会出错,类型不对
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.
@catqaq @Double-bear 请问下你们最后怎么解决的
I also have this problem. Is there any solution?
提交前必须检查以下项目
问题类型
模型训练与精调
基础模型
None
操作系统
Linux
详细描述问题
在进行Llama2-70B指令精调的时候,训练集loss正常下降,验证集loss为nan,看之前的提示,设置padding_side为‘right’也没有解决问题,请问这个是什么原因导致的?
提交任务脚本:
依赖情况(代码类问题务必提供)
运行日志或截图
训练数据格式如下:
loss下降: eval loss: