Closed diaojunxian closed 1 year ago
同问,一样的问题,训练没啥问题,验证过程中出错
环境配置:4*V100 32G torch 1.13.1+cu117
同问,一样的问题,训练没啥问题,验证过程中出错
环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
这个截图是在执行报错的时候截图嘛,感觉这么大,应该没有问题呀。你的机器真牛。
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
这个截图是在执行报错的时候截图嘛,感觉这么大,应该没有问题呀。你的机器真牛。
这个不是,这个就是什么都没运行的时候的截图,下面这个是验证的时候显存和内存的占用的截图 按理说应该够用呀
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
这个截图是在执行报错的时候截图嘛,感觉这么大,应该没有问题呀。你的机器真牛。
这个不是,这个就是什么都没运行的时候的截图,下面这个是验证的时候显存和内存的占用的截图 按理说应该够用呀
你打开 swap 试试,我感觉是你的问题跟我一样 cpu 内存不够了,但是你的是 swap 关掉了,打开试试。
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
这个截图是在执行报错的时候截图嘛,感觉这么大,应该没有问题呀。你的机器真牛。
这个不是,这个就是什么都没运行的时候的截图,下面这个是验证的时候显存和内存的占用的截图 按理说应该够用呀
你打开 swap 试试,我感觉是你的问题跟我一样 cpu 内存不够了,但是你的是 swap 关掉了,打开试试。
好奇怪,我发现,我只用三张卡训练时,验证就不报错了[头秃],你也试试看
同问,一样的问题,训练没啥问题,验证过程中出错 环境配置:4*V100 32G torch 1.13.1+cu117
你机器的 cpu 内存是多大
256G,我之前微调cpm完成另一个任务的时候,没有报错,就是感觉训练损失是震荡的,这次在验证中就报错了,关键是没输出什么错误栈,不知道怎么debug
cpu 这么大吗,你执行一下 free -mh 截图一下
总共是256G,可用的剩72G
这个截图是在执行报错的时候截图嘛,感觉这么大,应该没有问题呀。你的机器真牛。
这个不是,这个就是什么都没运行的时候的截图,下面这个是验证的时候显存和内存的占用的截图 按理说应该够用呀
你打开 swap 试试,我感觉是你的问题跟我一样 cpu 内存不够了,但是你的是 swap 关掉了,打开试试。
好奇怪,我发现,我只用三张卡训练时,验证就不报错了[头秃],你也试试看
我这边解决的方式是增大了 cpu 内存已经也不报错了。对了你训练出来的模型,做推理的时候,怎么加载的?我当前加载然后做推理感觉没有效果?
我就是这样按照官方给的推理代码加载的,有效果
我就是这样按照官方给的推理代码加载的,有效果
嗯,我打印了模型看到 lora 的参数已经进去了,但是看起来针对我问的问题,效果不明显可能我跑了 10个 epoch,loss 仍然有1.5有关系,我用的不是官方的数据集。
我问下,当前是不支持CPU部署模型并进行推理的吧?
我问下,当前是不支持CPU部署模型并进行推理的吧?
不好意思,不清楚哎。
单机4张3090卡,其中机器环境:
微调指令:
增量微调过程中报错: