Closed LZHhAG closed 5 days ago
多卡训练似乎有问题,但还没有找到解决方案
请问你的pytorch版本是多少呀,我在导入ultralytics包的时候总是报错与torch版本不兼容
请问你的pytorch版本是多少呀,我在导入ultralytics包的时候总是报错与torch版本不兼容
我的torch版本是2.0.0
多卡训练似乎有问题,但还没有找到解决方案
您好,多卡训练只需要把 model.train(data="coco.yaml",device=[0],epochs=100) 改为 model.train(data="coco.yaml",device=[0,1,2,3],epochs=100) 即可。另外我刚刚测试了一遍,在我这边训练时确实只有一行输出,进度条变动。您那边每行都会有新的输出或许是IDLE存在bug?
多卡训练似乎有问题,但还没有找到解决方案
您好,多卡训练只需要把 model.train(data="coco.yaml",device=[0],epochs=100) 改为 model.train(data="coco.yaml",device=[0,1,2,3],epochs=100) 即可。另外我刚刚测试了一遍,在我这边训练时确实只有一行输出,进度条变动。您那边每行都会有新的输出或许是IDLE存在bug? 您好,我确实是这样做的,我的conda设置的python版本是3.9,torch版本也按照您的建议设置了2.0.0,但依旧无法顺利进行多卡训练,IDLE我也进行了配置,在配环境的时候按照您给的requirements.txt进行配置,但缺少torchinfo spikingjelly timm einops四个包,我用pip直接进行了安装,不知道是不是这个版本冲突引起的问题。另外我使用最新的2.4.1的pytorch可以进行多卡训练,但是会发生“每学习一张图片都打印一次输出”的bug,同时,这时的多卡训练每张卡的显存使用量是:单卡训练显存使用量/显卡数量,也就是说并没有加快训练的速度,不太清楚这是什么原因。
多卡训练似乎有问题,但还没有找到解决方案
您好,多卡训练只需要把 model.train(data="coco.yaml",device=[0],epochs=100) 改为 model.train(data="coco.yaml",device=[0,1,2,3],epochs=100) 即可。另外我刚刚测试了一遍,在我这边训练时确实只有一行输出,进度条变动。您那边每行都会有新的输出或许是IDLE存在bug? 您好,我确实是这样做的,我的conda设置的python版本是3.9,torch版本也按照您的建议设置了2.0.0,但依旧无法顺利进行多卡训练,IDLE我也进行了配置,在配环境的时候按照您给的requirements.txt进行配置,但缺少torchinfo spikingjelly timm einops四个包,我用pip直接进行了安装,不知道是不是这个版本冲突引起的问题。另外我使用最新的2.4.1的pytorch可以进行多卡训练,但是会发生“每学习一张图片都打印一次输出”的bug,同时,这时的多卡训练每张卡的显存使用量是:单卡训练显存使用量/显卡数量,也就是说并没有加快训练的速度,不太清楚这是什么原因。
您或许可以参考我们最新提供的environment.yaml 文件再核对一下安装包版本?另外,多卡训练每张卡的显存确实是:单卡训练显存使用量/显卡数量。如果您想提高显存占用,请在default.yaml中调高batch。这个batch是多卡的全部batch_size而不是单张卡的
多卡训练似乎有问题,但还没有找到解决方案
您好,多卡训练只需要把 model.train(data="coco.yaml",device=[0],epochs=100) 改为 model.train(data="coco.yaml",device=[0,1,2,3],epochs=100) 即可。另外我刚刚测试了一遍,在我这边训练时确实只有一行输出,进度条变动。您那边每行都会有新的输出或许是IDLE存在bug? 您好,我确实是这样做的,我的conda设置的python版本是3.9,torch版本也按照您的建议设置了2.0.0,但依旧无法顺利进行多卡训练,IDLE我也进行了配置,在配环境的时候按照您给的requirements.txt进行配置,但缺少torchinfo spikingjelly timm einops四个包,我用pip直接进行了安装,不知道是不是这个版本冲突引起的问题。另外我使用最新的2.4.1的pytorch可以进行多卡训练,但是会发生“每学习一张图片都打印一次输出”的bug,同时,这时的多卡训练每张卡的显存使用量是:单卡训练显存使用量/显卡数量,也就是说并没有加快训练的速度,不太清楚这是什么原因。
您或许可以参考我们最新提供的environment.yaml 文件再核对一下安装包版本?另外,多卡训练每张卡的显存确实是:单卡训练显存使用量/显卡数量。如果您想提高显存占用,请在default.yaml中调高batch。这个batch是多卡的全部batch_size而不是单张卡的 非常感谢您的回复,已经修改好了,谢谢
训练时每学习一张图片都打印一次输出,如何修改使其像验证集验证时那样,一整个数据集只显示一行输出,只有进度条变动