Open zhurou603 opened 1 year ago
使用的是ImageNetDataset
使用的是纯 CPU 还是 GPU 或者 custom-device 呢?
custom device
---原始邮件--- 发件人: "Kim @.> 发送时间: 2023年7月10日(周一) 中午11:15 收件人: @.>; 抄送: @.**@.>; 主题: Re: [PaddlePaddle/PaddleClas] 长期训练host端内存耗尽 (Issue #2860)
使用的是纯 CPU 还是 GPU 或者 custom-device 呢?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
测试了一下GPU应该也是在涨的,看上去大概率和dataloader关系很大
看起来是每次train完一个epoch之后进行eval时,就会涨一波内存,并且没有释放。
看起来是每次train完一个epoch之后进行eval时,就会涨一波内存,并且没有释放。
我这边也遇到了同样的问题https://github.com/PaddlePaddle/PaddleCustomDevice/issues/670 可以 https://github.com/PaddlePaddle/PaddleCustomDevice/blob/develop/backends/intel_gpu/runtime/runtime.cc#L250 一样加一个 VLOG(); 抓一下 CustomDevice 的 Allocate /Deallcate 的调用
我遇到的是主机内存,不是custom device的显存
我没能复现该问题。想问下用的paddle版本是多少,paddleclas版本/分支是多少?
我没能复现该问题。想问下用的paddle版本是多少,paddleclas版本/分支是多少?
和另一个issue现象应该是一样的,还说了在Q2修复,已经排期了,内部可以确认一下?
这个问题有进展了吗,我也遇到了同样的问题,训练时间一长dataloader就要被kill掉
这个问题有进展了吗,我也遇到了同样的问题,训练时间一长dataloader就要被kill掉
官方还没有回复
我还是没能复现该问题,我这边的测试环境:PaddleClas release/2.5分支(commit id: a4db6f11bf2729080bb6030a8215b5198b78cec2),PaddlePaddle-gpu 2.5.0.post102,python3.10,4卡P40机器,训练脚本是ppcls/configs/ImageNet/ResNet/ResNet50_amp_O1.yaml,只修改了DataLoader.Eval.loader.num_workers=2
每个epoch只训练100个iter,训练到30epoch,内存占用没有出现一直增长的现象
我尝试在这上面复现一下
---原始邮件--- 发件人: "Tingquan @.> 发送时间: 2023年7月21日(周五) 晚上7:30 收件人: @.>; 抄送: @.**@.>; 主题: Re: [PaddlePaddle/PaddleClas] 长期训练host端内存耗尽 (Issue #2860)
我还是没能复现该问题,我这边的测试环境:PaddleClas release/2.5分支,PaddlePaddle-gpu 2.5.0.post102,python3.10,4卡P40机器,训练脚本是ppcls/configs/ImageNet/ResNet/ResNet50_amp_O1.yaml,只修改了DataLoader.Eval.loader.num_workers=2
每个epoch只训练100个iter,训练到30epoch,内存占用没有出现一直增长的现象
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
我还是没能复现该问题,我这边的测试环境:PaddleClas release/2.5分支(commit id: a4db6f1),PaddlePaddle-gpu 2.5.0.post102,python3.10,4卡P40机器,训练脚本是ppcls/configs/ImageNet/ResNet/ResNet50_amp_O1.yaml,只修改了DataLoader.Eval.loader.num_workers=2
每个epoch只训练100个iter,训练到30epoch,内存占用没有出现一直增长的现象
请问也是imagenet数据集么
我还是没能复现该问题,我这边的测试环境:PaddleClas release/2.5分支(commit id: a4db6f1),PaddlePaddle-gpu 2.5.0.post102,python3.10,4卡P40机器,训练脚本是ppcls/configs/ImageNet/ResNet/ResNet50_amp_O1.yaml,只修改了DataLoader.Eval.loader.num_workers=2
每个epoch只训练100个iter,训练到30epoch,内存占用没有出现一直增长的现象
你好,你的配置还是可以复现的,需要关闭一下use_dali
欢迎您使用PaddleClas并反馈相关问题,非常感谢您对PaddleClas的贡献! 提出issue时,辛苦您提供以下信息,方便我们快速定位问题并及时有效地解决您的问题:
现象: 长期训练resnet-50,每个epoch的eval以及训练都会分配内存,并且没有释放?导致最后内存满了? 是有内存泄露吗?还是什么