Open wangwangteam opened 1 month ago
sence01和sence02一块训练时,报错如下:
你框出来的就是报错原因
你框出来的就是报错原因
24G的3090, bs=16,爆显存是正常的吗?
那我用bs=8, 训练集3808张图, 报这个错是什么情况呢?
似乎没截全,不清楚
这个是用了3808张训练集 训练时的报错
这个是用了3808张训练集 训练时的报错
应该是数据加载的问题
显存不够,我也是一样的问题
请问这个问题解决了吗?我设置batch_size=1时也会报同样的memory out错误,这儿会不会存在内存泄漏
我自己的数据集中,训练集1807张,测试集1800张,放在了sence01目录下。当我使用默认的训练参数训练时,能够正常训练。 当我在同级目录下增加了sence02,训练集1201张,测试集334张,依然采用默认的训练参数训练时,就报错了。报错信息如下:
训练命令如下:
![image](https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet/assets/26371875/a9f47f7d-554a-498b-93e9-1538e955be80)
服务器环境: torch-gpu: 2.0.1 gpu: 3090
还有一个问题,当我把batch size 从8修改为256、128、64、32、16等任意一个batch size, 都不能正常训练,具体表现为当bs为256、128、64、32时,直接不能训练,当bs为16时,训练2轮后,就报上图中的错误。 请大佬帮忙答疑解惑,万分感谢!!