TencentYoutuResearch / CrowdCounting-P2PNet

The official codes for the ICCV2021 Oral presentation "Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework"
Other
404 stars 109 forks source link

为什么我增加了训练数据集数量后,无法训练? #79

Open wangwangteam opened 1 month ago

wangwangteam commented 1 month ago

我自己的数据集中,训练集1807张,测试集1800张,放在了sence01目录下。当我使用默认的训练参数训练时,能够正常训练。 当我在同级目录下增加了sence02,训练集1201张,测试集334张,依然采用默认的训练参数训练时,就报错了。报错信息如下: 0f9f209c5cd7c8d772988ce7f200fc7 训练命令如下: image

服务器环境: torch-gpu: 2.0.1 gpu: 3090

还有一个问题,当我把batch size 从8修改为256、128、64、32、16等任意一个batch size, 都不能正常训练,具体表现为当bs为256、128、64、32时,直接不能训练,当bs为16时,训练2轮后,就报上图中的错误。 请大佬帮忙答疑解惑,万分感谢!!

wangwangteam commented 1 month ago

sence01和sence02一块训练时,报错如下: image

mpmmpmmmp commented 1 month ago

你框出来的就是报错原因

wangwangteam commented 1 month ago

你框出来的就是报错原因

24G的3090, bs=16,爆显存是正常的吗?

那我用bs=8, 训练集3808张图, 报这个错是什么情况呢? image

mpmmpmmmp commented 1 month ago

似乎没截全,不清楚

wangwangteam commented 1 month ago

image 这个是用了3808张训练集 训练时的报错

mpmmpmmmp commented 1 month ago

image 这个是用了3808张训练集 训练时的报错

应该是数据加载的问题

hosegragon commented 1 month ago

显存不够,我也是一样的问题

lp-094 commented 6 days ago

请问这个问题解决了吗?我设置batch_size=1时也会报同样的memory out错误,这儿会不会存在内存泄漏