MCG-NJU / SparseOcc

[ECCV 2024] Fully Sparse 3D Occupancy Prediction & RayIoU Evaluation Metric
https://arxiv.org/abs/2312.17118
Apache License 2.0
277 stars 22 forks source link

data 时间不正常 #14

Closed Sunway-s closed 7 months ago

Sunway-s commented 7 months ago

data: 53577ms, mem: 24269M data: 31ms, mem: 24882M data: 23ms, mem: 24882M data: 19ms, mem: 24882M data: 18ms, mem: 24882M data: 18ms, mem: 24882M data: 17ms, mem: 24882M data: 18ms, mem: 24882M data: 30861ms, mem: 24882M data: 96ms, mem: 24882M data: 16ms, mem: 24882M data: 17ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 19ms, mem: 24882M data: 19ms, mem: 24882M data: 32986ms, mem: 24882M data: 117ms, mem: 24882M data: 27ms, mem: 24882M data: 27ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 24ms, mem: 24882M data: 22ms, mem: 24882M data: 45267ms, mem: 24882M data: 23ms, mem: 24882M data: 16ms, mem: 24882M 如上截取的log文件所示,在训练的时候我的data时间不正常,每隔几个iter就会变得很慢,这使得我的训练变得非常慢,请问怎么才能解决这个问题呢,我已经按照readme中安装好了 turbojpeg 和 pillow-simd。

afterthat97 commented 7 months ago

看看是cpu瓶颈还是disk瓶颈呢

Sunway-s commented 7 months ago

请问对disk要求高吗,数据我是放在hdd上跑的但是我跑其他OCC模型就没有遇到过这样的瓶颈,还有就是cpu利用率一直都是100%,就很奇怪,我跑其他的任务都是能跑出5000%的这种效果的,我增加了config中的workers_per_gpu也没有效果。

afterthat97 commented 7 months ago

cpu上每个进程的利用率就应该是100%,然后有多个进程呀, like this

image
Sunway-s commented 7 months ago
截屏2024-04-29 14 22 57

我的只有4个进程在大量使用cpu,请问有什么解决方法吗

Sunway-s commented 7 months ago

应该是我之前跑的OCC没有加时序融合,只输入了关键帧,所以跑sparseocc的I/O负担增加了,非常感谢作者的优秀工作。

afterthat97 commented 7 months ago

非常奇怪,应该不止4个进程的,环境是torch2.0吗

Sunway-s commented 7 months ago

非常奇怪,应该不止4个进程的,环境是torch2.0吗

对的使用的是torch2.0

Sunway-s commented 7 months ago
截屏2024-04-29 15 34 08

很多进程都在等I/O,应该是I/O的问题吧。

afterthat97 commented 7 months ago

那换个ssd吧,这应该是标配了

afterthat97 commented 7 months ago

我们早就全用ssd了

Sunway-s commented 7 months ago

我们早就全用ssd了

正在换,非常感谢。