data 时间不正常 - Githubissues

Sunway-s commented 7 months ago

data: 53577ms, mem: 24269M data: 31ms, mem: 24882M data: 23ms, mem: 24882M data: 19ms, mem: 24882M data: 18ms, mem: 24882M data: 18ms, mem: 24882M data: 17ms, mem: 24882M data: 18ms, mem: 24882M data: 30861ms, mem: 24882M data: 96ms, mem: 24882M data: 16ms, mem: 24882M data: 17ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 19ms, mem: 24882M data: 19ms, mem: 24882M data: 32986ms, mem: 24882M data: 117ms, mem: 24882M data: 27ms, mem: 24882M data: 27ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 24ms, mem: 24882M data: 22ms, mem: 24882M data: 45267ms, mem: 24882M data: 23ms, mem: 24882M data: 16ms, mem: 24882M 如上截取的log文件所示，在训练的时候我的data时间不正常，每隔几个iter就会变得很慢，这使得我的训练变得非常慢，请问怎么才能解决这个问题呢，我已经按照readme中安装好了 turbojpeg 和 pillow-simd。

afterthat97 commented 7 months ago

看看是cpu瓶颈还是disk瓶颈呢

Sunway-s commented 7 months ago

请问对disk要求高吗，数据我是放在hdd上跑的但是我跑其他OCC模型就没有遇到过这样的瓶颈，还有就是cpu利用率一直都是100%，就很奇怪，我跑其他的任务都是能跑出5000%的这种效果的，我增加了config中的workers_per_gpu也没有效果。

afterthat97 commented 7 months ago

cpu上每个进程的利用率就应该是100%，然后有多个进程呀, like this

Sunway-s commented 7 months ago

我的只有4个进程在大量使用cpu，请问有什么解决方法吗

Sunway-s commented 7 months ago

应该是我之前跑的OCC没有加时序融合，只输入了关键帧，所以跑sparseocc的I/O负担增加了，非常感谢作者的优秀工作。

afterthat97 commented 7 months ago

非常奇怪，应该不止4个进程的，环境是torch2.0吗

Sunway-s commented 7 months ago

非常奇怪，应该不止4个进程的，环境是torch2.0吗

对的使用的是torch2.0

Sunway-s commented 7 months ago

很多进程都在等I/O，应该是I/O的问题吧。

afterthat97 commented 7 months ago

那换个ssd吧，这应该是标配了

afterthat97 commented 7 months ago

我们早就全用ssd了

Sunway-s commented 7 months ago

我们早就全用ssd了

正在换，非常感谢。

MCG-NJU / SparseOcc

data 时间不正常 #14