Closed Sunway-s closed 7 months ago
看看是cpu瓶颈还是disk瓶颈呢
请问对disk要求高吗,数据我是放在hdd上跑的但是我跑其他OCC模型就没有遇到过这样的瓶颈,还有就是cpu利用率一直都是100%,就很奇怪,我跑其他的任务都是能跑出5000%的这种效果的,我增加了config中的workers_per_gpu也没有效果。
cpu上每个进程的利用率就应该是100%,然后有多个进程呀, like this
我的只有4个进程在大量使用cpu,请问有什么解决方法吗
应该是我之前跑的OCC没有加时序融合,只输入了关键帧,所以跑sparseocc的I/O负担增加了,非常感谢作者的优秀工作。
非常奇怪,应该不止4个进程的,环境是torch2.0吗
非常奇怪,应该不止4个进程的,环境是torch2.0吗
对的使用的是torch2.0
很多进程都在等I/O,应该是I/O的问题吧。
那换个ssd吧,这应该是标配了
我们早就全用ssd了
我们早就全用ssd了
正在换,非常感谢。
data: 53577ms, mem: 24269M data: 31ms, mem: 24882M data: 23ms, mem: 24882M data: 19ms, mem: 24882M data: 18ms, mem: 24882M data: 18ms, mem: 24882M data: 17ms, mem: 24882M data: 18ms, mem: 24882M data: 30861ms, mem: 24882M data: 96ms, mem: 24882M data: 16ms, mem: 24882M data: 17ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 19ms, mem: 24882M data: 19ms, mem: 24882M data: 32986ms, mem: 24882M data: 117ms, mem: 24882M data: 27ms, mem: 24882M data: 27ms, mem: 24882M data: 20ms, mem: 24882M data: 20ms, mem: 24882M data: 24ms, mem: 24882M data: 22ms, mem: 24882M data: 45267ms, mem: 24882M data: 23ms, mem: 24882M data: 16ms, mem: 24882M 如上截取的log文件所示,在训练的时候我的data时间不正常,每隔几个iter就会变得很慢,这使得我的训练变得非常慢,请问怎么才能解决这个问题呢,我已经按照readme中安装好了 turbojpeg 和 pillow-simd。