模型训练GPU利用率

yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架，同时兼容在线和离线识别，目前支持Conformer、Squeezeformer、DeepSpeech2模型，支持多种数据增强方法。

Apache License 2.0

563 stars 100 forks source link

Closed jcl-gx closed 2 years ago

jcl-gx commented 2 years ago

大佬请问一下，在训练大数据集（1000h+）为什么会出现GPU利用刚开始可以跑满，过一下就直接往下掉的情况呀？试了很多方式都解决不了

yeyupiaoling commented 2 years ago

你这个是不是反了，第一个epoch是重短开始训练的，后面的音频是比较长的。

jcl-gx commented 2 years ago

我也不清楚是什么原因，GPU内存会跟epoch逐渐增长，但就是利用率非常低，多卡会存在一张卡利用率接近100，但是功率不到一般，另外的卡接近0，是不是在读数据的时候哪里错了呀，大佬？

yeyupiaoling commented 2 years ago

你看看你的数据列表是不是反了。你用的是最新代码吗？

yeyupiaoling commented 1 year ago

你看下是不是数据表排序的原因，因为第一轮训练是从短到长训练的，后面才是打乱训练的。