yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
563 stars 100 forks source link

模型训练GPU利用率 #30

Closed jcl-gx closed 2 years ago

jcl-gx commented 2 years ago

大佬请问一下,在训练大数据集(1000h+)为什么会出现GPU利用刚开始可以跑满,过一下就直接往下掉的情况呀?试了很多方式都解决不了

yeyupiaoling commented 2 years ago

你这个是不是反了,第一个epoch是重短开始训练的,后面的音频是比较长的。

jcl-gx commented 2 years ago

我也不清楚是什么原因,GPU内存会跟epoch逐渐增长,但就是利用率非常低,多卡会存在一张卡利用率接近100,但是功率不到一般,另外的卡接近0,是不是在读数据的时候哪里错了呀,大佬?

yeyupiaoling commented 2 years ago

你看看你的数据列表是不是反了。你用的是最新代码吗?

yeyupiaoling commented 1 year ago

你看下是不是数据表排序的原因,因为第一轮训练是从短到长训练的,后面才是打乱训练的。