nl8590687 / ASRT_SpeechRecognition

A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统
https://asrt.ailemon.net
GNU General Public License v3.0
7.77k stars 1.89k forks source link

音频文件规范问题 #304

Open YUZHIWANG-bug opened 1 year ago

YUZHIWANG-bug commented 1 year ago

作者您好,我在运行您给出的可以直接使用的代码也就是给出了预训练模型的项目时,使用我自己的音频进行预测时,出现了以下错误,

image

我怀疑时音频的长度问题,我之前已经通过ffmpeg进行了预处理,如下:

image

采样率应该没有问题,不知道是不是音频长度问题,如果是的话,可以麻烦作者告知一下怎么样可以规范化一下输入的音频,我尝试更改numpy数组的长度也不行,还希望大佬指教一下。非常感谢!

YUZHIWANG-bug commented 1 year ago

补充:我使用了您提供的如下的方法转化了音频,但是还是出现上述错误

image
nl8590687 commented 1 year ago

很明显,这是音频文件的时间长度过长导致的,可以参考ASRT项目文档上所述的内容,一条语音数据的最长时间长度当前限制为不能超过16秒,超过的话很容易导致模型的数据尺寸过大进而引发Memory不足的问题,尤其是在使用不太先进的GPU运行的时候。如果存在较长时间的音频,首先应当切割为一段段比较短的音频片段。

YUZHIWANG-bug commented 1 year ago

作者您好,我按照您说的,切割了一段15秒的音频,转成了wav格式,但是还是显示之前的错误,甚至第一个数据更大了,很是奇怪,我将再试试缩短,感谢您的回复,谢谢!

image
YUZHIWANG-bug commented 1 year ago

很明显,这是音频文件的时间长度过长导致的,可以参考ASRT项目文档上所述的内容,一条语音数据的最长时间长度当前限制为不能超过16秒,超过的话很容易导致模型的数据尺寸过大进而引发Memory不足的问题,尤其是在使用不太先进的GPU运行的时候。如果存在较长时间的音频,首先应当切割为一段段比较短的音频片段。

您好,我又尝试了一个8s的视频,我的转换过程如下:

image

最终得到一个wav文件,但是送入预测时,还是显示一下错误:

image

如果是时长问题的话,8s应该满足条件了,是不是我视频转音频的处理过程有误,还请您指教一下,感谢!