yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
563 stars 100 forks source link

加入自己的数据训练,预测同样的数据得分却不高 #31

Closed bird7code closed 2 years ago

bird7code commented 2 years ago

你好,我想问一下,我加入了一点自己的数据集进去一起训练,预测的时候直接使用加入进来的数据进行测试,发现效果都不是太好,得分只有六七十的,这是数据准备出了问题吗?

bird7code commented 2 years ago

加入了自己的四十条语音数据和aishell数据集一起训练的

yeyupiaoling commented 2 years ago

首先确定两点,一、要看你的数据集是否划分到训练数据列表中,然后是使用那种解码方式,如果是贪心算法,得分越高越好。

另外你训练了多少轮

bird7code commented 2 years ago

感谢回复! 我在annotation和audio里面都分别加入新数据了,使用的是贪心算法,有什么办法是可以检查自己的数据是否成功加入到训练数据列表的,我的数据都只是放在train里面,test和dev里没放。训练轮数epoch是65

yeyupiaoling commented 2 years ago

在train里面就对了。

这样的话,估计是你的数据集和AIShell分布比较大,比较难拟合。或者增加更多的数据和训练轮数

bird7code commented 2 years ago

好的,十分感谢。我去尝试一下