加入自己的数据训练，预测同样的数据得分却不高

yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架，同时兼容在线和离线识别，目前支持Conformer、Squeezeformer、DeepSpeech2模型，支持多种数据增强方法。

Apache License 2.0

563 stars 100 forks source link

Closed bird7code closed 2 years ago

bird7code commented 2 years ago

你好，我想问一下，我加入了一点自己的数据集进去一起训练，预测的时候直接使用加入进来的数据进行测试，发现效果都不是太好，得分只有六七十的，这是数据准备出了问题吗？

bird7code commented 2 years ago

加入了自己的四十条语音数据和aishell数据集一起训练的

yeyupiaoling commented 2 years ago

首先确定两点，一、要看你的数据集是否划分到训练数据列表中，然后是使用那种解码方式，如果是贪心算法，得分越高越好。

另外你训练了多少轮

bird7code commented 2 years ago

感谢回复！我在annotation和audio里面都分别加入新数据了，使用的是贪心算法，有什么办法是可以检查自己的数据是否成功加入到训练数据列表的，我的数据都只是放在train里面，test和dev里没放。训练轮数epoch是65

yeyupiaoling commented 2 years ago

在train里面就对了。

这样的话，估计是你的数据集和AIShell分布比较大，比较难拟合。或者增加更多的数据和训练轮数

bird7code commented 2 years ago

好的，十分感谢。我去尝试一下