Closed Rateofteasing closed 3 years ago
你不转换之后准确率怎么样?
不转换,会报错。你的断言设置的是必须 单通道。
不是,说错了,我想说,如果不使用长语音模式,识别准确率怎么样?首先得排除模型本身的问题
两种解码方法,试了一下都是偏离的很远,一个字没对。我是MP4视频转WAV,我听了一下应该是没问题的。感觉是不是需要特定的wav音频
模型训练的数据还是比较少,泛化能力不够
大佬,我感觉Pipline效果是不是要比 end2end效果好。先保证音节对。我感觉end2end很多识别出来 看了字的音节都不太对
你说的Pipline我没试过,我都是做端到端的。我觉得数据量上来了,应该是没有问题的。
数量上来,得多大数据量。博主你训练了1300小时的。我感觉只能识别一些平常的
这些数据还是远远不够。
我感觉先识别音节 再音节转文字,要求的数据量不会这么大。毕竟音节数量相比 汉字数量少很多
那样工作量就多了。
大佬,我csdn留了我的qq,能和你学习学习吗?
我看代码只支持单通道,所以我转成单通道。 转的命令是:ffmpeg -i original.wav -ac 1 -ar 16000 new.wav