语言模型替换 - Githubissues

yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别，中文语音识别。项目完善，识别效果好。支持Windows，Linux下训练和预测，支持Nvidia Jetson开发板预测。

Apache License 2.0

667 stars 145 forks source link

Closed juie closed 2 years ago

juie commented 2 years ago

老师您好，请问能否用bert语言模型呢？有推荐的decode解码器吗？

yeyupiaoling commented 2 years ago

juie commented 2 years ago

好的，谢谢

juie commented 2 years ago

麻烦再问一下再您已经训练好的模型上面用自己的数据集继续训练，mean_std.npz和zh_vocab.txt这两个文件是用create_data程序生成的还是您已经训练好的模型里面提供的呢？

yeyupiaoling commented 2 years ago

我提供的模型中有包含这两个文件，必须配套使用的。

juie commented 2 years ago

好的，那就是运行完create_data程序之后要把这两个文件替换掉。那如果您提供的zh_vocab.txt里面没有包含我自己的数据集里面的字符怎么办？

yeyupiaoling commented 2 years ago

那就没法了，会自动忽略掉的。如果该字符出现比较多，建议自己重新训练，不使用我的

juie commented 2 years ago

好的，感谢解答

juie commented 2 years ago

最后插嘴问一句，您知道有可以使用bert语言模型的语音识别模型吗？

yeyupiaoling commented 2 years ago

Wav2rec2.0 这个可以

juie commented 2 years ago

好的，感谢