jxlpzqc / TMSpeech

腾讯会议摸鱼工具
MIT License
520 stars 45 forks source link

如何更换语音模型呢 #5

Closed SarahSmitho closed 3 weeks ago

SarahSmitho commented 1 year ago

如题

am009 commented 1 year ago

是pytorch的其他模型,还是sherpa-onnx框架的模型?后者可以在设置里修改路径。现在的release带的是sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20

https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/zipformer-transducer-models.html

SarahSmitho commented 1 year ago

1688110230044 我是按照这个教程得到的这个模型

SarahSmitho commented 1 year ago

image 和工程里的不一样,我是做安卓的,不太了解C#的架构

am009 commented 1 year ago

那直接在设置这里修改路径试试。正好对应四个文件 image

csukuangfj commented 1 year ago

1688110230044 我是按照这个教程得到的这个模型

你用的是非流式 (即 offline)。这个项目需要流式(即 online)

https://github.com/jxlpzqc/TMSpeech/blob/24e1e36c1c29fe4cbdd519fe0b5b0a8d569bed88/TMSpeech.GUI/SpeechCore.cs#L46

如果你给一个 非流式的模型,会报错的.

SarahSmitho commented 1 year ago

可以换成非流式吗

SarahSmitho commented 1 year ago

image 把我们的示例代码引过来,然后我需要GUI界面

am009 commented 1 year ago

是什么需求啊,非流式模型一般用来解码文件,不太需要这样实时展示吧。

SarahSmitho commented 1 year ago

需求是离线实时维汉翻译,因为作者没有给维吾尔语的模型,我自己训练了一个,因为那个教程只有非流式的脚本,我自己改的脚本训练出来的效果很差,所以只能用非流式的模型

am009 commented 1 year ago

非流式的模型不太好做实时吧,如果一边录音,一边切割出小块喂给模型的话,如果切割到了一个字的中间会出问题?这一块我也不太懂。如果要直接识别文件的话,可以直接用命令行,不一定非要图形界面。

C1-BA-B1-F3 commented 6 months ago

请问目前正确率最高的是哪个模型呢