k2-fsa / sherpa-onnx

Speech-to-text, text-to-speech, speaker recognition, and VAD using next-gen Kaldi with onnxruntime without Internet connection. Support embedded systems, Android, iOS, Raspberry Pi, RISC-V, x86_64 servers, websocket server/client, C/C++, Python, Kotlin, C#, Go, NodeJS, Java, Swift, Dart, JavaScript, Flutter, Object Pascal, Lazarus, Rust
https://k2-fsa.github.io/sherpa/onnx/index.html
Apache License 2.0
3.11k stars 360 forks source link

说话人识别可以不提前做声纹注册,实现直接识别吗? #955

Closed dfengpo closed 3 months ago

dfengpo commented 3 months ago

我使用3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx做说话人识别 但是使用方式必须要提前拿几段数据先做声纹注册之后才能识别的比较准确。 但是在很多实际使用场景,是不可能提前做声纹注册的。 都是直接用一条长语音,含有多人说话的录音文件进行识别的。 测试3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx模型直接识别的话,完全不准确。

csukuangfj commented 3 months ago

可以的,需要你自己实现。我们只提供基本的API

dfengpo commented 3 months ago

可以的,需要你自己实现。我们只提供基本的API

可以说一下实现思路吗?还有需要用到c-api-h里的哪些 api