你好，如果我要实现流式说话人识别，这个做流式聚类可以吗？

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

Other

7.18k stars 763 forks source link

为啥

自己可以实现吗，我想的是文本切片，就和online vad一样，不一定要完全实时

可以自己试试，例如，每3s做一次

似乎不能小于1分钟

funasr_model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch", punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", spk_model="damo/speech_campplus_sv_zh-cn_16k-common", if_embeding=True)

我做流式转化，模型用的这个funasr_model，似乎一次输入不能小于1200*60ms，小于了就什么都检测不出。

modelscope / FunASR

你好，如果我要实现流式说话人识别，这个做流式聚类可以吗？ #1822