modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
4.46k stars 493 forks source link

你好,如果我要实现流式说话人识别,这个做流式聚类可以吗? #1822

Closed zzk2021 closed 2 weeks ago

zzk2021 commented 2 weeks ago
          服务部署目前不支持 说话人识别模型

Originally posted by @lyblsgo in https://github.com/modelscope/FunASR/issues/1780#issuecomment-2146419327

LauraGPT commented 2 weeks ago

不支持

zzk2021 commented 2 weeks ago

自己可以实现吗,我想的是文本切片,就和online vad一样,不一定要完全实时

LauraGPT commented 2 weeks ago

自己可以实现吗,我想的是文本切片,就和online vad一样,不一定要完全实时

可以自己试试,例如,每3s做一次

zzk2021 commented 2 weeks ago

为啥

自己可以实现吗,我想的是文本切片,就和online vad一样,不一定要完全实时

可以自己试试,例如,每3s做一次

似乎不能小于1分钟

funasr_model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch", punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", spk_model="damo/speech_campplus_sv_zh-cn_16k-common", if_embeding=True)

我做流式转化,模型用的这个funasr_model,似乎一次输入不能小于1200*60ms,小于了就什么都检测不出。