wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
664 stars 112 forks source link

迷你项目:python cli(command line interface) and api(application programming interface) #210

Closed robin1001 closed 7 months ago

robin1001 commented 10 months ago

目的

技术选择

功能

wsstriving commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding,是不是考虑提供一个多进程提取的加速版本

robin1001 commented 10 months ago

可以,这个支持起来工作量不大

cdliang11 commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding,是不是考虑提供一个多进程提取的加速版本

形式:输入wav.scp,多进程提取输出到文本?

cdliang11 commented 10 months ago

GPU支持

wsstriving commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding,是不是考虑提供一个多进程提取的加速版本

形式:输入wav.scp,多进程提取输出到文本?

输出到kaldi 格式的文本或者 ark/ 或者每一个文件单独存一个 utt_name.npy 这种?

robin1001 commented 10 months ago

推理引擎这块其实待讨论,究竟是用 torch(.pt) 还是用 onnxruntime,用 torch: 1)可很方便的在训练中集成 wespeaker 的预训练模型,可使用 GPU 训练,可放开参数进行微调。 2)其实主流的平台 windows/linux/mac torch 都有不错的支持,生态很完善。

cdliang11 commented 10 months ago

modelscope目前没有wespeaker的demo,需要搞一个吗

robin1001 commented 10 months ago

modelscope目前没有wespeaker的demo,需要搞一个吗

需要啊,搞一个