迷你项目：python cli(command line interface) and api(application programming interface)

robin1001 commented 10 months ago

目的

好用第一：为开发者提供开箱即用更方便、更稳定的 python cli 和 api。
迭代速度是第一生产力：基于 python 快速的开发和迭代。

技术选择

推理引擎：onnxruntime，其支持的平台更多

功能

[x] speaker embedding 提取，见 https://github.com/wenet-e2e/wespeaker/pull/211
[x] 批量提取speaker embedding并保存为scp/ark文件，见https://github.com/wenet-e2e/wespeaker/pull/229
[x] 两个说话人相似度计算，见 https://github.com/wenet-e2e/wespeaker/pull/211
[x] 注册和说话人识别支持，见 https://github.com/wenet-e2e/wespeaker/pull/215
[x] VAD 支持，用于切除测试语句首尾静音，见 https://github.com/wenet-e2e/wespeaker/pull/217
[x] 删除旧版本 wespeakerruntime，见 https://github.com/wenet-e2e/wespeaker/pull/222
[x] huggingface 和 modelscope 使用新版本 wespeaker python api huggingface demo modelscope demo
[x] speaker diariztion 支持
[x] 文档和教程，见 https://github.com/wenet-e2e/wespeaker/pull/226

wsstriving commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding，是不是考虑提供一个多进程提取的加速版本

robin1001 commented 10 months ago

可以，这个支持起来工作量不大

cdliang11 commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding，是不是考虑提供一个多进程提取的加速版本

形式：输入wav.scp，多进程提取输出到文本？

cdliang11 commented 10 months ago

GPU支持

wsstriving commented 10 months ago

另外有很多下游任务其实会需要大量提取embedding，是不是考虑提供一个多进程提取的加速版本

形式：输入wav.scp，多进程提取输出到文本？

输出到kaldi 格式的文本或者 ark/ 或者每一个文件单独存一个 utt_name.npy 这种？

robin1001 commented 10 months ago

推理引擎这块其实待讨论，究竟是用 torch(.pt) 还是用 onnxruntime，用 torch： 1）可很方便的在训练中集成 wespeaker 的预训练模型，可使用 GPU 训练，可放开参数进行微调。 2）其实主流的平台 windows/linux/mac torch 都有不错的支持，生态很完善。

cdliang11 commented 10 months ago

modelscope目前没有wespeaker的demo，需要搞一个吗

robin1001 commented 10 months ago

modelscope目前没有wespeaker的demo，需要搞一个吗

需要啊，搞一个

wenet-e2e / wespeaker

迷你项目：python cli(command line interface) and api(application programming interface) #210

目的

技术选择

功能