wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
630 stars 109 forks source link

[cli] support diar #246

Closed cdliang11 closed 7 months ago

cdliang11 commented 7 months ago

wespeaker --task diarization --audio_file /Users/user01/Downloads/voxconverse_test_wav/aepyx.wav --language english image

cdliang11 commented 7 months ago

先不要合入,有几点需要确认:

  1. diar相关的参数比较多,是通过配置文件的形式传入 还是 命令行传参?
wsstriving commented 7 months ago

先不要合入,有几点需要确认:

  1. diar相关的参数比较多,是通过配置文件的形式传入 还是 命令行传参?

感觉命令行比较好?设置一些默认的,不过在readme 里边写清楚;现在这个效果咋样?

cdliang11 commented 7 months ago

先不要合入,有几点需要确认:

  1. diar相关的参数比较多,是通过配置文件的形式传入 还是 命令行传参?

感觉命令行比较好?设置一些默认的,不过在readme 里边写清楚;现在这个效果咋样?

没有大规模测试,现在的默认参数和example/voxconverse/v2一致,效果应该和v2的结果一致

cdliang11 commented 7 months ago

TODO:

JiJiJiang commented 7 months ago

TODO:

  • [x] 暴露diar相关参数的设置接口
  • [ ] 性能测试

基本是从v2改过来的,可以直接拿一两条voxconverse的音频,结果基本能对上就可以了,不一定要测DER

cdliang11 commented 7 months ago

TODO:不建议从v2里面单独拎几个func出来新建utils/diar_utils.py,更没必要单独新建utils/cluster.py,还是直接import v2里面的func即可

这样的话打pip包会不方便。 原则上wespeaker/下边放代码,example下放私有的代码,之前diar相关的代码都放在example下了,要不趁机重构下