axinc-ai / ailia-models

The collection of pre-trained, state-of-the-art AI models for ailia SDK
2k stars 318 forks source link

ADD pyannote audio #1409

Closed kyakuno closed 6 months ago

kyakuno commented 7 months ago

https://github.com/pyannote/pyannote-audio mit 話者分離

kyakuno commented 7 months ago
  1. サンプルの作成先は https://github.com/axinc-ai/ailia-models/tree/master/audio_processing
  2. pyannote-audioのpthファイルをONNXに変換 https://medium.com/axinc/%E5%AD%A6%E7%BF%92%E3%81%97%E3%81%9F%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92ailia-sdk%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%A7%E3%81%8D%E3%82%8B%E5%BD%A2%E3%81%AB%E3%82%A8%E3%82%AF%E3%82%B9%E3%83%9D%E3%83%BC%E3%83%88%E3%81%99%E3%82%8B-add271b8ebdd
  3. サンプルコード(Python)の作成(pytorchからonnx (ailia SDK)に移行)
  4. サンプルコードとモデルのPR
kyakuno commented 7 months ago

モデル登録の手順はSlackにリンクを共有しました。

kyakuno commented 6 months ago

pyannote audioのアーキテクチャ https://herve.niderb.fr/fastpages/2022/10/23/One-speaker-segmentation-model-to-rule-them-all

kyakuno commented 6 months ago

入力波形から、各人物の発言のProbablityのグラフを算出し、それをセグメンテーションする。 モデルは5秒単位に実行し、2.5秒のオーバラップでスライディングウィンドウで処理する。