ADD pyannote audio - Githubissues

axinc-ai / ailia-models

The collection of pre-trained, state-of-the-art AI models for ailia SDK

2k stars 318 forks source link

ADD pyannote audio #1409

Closed kyakuno closed 6 months ago

kyakuno commented 7 months ago

https://github.com/pyannote/pyannote-audio mit 話者分離

kyakuno commented 7 months ago

サンプルの作成先は　https://github.com/axinc-ai/ailia-models/tree/master/audio_processing
pyannote-audioのpthファイルをONNXに変換　https://medium.com/axinc/%E5%AD%A6%E7%BF%92%E3%81%97%E3%81%9F%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92ailia-sdk%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%A7%E3%81%8D%E3%82%8B%E5%BD%A2%E3%81%AB%E3%82%A8%E3%82%AF%E3%82%B9%E3%83%9D%E3%83%BC%E3%83%88%E3%81%99%E3%82%8B-add271b8ebdd
サンプルコード（Python）の作成（pytorchからonnx (ailia SDK)に移行）
サンプルコードとモデルのPR

kyakuno commented 7 months ago

モデル登録の手順はSlackにリンクを共有しました。

kyakuno commented 6 months ago

pyannote audioのアーキテクチャ https://herve.niderb.fr/fastpages/2022/10/23/One-speaker-segmentation-model-to-rule-them-all

kyakuno commented 6 months ago

入力波形から、各人物の発言のProbablityのグラフを算出し、それをセグメンテーションする。モデルは5秒単位に実行し、2.5秒のオーバラップでスライディングウィンドウで処理する。