Closed kyakuno closed 6 months ago
モデル登録の手順はSlackにリンクを共有しました。
pyannote audioのアーキテクチャ https://herve.niderb.fr/fastpages/2022/10/23/One-speaker-segmentation-model-to-rule-them-all
入力波形から、各人物の発言のProbablityのグラフを算出し、それをセグメンテーションする。 モデルは5秒単位に実行し、2.5秒のオーバラップでスライディングウィンドウで処理する。
https://github.com/pyannote/pyannote-audio mit 話者分離