litagin02 / Style-Bert-VITS2

Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles.
GNU Affero General Public License v3.0
702 stars 84 forks source link

sbv2ファイル形式を追加 #164

Open tuna2134 opened 2 weeks ago

tuna2134 commented 2 weeks ago

tar.zstdに以下のファイルを圧縮、その後{model_name}.sbv2にファイル名を変更

version.txt
model.onnx
style_vectors.json
Googlefan256 commented 2 weeks ago

メリット

デメリット

litagin02 commented 2 weeks ago

話者数・話者名やスタイル名はどこに含まれる想定ですか?

Googlefan256 commented 2 weeks ago

スタイル情報はstyle_vectors.jsonの中に複数含めることができると思います。 一方で話者数についてはデフォルトのpretrainモデルが単一話者であること、世の中に配布されているモデルがほとんど単一話者であること、そもそも初心者が複数話者なのに単一バイナリであるという概念を理解するのは難しいということから単一である想定でいましたが複数対応したほうがいい感じですかね? 思想の根幹として推論だけしたいエンドユーザーに届きやすくするファイル形式というのがあるので...

あと実装は

def parse_sbv2file(path) -> (model_buffer, style_vectors_buffer)

という想定です(つまりonnxとstyle vectorsに分解される)