Open tuna2134 opened 2 weeks ago
メリット
デメリット
話者数・話者名やスタイル名はどこに含まれる想定ですか?
スタイル情報はstyle_vectors.jsonの中に複数含めることができると思います。 一方で話者数についてはデフォルトのpretrainモデルが単一話者であること、世の中に配布されているモデルがほとんど単一話者であること、そもそも初心者が複数話者なのに単一バイナリであるという概念を理解するのは難しいということから単一である想定でいましたが複数対応したほうがいい感じですかね? 思想の根幹として推論だけしたいエンドユーザーに届きやすくするファイル形式というのがあるので...
あと実装は
def parse_sbv2file(path) -> (model_buffer, style_vectors_buffer)
という想定です(つまりonnxとstyle vectorsに分解される)
tar.zstdに以下のファイルを圧縮、その後
{model_name}.sbv2
にファイル名を変更