必要な学習データの量、音声の個数についての大まかな解説が欲しいです

litagin02 / Style-Bert-VITS2

Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles.

GNU Affero General Public License v3.0

774 stars 100 forks source link

Open Mofa-Xingche opened 3 weeks ago

Mofa-Xingche commented 3 weeks ago

3秒~11秒ぐらいの音声を500個以上あつめて、有音部合計50分以上データセットで学習してるんですが、そもそもまともに綺麗に喋るにはどれくらい必要なんでしょうか？　自分が知らないだけで60個とかでも普通に綺麗にできるんですか？

litagin02 commented 2 weeks ago

場合によりますが、合計１分くらいでもできたという報告はあります。ただ一般的にどれほどのデータ量があれば綺麗にできるかは断言はできず主観によるので、基準を述べることはできません。

Mofa-Xingche commented 2 weeks ago

すみません、ありがとうございます。了解です。個人用メモ [昔から伝統的には、MyCoeiroinkやずんだもん界隈、AI音声合成界隈全体を昔から見るに、2から10秒前後の声を250~600個ぐらい用意してきた]