Open Mofa-Xingche opened 3 weeks ago
3秒~11秒ぐらいの音声を500個以上あつめて、有音部合計50分以上データセットで学習してるんですが、そもそもまともに綺麗に喋るにはどれくらい必要なんでしょうか? 自分が知らないだけで60個とかでも普通に綺麗にできるんですか?
場合によりますが、合計1分くらいでもできたという報告はあります。ただ一般的にどれほどのデータ量があれば綺麗にできるかは断言はできず主観によるので、基準を述べることはできません。
すみません、ありがとうございます。了解です。 個人用メモ [昔から伝統的には、MyCoeiroinkやずんだもん界隈、AI音声合成界隈全体を昔から見るに、2から10秒前後の声を250~600個ぐらい用意してきた]
3秒~11秒ぐらいの音声を500個以上あつめて、有音部合計50分以上データセットで学習してるんですが、そもそもまともに綺麗に喋るにはどれくらい必要なんでしょうか? 自分が知らないだけで60個とかでも普通に綺麗にできるんですか?