Closed hkitahara closed 6 years ago
第1段階の音声データのペアを作成して試しているのですが、性能を上げるために音声データ準備について勘所をご教授いただきたいです。
音声ファイルの頭位置やタイミングを揃えた方がよいか(学習の過程で吸収されるので揃える必要ないなどありますでしょうか)
各音声ファイルの1ファイルの長さはどれくらいがよいか(1文字単位の音声や10秒以上のセリフなどの音声が手元にあるのですが、どれを優先的に録音していくべきか迷っています)
どの程度の音声ファイルを用意すればよいか(デモ動画作成時はどの程度のファイル数(または音声の長さ)を用意したのか教えていただきたいです)
複数の表現の声をまとめて学習してしまってよいか(例えば、かわいい声とドスの聞いた声がある場合、混ぜて学習してしまってよいのかが知りたいです)
データ作成はとても気を使いました。
第1段階の音声データのペアを作成して試しているのですが、性能を上げるために音声データ準備について勘所をご教授いただきたいです。
音声ファイルの頭位置やタイミングを揃えた方がよいか(学習の過程で吸収されるので揃える必要ないなどありますでしょうか)
各音声ファイルの1ファイルの長さはどれくらいがよいか(1文字単位の音声や10秒以上のセリフなどの音声が手元にあるのですが、どれを優先的に録音していくべきか迷っています)
どの程度の音声ファイルを用意すればよいか(デモ動画作成時はどの程度のファイル数(または音声の長さ)を用意したのか教えていただきたいです)
複数の表現の声をまとめて学習してしまってよいか(例えば、かわいい声とドスの聞いた声がある場合、混ぜて学習してしまってよいのかが知りたいです)