第１段階学習用の音声データ準備について - Githubissues

Hiroshiba / become-yukarin

Convert your voice to favorite voice

https://hiroshiba.github.io/blog/became-yuduki-yukari-with-deep-learning-power/

MIT License

576 stars 88 forks source link

第１段階学習用の音声データ準備について #28

Closed hkitahara closed 6 years ago

hkitahara commented 6 years ago

第1段階の音声データのペアを作成して試しているのですが、性能を上げるために音声データ準備について勘所をご教授いただきたいです。

音声ファイルの頭位置やタイミングを揃えた方がよいか（学習の過程で吸収されるので揃える必要ないなどありますでしょうか）
各音声ファイルの1ファイルの長さはどれくらいがよいか（1文字単位の音声や10秒以上のセリフなどの音声が手元にあるのですが、どれを優先的に録音していくべきか迷っています）
どの程度の音声ファイルを用意すればよいか（デモ動画作成時はどの程度のファイル数(または音声の長さ)を用意したのか教えていただきたいです）
複数の表現の声をまとめて学習してしまってよいか（例えば、かわいい声とドスの聞いた声がある場合、混ぜて学習してしまってよいのかが知りたいです）

Hiroshiba commented 6 years ago

データ作成はとても気を使いました。

音声ファイルの頭位置やタイミング

無音部分はトリミングするため、開始位置は気にしなくていい
文章を区切るタイミングは合わせたほうがいい

各音声ファイルの1ファイルの長さはどれくらいがよいか

長さは特にこだわっていない
読みやすさのために、５秒ぐらいの文章が良い
ATR音素バランス503文がこの業界のデファクトスタンダード

どの程度の音声ファイルを用意すればよいか

音響特徴量の変換に数十文、高音質化は数百文あればそれなりのものができると思う
私は音響特徴量の変換に約500文、高音質化に約10000文用意した

複数の表現の声をまとめて学習してしまってよいか

難しいとは思うが、数を用意すれば可能だとは思う
再現すること自体がとても難しいはずなので、声の感じが揃った簡単なものから試すと良さそう