itsuki8914 / Voice-morphing-RelGAN

A implementation voice morphing using relgan with tensorflow
MIT License
25 stars 1 forks source link

Pre-trained Model? #3

Open obake2ai opened 4 years ago

obake2ai commented 4 years ago

Hi guys Do you plan to distribute the trained models? I am very interested in this code and want to experiment with JVS dataset

初めまして、学習済みモデルの配布はご予定ですか? JVSデータセットを用いて実験を行いたいのですが、 もし配布の予定がありましたら教えていただけると幸いです!

itsuki8914 commented 4 years ago

Hello. I have no plans to distribute the models currently. because the number of speakers and the combinations of speakers they want to train are very huge. You can ask me to train a specific combination.But it may be very slow...

こんにちは。申し訳ありませんが、今のところモデルの配布予定はありません。この理由として話者の数やその組み合わせは非常に膨大であるからです。特定の組み合わせが欲しいというのであれば私がモデルの学習をさせますが優先度はかなり低くなると思われます。現在はresult exampleの組み合わせのモデル(jvs010, jvs016, jvs042, jvs054)のみ公開可能です。

obake2ai commented 4 years ago

Thank you for your reply. I'm looking at how fine tuning can save learning time. That is, if you distribute some trained model, can I save a lot of time on my original dataset?

お返事ありがとうございます。 私は今ファインチューニングによる学習時間の節約をできないかを検討しています。つまり、もしあなた方がなんらかの学習モデルを配布してくださることで、私のオリジナルデータセットでの学習時間を大幅に節約できないかというご相談です。

itsuki8914 commented 4 years ago

https://drive.google.com/drive/folders/1eNM649hQKyfkCtQZiG_xNuPdY4P4T371?usp=sharing

I'm sorry for the late reply. I uploaded the trained weight files to Google Drive. The number of speakers and the order are the same as the Results examples. When fine-tuning, I recommend to use the same data set or a data set with similar voice . 

返信が遅れてしまい申し訳ありません。 学習した重みファイルをGoogle Driveにアップロードしました。 Results examplesと同じ話者数と順番になっています。(jvs010, jvs016, jvs042, jvs054) ファインチューニングの際は同じデータセットか、近い声質のデータセットを使用することをお勧めします。 

obake2ai commented 4 years ago

Thank you for sharing the model. I am trying Fine Tuning based on this, but it does not work. I am trying to convert the voices of two singers like the link below: https://drive.google.com/open?id=1amCNmm6LuzfZfl2aabnLhnugh_sS1-ur

It seems that the voice quality does not change even after 60,000 iterations or more. https://drive.google.com/open?id=1-Ffj0JtmdASkVHJZrzQU66wrLzvs8ocu

Since there are few training samples, I am thinking of performing voice conversion by overtraining in the training samples without having generalization performance. Is there a problem with the training data bit rate, etc.? If there is a section that you can think of as the cause, we would appreciate it if you could tell us.

Thanks