请问训练大概需要多长时间？

WelkinYang / Learn2Sing2.0

Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing Teacher

https://welkinyang.github.io/Learn2Sing2.0/

176 stars 26 forks source link

请问训练大概需要多长时间？ #5

Closed Liujingxiu23 closed 2 years ago

Liujingxiu23 commented 2 years ago

你好首先感谢你的分享！

我处理了自己手头的数据，已经跑起来训练了，我的配置是： "memory_efficient_training": false, batch_size=4 sample_rate=24000 与hifigan对接mels，不使用f0. 其他均为默认配置

目前合可以合成声音了，只是效果还不行。请问这种情况的话，对应learn2sing模型，大概需要训练多久，到M_X.pth能达到一个不错的效果？

WelkinYang commented 2 years ago

你好，不建议使用这个配置实验。我推荐将memory_efficient_training设置为true，将size设置为384，batch size提升至22以上。因为基于扩散模型的声学模型，对数据长度并不敏感，但小batch似乎会导致diffusion loss无法收敛，所以我推荐使用如上设置训练至100万步，可以达到正常效果。希望您的实验顺利~

Liujingxiu23 commented 2 years ago

@WelkinYang 感谢你的回复！memory_efficient_training设置为true，我这边有错误提示，我先自己尝试解决一下。

WelkinYang commented 2 years ago

@WelkinYang 感谢你的回复！memory_efficient_training设置为true，我这边有错误提示，我先自己尝试解决一下。可能是batch设置太小，导致一个batch内所有的数据都小于所设置的最大长度，提升batch size就可以了

Liujingxiu23 commented 2 years ago

@WelkinYang 实验了一下确实可以了。感谢！等几天有结果了来分享一下

Liujingxiu23 commented 2 years ago

@WelkinYang 目前训练进行中，可能还得好几天有结果。还有一个问题想请教一下哈。对于普通的speaker(非歌唱，仅speech的)，在训练的时候，输入note应该怎么处理呢？我是根据wave提取了真实的pitch，根据时长处理取平均得到phone级别的pitch，然后根据note和pitch的映射关系，映射回note作为输入，不知道是否合适。

WelkinYang commented 2 years ago

@WelkinYang 目前训练进行中，可能还得好几天有结果。还有一个问题想请教一下哈。对于普通的speaker(非歌唱，仅speech的)，在训练的时候，输入note应该怎么处理呢？我是根据wave提取了真实的pitch，根据时长处理取平均得到phone级别的pitch，然后根据note和pitch的映射关系，映射回note作为输入，不知道是否合适。

是这样处理因为mel-spectrogram也做的是音素级的平均，所以是可以对应上的

Liujingxiu23 commented 2 years ago

@WelkinYang 不好意思，还有一个问题想请教下。有什么途径可以下载到musicxml或midi文件，仅用于预测吗？

MaxMax2016 commented 2 years ago

@Liujingxiu23 这个网站有midi下载 https://www.vsqx.top/

Liujingxiu23 commented 2 years ago

@dtx525942103 收到！谢谢。 @WelkinYang 目前我训练结果，是唱歌合成本身还可以，Learn2song的合成效果，音质可以的，但是抖。我这边和原始方法最大的差别是用的hifigan模型，也没有用f0，可能有一定的影响。后续准备检查数据，加入f0等。

WelkinYang commented 2 years ago

@dtx525942103 收到！谢谢。另外我这边目前训练效果不是很好，歌唱本身和l2s的效果都不太好，准备检查数据看看，是否有处理的不对的地方。不知道其他人的实验效果如何

请问数据量大概是多少训练中的Loss怎么样论文实验中使用了100首的数据量并不算多但已经达到了很不错的效果

MaxMax2016 commented 2 years ago

@Liujingxiu23 方便提供联系方式不啊，我也要做歌声克隆，期望多与您交流

Liujingxiu23 commented 2 years ago

@dtx525942103 liujingxiu23@163.com