auspicious3000 / SpeechSplit

Unsupervised Speech Decomposition Via Triple Information Bottleneck
http://arxiv.org/abs/2004.11284
MIT License
636 stars 92 forks source link

关于训练效果 #78

Open p1an-lin-jung opened 1 year ago

p1an-lin-jung commented 1 year ago

作者您好,我用这份代码在中文上试了很多不同的瓶颈维度,也尝试了对采样率作修改,但是效果都不好。然后,我用原版的瓶颈在VCTK数据集上训练,但不论是重构音频,还是语音转换,或者移除节奏、内容和音高,都没能达到论文里以及预训练模型的效果。 这应该从哪里进行改进?还是说我下载的VCTK(https://datashare.ed.ac.uk/handle/10283/3443)版本和你们不一样

auspicious3000 commented 1 year ago

这是个很难回答的问题……