Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

微调需要多少数据量呢? #529

Open JohnHerry opened 9 months ago

JohnHerry commented 9 months ago

如题,请问微调训练需要多少数据量呢?文档里只给了 conversion的数据量情况:10条,3分钟。微调训练也是这样吗? 另外汉语cleaner也看不太懂,没有看到拼音声调怎么处理的。请问mandarin.py里边的各种音素符号映射知识,是参考的哪个项目?另外为什么不用统一的某一种phoneme表示,而是先bopomofo,再转罗马拼音,再转IPA,这么转来转去的作用是什么?

Yaodada12 commented 8 months ago

大佬,整明白了吗,怎么搞