Labmem-Zhouyx / CDFSE_FastSpeech2

The Official Implementation of “Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis”
MIT License
81 stars 12 forks source link

关于libriTTS数据集 #4

Open WhiteFu opened 1 year ago

WhiteFu commented 1 year ago

大佬,我在网上openslr上面下载的libriTTS 的clean100数据集和你们处理好的不一样,文本和语音都对不上,是我下错了还是需要额外的处理呢?求解惑

Labmem-Zhouyx commented 1 year ago

你好,libriTTS我们是用的openslr上下载的数据集,关于预处理部分代码脚本和ming024/FastSpeech2也基本一致,你可以先判断下是哪一步出的问题导致文本和语音对不上。

以下是我重新处理的一些流程。

下载解压好LibriTTS数据集:

image

第一步:执行prepare_align.py,按照说话人目录获得文本、语音成对的lab标注和wav文件,可检查是否对应;

image

第二步:下载对齐文件TextGrid放到指定目录下,这里也可以检查下对齐结果是正常;

image image

第三步:执行preprocess.py,获得train-clean-100/dev-clean/test-clean.txt等文件 以及 duration/pitch/energy/mel等数据。

image image

WhiteFu commented 1 year ago

谢谢老哥的回复 image 你们的wav是程序自动切分转换的来的吗,我对过我自己下载好的东西,我发现对应前缀的音频和文本和你们的就不太一样,比如669_129061_000001后面所有的和我对应的文本都不一致 image 是我差了那一步呢,或者是下载的目录有错?

WhiteFu commented 1 year ago

而且我的音频是16K的,下载地址能提供给我一下吗,感谢

Labmem-Zhouyx commented 1 year ago

https://www.openslr.org/60/.

WhiteFu commented 1 year ago

好的,多谢哈