cnlinxi / style-token_tacotron2

style token with tacotron2
MIT License
61 stars 16 forks source link

中文数据处理 #9

Open CathyW77 opened 4 years ago

CathyW77 commented 4 years ago

您好,我想问一下,按照您代码里默认的数据处理方法,得到的thchs30的文本是中文汉子,是否应该在train之前手动改成拼音序列呢?拼音序列的话是取wav.trn的第二行还是第三行比较好呢?

例如 C20_717.wav.trn 内容如下: 她 还 去 看 整容 医生 把 鼻子 也 改变 了 结果 却 认为 自己 比 整容 以前 更 丑 所以 很 懊丧 ta1 hai2 qu4 kan4 zheng3 rong2 yi1 sheng1 ba3 bi2 zi5 ye3 gai3 bian4 le5 jie2 guo3 que4 ren4 wei2 zi4 ji3 bi3 zheng3 rong2 yi3 qian2 geng4 chou3 suo2 yi3 hen3 ao4 sang4 t a1 h ai2 q v4 k an4 zh eng3 r ong2 ii i1 sh eng1 b a3 b i2 z iy5 ii ie3 g ai3 b ian4 l e5 j ie2 g uo3 q ve4 r en4 uu ui2 z iy4 j i3 b i3 zh eng3 r ong2 ii i3 q ian2 g eng4 ch ou3 s uo2 ii i3 h en3 aa ao4 s ang4

cnlinxi commented 4 years ago

@CathyW77 是的,应该取拼音。我一般用的是第二行这种格式,一般而言这种影响不大。

CathyW77 commented 4 years ago

@cnlinxi 那symbols您当时也是使用的默认的'abcdefghijklmnopqrstuvwxyz12345,。?,!- '这些吗?

我现在用默认参数跑thchs30,大概跑了5w轮,声码接grifflim,效果很差,不知道这些是否影响会比较大

cnlinxi commented 4 years ago

@CathyW77 是的,symbols是使用的默认的。5w轮应该基本可以了,检查一下你的training.txt中的文本和对应的音频。另外,所谓的效果很差,是怎样的差?alignment对不齐吗?

CathyW77 commented 4 years ago

@cnlinxi 是的,对不齐,刚刚检查了一下,发现hparams里的tacotron_batch_size默认是2,是不是手滑写错了?应该是这个原因吧~?5w轮只跑了10w条数据

cnlinxi commented 4 years ago

@CathyW77 抱歉抱歉,我应该是手滑写错了,这里应该至少32.我修改一下

CathyW77 commented 4 years ago

@cnlinxi Hi~我还有个问题,gin_channels这个参数的作用是什么呀?我看hparams.py里写的是“# Set this to -1 to disable global conditioning, Only used for multi speaker dataset. ” 我理解的就是对于multi speaker要设置为-1,但是在tacotron/synthesizer.py里第215行if hparams.gin_channels > 0就要raise RuntimeError,不太明白这个参数是为了什么

cnlinxi commented 4 years ago

@CathyW77 抱歉现在才看到。这是WaveNet的训练参数,可以忽略。这是使用README上面写的那个开源库基础上修改的,开源库自带了WaveNet声码器的训练代码,而这里的声码器速度太慢了,建议不要用了。

CathyW77 commented 4 years ago

@cnlinxi 好的,谢谢