Open 15755841658 opened 1 year ago
@15755841658 解决了吞音问题,https://github.com/PlayVoice/vits_chinese
是不是拼音序列中空格已经编码过的话,就不用加blank了?
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
我的当前版本不是声韵母编码,是单字符编码的。
感觉声韵母编码的话,主要好处是缩短了输入长度。例如一个比较长的拼音序列的话: zhuang4 如果单字符编码,要7个input embedding tensor,加上空格得8个。 而声韵母编码只要声、韵、调,三个input embedding就好了,缩减了一半。 而假如都插入blank的话,那就是6个了,那缩短长度的作用就大打折扣了。
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
那没事了
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
那没事了
@dzcmingdi 我碰到的问题是:不加blank的情况下,大部分字发音是都非常好,少量的字的音会发成相近的音,总之不是当前字的音,加了blank就好了;不知道你那遇到这样的问题没?
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
那没事了
@dzcmingdi 我碰到的问题是:不加blank的情况下,大部分字发音是都非常好,少量的字的音会发成相近的音,总之不是当前字的音,加了blank就好了;不知道你那遇到这样的问题没?
目前我还没有去除blank训练过,所以我还没碰到过这种情况。
我们目前合成带噪,主要发生在输入音素序列保持标点的情况下。本来预计它有助于提升效果,比如句末的问号,叹号,句号是代表不同语气的嘛,但事实不是,合成结果个别音带噪。 我们正在试验的三组: 拼音序列带标点, 拼音序列带韵律, 拼音序列带标点和韵律。 结果 第二组效果最好,第一组效果最差。
感觉标点符号是不发音字符,把它融进来可能会不小心学到一些奇怪的发音片段,不但没有学到情感,反而造成噪音效果。
弱弱问一下? 声韵母表,都是按照 贝壳的标注方法吗? 比如 wu, 贝壳标法是空声母带一个韵母。 一般我们可以认为w是声母,u是韵母。 这两种标法哪种效果好?
是不是拼音序列中空格已经编码过的话,就不用加blank了?
要的吧,训练的时候默认输入音素序列每个元素后面插入个0
我刚开始跑,现在的版本没有插入Blanks,现在训练15Ksteps了,听者效果还行。没有啥变音乱调的。
那没事了
@dzcmingdi 我碰到的问题是:不加blank的情况下,大部分字发音是都非常好,少量的字的音会发成相近的音,总之不是当前字的音,加了blank就好了;不知道你那遇到这样的问题没
请问您是怎么做这种覆盖测试的?测试每个汉字的发音?中间加韵律吗?
@FanhuaandLuomu
Originally posted by @hermanseu in https://github.com/jaywalnut310/vits/issues/2#issuecomment-1396587418