Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

数字和英文发音问题 #510

Open kwaihua opened 9 months ago

kwaihua commented 9 months ago

发现训练出来的模型,数字读的不好,英文是直接没读,有办法解决这个问题吗? 例如年份:2016,现在读的是"两千零一十六", 我可以在训练集里面重复很多次"二零一六" ,让模型记住这个"二零一六"的发音吗

shirubei commented 9 months ago

取巧方法就是,直接文字替换,0--9分别替换成中文的零--九

kwaihua commented 9 months ago

取巧方法就是,直接文字替换,0--9分别替换成中文的零--九

确实这样可以解决一部分问题,但是对于英文单词有什么好的解法吗~

shirubei commented 9 months ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

renjunok commented 9 months ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

shirubei commented 9 months ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。

前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。

renjunok commented 9 months ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。

前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。

你的回复帮助了很多,谢谢👍!

kwaihua commented 8 months ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。

前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。

你好,biaobei的底模在哪找的呢,方便分享一下吗

tomlezen commented 2 weeks ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。

前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。

老哥,你训练出来的混合模型大概有多大呢,推理速度咋样?

shirubei commented 1 week ago

没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法

朋友,找到解决方案了吗?我也有中英文混读的需求

更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。 前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。

老哥,你训练出来的混合模型大概有多大呢,推理速度咋样?

训练后的模型都在155MB左右,推理速度一直都可以啊,除了首次加载需要些时间,之后每次调用都很快,15-20汉字的话2秒左右就出来的(我自己的环境是在2080Ti 22GB,还有另外一台似乎是3060,时间也差不多)