数字和英文发音问题

kwaihua commented 9 months ago

发现训练出来的模型，数字读的不好，英文是直接没读，有办法解决这个问题吗？例如年份：2016，现在读的是"两千零一十六"，我可以在训练集里面重复很多次"二零一六" ，让模型记住这个"二零一六"的发音吗

shirubei commented 9 months ago

取巧方法就是，直接文字替换，0--9分别替换成中文的零--九

kwaihua commented 9 months ago

取巧方法就是，直接文字替换，0--9分别替换成中文的零--九

确实这样可以解决一部分问题，但是对于英文单词有什么好的解法吗～

shirubei commented 9 months ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

renjunok commented 9 months ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

shirubei commented 9 months ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

更正一下，不是说作者的CJE底模不行，而是他这块用的是动画人物的声音，跟普通人的声音比就有点出入。

前两周用CJE模型，标准的中文(标贝，有1万条数据)和标准的英文(LJ Speech，这个数据也不少)来训练，完了之后中文和英文都大幅提高了。中英混读的话，语言选Mix，提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点，感觉有某些个中文字词，就是无法到达满意的发音，稍微注意一点还是感觉像老外的发音，估计还是与底模相关。

renjunok commented 9 months ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

更正一下，不是说作者的CJE底模不行，而是他这块用的是动画人物的声音，跟普通人的声音比就有点出入。

前两周用CJE模型，标准的中文(标贝，有1万条数据)和标准的英文(LJ Speech，这个数据也不少)来训练，完了之后中文和英文都大幅提高了。中英混读的话，语言选Mix，提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点，感觉有某些个中文字词，就是无法到达满意的发音，稍微注意一点还是感觉像老外的发音，估计还是与底模相关。

你的回复帮助了很多，谢谢👍！

kwaihua commented 8 months ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

更正一下，不是说作者的CJE底模不行，而是他这块用的是动画人物的声音，跟普通人的声音比就有点出入。

前两周用CJE模型，标准的中文(标贝，有1万条数据)和标准的英文(LJ Speech，这个数据也不少)来训练，完了之后中文和英文都大幅提高了。中英混读的话，语言选Mix，提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点，感觉有某些个中文字词，就是无法到达满意的发音，稍微注意一点还是感觉像老外的发音，估计还是与底模相关。

你好，biaobei的底模在哪找的呢，方便分享一下吗

tomlezen commented 2 weeks ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

更正一下，不是说作者的CJE底模不行，而是他这块用的是动画人物的声音，跟普通人的声音比就有点出入。

前两周用CJE模型，标准的中文(标贝，有1万条数据)和标准的英文(LJ Speech，这个数据也不少)来训练，完了之后中文和英文都大幅提高了。中英混读的话，语言选Mix，提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点，感觉有某些个中文字词，就是无法到达满意的发音，稍微注意一点还是感觉像老外的发音，估计还是与底模相关。

老哥，你训练出来的混合模型大概有多大呢，推理速度咋样？

shirubei commented 1 week ago

没有，有大神说过英文是另外一种标注体系，所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行，功力不够没法自己搞，我也在找解方法

朋友，找到解决方案了吗？我也有中英文混读的需求

更正一下，不是说作者的CJE底模不行，而是他这块用的是动画人物的声音，跟普通人的声音比就有点出入。前两周用CJE模型，标准的中文(标贝，有1万条数据)和标准的英文(LJ Speech，这个数据也不少)来训练，完了之后中文和英文都大幅提高了。中英混读的话，语言选Mix，提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点，感觉有某些个中文字词，就是无法到达满意的发音，稍微注意一点还是感觉像老外的发音，估计还是与底模相关。

老哥，你训练出来的混合模型大概有多大呢，推理速度咋样？

训练后的模型都在155MB左右，推理速度一直都可以啊，除了首次加载需要些时间，之后每次调用都很快，15-20汉字的话2秒左右就出来的(我自己的环境是在2080Ti 22GB，还有另外一台似乎是3060，时间也差不多)

Plachtaa / VITS-fast-fine-tuning

数字和英文发音问题 #510