Open kwaihua opened 9 months ago
取巧方法就是,直接文字替换,0--9分别替换成中文的零--九
取巧方法就是,直接文字替换,0--9分别替换成中文的零--九
确实这样可以解决一部分问题,但是对于英文单词有什么好的解法吗~
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。
前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。
前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。
你的回复帮助了很多,谢谢👍!
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。
前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。
你好,biaobei的底模在哪找的呢,方便分享一下吗
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。
前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。
老哥,你训练出来的混合模型大概有多大呢,推理速度咋样?
没有,有大神说过英文是另外一种标注体系,所以不是那么简单能搞定的。因为作者提供的那个CJE模型底模不行,功力不够没法自己搞,我也在找解方法
朋友,找到解决方案了吗?我也有中英文混读的需求
更正一下,不是说作者的CJE底模不行,而是他这块用的是动画人物的声音,跟普通人的声音比就有点出入。 前两周用CJE模型,标准的中文(标贝,有1万条数据)和标准的英文(LJ Speech,这个数据也不少)来训练,完了之后中文和英文都大幅提高了。 中英混读的话,语言选Mix,提示文本用这个形式 [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN] 另外有一点,感觉有某些个中文字词,就是无法到达满意的发音,稍微注意一点还是感觉像老外的发音,估计还是与底模相关。
老哥,你训练出来的混合模型大概有多大呢,推理速度咋样?
训练后的模型都在155MB左右,推理速度一直都可以啊,除了首次加载需要些时间,之后每次调用都很快,15-20汉字的话2秒左右就出来的(我自己的环境是在2080Ti 22GB,还有另外一台似乎是3060,时间也差不多)
发现训练出来的模型,数字读的不好,英文是直接没读,有办法解决这个问题吗? 例如年份:2016,现在读的是"两千零一十六", 我可以在训练集里面重复很多次"二零一六" ,让模型记住这个"二零一六"的发音吗