Closed martjay closed 1 week ago
我发现它会把数字读为英文
还有在长句子会莫名其妙的被分开读,语气很奇怪不流畅
@martjay #244 #390 关于数字
关于长句子readme里有说明的,最长30s,过长的会被切开,如果想要理想的切分可以手动处理
确认下这个issue模板里你勾选的内容:
This template is only for bug reports, usage problems go with 'Help Wanted'. (这个issue应该不包含bug) I have thoroughly reviewed the project documentation but couldn't find information to solve my problem.(关于长句子的readme有说明) I have searched for existing issues, including closed ones, and couldn't find a solution.(关于中文数字有不少issue) I confirm that I am using English to submit this report in order to facilitate communication.(希望用英文发issue便于不说中文的人寻找问题解决方案)
@martjay would be good if write this issue in English. This might be of use to Thai that I'm working on as well. I might have this problem is reading number as well.
@martjay #244 #390 关于数字
关于长句子readme里有说明的,最长30s,过长的会被切开,如果想要理想的切分可以手动处理
确认下这个issue模板里你勾选的内容:
This template is only for bug reports, usage problems go with 'Help Wanted'. (这个issue应该不包含bug) I have thoroughly reviewed the project documentation but couldn't find information to solve my problem.(关于长句子的readme有说明) I have searched for existing issues, including closed ones, and couldn't find a solution.(关于中文数字有不少issue) I confirm that I am using English to submit this report in order to facilitate communication.(希望用英文发issue便于不说中文的人寻找问题解决方案)
我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然
我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然
那应该是目前base模型训练集里没太见过这样的长句,会自行划短;考虑在二十几个字中想要小停顿的地方加逗号,或者speed slider速度拉快一点看看
我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然
那应该是目前base模型训练集里没太见过这样的长句,会自行划短;考虑在二十几个字中想要小停顿的地方加逗号,或者speed slider速度拉快一点看看
我又测试了很多遍,发现就算不是长句,有时候也会在中间停顿。
你可以试试下面这段:
从天涯海角飘来两朵彩云, 无人知晓究竟是来自何方。 突然中止遨游,驻足天心, 初四的月光下含情的对望, 微光里依稀觉得昔日相识。 记起绿色海岛,雾绕的山峦, 黄昏的海滨一度过从甚密。 面对面却怀天各一方的离愁, 正欲交合,因乍遇又害羞。 交汇的视线上高悬一弯新月, 笑的羞涩妨碍亲吻的密切; 春梦的绸缪将倦眼紧紧连结。 叙罢韵事,蓦闻青曦的足音, 无语作别,身带摩挲的温存。
这种诗歌生成也很不自然。
我情愿化成一片落叶, 让风吹雨打到处飘零; 或流云一朵,在澄蓝天, 和大地再没有些牵连。
但抱紧那伤心的标志, 去触遇没着落的怅惘; 在黄昏,夜班,蹑着脚走, 全是空虚,再莫有温柔;
忘掉曾有这世界;有你; 哀悼谁又曾有过爱恋; 落花似的落尽,忘了去 这些个泪点里的情绪。
到那天一切都不存留, 比一闪光,一息风更少 痕迹,你也要忘掉了我 曾经在这世界里活过。
@martjay 感谢反馈~
我测试了下
初四的月光下含情的对望,
这个会读成初四的月光下 含情的对望,
还行
交汇的视线上高悬一弯新月,
这个会读成交汇的视线 上 高悬一弯新月,
有问题
因为模型没有显式音素强制对齐,模型是自行确定怎么念的,比如断句、腔调啥的 确实还有很多问题,之后结构和训练的设计以及数据上迭代会努力改进这个~
@martjay 感谢反馈~
我测试了下
初四的月光下含情的对望,
这个会读成
初四的月光下 含情的对望,
还行交汇的视线上高悬一弯新月,
这个会读成
交汇的视线 上 高悬一弯新月,
有问题因为模型没有显式音素强制对齐,模型是自行确定怎么念的,比如断句、腔调啥的 确实还有很多问题,之后结构和训练的设计以及数据上迭代会努力改进这个~
加油,如果能处理好这些问题,你们将会成为最好的AI克隆TTS
Checks
Environment Details
比如说一段文字里边带数字,在读数字的时候就会鬼畜
Steps to Reproduce
一段文字里边带数字,在读数字的时候就会鬼畜
✔️ Expected Behavior
No response
❌ Actual Behavior
No response