SWivid / F5-TTS

Official code for "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching"
https://arxiv.org/abs/2410.06885
MIT License
7.46k stars 919 forks source link

读数字有问题 #493

Closed martjay closed 1 week ago

martjay commented 1 week ago

Checks

Environment Details

比如说一段文字里边带数字,在读数字的时候就会鬼畜

Steps to Reproduce

一段文字里边带数字,在读数字的时候就会鬼畜

✔️ Expected Behavior

No response

❌ Actual Behavior

No response

martjay commented 1 week ago

我发现它会把数字读为英文

martjay commented 1 week ago

还有在长句子会莫名其妙的被分开读,语气很奇怪不流畅

SWivid commented 1 week ago

@martjay #244 #390 关于数字

关于长句子readme里有说明的,最长30s,过长的会被切开,如果想要理想的切分可以手动处理

确认下这个issue模板里你勾选的内容:

This template is only for bug reports, usage problems go with 'Help Wanted'. (这个issue应该不包含bug) I have thoroughly reviewed the project documentation but couldn't find information to solve my problem.(关于长句子的readme有说明) I have searched for existing issues, including closed ones, and couldn't find a solution.(关于中文数字有不少issue) I confirm that I am using English to submit this report in order to facilitate communication.(希望用英文发issue便于不说中文的人寻找问题解决方案)

atlonxp commented 1 week ago

@martjay would be good if write this issue in English. This might be of use to Thai that I'm working on as well. I might have this problem is reading number as well.

martjay commented 6 days ago

@martjay #244 #390 关于数字

关于长句子readme里有说明的,最长30s,过长的会被切开,如果想要理想的切分可以手动处理

确认下这个issue模板里你勾选的内容:

This template is only for bug reports, usage problems go with 'Help Wanted'. (这个issue应该不包含bug) I have thoroughly reviewed the project documentation but couldn't find information to solve my problem.(关于长句子的readme有说明) I have searched for existing issues, including closed ones, and couldn't find a solution.(关于中文数字有不少issue) I confirm that I am using English to submit this report in order to facilitate communication.(希望用英文发issue便于不说中文的人寻找问题解决方案)

我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然

SWivid commented 6 days ago

我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然

那应该是目前base模型训练集里没太见过这样的长句,会自行划短;考虑在二十几个字中想要小停顿的地方加逗号,或者speed slider速度拉快一点看看

martjay commented 4 days ago

我说的长句问题可能不是你描述的,可能这个小句连着二十个字,然后就会中间停一下继续念而不是连贯的念完整句,很不自然

那应该是目前base模型训练集里没太见过这样的长句,会自行划短;考虑在二十几个字中想要小停顿的地方加逗号,或者speed slider速度拉快一点看看

我又测试了很多遍,发现就算不是长句,有时候也会在中间停顿。

你可以试试下面这段:

从天涯海角飘来两朵彩云, 无人知晓究竟是来自何方。 突然中止遨游,驻足天心, 初四的月光下含情的对望, 微光里依稀觉得昔日相识。 记起绿色海岛,雾绕的山峦, 黄昏的海滨一度过从甚密。 面对面却怀天各一方的离愁, 正欲交合,因乍遇又害羞。 交汇的视线上高悬一弯新月, 笑的羞涩妨碍亲吻的密切; 春梦的绸缪将倦眼紧紧连结。 叙罢韵事,蓦闻青曦的足音, 无语作别,身带摩挲的温存。

martjay commented 4 days ago

这种诗歌生成也很不自然。

我情愿化成一片落叶, 让风吹雨打到处飘零; 或流云一朵,在澄蓝天, 和大地再没有些牵连。

但抱紧那伤心的标志, 去触遇没着落的怅惘; 在黄昏,夜班,蹑着脚走, 全是空虚,再莫有温柔;

忘掉曾有这世界;有你; 哀悼谁又曾有过爱恋; 落花似的落尽,忘了去 这些个泪点里的情绪。

到那天一切都不存留, 比一闪光,一息风更少 痕迹,你也要忘掉了我 曾经在这世界里活过。

SWivid commented 3 days ago

@martjay 感谢反馈~

我测试了下

初四的月光下含情的对望,

这个会读成初四的月光下 含情的对望, 还行

交汇的视线上高悬一弯新月,

这个会读成交汇的视线 上 高悬一弯新月, 有问题

因为模型没有显式音素强制对齐,模型是自行确定怎么念的,比如断句、腔调啥的 确实还有很多问题,之后结构和训练的设计以及数据上迭代会努力改进这个~

martjay commented 2 days ago

@martjay 感谢反馈~

我测试了下

初四的月光下含情的对望,

这个会读成初四的月光下 含情的对望, 还行

交汇的视线上高悬一弯新月,

这个会读成交汇的视线 上 高悬一弯新月, 有问题

因为模型没有显式音素强制对齐,模型是自行确定怎么念的,比如断句、腔调啥的 确实还有很多问题,之后结构和训练的设计以及数据上迭代会努力改进这个~

加油,如果能处理好这些问题,你们将会成为最好的AI克隆TTS