Open w4123 opened 2 years ago
提供一个 Merged_Chinese_Wav.zip 的百度网盘链接(Merged 这个应该是 v3.1 + v3.2 的整合?) 链接:https://pan.baidu.com/s/1bWlfNMd3aGlxeJgKE_wAZQ?pwd=ilkh 提取码:ilkh
@w4123 你好,请问对应文本,是在哪里呀,非常感谢
@Charlottecuc json 里头呀,
大概格式是这样
"60f17e4684ea0354": {
"language": "CHS",
"fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem",
"text": "所以,你们也可以多信任我一些喔。",
"npcName": "丽莎"
},
不过 text 这个属性有些缺失,里头可能有些 xml 符号 <color=#00E1FFFF>风之翼</color>!
, {NickName}
之类的
@Charlottecuc json 里头呀,
大概格式是这样
{'language': 'CHS', 'fileName': 'Chinese\\VO_AQ\\VO_ambor\\vo_MDAQ071_8_ambor_02.wem', 'text': '这样啊…那也就是说要暂时分别了吗…', 'npcName': '安柏'}
谢谢大师
@Charlottecuc json 里头呀,
大概格式是这样
"60f17e4684ea0354": { "language": "CHS", "fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem", "text": "所以,你们也可以多信任我一些喔。", "npcName": "丽莎" },
不过 text 这个属性有些缺失,里头可能有些 xml 符号
<color=#00E1FFFF>风之翼</color>!
,{NickName}
之类的
目前fetters部分的text是缺失的,会近期加上。
@Charlottecuc json 里头呀,
大概格式是这样
"60f17e4684ea0354": { "language": "CHS", "fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem", "text": "所以,你们也可以多信任我一些喔。", "npcName": "丽莎" },
不过 text 这个属性有些缺失,里头可能有些 xml 符号
<color=#00E1FFFF>风之翼</color>!
,{NickName}
之类的
还有很多缺失的可能是游戏内已经实际上删除了对应的语音,但是reference还在里面。
新的resultv32.json已经上传,可以看一下有没有什么问题 更新内容:
merge 的我理解是 v31 和 v32 版本的合并去重对吧?
提供一个 使用ModelScope生成带CMU音素标注的美式英文数据1男1女 ,跟原神数据混合训练可以得到中英混读模型
https://gist.github.com/Jackiexiao/b2193b2390eeab2366cfe7488884a74d
ps: 有些数据是双声道的音频,使用的时候需要注意
大佬你好,期待更新3.4版本,非常感谢~
@w4123 请问下,大部分音频数据的最后1s有缺失,有一种仓促结束,突然被截断的感觉,这样训练出来的模型尾音很奇怪很像方言。请问下您有没有什么好的建议? 可以确定不是您数据集的问题,我自己扒出来的原始音频也是这样
@w4123 请问下,大部分音频数据的最后1s有缺失,有一种仓促结束,突然被截断的感觉,这样训练出来的模型尾音很奇怪很像方言。请问下您有没有什么好的建议? 可以确定不是您数据集的问题,我自己扒出来的原始音频也是这样
事实上数据的最后一点都是完整的,但是我明白你的意思。在部分播放器(比如Windows默认的)上,这些文件会听起来有一种戛然而止,缺失的感觉,我认为是这些播放器没有正确解码和播放最后一个buffer导致的(只是猜测,没有实际测试过)。你可以换一个播放器尝试,我自己尝试的话使用VLC等就能够完整正确的播放而没有突然结束的感觉。对于训练来说这应该不是问题,因为文件本身是完整的。如果你担心会有问题,你可以训练的时候把读入的文件数组后面手动加一些0。你也可以用特殊的符号代表语音中的停顿来进行训练以实现可以手动控制停顿等更复杂的功能。
感谢您的用心回答,我换了个播放器确实就没这个问题了,说明音频文件是好的。。。那我就需要找找看为什么模型训练出来的语调有点奇怪了,我目前用全量音频跑了100个epoch,并且看loss也不太下降了,现在的语调像是日本人念中文。。。感觉可能是派蒙的音频占比太高导致的,我把其他角色的语音上采样再试试看
提供一个 使用ModelScope生成带CMU音素标注的美式英文数据1男1女 ,跟原神数据混合训练可以得到中英混读模型
https://gist.github.com/Jackiexiao/b2193b2390eeab2366cfe7488884a74d
您好,请问下如果训练中英混读模型,是需要单独处理cleaner吗? 如果是inference的句子中英混合,是需要拆分后分clean之后再拼起来,然后生成音频是吗
@moxiegushi 要改cleaner, 你用ModelScope的TTS前端 生成 拼音&CMU音素就行,无论是推理还是训练
V3.4
其他