Open Blakey-Gavin opened 1 month ago
我也是,而且我还用了很多数据
我数据也有七八十小时。你找到原因了吗?我查了很久,不知道问题出在哪儿
我的数据有几千个小时都不行,还在找
好的,你要是找到原因了方便告知一下吗?非常感谢!
你看下你的mel-loss是多少,有没有下降
整体上看是下降的
我现在在做实验,你的数据是否每个人的声音数目差不多嘛?还是说有些人数据很多
这个我之前倒是没统计。统计出来如下: 小于 100:non 100-200:10 speakers 200-300:30 speakers 300-400:34 speakers 400-500:119 speakers 500-600:16 speakers 大于 600: non
utterances 数范围:139-506
你试试每个speaker在数目差不多呢
嗯嗯,等有时间的吧,现在还需要忙其它事情。
您好,我将 ssl model 更换为中文版 wav2vec2 和 hubert,然后进行了 retrain 和 fine-tune,但不管哪种方式,转换出来的结果都是音色和 source 相似而不是 target。
请问可能的原因是什么,我应该怎么解决这个问题?