Closed wwfcnu closed 4 months ago
你好,我理解这种创建数据集的办法主要针对的是资源较少的语种,像英文数据集用NST去refine就没有必要了吧,是不是直接用whisper转录就可以了。
英语的话不建议用 whisper,还有很多更快更好的开源模型,您可以参考 https://huggingface.co/spaces/hf-audio/open_asr_leaderboard 工业规模数据利用英语 pseudo label 的文章可以参考 https://arxiv.org/pdf/2404.07341 他们也做了 NST。个人觉得英语数据集做 NST 也是有必要的,转录和对齐都会存在错误,即便是只迭代一轮,效果预计也是显著的。
你好,我理解这种创建数据集的办法主要针对的是资源较少的语种,像英文数据集用NST去refine就没有必要了吧,是不是直接用whisper转录就可以了。