pipeline - Githubissues

SpeechColab / GigaSpeech2

An evolving, large-scale and multi-domain ASR corpus for low-resource languages with automated crawling, transcription and refinement

Apache License 2.0

118 stars 6 forks source link

你好，我理解这种创建数据集的办法主要针对的是资源较少的语种，像英文数据集用NST去refine就没有必要了吧，是不是直接用whisper转录就可以了。

英语的话不建议用 whisper，还有很多更快更好的开源模型，您可以参考 https://huggingface.co/spaces/hf-audio/open_asr_leaderboard 工业规模数据利用英语 pseudo label 的文章可以参考 https://arxiv.org/pdf/2404.07341 他们也做了 NST。个人觉得英语数据集做 NST 也是有必要的，转录和对齐都会存在错误，即便是只迭代一轮，效果预计也是显著的。

SpeechColab / GigaSpeech2

pipeline #5