SpeechColab / GigaSpeech2

An evolving, large-scale and multi-domain ASR corpus for low-resource languages with automated crawling, transcription and refinement
Apache License 2.0
118 stars 6 forks source link

pipeline #5

Closed wwfcnu closed 4 months ago

wwfcnu commented 4 months ago

你好,我理解这种创建数据集的办法主要针对的是资源较少的语种,像英文数据集用NST去refine就没有必要了吧,是不是直接用whisper转录就可以了。

yfyeung commented 4 months ago

你好,我理解这种创建数据集的办法主要针对的是资源较少的语种,像英文数据集用NST去refine就没有必要了吧,是不是直接用whisper转录就可以了。

英语的话不建议用 whisper,还有很多更快更好的开源模型,您可以参考 https://huggingface.co/spaces/hf-audio/open_asr_leaderboard 工业规模数据利用英语 pseudo label 的文章可以参考 https://arxiv.org/pdf/2404.07341 他们也做了 NST。个人觉得英语数据集做 NST 也是有必要的,转录和对齐都会存在错误,即便是只迭代一轮,效果预计也是显著的。