thu-spmi / CAT

A CRF-based ASR Toolkit
Apache License 2.0
325 stars 74 forks source link

请问为什么v2版本移除了Aishell-1数据集 #51

Closed DaobinZhu closed 2 years ago

maxwellzh commented 2 years ago

你好,在构建CAT-v2时,由于精力有限,我们尚未将所有v1中的egs迁移到v2版本,我们会尽快完成这一过程。 如果您比较着急:

  1. v2版本和v1版本在数据预处理部分并无二致,主要的差异在神经网络模型的训练部分(在大多数egs中为run.sh中的stage 6),如果你对CAT/Kaldi特征提取较为熟悉,可以使用v1版本的特征提取部分代码,结合v2版本的神经网络训练代码。
  2. 也可以参考librispeech/run.sh的变化,对比v1和v2的差异, librispeech: v1 -> v2
DaobinZhu commented 2 years ago

非常感谢,我最近读论文读到了一篇关于transducer和CTC空白token对齐的论文,在paper with code,找到了这个项目,不知道可不可以在CAT的基础上进行复现,谢谢你的回复,我会尝试一下。