Tele-AI / TeleSpeech-ASR

475 stars 39 forks source link

您好,请问可以具体列一下目前支持的30种方言吗,后续会开源少量的数据 #20

Open csf123123 opened 4 months ago

csf123123 commented 4 months ago

您好, 非常感谢大佬开源相关工作与成果,我想请问下,可以具体列一下目前支持的30种方言吗?后续还会有什么开源计划吗?预训练的30万小时都是方言数据吗?还是大部分是普通话数据?

TTTdas commented 3 months ago

您好, 非常感谢大佬开源相关工作与成果,我想请问下,可以具体列一下目前支持的30种方言吗?后续还会有什么开源计划吗?预训练的30万小时都是方言数据吗?还是大部分是普通话数据?

您好,感谢关注!

  1. 目前无监督预训练模型涉及到的方言有:南昌话、长沙话、客家话、厦门话、南京话、甘肃话、山西话、陕西话、济南话、青岛话、银川话、福州话、桂林话、莆田话、黄山话、温州话、粤语、上海话、杭州话、苏州话、昆明话、贵阳话、四川话、重庆话、武汉话、河南话、河北话、东北话、北京话、天津话
  2. 后续会陆续开源各种直接可用的模型,第一阶段主要是给大家开放一个 无监督预训练的基座模型,方便有需要的在此基础上添加少量目标语言finetune
  3. 其中有10w多小时的数据是普通话