您好，请问可以具体列一下目前支持的30种方言吗，后续会开源少量的数据 - Githubissues

Tele-AI / TeleSpeech-ASR

475 stars 39 forks source link

您好，请问可以具体列一下目前支持的30种方言吗，后续会开源少量的数据 #20

Open csf123123 opened 4 months ago

csf123123 commented 4 months ago

您好，非常感谢大佬开源相关工作与成果，我想请问下，可以具体列一下目前支持的30种方言吗？后续还会有什么开源计划吗？预训练的30万小时都是方言数据吗？还是大部分是普通话数据？

TTTdas commented 3 months ago

您好，非常感谢大佬开源相关工作与成果，我想请问下，可以具体列一下目前支持的30种方言吗？后续还会有什么开源计划吗？预训练的30万小时都是方言数据吗？还是大部分是普通话数据？

您好，感谢关注！

目前无监督预训练模型涉及到的方言有：南昌话、长沙话、客家话、厦门话、南京话、甘肃话、山西话、陕西话、济南话、青岛话、银川话、福州话、桂林话、莆田话、黄山话、温州话、粤语、上海话、杭州话、苏州话、昆明话、贵阳话、四川话、重庆话、武汉话、河南话、河北话、东北话、北京话、天津话
后续会陆续开源各种直接可用的模型，第一阶段主要是给大家开放一个无监督预训练的基座模型，方便有需要的在此基础上添加少量目标语言finetune
其中有10w多小时的数据是普通话