iflytek / cino

CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)
http://cino.hfl-rc.com
Apache License 2.0
212 stars 28 forks source link

关于预训练数据 #14

Closed qq260612718 closed 2 years ago

qq260612718 commented 2 years ago

作者,您好! 我想请问下以下两点: (1)该预训练模型所包含的语言是只有以下几种,还是涵盖了先前xlm-r的上百种语言? Chinese,中文(zh)Tibetan,藏语(bo)Mongolian (Uighur form),蒙语(mn)Uyghur,维吾尔语(ug) Kazakh (Arabic form),哈萨克语(kk)Korean,朝鲜语(ko)Zhuang,壮语Cantonese,粤语(yue) (2)关于少数民族语数据集预训练的数据量大小是多少? 期待您的回复。

airaria commented 2 years ago

您好,您的疑问我回复如下: (1)在预训练阶段未在除了中文和少数民族语言和之外的语言上预训练,所以虽然模型涵盖并支持XLM-R中的其他语言,但预期效果会有所下降。 (2)包括中文在内所有语料总计几十GB的量级,具体的细节将之后在技术报告中展示。

在2021年12月30日 @.***> 写道:

作者,您好! 我想请问下以下两点: (1)我想请问下该预训练模型所包含的语言是只有以下几种,还是涵盖了先前xlm-r的上百种语言? Chinese,中文(zh)Tibetan,藏语(bo)Mongolian (Uighur form),蒙语(mn)Uyghur,维吾尔语(ug) Kazakh (Arabic form),哈萨克语(kk)Korean,朝鲜语(ko)Zhuang,壮语Cantonese,粤语(yue) (2)关于少数民族语数据集预训练的数据量大小是多少? 期待您的回复。

— Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you are subscribed to this thread.Message ID: @.***>

qq260612718 commented 2 years ago

好的,谢谢您