huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.
3.03k stars 627 forks source link

wmt数据下载 #226

Open 0-KaiKai-0 opened 1 year ago

0-KaiKai-0 commented 1 year ago

请问论文Universal Conditional Masked Language Pre-training for Neural Machine Translation中所描述的数据集size是指什么,以及能否提供论文中所使用的数据下载源。 image

jingmu123 commented 1 year ago

您好,这个数据是从WMT官网下载并清洗之后的数据,size是指用于训练的数据规模,和mBART论文中一致;由于google硬盘空间有限,当前还无法提供所处理后的wmt数据,后边可能会选择在其他云盘上传,您也可以下载后按readme的说明进行处理,谢谢