huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.
3.02k stars 628 forks source link

Data Augmentation 里面的glove 文件的来源 #83

Closed charlesfufu closed 4 years ago

charlesfufu commented 4 years ago

Data Augmentation 里面的glove 文件的来源是来自哪里,基于glue数据训练的吗

SunShuoying commented 4 years ago

同问,中文任务的glove 文件怎么弄呢,知道的大佬说一下,谢谢

chauncy-cc commented 4 years ago

Hi~英文用的glove文件来自 https://github.com/stanfordnlp/GloVe 中的glove.42B.300d,在readme中可以看到。而中文因为不存在英文那样多个word-piece这样的字,根据数据增强的算法,通过中文Bert模型预测就可以了,不需要中文glove。

charlesfufu commented 4 years ago

word-piece

在第一个蒸馏阶段,研究者需要使用原版的 BERT-base(没有微调的版本)作为教师模型、通过 Transformer 蒸馏的方法,可以获得一个泛化的 TinyBERT 模型。请问你们的预料是自己找的吗?维基百科什么的

chauncy-cc commented 4 years ago

是的,这个数据需要自己找了,语料数据不能公开。

charlesfufu commented 4 years ago

是的,这个数据需要自己找了,语料数据不能公开。

后续你们会训练中文以及多语言模型吗?

Tian14267 commented 3 years ago

请问一下,python pregenerate_training_data.py --train_corpus ${CORPUS_RAW} \ --bert_model ${BERT_BASE_DIR}$ --reduce_memory --do_lower_case --epochs_to_generate 3 --output_dir ${CORPUS_JSON_DIR}$ 这里面的 --train_corpus ${CORPUS_RAW} 、bert_model ${BERT_BASE_DIR}$、--output_dir ${CORPUS_JSON_DIR}$ 所对应的文件分别在哪啊?我没法直接运行这个代码 @SunShuoying @cc-97 @charlesfufu @fengChenHPC @jacobrxz

zy614582280 commented 2 years ago

中文数据增强,是把预训练模型tokenize的结果做全词掩码(WWM),然后再预训练模型与预测[MASK]的词吗

zy614582280 commented 2 years ago

我用roberta_chinese_clue_tiny是了下数据增强,效果惨不忍睹。 原句:最大的文旅产业运营商和物业持有者、最大的会议会展运营商和物业持有者 数据增强: 最 大 的 文 旅 产 业 运 营 殊 和 雏 业 异 耶 者 、 最 敲 的 烈 议 垃 短 运 营 商 和 物 两 持 有 者 最 大 的 文 一 产 汶 运 营 商 和 物 业 瘟 揭 者 、 最 大 的 基 议 会 参 棒 跳 商 和 物 常 持 有 者 最 大 的 文 旅 产 业 运 锣 商 和 阶 桶 持 有 者 、 最 大 的 展 议 会 展 运 巨 商 和 贺 两 喘 有 者 祝 大 的 文 旅 产 垄 因 营 商 和 物 册 持 见 者 、 最 大 的 踊 议 会 展 运 营 商 和 举 业 阶 锣 者 最 大 的 文 旅 根 汶 运 营 步 和 物 削 持 有 者 、 最 大 的 会 议 论 展 运 」 商 和 物 业 基 有 者 最 短 的 文 旅 产 业 运 营 商 和 物 截 异 有 者 、 棒 大 的 会 偶 会 阅 毕 营 陨 和 物 业 持 有 者 沓 大 的 夸 祝 产 业 功 营 参 和 物 业 辛 有 者 、 半 大 的 烈 终 会 展 支 营 因 和 物 召 喘 耶 者 最 大 的 小 旅 旦 业 运 营 参 和 物 业 持 有 者 、 终 大 的 会 议 届 展 毕 弹 商 和 物 望 持 有 者 最 大 的 文 旅 旦 业 因 营 € 和 物 橡 持 概 者 、 最 大 的 踊 议 会 展 支 小 商 和 吃 趋 那 辛 者 最 铆 的 肉 旅 产 业 稚 营 商 和 物 桶 持 有 者 、 橡 挑 的 许 议 良 展 运 营 鹌 和 因 召 步 汶 者 最 大 的 文 昨 之 业 的 箍 殊 和 物 锣 持 有 者 、 小 大 的 会 议 会 毕 运 营 蝴 和 节 业 基 有 者 最 大 的 文 旅 步 阶 运 喘 襄 和 砥 业 持 有 者 、 最 」 的 会 终 会 耶 运 营 商 和 物 展 沿 有 者 沓 大 的 磁 希 产 锣 运 箍 锣 和 阶 业 步 有 者 、 最 大 的 橡 议 善 毕 昂 」 商 和 举 一 基 有 者 最 大 的 文 旅 产 业 运 营 € 和 砥 截 持 有 者 、 最 大 的 会 议 良 展 运 巨 商 和 物 业 那 有 者 最 大 的 文 趋 产 垄 运 喘 € 和 物 业 持 咫 者 、 最 大 的 会 见 论 展 运 营 商 和 物 般 持 有 者 祈 翘 的 文 旅 产 业 运 桶 殊 和 物 削 持 常 者 、 最 大 的 会 终 会 展 运 营 蝴 和 物 业 持 有 者 祈 翘 的 鞠 旅 之 业 运 营 商 和 物 册 参 有 者 、 始 整 的 基 议 盛 焙 运 营 蝴 和 物 业 持 有 者 觐 大 的 圆 基 产 业 的 营 商 和 雏 桶 持 有 者 、 敲 大 的 壹 议 届 毕 运 营 商 和 磁 业 阶 有 者 阅 大 的 肉 希 旦 业 运 营 商 和 物 业 节 有 者 、 最 大 的 会 概 会 参 棒 任 商 和 物 两 持 圣 者 祈 祝 的 翘 昨 因 业 的 营 唷 和 物 业 持 有 者 、 短 大 的 会 见 会 展 运 跳 因 和 物 业 持 有 者 最 短 的 文 旅 步 业 的 营 商 和 太 业 持 有 者 、 最 大 的 烈 胶 盛 展 运 [SEP] 商 和 物 望 持 有 者 橡 大 的 翘 旅 产 业 砥 喘 唷 和 物 业 持 祝 者 、 最 弹 的 会 议 会 短 棒 挑 商 和 物 业 沿 阶 者 最 [SEP] 的 文 望 产 锣 的 营 步 和 物 业 异 有 者 、 最 大 的 会 偶 良 展 运 营 商 和 贺 业 持 济 者 最 沥 的 文 基 产 业 运 营 锣 和 物 喘 辛 见 者 、 最 整 的 会 议 垃 展 运 弹 商 和 贺 业 持 济 者 最 沥 的 文 旅 步 锣 运 营 商 和 物 瞬 持 有 者 、 半 大 的 胶 考 会 展 运 营 [SEP] 和 物 业 因 有 者 最 铆 的 文 旅 因 业 剥 册 瘟 和 物 册 持 有 者 、 半 糖 的 会 豆 会 展 运 营 商 和 举 业 持 垄 者 最 大 的 文 展 步 阶 砥 营 商 和 物 业 持 有 者 、 最 大 的 胶 议 旦 参 运 营 商 和 物 业 持 有 者 最 [SEP] 的 文 旅 产 业 运 营 襄 和 雏 业 持 祝 者 、 终 大 的 胶 偶 旦 耶 汶 挑 商 和 物 业 那 有 者 最 大 的 文 旅 因 哀 的 桶 步 和 耶 业 参 有 者 、 最 大 的 会 议 盛 阅 汶 任 商 和 物 望 那 辛 者 橡 大 的 赘 旅 旦 业 阶 营 商 和 耶 业 持 般 者 、 最 小 的 显 终 会 展 钟 小 商 和 夸 业 沿 有 者