请问预训练模型仓库ZOO中的《其他机构中文预训练模型》中的albert和robert等模型是用哪个script文件convert的？谢谢！

dbiir / UER-py

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo

https://github.com/dbiir/UER-py/wiki

Apache License 2.0

3k stars 526 forks source link

请问预训练模型仓库ZOO中的《其他机构中文预训练模型》中的albert和robert等模型是用哪个script文件convert的？谢谢！ #184

Closed MRC-Datasets closed 3 years ago

MRC-Datasets commented 3 years ago

您好！感谢提供UER-py 我在试用预训练模型ZOO的时候，在《其他机构中文预训练模型》中，从提供的腾讯云上，下载了ALBERT、Robert、BERT-wwm等模型，但是我发现这些模型不是表格最后一列提到的Google官方链接上的ckpt-best类型的文件，而是pytorch的bin文件。而我在UER的scripts文件夹中没有找到将albert、roberta、bert-wwm等模型转化为bin文件的脚本py文件。

请问这些表格第三列中的各类google模型是如何转化为腾讯云上您提供的bin文件模型呢？

谢谢！

Embedding commented 3 years ago

我们在这个项目提供的所有的预训练模型权重，都是UER项目可以直接加载的，因此不会存在TF格式的文件

我们新加了将UER和Google TF格式的ALBERT互相转换的代码 scripts/convert_albert_from_original_tf_to_uer.py 和 scripts/convert_albert_from_uer_to_original_tf.py

哈工大BERT-wwm项目提供了huggingface版本的pytorch格式预训练权重，我们通过 scripts/convert_bert_from_huggingface_to_uer.py 文件进行转换，得到UER格式的权重

MRC-Datasets commented 3 years ago

请问：预训练模型ZOO中的《其他机构中文预训练模型》下的RoBERTa-wwm-ext等模型，也是用如下文件： scripts/convert_bert_from_huggingface_to_uer.py 文件进行转换，得到UER格式的权重的吗？

还是说应该用：convert_bert_extractive_qa_from_huggingface_to_uer.py 这个文件？因为感觉RoBERTa-wwm-ext模型是在ext语料上训练的。

谢谢！

hhou435 commented 3 years ago

您好，RoBERTa-wwm-ext是用convert_bert_from_huggingface_to_uer.py进行转换的，convert_bert_extractive_qa_from_huggingface_to_uer.py是用来转换BERT阅读理解模型的

MRC-Datasets commented 3 years ago

收到，谢谢