dbiir / UER-py

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo
https://github.com/dbiir/UER-py/wiki
Apache License 2.0
3k stars 526 forks source link

请问预训练模型仓库ZOO中的《其他机构中文预训练模型》中的albert和robert等模型是用哪个script文件convert的?谢谢! #184

Closed MRC-Datasets closed 3 years ago

MRC-Datasets commented 3 years ago

您好! 感谢提供UER-py 我在试用预训练模型ZOO的时候,在《其他机构中文预训练模型》中,从提供的腾讯云上,下载了ALBERT、Robert、BERT-wwm等模型,但是我发现这些模型不是表格最后一列提到的Google官方链接上的ckpt-best类型的文件,而是pytorch的bin文件。而我在UER的scripts文件夹中没有找到将albert、roberta、bert-wwm等模型转化为bin文件的脚本py文件。

请问这些表格第三列中的各类google模型是如何转化为腾讯云上您提供的bin文件模型呢?

谢谢!

Embedding commented 3 years ago

我们在这个项目提供的所有的预训练模型权重,都是UER项目可以直接加载的,因此不会存在TF格式的文件

我们新加了将UER和Google TF格式的ALBERT互相转换的代码 scripts/convert_albert_from_original_tf_to_uer.py 和 scripts/convert_albert_from_uer_to_original_tf.py

哈工大BERT-wwm项目提供了huggingface版本的pytorch格式预训练权重,我们通过 scripts/convert_bert_from_huggingface_to_uer.py 文件进行转换,得到UER格式的权重

MRC-Datasets commented 3 years ago

请问: 预训练模型ZOO中的《其他机构中文预训练模型》下的RoBERTa-wwm-ext等模型,也是用如下文件: scripts/convert_bert_from_huggingface_to_uer.py 文件进行转换,得到UER格式的权重的吗?

还是说应该用:convert_bert_extractive_qa_from_huggingface_to_uer.py 这个文件?因为感觉RoBERTa-wwm-ext模型是在ext语料上训练的。

谢谢!

hhou435 commented 3 years ago

您好,RoBERTa-wwm-ext是用convert_bert_from_huggingface_to_uer.py进行转换的,convert_bert_extractive_qa_from_huggingface_to_uer.py是用来转换BERT阅读理解模型的

MRC-Datasets commented 3 years ago

收到,谢谢