ZhuiyiTechnology / pretrained-models

Open Language Pre-trained Model Zoo
Apache License 2.0
986 stars 136 forks source link

开源预训练语言模型合集

这是由追一科技有限公司推出的一个预训练模型合集,主要发布自研的预训练语言模型,推动自然语言处理技术的进步。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。

模型概览

以下是我们目前公开发布的模型概览:

名称 数据来源 训练数据大小 词表大小 模型大小 下载地址
RoBERTa Tiny 百科,新闻 等 35G 21128 27MB 下载链接
RoBERTa Small 百科,新闻 等 35G 21128 48MB 下载链接
SimBERT Tiny 百度知道 2200万相似句组 13685 26MB 下载链接
SimBERT Small 百度知道 2200万相似句组 13685 49MB 下载链接
SimBERT Base 百度知道 2200万相似句组 13685 344MB 下载链接
RoBERTa+ Tiny 百科,新闻 等 35G 21128 35MB 下载链接
RoBERTa+ Small 百科,新闻 等 35G 21128 67MB 下载链接
WoBERT 百科,新闻 等 35G 33586/50000 400M WoBERT项目
T5 PEGASUS 百科,新闻 等 35G 50000 971M T5 PEGASUS项目

评估结果

这里给出部分数据集上模型的评测结果。

(注:以下实验结果均为重复跑三次后的平均值。预测阶段,两个small模型速度完全一致,两个tiny模型速度也完全一致。)

文本情感分类

任务来源:https://github.com/bojone/bert4keras/blob/master/examples/datasets/sentiment.zip

评测脚本:task_sentiment.py

评测指标:accuracy

模型 验证集(valid) 训练速度 第一个epoch结束时的指标值 测试集(test)
RoBERTa Small 94.89% 38s/epoch 90.48% 94.81%
ALBERT Small 94.57% 33s/epoch 91.02% 94.52%
RoBERTa Tiny 94.46% 23s/epoch 90.83% 94.00%
ALBERT Tiny 94.14% 20s/epoch 90.18% 93.78%

IFLYTEK' 长文本分类

任务来源:https://github.com/CLUEbenchmark/CLUE

评测脚本:task_iflytek.py

评测指标:accuracy

模型 验证集(dev) 训练速度 第一个epoch结束时的指标值
RoBERTa+ Small 57.93% 32s/epoch 54.44%
RoBERTa Small 57.66% 27s/epoch 52.60%
ALBERT Small 57.14% 24s/epoch 48.21%
RoBERTa+ Tiny 57.51% 19s/epoch 51.00%
RoBERTa Tiny 57.43% 16s/epoch 49.76%
ALBERT Tiny 56.42% 14s/epoch 43.84%

LIC2019-IE 信息抽取任务

任务来源:http://lic2019.ccf.org.cn/kg

评测脚本:task_lic2019_ie.py

评测指标:F1

模型 验证集(dev) 训练速度 第一个epoch结束时的指标值
RoBERTa+ Small 78.35% 446s/epoch 61.92%
RoBERTa Small 78.09% 375s/epoch 63.85%
ALBERT Small 77.69% 335s/epoch 46.58%
RoBERTa+ Tiny 76.93% 264s/epoch 45.80%
RoBERTa Tiny 76.65% 235s/epoch 46.12%
ALBERT Tiny 75.94% 215s/epoch 31.66%

CIPS-SogouQA 阅读理解式问答

任务来源:http://task.www.sogou.com/cips-sogou_qa/

评测脚本:task_cips_sogou_qa.py

评测指标:(EM + F1) / 2

模型 验证集(dev) 训练速度 第一个epoch结束时的指标值
RoBERTa+ Small 71.27% 673s/epoch 56.09%
RoBERTa Small 70.35% 607s/epoch 61.07%
ALBERT Small 66.66% 582s/epoch 50.93%
RoBERTa+ Tiny 68.37% 481s/epoch 52.59%
RoBERTa Tiny 67.85% 455s/epoch 49.78%
ALBERT Tiny 63.41% 443s/epoch 37.47%

(注:此处是直接使用UniLM的Seq2Seq方案来做阅读理解,主要测试模型用做文本生成时的能力。但要说明的是,Seq2Seq并非做阅读理解的标准方案。)

模型详情

此处对每个模型进行较为详细的介绍

RoBERTa Tiny

RoBERTa Small

SimBERT Base

RoBERTa+ Tiny

RoBERTa+ Small

如何引用

Bibtex:

@techreport{zhuiyipretrainedmodels,
  title={Open Language Pre-trained Model Zoo - ZhuiyiAI},
  author={Jianlin Su},
  year={2020},
  url="https://github.com/ZhuiyiTechnology/pretrained-models",
}

致谢信息

本项目部分受到谷歌TensorFlow Research Cloud计划资助,在此特别致谢。

联系我们

邮箱:ai@wezhuiyi.com

相关链接

追一科技:https://zhuiyi.ai