Open Switchsyj opened 2 years ago
Motivation: 预训练模型(BERT)对基于span表示的任务(如:抽取问答、信息抽取、指代消解)性能相对不够好。是因为(1)基于subtoken的预训练过程忽视了一个实体的整体性(预测实体任务本身比预测token难度更大,这样相当于增加预测过程的限制条件?)。(2)没有融入实体的边界信息。
解决方案: (1)预训练过程利用span-masked方法。(2)增加新的训练目标span-boundary objective(SBO)
任务:SQuAD,TACRED,GLUE
主要作者:Mandar Joshi, Danqi Chen
单位:UW, Princeton
论文链接:spanBERT
span-masking(dynamic masking):
先从几何分布Geo(p=0.2)选取一个mask的span长度,然后利用均匀分布,从句子中选择一个起始点开始替换整个span。
与BERT保持一致,mask掉整体token数量的15%为止。其中80%的[MASK],10%的随机替换,10%的原样不动。
最大长度是l_max=10,超过长度重新采样。sample方法:以p的概率结束mask,以1-p的概率继续延伸。
)))
NSP:实验表示BERT中的NSP任务有可能使得模型无法学习长句子,也有可能是负例的选取会给MLM带来很大噪音,在下游任务表现不好。(NSP的做法是将句子最大长度设置为512,读入一个文档时有两种选择:接着下一句或者从语料中随机选择一个位置读取。)
Loss:span boundary+MLM:
XLM:cross-lingual pretraining
pair2vec:negative sampling for pair representation
RoBERTa (improving details on BERT) & WWM (whole world masking)
XLNET (Auto-regressive)
Facebook的文章总是这么朴实无华又出人意料。。。
SpanBERT: Improving Pre-training by Representing and Predicting Spans
Motivation: 预训练模型(BERT)对基于span表示的任务(如:抽取问答、信息抽取、指代消解)性能相对不够好。是因为(1)基于subtoken的预训练过程忽视了一个实体的整体性(预测实体任务本身比预测token难度更大,这样相当于增加预测过程的限制条件?)。(2)没有融入实体的边界信息。
解决方案: (1)预训练过程利用span-masked方法。(2)增加新的训练目标span-boundary objective(SBO)
任务:SQuAD,TACRED,GLUE
主要信息
主要作者:Mandar Joshi, Danqi Chen
单位:UW, Princeton
论文链接:spanBERT
新知识
span-masking(dynamic masking):
先从几何分布Geo(p=0.2)选取一个mask的span长度,然后利用均匀分布,从句子中选择一个起始点开始替换整个span。
与BERT保持一致,mask掉整体token数量的15%为止。其中80%的[MASK],10%的随机替换,10%的原样不动。
最大长度是l_max=10,超过长度重新采样。sample方法:以p的概率结束mask,以1-p的概率继续延伸。
NSP:实验表示BERT中的NSP任务有可能使得模型无法学习长句子,也有可能是负例的选取会给MLM带来很大噪音,在下游任务表现不好。(NSP的做法是将句子最大长度设置为512,读入一个文档时有两种选择:接着下一句或者从语料中随机选择一个位置读取。)
Loss:span boundary+MLM:
继续学习的相关工作
XLM:cross-lingual pretraining
pair2vec:negative sampling for pair representation
RoBERTa (improving details on BERT) & WWM (whole world masking)
XLNET (Auto-regressive)
实验验证任务
IDEA
✏️好句好段
Facebook的文章总是这么朴实无华又出人意料。。。