Switchsyj / paper-reading

1 stars 0 forks source link

SpanBERT: Improving Pre-training by Representing and Predicting Spans #3

Open Switchsyj opened 2 years ago

Switchsyj commented 2 years ago

SpanBERT: Improving Pre-training by Representing and Predicting Spans

Motivation: 预训练模型（BERT）对基于span表示的任务（如：抽取问答、信息抽取、指代消解）性能相对不够好。是因为（1）基于subtoken的预训练过程忽视了一个实体的整体性（预测实体任务本身比预测token难度更大，这样相当于增加预测过程的限制条件？）。（2）没有融入实体的边界信息。

解决方案: （1）预训练过程利用span-masked方法。（2）增加新的训练目标span-boundary objective（SBO）

任务：SQuAD，TACRED，GLUE

主要信息

主要作者：Mandar Joshi, Danqi Chen
单位：UW, Princeton
论文链接：spanBERT

新知识

span-masking(dynamic masking)：
- 先从几何分布Geo(p=0.2)选取一个mask的span长度，然后利用均匀分布，从句子中选择一个起始点开始替换整个span。
- 与BERT保持一致，mask掉整体token数量的15%为止。其中80%的[MASK]，10%的随机替换，10%的原样不动。
- 最大长度是l_max=10，超过长度重新采样。sample方法：以p的概率结束mask，以1-p的概率继续延伸。

$10*0.8^{l}*0.2*0.15$

SBO（span-boundary objective）：
- 用两个边界向量+相对位置向量组成实体表示：

$h_0=[x_{s-1};x_{e+1};p_{i-s+1}]$

$y_i=LayerNorm(GeLU(W_2*LayerNorm(GeLU(W_1*h0)$ )))

$\mathcal{L}_{SBO}=P(x_i|y_i)$

NSP：实验表示BERT中的NSP任务有可能使得模型无法学习长句子，也有可能是负例的选取会给MLM带来很大噪音，在下游任务表现不好。（NSP的做法是将句子最大长度设置为512，读入一个文档时有两种选择：接着下一句或者从语料中随机选择一个位置读取。）
Loss：span boundary+MLM：

$\mathcal{L}=-logP(x_i|\mathbf{x}_i)-logP(x_i|\mathbf{y}_i)$

继续学习的相关工作

XLM：cross-lingual pretraining
pair2vec：negative sampling for pair representation
RoBERTa (improving details on BERT) & WWM (whole world masking)
XLNET (Auto-regressive)

实验验证任务

在SQuAD，GLUE，MRQA，OntoNotes coreference实验
常规消融实验：
- 对比BERT在不同的mask策略下的性能，发现使用Geometric Spans在QA和NLU任务上提升最多。
- 使用SpanBERT+NSP/1-seq/SBO说明SBO损失函数的有效性。

IDEA

spanBERT如何用在NER任务上，句中多个span如何同时抽取？

✏️好句好段

Facebook的文章总是这么朴实无华又出人意料。。。