izhx / paper-reading

组内追更订会相关论文
7 stars 2 forks source link

INFO BERT : IMPROVING ROBUSTNESS OF LANGUAGE MODELS FROM AN INFORMATION THEORETIC #23

Open Akasuyi opened 3 years ago

Akasuyi commented 3 years ago

从信息论的角度,提出了预训练可以使用的两个regularizers,来提高预训练模型的鲁棒性,并在对抗攻击(adversarial attacks)的数据集上获得了SOTA的结果。

复制到markdown编辑器以获取更好的阅读体验

信息

1 Information Bottleneck regularizer

Information Bottleneck的理论

在算力和存储资源都有限的前提下,我们难以使信息的压缩度最高、准确度也最高,但是我们可以使用Information Bottleneck这一方法在信息的压缩度和准确度之间进行权衡。

Information Bottleneck方法提出我们可以通过最大化$\mathcal{L}{IB}$来权衡压缩度和准确度 ![Z%41W}H 3BB0}9U}Q)J666](https://user-images.githubusercontent.com/73119307/126733896-7c1dfc7e-f7f7-4936-a661-4cb0f0fc6505.png)

$$ \mathcal{L}_{IB} = I(Y;T)-\beta I(X;T) $$ $I(Y;T)$部分是$Y$和$T$的互信息,而$I(X;T)$表示$X$和$T$的互信息,互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性,所以有一种训练神经网络的思想是,最大化模型输入的编码$Y$和输出$Y$之间的互信息,$I(Y;T)$这一部分代表着我们深度学习模型的准确度,而如果$I(X;T)$更小,也就是说$X$和$T$​之间互相包含的信息量更小,那么说明模型压缩度就越高。

上式中,$X$是输入$Y$是输出$T$是模型编码输入后的中间表示,$I(A;B)$表示AB之间的互信息,我们想最大化$\mathcal{L}_{IB}$,所以我们需要在使$I(Y;T)$部分尽量大的同时,使$I(X;T)$尽量小。

模型提出的regularizer

INFO BERT提出的第一个regularizer就是将$\mathcal{L}{IB}$​​中的$\beta I(X;T)$​​部分作为loss的一部分一起进行训练,且因为当$X$​​的维度增长后,$\beta I(X;T)$​​的计算会比较困难,所以模型使用了局部的公式(把BERT对一句话的embed相对于分别对句子中每个词进行embed)来计算$\beta I(X;T)$​​部分,即计算$n\beta\sum{i=1}^n I(X{i};T{i})$​​,$n$​​​为句子的长度。

本文还为此证明了,当输入经过模型编码成向量后出现一定的扰动,有该扰动和无该扰动的中间表示$T$与输出$Y$之间的互信息之差的绝对值会随着训练数据的$X$和$T$的互信息值变小而变小,所以使用这一约束,是可以有效的减少$T$变动后Y的变化。(虽然证明过程我没看懂)

2 Anchored Feature regularizer

这一regularizer的主要的思想是:1、先识别出稳定且有用的单词表示;2、使得整个句子的表示包含更多这些单词的表示。实际操作时,将提高这些单词表示与句子表示之间的互信息作为regularizer之一。

如何识别有用的且稳定的单词:训练好模型后,给单词的表示加入一点点小小的扰动,这样会使得loss上升,然后观察每个单词部分返回的梯度,使用L2 norm来比较单词梯度的大小,梯度太大的单词说明不稳定,梯度太小的单词说明没用,所以选取单词影响大小排行中位于50%-80%之间的单词,提高这些单词表示与句子表示的互信息。

我的理解:将有用且稳定的单词表示占整个句子表示的权重提高,这样能避免一些,在我们认为不重要或不稳定单词上的错误影响到整个模型,且即使错误出现在稳定的单词上,也会相对变化更小一些,对模型的正确率伤害也小一些。

3 模型的效果

相比较于别的针对adversarial数据集的模型来说,不仅在adversarial的数据集上取得了SOTA的效果,且训练更快,在正常数据集上的表现也更加优异

4 好的句子

Self-supervised representation learning pre-trains good feature extractors from massive unlabeled data, which show promising transferability to various downstream tasks.

Recently, Kong et al. point out that the MI maximization principle of representation learning can be applied to not only computer vision but also NLP domain, and propose a unified view that recent pre-trained language models are maximizing a lower bound of MI among different segments of a word sequence

We believe this work will shed light on future research directions towards improving the robustness of representation learning for language models.