COLING-2020-Specializing Unsupervised Pretraining Models for Word-Level Semantic Similarity

Summary:

为了将word-level上的语义相似度融合进预训练里，本研究对BERT进行了扩展，除了原本的masked language modeling和next sentence prediction两个任务，还添加了一个binary word relation classification的任务。这个任务的目的就是为了学习到文本里不同单词之间的相似度

Resource:

pdf
code 基于TF，用起来够呛
[paper-with-code](

Paper information:

Author:
Dataset:
keywords:

Notes:

先用fastText学习得到词向量的固定表征，利用这个构建c=（w1, w2)，w1和w2是一组同义词。c代表一个positive training example。然后利用词向量，创建两个negtive example，c1 = (w1, w2), c2 = （w1, w2)。w1*是group里除了w1外，最靠近w2的单词。这样可以得到2倍数量呃negtive examples。

为了方便BERT训练，用wordpiece对w1，w2分割成wordpiece tokens，然后把两个近义词 (mended, regenerated) 创建成下面形式。w1和w2的segment ID是0和1.

预训练的时候，添加了一个新的分类器，一个 binary classifier，用于判断上面的一组数据，是否是lexico-semantic relation相关的（整个数据量，是1倍的positve, 2倍的negtive）。

MLM和NSP使用的是同一份数据，LRC是另一份数据。

Model Graph:

Result:：

在一些涉及到语义相似的任务上，LIBERT效果更好。该研究还设计了一个 Similarity-Oriented Downstream Evaluation: Lexical Simplification任务，用于验证LIBERT在word-level语义相似度上的效果。比BERT好了0.9个百分点。

Thoughts:

Next Reading:

BrambleXu / knowledge-graph-learning

COLING-2020-Specializing Unsupervised Pretraining Models for Word-Level Semantic Similarity #358