BrambleXu / knowledge-graph-learning

A curated list of awesome knowledge graph tutorials, projects and communities.
MIT License
738 stars 120 forks source link

COLING-2020-Specializing Unsupervised Pretraining Models for Word-Level Semantic Similarity #358

Open BrambleXu opened 1 year ago

BrambleXu commented 1 year ago

Summary:

为了将word-level上的语义相似度融合进预训练里,本研究对BERT进行了扩展,除了原本的masked language modeling和next sentence prediction两个任务,还添加了一个binary word relation classification的任务。这个任务的目的就是为了学习到文本里不同单词之间的相似度

Resource:

Paper information:

Notes:

先用fastText学习得到词向量的固定表征,利用这个构建c=(w1, w2),w1和w2是一组同义词。c代表一个positive training example。然后利用词向量,创建两个negtive example,c1 = (w1, w2), c2 = (w1, w2)。w1*是group里除了w1外,最靠近w2的单词。这样可以得到2倍数量呃negtive examples。

为了方便BERT训练,用wordpiece对w1,w2分割成wordpiece tokens,然后把两个近义词 (mended, regenerated) 创建成下面形式。w1和w2的segment ID是0和1.

image

预训练的时候,添加了一个新的分类器,一个 binary classifier,用于判断上面的一组数据,是否是lexico-semantic relation相关的(整个数据量,是1倍的positve, 2倍的negtive)。

MLM和NSP使用的是同一份数据,LRC是另一份数据。

Model Graph:

Result:

在一些涉及到语义相似的任务上,LIBERT效果更好。该研究还设计了一个 Similarity-Oriented Downstream Evaluation: Lexical Simplification任务,用于验证LIBERT在word-level语义相似度上的效果。比BERT好了0.9个百分点。

image image

Thoughts:

Next Reading: