Open BrambleXu opened 1 year ago
Summary:
为了将word-level上的语义相似度融合进预训练里,本研究对BERT进行了扩展,除了原本的masked language modeling和next sentence prediction两个任务,还添加了一个binary word relation classification的任务。这个任务的目的就是为了学习到文本里不同单词之间的相似度
Resource:
Paper information:
Notes:
先用fastText学习得到词向量的固定表征,利用这个构建c=(w1, w2),w1和w2是一组同义词。c代表一个positive training example。然后利用词向量,创建两个negtive example,c1 = (w1, w2), c2 = (w1, w2)。w1*是group里除了w1外,最靠近w2的单词。这样可以得到2倍数量呃negtive examples。
为了方便BERT训练,用wordpiece对w1,w2分割成wordpiece tokens,然后把两个近义词 (mended, regenerated) 创建成下面形式。w1和w2的segment ID是0和1.
预训练的时候,添加了一个新的分类器,一个 binary classifier,用于判断上面的一组数据,是否是lexico-semantic relation相关的(整个数据量,是1倍的positve, 2倍的negtive)。
MLM和NSP使用的是同一份数据,LRC是另一份数据。
Model Graph:
Result::
在一些涉及到语义相似的任务上,LIBERT效果更好。该研究还设计了一个 Similarity-Oriented Downstream Evaluation: Lexical Simplification任务,用于验证LIBERT在word-level语义相似度上的效果。比BERT好了0.9个百分点。
Thoughts:
Next Reading:
Summary:
为了将word-level上的语义相似度融合进预训练里,本研究对BERT进行了扩展,除了原本的masked language modeling和next sentence prediction两个任务,还添加了一个binary word relation classification的任务。这个任务的目的就是为了学习到文本里不同单词之间的相似度
Resource:
Paper information:
Notes:
先用fastText学习得到词向量的固定表征,利用这个构建c=(w1, w2),w1和w2是一组同义词。c代表一个positive training example。然后利用词向量,创建两个negtive example,c1 = (w1, w2), c2 = (w1, w2)。w1*是group里除了w1外,最靠近w2的单词。这样可以得到2倍数量呃negtive examples。
为了方便BERT训练,用wordpiece对w1,w2分割成wordpiece tokens,然后把两个近义词 (mended, regenerated) 创建成下面形式。w1和w2的segment ID是0和1.
预训练的时候,添加了一个新的分类器,一个 binary classifier,用于判断上面的一组数据,是否是lexico-semantic relation相关的(整个数据量,是1倍的positve, 2倍的negtive)。
MLM和NSP使用的是同一份数据,LRC是另一份数据。
Model Graph:
Result::
在一些涉及到语义相似的任务上,LIBERT效果更好。该研究还设计了一个 Similarity-Oriented Downstream Evaluation: Lexical Simplification任务,用于验证LIBERT在word-level语义相似度上的效果。比BERT好了0.9个百分点。
Thoughts:
Next Reading: