ymcui / MacBERT

Revisiting Pre-trained Models for Chinese Natural Language Processing (MacBERT)
https://www.aclweb.org/anthology/2020.findings-emnlp.58/
Apache License 2.0
639 stars 56 forks source link

咨询 MacBert 上的一些问题 #13

Closed T-baby closed 2 years ago

T-baby commented 2 years ago

你好,我在看 MacBert 的论文时有一些迷惑。本来想法邮件的,但好像发不到那个邮箱。

关于“ We use whole word masking as well as N-gram masking strategies for selecting candidate tokens for masking, with a percentage of 40%, 30%, 20%, 10% for word-level unigram to 4-gram. ”,这段是指一个词 40% 的概率被换成近义词,两个词以 30% 概率换成近义词,以此类推吗?

ymcui commented 2 years ago

你好,邮箱没有问题,邮件可以发送到论文中的邮箱或者ymcui@ieee.org。 这里说的是执行N-gram masking的时候,有40%的概率以单个词(unigram)进行mask,有30%的概率以两个词(bigram)进行mask,以此类推。

T-baby commented 2 years ago

那比如四个要以 10% 概率进行 mask 的时候,这四个词必须是常在一起的吗?比如“自然/语言/处理/很酷/”。

ymcui commented 2 years ago

不确定是否正确理解了你说的。 N-gram就是指连续的N个词。我们的N-gram masking是采用顺序选取的模式。 比如一个句子中包含8个词。

A B C D E F G H

step1:指针指向A,此时假设概率选择了3-gram,那么A/B/C将同时被mask(若进行相似词替换,则每个词都会被其相似词替换) step2:指针跳过该3-gram,指向D,按概率选取下一个N-gram,以此类推。

T-baby commented 2 years ago

非常谢谢,我就是想问这个问题。