咨询 MacBert 上的一些问题

ymcui / MacBERT

Revisiting Pre-trained Models for Chinese Natural Language Processing (MacBERT)

https://www.aclweb.org/anthology/2020.findings-emnlp.58/

Apache License 2.0

639 stars 56 forks source link

咨询 MacBert 上的一些问题 #13

Closed T-baby closed 2 years ago

T-baby commented 2 years ago

你好，我在看 MacBert 的论文时有一些迷惑。本来想法邮件的，但好像发不到那个邮箱。

关于“ We use whole word masking as well as N-gram masking strategies for selecting candidate tokens for masking, with a percentage of 40%, 30%, 20%, 10% for word-level unigram to 4-gram. ”，这段是指一个词 40% 的概率被换成近义词，两个词以 30% 概率换成近义词，以此类推吗？

ymcui commented 2 years ago

你好，邮箱没有问题，邮件可以发送到论文中的邮箱或者ymcui@ieee.org。这里说的是执行N-gram masking的时候，有40%的概率以单个词（unigram）进行mask，有30%的概率以两个词（bigram）进行mask，以此类推。

T-baby commented 2 years ago

那比如四个要以 10% 概率进行 mask 的时候，这四个词必须是常在一起的吗？比如“自然/语言/处理/很酷/”。

ymcui commented 2 years ago

不确定是否正确理解了你说的。 N-gram就是指连续的N个词。我们的N-gram masking是采用顺序选取的模式。比如一个句子中包含8个词。

A B C D E F G H

step1：指针指向A，此时假设概率选择了3-gram，那么A/B/C将同时被mask（若进行相似词替换，则每个词都会被其相似词替换） step2：指针跳过该3-gram，指向D，按概率选取下一个N-gram，以此类推。

T-baby commented 2 years ago

非常谢谢，我就是想问这个问题。