ymcui / MacBERT

Revisiting Pre-trained Models for Chinese Natural Language Processing (MacBERT)
https://www.aclweb.org/anthology/2020.findings-emnlp.58/
Apache License 2.0
645 stars 59 forks source link

请问 whole word masking 和 N-gram masking 是如何一起使用的? #15

Closed dr-GitHub-account closed 2 years ago

dr-GitHub-account commented 2 years ago

您好!在MacBERT和PERT中,都提到预训练过程同时使用 whole word masking 和 N-gram masking,想请教一下具体是怎么一起使用的?比如:

是怎么取的比例?

Whole word masking 和 N-gram masking 是一并实现(N-gram masking 中只取那些构成 whole word 的 N-gram),还是分开实现(N-gram masking 不考虑是否构成 whole word)?

ymcui commented 2 years ago

wwm和nm并不冲突,可以共存。只需要nm中, 1)计算n-gram中的n是以”词“(whole word)为单位; 2)mask粒度也是以“词“为单位;

本issue转移至MacBERT目录。

dr-GitHub-account commented 2 years ago

谢谢!这几天在看《自然语言处理:基于预训练模型的方法》这本书,受益匪浅!

如果以句子“使用 语言 模型 来 预测 下 一 个 词 的 概率”为例,是不是wwm和nm一起用的话,可能会有下面这种情况:“使用 [M][M] [M][M] 来 [M][M] 下 一 个 词 的 概率”,其中前一个掩码是bi-gram,掩码了“语言”和“模型”这两个“whole word”,后一个掩码是unigram,掩码了“预测”这一个“whole word”?这里假设根据掩码概率,这句刚好被采样一个bi-gram和一个unigram。