ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.56k stars 1.38k forks source link

词汇级词向量 #215

Closed wangcccchen closed 2 years ago

wangcccchen commented 2 years ago

传统Bert模型将中文以单个字进行分割,最后只能得到基于每个字的字向量,想请问Chinese-Bert-wwm的模型输入一个句子时,可以得到词汇级的向量吗?比如:“小明吃了一个苹果”可以得到”小明“、”苹果“等词语的词向量吗?

ymcui commented 2 years ago

不可以。wwm只影响masking过程,输入仍然是以字为单位。 可以将单词中每个字的表示抽取出来进行平均(或者其他形式进行组合)。