ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.57k stars 1.38k forks source link

关于模型的tokenizer #40

Closed 980202006 closed 5 years ago

980202006 commented 5 years ago

在pytorch版本中,载入bert-wwm,chinese的模型,调用 tokenizer.tokenize,得到的仍旧是以字为单位的分割,这个是否会导致使用的时候输入和模型不匹配,毕竟模型是wwm的

ymcui commented 5 years ago

谷歌原版BERT怎么用就怎么用。WWM只改变MASK方式,不影响原有输入形式。

980202006 commented 5 years ago

好的,谢谢

lu161513 commented 4 years ago

好的,谢谢

我也有这个疑问,所以是没影响的嘛?

ymcui commented 4 years ago

@lu161513 不影响下游任务的输入。