关于模型的tokenizer

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.57k stars 1.38k forks source link

Closed 980202006 closed 5 years ago

980202006 commented 5 years ago

在pytorch版本中，载入bert-wwm，chinese的模型，调用 tokenizer.tokenize，得到的仍旧是以字为单位的分割，这个是否会导致使用的时候输入和模型不匹配，毕竟模型是wwm的

ymcui commented 5 years ago

谷歌原版BERT怎么用就怎么用。WWM只改变MASK方式，不影响原有输入形式。

980202006 commented 5 years ago

好的，谢谢

lu161513 commented 4 years ago

好的，谢谢

我也有这个疑问，所以是没影响的嘛？

ymcui commented 4 years ago

@lu161513 不影响下游任务的输入。