Closed 980202006 closed 5 years ago
在pytorch版本中,载入bert-wwm,chinese的模型,调用 tokenizer.tokenize,得到的仍旧是以字为单位的分割,这个是否会导致使用的时候输入和模型不匹配,毕竟模型是wwm的
谷歌原版BERT怎么用就怎么用。WWM只改变MASK方式,不影响原有输入形式。
好的,谢谢
我也有这个疑问,所以是没影响的嘛?
@lu161513 不影响下游任务的输入。
在pytorch版本中,载入bert-wwm,chinese的模型,调用 tokenizer.tokenize,得到的仍旧是以字为单位的分割,这个是否会导致使用的时候输入和模型不匹配,毕竟模型是wwm的