关于BPE tokenizer没有在项目里提及

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.57k stars 1.38k forks source link

关于BPE tokenizer没有在项目里提及 #49

Closed A-Rain closed 5 years ago

A-Rain commented 5 years ago

您好，我有个疑问，就是roberta原文中采用的是BPE Tokenizer，然而好像SCIR中的roberta-wwm好像仍然采用的是bert的一系列（Bertconfig, BertTokenizer，就是hugginface pytorch_tranformer里面的类）,所以模型的整体依旧是bert-wwm，只是训练的方式仿照roberta中训练的吗

ymcui commented 5 years ago

RoBERTa-style BERT