brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
https://arxiv.org/pdf/1909.11942.pdf
3.93k stars 754 forks source link

请问中文albert训练过程中是按字符级分割还是按词语级分割? #165

Open rsindper opened 3 years ago

rsindper commented 3 years ago

请问中文albert训练过程中是按字符级分割还是按词语级分割?基于albert_zh预训练模型做Fine-tune时,有办法选择按字符级还是按词语级分割训练数据吗?谢谢

brightmart commented 3 years ago

使用中文的whole word mask的。 你可以改造一下数据生成的流程呢,https://github.com/brightmart/albert_zh/blob/master/create_pretraining_data.py