请问中文albert训练过程中是按字符级分割还是按词语级分割？

brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

https://arxiv.org/pdf/1909.11942.pdf

3.93k stars 754 forks source link

Open rsindper opened 3 years ago

rsindper commented 3 years ago

请问中文albert训练过程中是按字符级分割还是按词语级分割？基于albert_zh预训练模型做Fine-tune时，有办法选择按字符级还是按词语级分割训练数据吗？谢谢

brightmart commented 3 years ago

使用中文的whole word mask的。你可以改造一下数据生成的流程呢，https://github.com/brightmart/albert_zh/blob/master/create_pretraining_data.py