Open rsindper opened 3 years ago
请问中文albert训练过程中是按字符级分割还是按词语级分割?基于albert_zh预训练模型做Fine-tune时,有办法选择按字符级还是按词语级分割训练数据吗?谢谢
使用中文的whole word mask的。 你可以改造一下数据生成的流程呢,https://github.com/brightmart/albert_zh/blob/master/create_pretraining_data.py
请问中文albert训练过程中是按字符级分割还是按词语级分割?基于albert_zh预训练模型做Fine-tune时,有办法选择按字符级还是按词语级分割训练数据吗?谢谢