xv44586 / toolkit4nlp

transformers implement (architecture, task example, serving and more)
Apache License 2.0
97 stars 18 forks source link

pretraining 麻烦咨询下预训练语料格式是?然后现在只支持robeata预训练吗 #3

Closed lonngxiang closed 3 years ago

xv44586 commented 3 years ago

1.预训练的语料就是句子列表,具体构造方式根据自己的语料来修改preprocess.py 中的 generator_corp方法即可。 2.暂时是只做了roberta的方式。 3.更灵活的方式可以参考classification_tnews_pretrain_before_finetuning.py