lancopku / pkuseg-python

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation
MIT License
6.55k stars 986 forks source link

训练特定领域的模型的问题 #143

Open Daoming009 opened 3 years ago

Daoming009 commented 3 years ago

1、这个trainFile, testFile这两个文件的数据格式,具体是怎么样的,有没有一个特定的限制,或者是样例? 2、如果需要进行增量训练,是不是只需要在init_model 这个参数,设置某个领域的参数,比如医疗领域的,我再使用新的数据集进行训练的时候,这个iniit_model参数设置为“medicine” 3、那个训练参数的问题,有没有什么评估的标准,来确定训练多少个train_iter ?

ytstudent commented 3 years ago

所以微调模型的数据文件有样例吗