shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

可以基于你发布的hf的模型再训练吗? #497

Closed hudaoling closed 2 months ago

hudaoling commented 5 months ago

你好,请问下,可以基于你发布的模型,只用自己的数据再训练吗? image

1w条样本领域内的样本句子,进行数据增强(替换谐音词,英文单词增删改字母),生成了11w增强样本你, 采用这种方式,训练下来感觉train样本纠错还勉强能看,迁移到测试集上以后就比较差,好纠结啊。

shibing624 commented 5 months ago

可以再训练;建议融合我的训练集从头训练。

Jamie2898 commented 4 months ago

如果从头微调macbert,是不是直接把train_macbert4csc.yml文件里的BERT_CKPT改为hfl/chinese-macbert-base就行? 另外MacBERT的输入长度限制是512,对吗?

shibing624 commented 4 months ago

可以

Jamie2898 commented 4 months ago

谢谢。另外,找了一些公开数据集,有的case没有错误,也就json中没有wrong_ids,这种数据放进训练集模型可以跑吗?会对模型效果产生负面影响吗?

shibing624 commented 4 months ago

可以放