可以基于你发布的hf的模型再训练吗？

shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错，实现了Kenlm，T5，MacBERT，ChatGLM3，Qwen2.5等模型应用在纠错场景，开箱即用。

https://www.mulanai.com/product/corrector/

Apache License 2.0

5.61k stars 1.1k forks source link

Closed hudaoling closed 2 months ago

hudaoling commented 5 months ago

你好，请问下，可以基于你发布的模型，只用自己的数据再训练吗？

1w条样本领域内的样本句子，进行数据增强（替换谐音词，英文单词增删改字母），生成了11w增强样本你，采用这种方式，训练下来感觉train样本纠错还勉强能看，迁移到测试集上以后就比较差，好纠结啊。

shibing624 commented 5 months ago

可以再训练；建议融合我的训练集从头训练。

Jamie2898 commented 4 months ago

如果从头微调macbert，是不是直接把train_macbert4csc.yml文件里的BERT_CKPT改为hfl/chinese-macbert-base就行？另外MacBERT的输入长度限制是512，对吗？

shibing624 commented 4 months ago

可以

Jamie2898 commented 4 months ago

谢谢。另外，找了一些公开数据集，有的case没有错误，也就json中没有wrong_ids，这种数据放进训练集模型可以跑吗？会对模型效果产生负面影响吗？

shibing624 commented 4 months ago

可以放