shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

Pycorrector使用GPT模型方式如何加载自己训练的模型? #447

Closed suchstar closed 8 months ago

suchstar commented 11 months ago

这两天调研Pycorrector的GPT模式纠错,感觉结果相对理想,但是我们的目标行业是特定的行业,所以我就在想基于现有的模型shibing624/chatglm3-6b-csc-chinese-lora,THUDM/chatglm3-6b再次加强训练,提升错误检测的准确率,样例代码中也提供了训练方法,但是最终的训练模型在工程话的时候,Pycorrector如何加载使用,这一块有详细的说明吗?

shibing624 commented 11 months ago

就批量预测就好了:https://github.com/shibing624/pycorrector/blob/master/examples/macbert/demo.py

suchstar commented 11 months ago

抱歉,可能我的问题没有说清楚:

我在使用咱们gpt模式纠错的时候,发现“文聪做玩作业了”这类句子没有检查出来错误(玩—>完)。

所以想问下,如果自己训练模型的话,自己训练的模型的加载怎么搞,现在我想到的办法就是修改源码?

还是说您的上面的说的调用m.correct_batch方法的过程中已经涵盖模型的训练了?

shibing624 commented 11 months ago

https://github.com/shibing624/pycorrector/blob/master/examples/macbert/README.md