shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,LLaMA等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.51k stars 1.09k forks source link

一篇相对正确的文章,GPT模式检查出来很多错误,这种情况下如何优化 #450

Closed suchstar closed 6 months ago

suchstar commented 9 months ago

检测文本:西安交通大学官网介绍。 text.txt 检测方式:采用中文长句(按照句号分割)和中文短句(按照中文标点分割)的方式分别检测。 检测结果:发现结果中有较多的误报,详情见如下附件。 文章的检错结果(按照长句(句号分隔)).xlsx 文章的检错结果(按照短句(中文标点分隔)).xlsx

请问下专家,这些如何减少误报率呢?我们想到的是将这些误报对做为训练样本,对模型进行再训练,不知道思路是否正确?另外你这边还有更好的解决方式推荐吗?

shibing624 commented 9 months ago
  1. 可以参考gpt的readme https://github.com/shibing624/pycorrector/blob/master/examples/gpt/README.md 训练模型;
  2. gpt的纠错效果并不是最好的,当前可以用macbert4csc模型更好。
suchstar commented 9 months ago

收到,感谢回复