shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.57k stars 1.1k forks source link

如何不纠错人名 #436

Closed lucasjinreal closed 7 months ago

lucasjinreal commented 11 months ago

人名千奇百怪,有时候本来人名不用管的,会被错误的纠正,如何规避这个问题。想过分词但是分词本身也不准。

Qian-z commented 11 months ago

我用的百度的LAC命名实体识别过滤的,效果还可以

xhw205 commented 11 months ago

我用的百度的LAC命名实体识别过滤的,效果还可以

MACBERT这直接给纠错了,怎么防止误纠?

shibing624 commented 11 months ago

自定义混淆集ConfusionCorrector类,除了上面演示的和Corrector类一起使用,还可以和MacBertCorrector一起使用,也可以独立使用。示例代码 examples/macbert/model_correction_pipeline_demo.py