shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

待纠错文本中有英文单词,macbert4csc模型会将其翻译成中文,如何避免? #412

Closed vigorous2008 closed 8 months ago

vigorous2008 commented 1 year ago

能否关闭对文本中英文的处理?在纠错的文本中直接返回原文中包含的英文文本

为了保持待纠错句子的完整性,不好将句子中的英文直接去掉。 或者,是否有办法使用 将英文处理成mask ,以使大模型忽略mask?

原文:实验基于滴滴出行在2020 KDD Cup上提供的中国成都地区2016年11月的快专车数据信息
修正:   实验基于滴滴出行在2020 KDD 杯上提供的中国成都地区2016年11月的快专车数据信息

-原文:约92.66%区域的ANPP呈增加趋势 修正: 约92.66%区域的安pP呈增加趋势

shibing624 commented 1 year ago

macbert4csc的训练集中没有英文纠错的样本,不具备英文纠错能力。

如果要加此能力,自行构建数据并训练。

stale[bot] commented 10 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.(由于长期不活动,机器人自动关闭此问题,如果需要欢迎提问)