shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

<<SIGHAN+Wang271K中文纠错数据集 >> 中存在错误 #411

Closed vigorous2008 closed 1 year ago

vigorous2008 commented 1 year ago

在训练 macbert4csc模型时,参考该README 下载的数据集,训练出的模型,总是会将 “覆盖” 误纠成 “复盖”、 “其余” 误纠成 “其馀”。 分析train.json发现,里面相关的条目将 original_text 和 correct_text 写反了,目前只发现了 “覆盖”、“其余”两处,如有遇到类似的问题,可以从训练集方面找一下原因,也欢迎遇到类似问题的developer 将发现的类似问题补充,以帮助大家避坑。


{
        "id":"-",
        "original_text":"检查范围覆盖所有的在建保障性住房项目。",
        "wrong_ids":[
            4
        ],
        "correct_text":"检查范围复盖所有的在建保障性住房项目。"
    },    {
        "id":"-",
        "original_text":"广东对其余三场比赛均顺利拿下。",
        "wrong_ids":[
            2,
            4
        ],
        "correct_text":"广东队其馀三场比赛均顺利拿下。"
    },
shibing624 commented 1 year ago

SIGHAN的错误也很多,当前没有看到更优质的中文纠错样本集。如果有人能清洗数据,欢迎。

vigorous2008 commented 1 year ago

SIGHAN的错误也很多,当前没有看到更优质的中文纠错样本集。如果有人能清洗数据,欢迎。

谢谢您的及时回复! 所以我把它作为一个issue发出来,大家发现问题就来补充,以避免后来者踩坑

shibing624 commented 1 year ago

我加pin了。

vigorous2008 commented 1 year ago

在sighan271k 训练数据集中,有些没有标记 wrong_id的数据,这些数据会对模型训练有帮助吗?或者 训练时会把这些数据忽略? ``` { "id": "--", "original_text": "大牛头人多次击打命中斯特鲁夫的头部。", "wrong_ids": [], "correct_text": "大牛头人多次击打命中斯特鲁夫的头部。" },



如果这些数据有效的话,我就可以将某个领域内的小样本数据,作为训练集加入进来,进而训练模型了,以降低在某个领域内文本的纠错误报。

> 我加pin了。
yongzhuo commented 7 months ago

发现一些误纠的,除了"余-馀/覆-复"外,其他"馀"的同音字也很容易误纠成"馀",例如于-馀。 查看了一下SIGHAN+Wang271K源语料,很多台湾的语料,有很多一些句子也不太通顺,规范有点不一样。 此外“他-她”, "的-地"这种也容易误纠,尤其是“他-她”,很多的单个句子不需要修改性别

“他-她”的训练语料

org | correct
-- | --
他坦言见过祖明。 | 她坦言见过祖明。
不少粉丝爱他一票难求。 | 不少粉丝哀叹一票难求。
有时候我跟我的老师说,说话的时候我发现他拿著一本中文书「我激情你跳舞」发现了以后就问她他在哪里买这本书,他告诉我如果我要去买这本书,不必,因为他的家有三本书这种书,所以他说如果我要带这本书回家了可以。他愿意借我。 | 有时候我跟我的老师说,说话的时候我发现他拿著一本中文书「我邀请你跳舞」发现了以后就问她她在哪里买这本书,她告诉我如果我要去买这本书,不必,因为他的家有三本书这种书,所以她说如果我要带这本书回家了可以。她愿意借我。
吕慧会同时表示今天风向对他没有什么影响。 | 吕会会同时表示今天风向对她没有什么影响。
他们会永远被置于一个经济劣士地位。 | 她们会永远被置于一个经济劣势地位。
他们在特殊时期只能选择请家。 | 她们在特殊时期只能选择请假。
那里的动物,对我很好,连狮子也对我好。那只狮子带我去山外面。那个时候他把我放在他的上面,所以我可能坐跑的狮子上。 | 那里的动物,对我很好,连狮子也对我好。那只狮子带我去山外面。那个时候牠把我放在牠把我放在牠的上面能坐跑的狮子上。
他从来没有放气呙生杀大权。 | 它从来没有放弃过生杀大权。
他在脸书自曝球事。 | 她在脸书自曝糗事。
等待球员们经过十找他们签名。 | 等待球员们经过时找她们签名。
与她一百九十厘米一百二十千克的魁梧身材不相负的快拳。 | 与他一百九十厘米一百二十千克的魁梧身材不相符的快拳。
这本书的名字是「我可以请你跳舞」这本写了一个故事,里面的故事有一个努孩子他是一个保母,有一天他的老板,他的老板是在银行工作开一个舞会请他同班的人来他的家庆祝。 | 这本书的名字是「我可以请你跳舞」这本写了一个故事,里面的故事有一个女孩子她是一个保母,有一天他的老板,他的老板是在银行工作开一个舞会请他同班的人来他的家庆祝。
也许他会做一定的修改。 | 也许她会做一定的修改。

使用人民日报语料测试,发现误纠频次较高的字词

"余-馀": 9359,
    "覆-复": 4251,
    "他-她": 3643,
    "她-他": 1869,
    "的-地": 1495,
    "于-馀": 756,
    "的-得": 694,
    "它-他": 625,
    "做-作": 623,
    "惟-唯": 524,
    "今-在": 497,
    "象-像": 413,
    "年-今": 410,
    "功-工": 372,
    "前-目": 364,
    "当-在": 357,
    "查-察": 352,
    "立-利": 330,
    "止-只": 329,
    "也-叶": 321,
    "目-在": 317,
    "年-去": 314,
    "建-健": 306,
    "他-它": 305,
    "小-晓": 304,
    "去-在": 293,
    "哪-那": 284,
    "借-藉": 281,
    "去-过": 261,
    "近-在": 256,
    "这-在": 253,
    "过-在": 250,
    "其-齐": 229,
    "课-科": 225,
    "百-白": 225,
    "来-年": 210,
    "地-的": 210,
    "一-逸": 208,
    "定-订": 205,
    "者-是": 205,
    "带-戴": 204,
    "琅-瑯": 203,
    "力-利": 200
shibing624 commented 7 months ago

收到,下个版本过滤badcase。