Closed vigorous2008 closed 1 year ago
SIGHAN的错误也很多,当前没有看到更优质的中文纠错样本集。如果有人能清洗数据,欢迎。
SIGHAN的错误也很多,当前没有看到更优质的中文纠错样本集。如果有人能清洗数据,欢迎。
谢谢您的及时回复! 所以我把它作为一个issue发出来,大家发现问题就来补充,以避免后来者踩坑
我加pin了。
在sighan271k 训练数据集中,有些没有标记 wrong_id的数据,这些数据会对模型训练有帮助吗?或者 训练时会把这些数据忽略? ``` { "id": "--", "original_text": "大牛头人多次击打命中斯特鲁夫的头部。", "wrong_ids": [], "correct_text": "大牛头人多次击打命中斯特鲁夫的头部。" },
如果这些数据有效的话,我就可以将某个领域内的小样本数据,作为训练集加入进来,进而训练模型了,以降低在某个领域内文本的纠错误报。
> 我加pin了。
发现一些误纠的,除了"余-馀/覆-复"外,其他"馀"的同音字也很容易误纠成"馀",例如于-馀。 查看了一下SIGHAN+Wang271K源语料,很多台湾的语料,有很多一些句子也不太通顺,规范有点不一样。 此外“他-她”, "的-地"这种也容易误纠,尤其是“他-她”,很多的单个句子不需要修改性别
“他-她”的训练语料
org | correct
-- | --
他坦言见过祖明。 | 她坦言见过祖明。
不少粉丝爱他一票难求。 | 不少粉丝哀叹一票难求。
有时候我跟我的老师说,说话的时候我发现他拿著一本中文书「我激情你跳舞」发现了以后就问她他在哪里买这本书,他告诉我如果我要去买这本书,不必,因为他的家有三本书这种书,所以他说如果我要带这本书回家了可以。他愿意借我。 | 有时候我跟我的老师说,说话的时候我发现他拿著一本中文书「我邀请你跳舞」发现了以后就问她她在哪里买这本书,她告诉我如果我要去买这本书,不必,因为他的家有三本书这种书,所以她说如果我要带这本书回家了可以。她愿意借我。
吕慧会同时表示今天风向对他没有什么影响。 | 吕会会同时表示今天风向对她没有什么影响。
他们会永远被置于一个经济劣士地位。 | 她们会永远被置于一个经济劣势地位。
他们在特殊时期只能选择请家。 | 她们在特殊时期只能选择请假。
那里的动物,对我很好,连狮子也对我好。那只狮子带我去山外面。那个时候他把我放在他的上面,所以我可能坐跑的狮子上。 | 那里的动物,对我很好,连狮子也对我好。那只狮子带我去山外面。那个时候牠把我放在牠把我放在牠的上面能坐跑的狮子上。
他从来没有放气呙生杀大权。 | 它从来没有放弃过生杀大权。
他在脸书自曝球事。 | 她在脸书自曝糗事。
等待球员们经过十找他们签名。 | 等待球员们经过时找她们签名。
与她一百九十厘米一百二十千克的魁梧身材不相负的快拳。 | 与他一百九十厘米一百二十千克的魁梧身材不相符的快拳。
这本书的名字是「我可以请你跳舞」这本写了一个故事,里面的故事有一个努孩子他是一个保母,有一天他的老板,他的老板是在银行工作开一个舞会请他同班的人来他的家庆祝。 | 这本书的名字是「我可以请你跳舞」这本写了一个故事,里面的故事有一个女孩子她是一个保母,有一天他的老板,他的老板是在银行工作开一个舞会请他同班的人来他的家庆祝。
也许他会做一定的修改。 | 也许她会做一定的修改。
使用人民日报语料测试,发现误纠频次较高的字词
"余-馀": 9359,
"覆-复": 4251,
"他-她": 3643,
"她-他": 1869,
"的-地": 1495,
"于-馀": 756,
"的-得": 694,
"它-他": 625,
"做-作": 623,
"惟-唯": 524,
"今-在": 497,
"象-像": 413,
"年-今": 410,
"功-工": 372,
"前-目": 364,
"当-在": 357,
"查-察": 352,
"立-利": 330,
"止-只": 329,
"也-叶": 321,
"目-在": 317,
"年-去": 314,
"建-健": 306,
"他-它": 305,
"小-晓": 304,
"去-在": 293,
"哪-那": 284,
"借-藉": 281,
"去-过": 261,
"近-在": 256,
"这-在": 253,
"过-在": 250,
"其-齐": 229,
"课-科": 225,
"百-白": 225,
"来-年": 210,
"地-的": 210,
"一-逸": 208,
"定-订": 205,
"者-是": 205,
"带-戴": 204,
"琅-瑯": 203,
"力-利": 200
收到,下个版本过滤badcase。
在训练 macbert4csc模型时,参考该README 下载的数据集,训练出的模型,总是会将 “覆盖” 误纠成 “复盖”、 “其余” 误纠成 “其馀”。 分析train.json发现,里面相关的条目将 original_text 和 correct_text 写反了,目前只发现了 “覆盖”、“其余”两处,如有遇到类似的问题,可以从训练集方面找一下原因,也欢迎遇到类似问题的developer 将发现的类似问题补充,以帮助大家避坑。