xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
104 stars 12 forks source link

中文引号等特殊符号处理 #10

Closed Helenailse1 closed 1 year ago

Helenailse1 commented 1 year ago

您好,请问bert vocab没有的符号,比如双引号单引号、英文大写有做处理吗?直接用joint_evaluate得到的数据将原文中的中文符号变成英文符号了,英文大写变成小写了 比如, 去年5月,阿里巴巴宣布将旗下的“一达通”平台,向我国外贸出口企业发放“出口补贴”,进一步推进整个外贸生态系统的可持续发展。->去年5月,阿里巴巴宣布将用旗下的"一达通"平台,向我国外贸出口企业发放"出口补贴",进一步推进整个外贸生态系统的可持续发展。

xlxwalex commented 1 year ago

您好,

由于我们在计算指标时会筛掉标点,因此标点不会引起指标变化,所以我们在符号/英文上偷了一下懒,没有做特别处理。

您给出的例子是因为我们发现基本上会引起tokenizer 出 [UNK]的都是引号,所以在joint_evaluate.py的123, 124以及125行可以看到我们直接简化的对结果进了英文引号的替换[replace('[UNK]', '"')]。

另外您说的这两个问题确实应该被考虑到,目前想到的解决方法是:

  1. 在PLM中补入对应符号并继续Pre-train之后再接入STG
  2. 对于每个instance中引起[UNK]以及英文符号等特殊情况额外维护一个Index->符号的字典,在decode的时候直接从字典中拿出来放回去

如果您有其他问题,欢迎回复!

Helenailse1 commented 1 year ago

谢谢解答。解决方法您考虑实现吗?

xlxwalex commented 1 year ago

我可以之后实现一下,因为最近比较忙所以这个可能需要一段时间,如果实现了会回复该条

Helenailse1 commented 1 year ago

感谢回复。期待您的实现。

xlxwalex commented 1 year ago

您好,

我在最近的提交里已经增加了特殊符号处理的特性,方法是加入了符号的映射表来对这些符号进行处理。使用方式为将run_stg_joint.sh 脚本的头部变量的SPECIAL_MAPPING设置为true即可,实现后的部分效果如下所示:

(8 2L`Y@1BO{8 `VOPRO2GF

如果有问题可以在该条下回复!

Helenailse1 commented 1 year ago

收到 谢谢您~

xlxwalex commented 1 year ago

客气啦

Helenailse1 commented 1 year ago

您好 有一个小bug 特殊符号在首位没有被识别 image

xlxwalex commented 1 year ago

感谢指出,我看一下修复一下!

xlxwalex commented 1 year ago

@Helenailse1 我看了一下我这边的输出,似乎这两句话没有问题,您有更改其它地方的代码吗? HLBEOSEW 0LYS7460ZOB1B2

xlxwalex commented 1 year ago

我重新Clone了一份代码,发现init里之前没覆盖有个引入错误,但是句首的bug暂时我这边没法复现,您可以Clone一份新的试一下

Helenailse1 commented 1 year ago

您好 clone新代码 修改了run_stg_joint中PLM_PATH、SPECIAL_MAPPING,运行结果出现句首bug

xlxwalex commented 1 year ago

那我在尝试复现一下

xlxwalex commented 1 year ago

确实是有一个边界写错了,我之前看的是Switch的输出所以没发现,现在应该已经修复了,可以再试一下!

Helenailse1 commented 1 year ago

收到 问题解决 谢谢您。 另外,部分case 输出结果还存在符号未被转换或过度转换的问题,比如: 1.观众的思想水平、审美趣味与艺术鉴赏能力差异,很大程度上影响着对一部电视剧是否“注水”的基本判断。 2.今年紫禁城首次于夜间向预约公众免费开放,它举办的“紫禁城上元之夜”文化活动异常火爆,其中最引人关注的是在乾清宫前丹陛上竖起了“天灯”和“万寿灯”。 3.一些中国游客的“不文明行为”,其实是国内某些“思想家”臆想的“洋规矩”。对所谓“民族劣根性”的“批判”,常是国内热火朝天,国外莫名其妙。 4.现身后的普京说的“如果没有八卦,我们会觉得很无聊的” 隐喻了那些过度“关心”他的舆论“无聊”和“八卦”,凸显普京一 贯的行事作风。

xlxwalex commented 1 year ago

对于第一、二、三句,我检查了一下是Delete操作的映射处理出了一点错之前没发现,现在已经修复。第四句是由于句中包含了空格导致没法对齐,您先预洗掉空格就可以了,如果还有问题欢迎回复!感谢提供错例

Helenailse1 commented 1 year ago

您好,仍存在一些错例。 今年紫禁城首次于夜间向预约公众免费开放,它举办的“紫禁城上元之夜”文化活动异常火爆,其中最引人关注的是在乾清宫前丹陛上竖起了“天灯”和“万寿灯”。 一些中国游客的“不文明行为”,其实是国内某些“思想家”臆想的“洋规矩”。对所谓“民族劣根性”的“批判”,常是国内热火朝天,国外莫名其妙。 颐和园“大黄鸭” 风靡和童心未泯有关。“大黄鸭”与《致青春》同期走红看似巧合却都验证着的创意本身最朴素的真谛:创意是人性艺术。 河北姑娘张梓琳在第57届“世界小姐”大赛中斩获冠军,成为中国第一位世界小姐冠军,也是本次大赛唯一进入“十佳”殊荣的亚洲选手。 11月20日晚8点,中国嘉德2010秋季拍卖会在北京举行“秋光万华——清代宫廷艺术集萃”专场,吸引了众多藏家,多件作品以高出估价数倍的价格成交。 “好读书而不求甚解”,是嘲讽那些不知读书为何用的“书虫”呢,还是以戏谑的口吻赞赏“读书当观其大略”的要诀? 近年来,我国在国际量子信息研究领域取得了众多令世界瞩目的成就,日前更是成功发射了“墨子号”成为全球首颗量子科学实验卫星。 据了解,此次分享通信“集”品牌推出“集节号”产品,主要面向集客市场,为集团客户提供功能强大、价格实惠的融合通信和移动办公服务平台。 金庸创作了“飞雪连天射白鹿,笑书神侠倚碧鸳”的系列故事,永远是成人世界里美丽的童话。 盐城市文明委表示,要把“倡导文明婚礼、抵制陈规陋习”作为一项重要工作抓紧抓实,并与其他各类文明创建活动紧密相连。

xlxwalex commented 1 year ago

您好,抱歉上一版是我的疏忽,我本地默认使用的Checkpoints和1025版本的不一致,所以这些样本我昨天没排查出来。我已经重新进行了检查,目前的版本应该基本上没有映射问题了。比较特殊的部分没能对齐的多半是因为句中包含了空格,这部分您这边输入时清除一下就行。再次感谢提供错例!

Helenailse1 commented 1 year ago

收到 谢谢

xlxwalex commented 1 year ago

客气啦:)