destwang / CTC2021

Apache License 2.0
126 stars 15 forks source link

CIEC-CTC 2021 (Chinese Text Correction)

数据及模型下载(2021.11.03更新)

下载内容 下载链接 访问密码
训练数据 讯飞云下载 girA
baseline模型 讯飞云下载 HJiB
验证集 https://github.com/destwang/CTCResources -

2022.09.27

CAIL 2022文书校对比赛开始了!参赛时间2022.08.10-2022.11.15

比赛简介: 法律文书作为司法机关及公民行使法律权利同时享受法律效益的载体,对文字内容的准确性要求极其严格。本任务旨在通过机器智能文本校对技术辅助司法人员自动检出并纠正法律文书中存在的错误。本任务涵盖了法律文书中存在的别字、冗余、缺失、乱序四种类型的错误。

本次比赛有大量法律文书数据和丰厚的奖金,欢迎大家报名参加!

2022.08.12

比赛Overview论文已发布,引用请参考:

@Article{wang2022ctc,
title={Overview of CTC 2021: Chinese Text Correction for Native Speakers},
author={Zhao, Honghong and Wang, Baoxin and Wu, Dayong and Che, Wanxiang and Chen, Zhigang and Wang, Shijin},
journal={arXiv preprint arXiv:2208.05681},
year={2022}
}

2022.03.15

CTC 2021中文文本纠错比赛正式开放公开评测,榜单详情见CTC 2021 Leaderboard,欢迎大家参与评测。

2021.09.01

目前还有几支队伍的成绩正在评测中,预计明后天将会公布最后的榜单。

2021.08.19

决赛成绩榜单在git上定时更新,请在排名列表查看。成绩将在每支队伍提交系统后两个工作日内进行更新,比赛结束后,最终成绩榜单将于人工智能协会比赛官网进行公布.

2021.08.12

对评测方法进行优化,优化连续冗余的评测,详情见更新脚本

2021.08.10

更新评测脚本,使用方法见ctc_gector/README.md

2021.08.06

已通过邮件将第二阶段训练集、验证集数据发送给通过初赛的队伍,请参赛队伍查收。

2021.07.27

发布文本校对资源集合,供选手参考。

2021.07.08

更新Baseline模型代码,方便选手复线模型。使用方法见ctc_gector/README.md

2021.07.07

对选手常见问题进行总结归纳,详见FAQ

2021.07.01

开放资格赛评测,发放资格赛评测数据及Baseline。

Baseline模型使用GECToR, 训练和推理代码见ctc_gector,模型将邮件发放给各参赛队伍。

2021.06.28

增加报名成功队伍信息,包括队伍名和codalab账号。

2021.06.25

训练数据已邮件发送给通过报名审核的队伍,如未收到邮件,请联系rdg_feiying@iflytek.com。 Baseline将于资格赛开始(7月1日)发布。

比赛当前排名(2021.09.03更新)

排名 队伍名 Codalab账号 机构 detect_f1 correct_f1 final_score
1 S&A S&A 苏州大学&阿里巴巴达摩院 68 64.6 67.32
2 改的都队 qifanchao866 清华大学 62.405 57.205 61.365
3 znv_sentosa zyang 深圳力维智联技术有限公司 55.035 43.055 52.639
4 C&L jiahao12138 北京理工大学 51.126 48.649 50.631
5 MDatai wufangzhou 上海蜜度信息技术有限公司-新浪微热点研究院 51.233 47.374 50.461
6 YCC YCC2021 北京铀媒科技有限公司 49.804 42.745 48.392
7 NJU-NLP yongchang_cao 南京大学自然语言处理实验室 49.02 39.651 47.146
8 四条人 AntPlusOne 蚂蚁金服 41.505 35.68 40.34
9 ai编程的小拓 liuyz 拓尔思信息技术股份有限公司 38.372 31.628 37.023
10 zybank mzt_zybank 中原银行 37.863 33.217 36.934
11 华夏—龙盈战队 Guanyuhang 华夏银行股份有限公司、龙盈智达(北京)科技有限公司 28.646 21.875 27.292
12 yl_test yuanhong 北京猿力未来科技有限公司 26.516 16.925 24.598
13 晓梦 zhaogang 人民网 20.997 14.173 19.632
14 only-one zjjbupt 北邮 20.709 14.468 19.461
15 zndx纠错好难 ShanYouRan 中南大学 17.714 9.714 16.114
16 DAWN redbird MideaAIIC 6.326 3.128 5.686

比赛介绍

文本校对任务主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本,这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说,一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此,本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

比赛网站

https://competitions.codalab.org/competitions/32702

训练数据及Baseline系统

训练数据、Baseline模型已邮件发送给通过报名审核的队伍,如未收到邮件,请联系rdg_feiying@iflytek.com。

验证集及提交数据

验证集及数据提交格式可从比赛页面(codalab)获取,获取路径为:“Participate--File--Public Data”

其中,需要注意提交数据的格式:

  1. 若句子中没有错误,则直接返回"pid, -1", 如pid=0011-2, -1

  2. 若句子中有错误,则所有字段之间均以英文“,”连接,所有英文逗号的个数应为 4*n+1 个。如“pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,”

  3. 将预测结果命名为"dev.predict",并直接压缩为zip文件,不要保留文件夹。可参考Public Data中的submit_sample.zip

比赛页面存在拥堵情况,数据提交后可能需要一段时间才能得到评测得分。

评测委员会

主席
陈志刚 (认知智能国家重点实验室 副主任,科大讯飞研究院 副院长)

副主席
车万翔(哈尔滨工业大学社会计算与信息检索研究中心 教授)
陈竹敏(山东大学信息检索实验室 教授)
贺瑞芳(天津大学智能与计算学部 教授)
伍大勇(科大讯飞北京研究院 执行院长)

秘书长
王宝鑫(科大讯飞北京研究院 研究主管)

FAQ

Q:队员还需要发送报名邮件吗?
A:每队发送一封报名邮件即可,进入决赛时我们将统一收集参赛队伍信息,届时组队信息将不可再变更。

Q: 是否需要提交训练数据集和系统代码?
A:不需要提交训练数据集,决赛时需要提交可运行的系统,其他阶段只需要提交预测文件。

Q:评测指标
A:detection score考虑错误位置和检出的错误词,correction score考虑错误位置、检出的错误词、纠正的正确词,错误类型不影响评测结果,两个分值均使用F1指标。

Q:是否可以使用自己训练的预训练模型?
A:可以使用。

Q:是否可以自己生成伪数据?
A:可以生成。

Q:是否可以自己标注?是否可以使用未公开数据?
A:为公平起见,不可以自己标注数据,也不可以使用未公开数据。

Q:是否可以使用GitHub上公开的代码修改?
A:可以使用公开代码进行修改。

Q:提供的伪数据生成方式?
A:提供的伪数据主要通过字音字形替换或随机替换,随机插入,随机删除生成;语义重复及句式杂糅使用了一些先验规则,这两类错误的占比不多。

Q:数据集在哪里下载?
A:获取数据集需要在比赛页面中报名,并发送队伍相关信息至主办方邮箱,待审核通过后,我们将以邮件形式发送训练数据下载链接。

Q:是否有讨论交流群?
A:没有创建。

Q:训练数据中频繁出现字符串67。
A:这个问题占比不大,对模型效果影响较小,在通过资格赛后提供的训练集中,我们将修复这个问题。

Q:分隔符使用英文逗号还是英文逗号加空格?如果更改的内容存在英文逗号怎么表示?
A:① 分隔符使用英文逗号或英文逗号加空格都可以。② 目前评测机中不包含带英文逗号的数据,所以理论上不存在带英文逗号的纠正,如果提交文件中存在英文逗号则无法通过提交。

Q:句子的起始索引是0还是1?
A:起始索引是0。