li-aolong / li-aolong.github.io

李傲龍的博客
https://aolong.me
81 stars 16 forks source link

8.5——中文纠错数据集与训练 #18

Open li-aolong opened 5 years ago

li-aolong commented 5 years ago

NLPCC 2018 GEC

字段序号 字段名 字段意义
1 sens_id 句子在短文中的索引,从 1 开始
2 num_correct 目标句子的个数
3 orig_sen 原始句子
4 corrections 若干目标句子(如果 num_correct  0)

lang8

汉语水平考试(HSK)

seq2seq_attention模型

维基百科中文语料