xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
104 stars 12 forks source link

训练集的数据出现在验证集及测试集中 #26

Closed JamyDon closed 10 months ago

JamyDon commented 10 months ago

您好,统计了一下,在2000条句子的验证集中,有37条句子纠错前的原始错句或170条句子纠错后的答案曾在训练集中出现;在3000条句子的测试集中,有48条句子纠错前的原始错句曾在训练集中出现(由于测试集的答案未知,因此有多少句子纠错后的答案曾在训练集中出现未知)。这个情况可能会导致few-shot模型测试结果不准确的问题。

请问是否能提供一个过滤集,包含所有需要从训练集中筛去的出现在验证集或测试集中的句子(包括同源句子的出现),以便得到一个更纯净的训练集?非常感谢!

xlxwalex commented 10 months ago

你好,

感谢反馈,我会在今天检查这个问题,在确认并修复后再次回复!

xlxwalex commented 10 months ago

你好,FCGEC_train_filtered.json是更新后的训练集,已经将相似/同源句进行了过滤。再次感谢您的反馈!

JamyDon commented 10 months ago

非常感谢!