Closed JamyDon closed 10 months ago
您好,统计了一下,在2000条句子的验证集中,有37条句子纠错前的原始错句或170条句子纠错后的答案曾在训练集中出现;在3000条句子的测试集中,有48条句子纠错前的原始错句曾在训练集中出现(由于测试集的答案未知,因此有多少句子纠错后的答案曾在训练集中出现未知)。这个情况可能会导致few-shot模型测试结果不准确的问题。
2000
37
170
3000
48
few-shot
请问是否能提供一个过滤集,包含所有需要从训练集中筛去的出现在验证集或测试集中的句子(包括同源句子的出现),以便得到一个更纯净的训练集?非常感谢!
你好,
感谢反馈,我会在今天检查这个问题,在确认并修复后再次回复!
你好,FCGEC_train_filtered.json是更新后的训练集,已经将相似/同源句进行了过滤。再次感谢您的反馈!
FCGEC_train_filtered.json
非常感谢!
您好,统计了一下,在
2000
条句子的验证集中,有37
条句子纠错前的原始错句或170
条句子纠错后的答案曾在训练集中出现;在3000
条句子的测试集中,有48
条句子纠错前的原始错句曾在训练集中出现(由于测试集的答案未知,因此有多少句子纠错后的答案曾在训练集中出现未知)。这个情况可能会导致few-shot
模型测试结果不准确的问题。请问是否能提供一个过滤集,包含所有需要从训练集中筛去的出现在验证集或测试集中的句子(包括同源句子的出现),以便得到一个更纯净的训练集?非常感谢!