CLUEbenchmark / CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
http://www.CLUEbenchmarks.com
4.02k stars 540 forks source link

TNEWS数据疑问 #90

Open q759729997 opened 4 years ago

q759729997 commented 4 years ago

一直在关注咱们这个项目,非常棒。 最近在尝试这个TNEWS短文本分类任务,也看了咱们的榜单,发现BERT类的模型分数都比较低,因此有一些疑问: 咱们的数据集是特意使用的包含很多噪声的原生新闻数据吗?因为我人为抽查了一些训练数据,对一些数据的标签非常疑惑。 还有就是测试评分的测试集的标签,是与训练集分布一致还是经过人为修订过了?