CLUEbenchmark / CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
http://www.CLUEbenchmarks.com
4.02k stars 540 forks source link

请问tnews 1.1版本测试集有各个baseline的分数吗? #123

Open yangapku opened 3 years ago

yangapku commented 3 years ago

如题,请问几个tnews 1.1版本测试集相关的问题:

  1. 有没有BERT-base, BERT-wwm-ext, ERNIE-base, RoBERTa-large, XLNet-mid, ALBERT-base, ALBERT-large, ALBERT-xlarge, ALBERT-xxlarge, ALBERT-tiny, RoBERTa-wwm-ext, RoBERTa-wwm-large这些对应baseline的测试集分数呢?
  2. 为什么测试集需要从1.0更新到1.1呢?我观察到1.0测试集分数普遍高于1.1,这个主要是因为什么呢
  3. 1.1版本测试集sample没有了keyword,这个是什么考虑呢

    @brightmart 希望主办方能够麻烦解答,十分感谢!

brightmart commented 3 years ago

你好,感谢反馈问题。

1、目前没有tnews1.1上的各个baseline详细的分数。在BERT类模型上与1.0分数是总体是一致的;

2、测试集上1.0由于已经使用2年左右,存在过拟合的情况;

3、1.1版本测试集没有提供keyword,是由于CLUE的测试中即使是1.0版本的也没有使用keyword,即这个字段其实本身是没有用到的。如还有问题,也可以邮件联系:CLUEbenchmark@163.com

yangapku commented 3 years ago

@brightmart 谢谢您回复!还有个细节想确认下,我看到clue榜单上面写"TNEWS默认使用RoBERTa-wwm-large模型分数作为初始化",而榜单上面初始化的分数我看到是57.42,这个指的就是说RoBERTa-wwm-large baseline在test 1.1测试集上面分数为57.42吧

brightmart commented 3 years ago

57.42是Tnews,使用RoBERTa-wwm-large,在test 1.1测试集上的分数。

yangapku commented 3 years ago

@brightmart 您好,想再问一个今天tnews1.1提交分数异常的问题。我今天提交了1版tnews1.1的模型预测结果,与我的上一版模型在tnews1.1的结果对比,我统计了下有2339个sample预测标签不同。我的上一版模型于8.20日提交tnews1.1,得到了57.81分,但是这版提交只有28.95分,这个超出了此次提交最低可能的分数下界(1w测试样例,最低只可能是57.81-23.39=34.42分)。请问是不是tnews1.1的分数计算存在异常?麻烦您帮忙check下。我的两个提交文件分别是: 旧的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.old.json 新的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.json

brightmart commented 3 years ago

收到反馈。稍后进行一次反馈。

yangapku commented 3 years ago

@brightmart 请问老师,分数异常的问题有进展吗?麻烦了

huangjiaheng commented 2 years ago

@brightmart 请问老师,分数异常的问题有进展吗?麻烦了

没下文了哈哈