CLUEbenchmark / CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

http://www.CLUEbenchmarks.com

4.02k stars 540 forks source link

请问tnews 1.1版本测试集有各个baseline的分数吗？ #123

Open yangapku opened 3 years ago

yangapku commented 3 years ago

如题，请问几个tnews 1.1版本测试集相关的问题：

有没有BERT-base, BERT-wwm-ext, ERNIE-base, RoBERTa-large, XLNet-mid, ALBERT-base, ALBERT-large, ALBERT-xlarge, ALBERT-xxlarge, ALBERT-tiny, RoBERTa-wwm-ext, RoBERTa-wwm-large这些对应baseline的测试集分数呢？
为什么测试集需要从1.0更新到1.1呢？我观察到1.0测试集分数普遍高于1.1，这个主要是因为什么呢
1.1版本测试集sample没有了keyword，这个是什么考虑呢

@brightmart 希望主办方能够麻烦解答，十分感谢！

brightmart commented 3 years ago

你好，感谢反馈问题。

1、目前没有tnews1.1上的各个baseline详细的分数。在BERT类模型上与1.0分数是总体是一致的；

2、测试集上1.0由于已经使用2年左右，存在过拟合的情况；

3、1.1版本测试集没有提供keyword，是由于CLUE的测试中即使是1.0版本的也没有使用keyword，即这个字段其实本身是没有用到的。如还有问题，也可以邮件联系：CLUEbenchmark@163.com

yangapku commented 3 years ago

@brightmart 谢谢您回复！还有个细节想确认下，我看到clue榜单上面写"TNEWS默认使用RoBERTa-wwm-large模型分数作为初始化"，而榜单上面初始化的分数我看到是57.42，这个指的就是说RoBERTa-wwm-large baseline在test 1.1测试集上面分数为57.42吧

brightmart commented 3 years ago

57.42是Tnews，使用RoBERTa-wwm-large，在test 1.1测试集上的分数。

yangapku commented 3 years ago

@brightmart 您好，想再问一个今天tnews1.1提交分数异常的问题。我今天提交了1版tnews1.1的模型预测结果，与我的上一版模型在tnews1.1的结果对比，我统计了下有2339个sample预测标签不同。我的上一版模型于8.20日提交tnews1.1，得到了57.81分，但是这版提交只有28.95分，这个超出了此次提交最低可能的分数下界（1w测试样例，最低只可能是57.81-23.39=34.42分）。请问是不是tnews1.1的分数计算存在异常？麻烦您帮忙check下。我的两个提交文件分别是：旧的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.old.json 新的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.json

brightmart commented 3 years ago

收到反馈。稍后进行一次反馈。

yangapku commented 3 years ago

@brightmart 请问老师，分数异常的问题有进展吗？麻烦了

huangjiaheng commented 2 years ago

@brightmart 请问老师，分数异常的问题有进展吗？麻烦了

没下文了哈哈