hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]
https://cevalbenchmark.com/
MIT License
1.6k stars 74 forks source link

chatglm2-6b在valid set上的zero-shot结果似乎有问题 #46

Closed ylwangy closed 1 year ago

ylwangy commented 1 year ago

如题,我用lm-eval-harness发现chatglm2-6b的结果很差,0-shot下只有20多的准确率,是不是哪里出错了? image

HYZ17 commented 1 year ago

首先,在lm-eval-harness中只有validation集,每一个科目下的题目数量较少,因此结果可能波动较大。在当初测试代码的时候,使用的是gpt3,结果正常。或许你可以尝试few-shot下的结果?

我再次尝试了使用gpt3进行测试,结果如下

|----------------------------|------:|--------|-----:|---|-----:|
|Ceval-valid-accountant      |      1|acc     |0.3265|±  |0.0677|
|                            |       |acc_norm|0.3265|±  |0.0677|
|Ceval-valid-civil_servant   |      1|acc     |0.4043|±  |0.0724|
|                            |       |acc_norm|0.4043|±  |0.0724|
|Ceval-valid-computer_network|      1|acc     |0.4737|±  |0.1177|
|                            |       |acc_norm|0.4737|±  |0.1177|

您可以使用如下命令进行复现

python main.py --model gpt3 --tasks Ceval-valid-computer_network,Ceval-valid-accountant,Ceval-valid-civil_servant --num_fewshot 0 --model_args engine=text-davinci-003 --write_out
ylwangy commented 1 year ago

@HYZ17 感谢回复,我又用该Repo的代码跑了下ChatGLM2-6B在valid set上的zero-shot表现,发现也差不多,20出头。我同样的代码换成chatglm1-6b,是39多。比较正常。感觉2应该比1高才对。官方是否也可以尝试测一下,我不确认是否存在问题。 image

ylwangy commented 1 year ago

感觉可能不是lm-eval-harness框架代码的问题,所以改了下标题。

HYZ17 commented 1 year ago

这个原因尚且不清楚,可能需要查看一下chatglm2的测试方法