chatglm2-6b在valid set上的zero-shot结果似乎有问题

ylwangy commented 1 year ago

如题，我用lm-eval-harness发现chatglm2-6b的结果很差，0-shot下只有20多的准确率，是不是哪里出错了？

HYZ17 commented 1 year ago

首先，在lm-eval-harness中只有validation集，每一个科目下的题目数量较少，因此结果可能波动较大。在当初测试代码的时候，使用的是gpt3，结果正常。或许你可以尝试few-shot下的结果？

我再次尝试了使用gpt3进行测试，结果如下

|----------------------------|------:|--------|-----:|---|-----:|
|Ceval-valid-accountant      |      1|acc     |0.3265|±  |0.0677|
|                            |       |acc_norm|0.3265|±  |0.0677|
|Ceval-valid-civil_servant   |      1|acc     |0.4043|±  |0.0724|
|                            |       |acc_norm|0.4043|±  |0.0724|
|Ceval-valid-computer_network|      1|acc     |0.4737|±  |0.1177|
|                            |       |acc_norm|0.4737|±  |0.1177|

您可以使用如下命令进行复现

python main.py --model gpt3 --tasks Ceval-valid-computer_network,Ceval-valid-accountant,Ceval-valid-civil_servant --num_fewshot 0 --model_args engine=text-davinci-003 --write_out

ylwangy commented 1 year ago

@HYZ17 感谢回复，我又用该Repo的代码跑了下ChatGLM2-6B在valid set上的zero-shot表现，发现也差不多，20出头。我同样的代码换成chatglm1-6b，是39多。比较正常。感觉2应该比1高才对。官方是否也可以尝试测一下，我不确认是否存在问题。

ylwangy commented 1 year ago

感觉可能不是lm-eval-harness框架代码的问题，所以改了下标题。

HYZ17 commented 1 year ago

这个原因尚且不清楚，可能需要查看一下chatglm2的测试方法

hkust-nlp / ceval

chatglm2-6b在valid set上的zero-shot结果似乎有问题 #46