Closed ylwangy closed 1 year ago
首先,在lm-eval-harness中只有validation集,每一个科目下的题目数量较少,因此结果可能波动较大。在当初测试代码的时候,使用的是gpt3,结果正常。或许你可以尝试few-shot下的结果?
我再次尝试了使用gpt3进行测试,结果如下
|----------------------------|------:|--------|-----:|---|-----:|
|Ceval-valid-accountant | 1|acc |0.3265|± |0.0677|
| | |acc_norm|0.3265|± |0.0677|
|Ceval-valid-civil_servant | 1|acc |0.4043|± |0.0724|
| | |acc_norm|0.4043|± |0.0724|
|Ceval-valid-computer_network| 1|acc |0.4737|± |0.1177|
| | |acc_norm|0.4737|± |0.1177|
您可以使用如下命令进行复现
python main.py --model gpt3 --tasks Ceval-valid-computer_network,Ceval-valid-accountant,Ceval-valid-civil_servant --num_fewshot 0 --model_args engine=text-davinci-003 --write_out
@HYZ17 感谢回复,我又用该Repo的代码跑了下ChatGLM2-6B在valid set上的zero-shot表现,发现也差不多,20出头。我同样的代码换成chatglm1-6b,是39多。比较正常。感觉2应该比1高才对。官方是否也可以尝试测一下,我不确认是否存在问题。
感觉可能不是lm-eval-harness框架代码的问题,所以改了下标题。
这个原因尚且不清楚,可能需要查看一下chatglm2的测试方法
如题,我用lm-eval-harness发现chatglm2-6b的结果很差,0-shot下只有20多的准确率,是不是哪里出错了?