THUDM / ChatGLM2-6B

ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型
Other
15.65k stars 1.85k forks source link

[BUG/Help] <title>实测C-Eval数据集中验证集所有subject的平均准确率与提供的结果有差异 #638

Open hongfengvvv opened 7 months ago

hongfengvvv commented 7 months ago

Is there an existing issue for this?

Current Behavior

我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试: 模型地址:https://huggingface.co/THUDM/chatglm2-6b/tree/main 原始C-Eval数据集地址:https://github.com/hkust-nlp/ceval 采用的是针对chaglm2-6b处理后的C-Eval数据集:https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/ 我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试, cpu fp32精度下,正确率是 53.56%; 在GPU上的half类型的正确率是53.42%;

Expected Behavior

能否解释这种差异的来源,与我们的测试是否有不一致的地方,比如在提供的数据中使用设备和推理精度分别是什么?测试的是否为C-Eval数据集的验证集?使用的模型是否一致?或者有其他需要注意的点。

Steps To Reproduce

  1. 修改evaluate_ceval.py,在GPU上推理时指定精度为half
  2. 修改evaluate_ceval.py,指定设备类型为cpu、精度为float

Environment

与官方环境一致

Anything else?

No response