[BUG/Help] <title>实测C-Eval数据集中验证集所有subject的平均准确率与提供的结果有差异

我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试：模型地址：https://huggingface.co/THUDM/chatglm2-6b/tree/main 原始C-Eval数据集地址：https://github.com/hkust-nlp/ceval 采用的是针对chaglm2-6b处理后的C-Eval数据集：https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/ 我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试， cpu fp32精度下，正确率是 53.56%；在GPU上的half类型的正确率是53.42%；

能否解释这种差异的来源，与我们的测试是否有不一致的地方，比如在提供的数据中使用设备和推理精度分别是什么？测试的是否为C-Eval数据集的验证集？使用的模型是否一致？或者有其他需要注意的点。

与官方环境一致

No response

THUDM / ChatGLM2-6B