Open hongfengvvv opened 7 months ago
我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试: 模型地址:https://huggingface.co/THUDM/chatglm2-6b/tree/main 原始C-Eval数据集地址:https://github.com/hkust-nlp/ceval 采用的是针对chaglm2-6b处理后的C-Eval数据集:https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/ 我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试, cpu fp32精度下,正确率是 53.56%; 在GPU上的half类型的正确率是53.42%;
能否解释这种差异的来源,与我们的测试是否有不一致的地方,比如在提供的数据中使用设备和推理精度分别是什么?测试的是否为C-Eval数据集的验证集?使用的模型是否一致?或者有其他需要注意的点。
与官方环境一致
No response
Is there an existing issue for this?
Current Behavior
我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试: 模型地址:https://huggingface.co/THUDM/chatglm2-6b/tree/main 原始C-Eval数据集地址:https://github.com/hkust-nlp/ceval 采用的是针对chaglm2-6b处理后的C-Eval数据集:https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/ 我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试, cpu fp32精度下,正确率是 53.56%; 在GPU上的half类型的正确率是53.42%;
Expected Behavior
能否解释这种差异的来源,与我们的测试是否有不一致的地方,比如在提供的数据中使用设备和推理精度分别是什么?测试的是否为C-Eval数据集的验证集?使用的模型是否一致?或者有其他需要注意的点。
Steps To Reproduce
Environment
Anything else?
No response