THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
5.42k stars 445 forks source link

关于GLM4-9B-Chat在CMMLU上表现以及模型的CoT能力的疑问 #667

Closed FutureForMe closed 21 hours ago

FutureForMe commented 22 hours ago

在使用GLM4-9B-Chat进行推理测试的过程中遇到了以下两个问题:

1.使用GLM4-9B-Chat在CMMLU上进行实验测试(使用的prompt如下),发现其性能未能达到论文中的结果,请问得到这种实验结果是否是正常的?

normal_prompt:以下是一道{question_type}考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n{question}\n{options_str}

具体实例:以下是一道公共关系考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n()是组织形象的客观基础。\nA. 个人形象\nB. 产品质量\nC. 产品形象\nD. 组织形象

我们使用accuracy作为评价指标,发现最终结果只得到了0.6704,而论文中使用GLM4-9B得到了0.751的结果,我们想求证一下使用Chat模型得到0.6704的结果是否合理? 如果不合理的话,希望可以给出一些建议。

2.使用CMMLU实验时,我们发现GLM4-9B-Chat的CoT效果要优于单纯让模型直接输出选项(Normal: 0.6704->CoT: 0.7164),具体的prompt如下所示。然而,我们对比了Qwen2.5-7B-Instruct(Normal: 0.7735->CoT: 0.7407)和Qwen2.5-14B-Instruct(Normal: 0.8091->CoT: 0.7876),都出现了不同程度的下降。因此,想求证一下是什么原因导致GLM4-9B-Chat的CoT有提升?是针对模型的CoT能力进行了专门的优化还是其他原因呢?

normal_prompt:以下是一道{question_type}考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n{question}\n{options_str}    

cot_prompt: 以下是一道{question_type}考试的单项选择题,请分析问题和每个选项,并在最后给出答案。\n{question}\n{options_str}

注:实验环境为 transformers 4.45.2 torch 2.4.0 vllm 0.6.2 openai 1.51.2 实验过程使用vllm将模型部署成OpenAI API的格式进行调用,没有修改system prompt,只修改user prompt。

十分期待您的答复! 祝好

sixsixcoder commented 22 hours ago

感谢您的关注,但是这个问题感觉偏理论,我觉得你可以直接联系论文作者,发送到邮箱讨论该问题

FutureForMe commented 21 hours ago

好的,感谢您的回复