Closed FutureForMe closed 21 hours ago
在使用GLM4-9B-Chat进行推理测试的过程中遇到了以下两个问题:
1.使用GLM4-9B-Chat在CMMLU上进行实验测试(使用的prompt如下),发现其性能未能达到论文中的结果,请问得到这种实验结果是否是正常的?
normal_prompt:以下是一道{question_type}考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n{question}\n{options_str} 具体实例:以下是一道公共关系考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n()是组织形象的客观基础。\nA. 个人形象\nB. 产品质量\nC. 产品形象\nD. 组织形象
我们使用accuracy作为评价指标,发现最终结果只得到了0.6704,而论文中使用GLM4-9B得到了0.751的结果,我们想求证一下使用Chat模型得到0.6704的结果是否合理? 如果不合理的话,希望可以给出一些建议。
2.使用CMMLU实验时,我们发现GLM4-9B-Chat的CoT效果要优于单纯让模型直接输出选项(Normal: 0.6704->CoT: 0.7164),具体的prompt如下所示。然而,我们对比了Qwen2.5-7B-Instruct(Normal: 0.7735->CoT: 0.7407)和Qwen2.5-14B-Instruct(Normal: 0.8091->CoT: 0.7876),都出现了不同程度的下降。因此,想求证一下是什么原因导致GLM4-9B-Chat的CoT有提升?是针对模型的CoT能力进行了专门的优化还是其他原因呢?
normal_prompt:以下是一道{question_type}考试的单项选择题,不需要做任何分析和解释,直接输出答案选项。\n{question}\n{options_str} cot_prompt: 以下是一道{question_type}考试的单项选择题,请分析问题和每个选项,并在最后给出答案。\n{question}\n{options_str}
注:实验环境为 transformers 4.45.2 torch 2.4.0 vllm 0.6.2 openai 1.51.2 实验过程使用vllm将模型部署成OpenAI API的格式进行调用,没有修改system prompt,只修改user prompt。
十分期待您的答复! 祝好
感谢您的关注,但是这个问题感觉偏理论,我觉得你可以直接联系论文作者,发送到邮箱讨论该问题
好的,感谢您的回复
在使用GLM4-9B-Chat进行推理测试的过程中遇到了以下两个问题:
1.使用GLM4-9B-Chat在CMMLU上进行实验测试(使用的prompt如下),发现其性能未能达到论文中的结果,请问得到这种实验结果是否是正常的?
我们使用accuracy作为评价指标,发现最终结果只得到了0.6704,而论文中使用GLM4-9B得到了0.751的结果,我们想求证一下使用Chat模型得到0.6704的结果是否合理? 如果不合理的话,希望可以给出一些建议。
2.使用CMMLU实验时,我们发现GLM4-9B-Chat的CoT效果要优于单纯让模型直接输出选项(Normal: 0.6704->CoT: 0.7164),具体的prompt如下所示。然而,我们对比了Qwen2.5-7B-Instruct(Normal: 0.7735->CoT: 0.7407)和Qwen2.5-14B-Instruct(Normal: 0.8091->CoT: 0.7876),都出现了不同程度的下降。因此,想求证一下是什么原因导致GLM4-9B-Chat的CoT有提升?是针对模型的CoT能力进行了专门的优化还是其他原因呢?
注:实验环境为 transformers 4.45.2 torch 2.4.0 vllm 0.6.2 openai 1.51.2 实验过程使用vllm将模型部署成OpenAI API的格式进行调用,没有修改system prompt,只修改user prompt。
十分期待您的答复! 祝好