本地测试用zero-shot方式huatuoII-34B，CMB得分与排行榜公布的分数不一致 - Githubissues

FreedomIntelligence / HuatuoGPT-II

HuatuoGPT2, One-stage Training for Medical Adaption of LLMs. (An Open Medical GPT)

370 stars 60 forks source link

本地测试用zero-shot方式huatuoII-34B，CMB得分与排行榜公布的分数不一致 #9

Closed chelovek21 closed 11 months ago

chelovek21 commented 11 months ago

本地按照https://github.com/FreedomIntelligence/CMB.git提供的zero-shot方式测试huatuoII-34B-4bits版本，跑出来的结果与排行榜公布（76.80分）的分数差距很大，这是什么原因？你们是如何测试的？

jymChen commented 11 months ago

@chelovek21 你好，感谢你的关注，我觉得分数不同的原因可能在于：

首先可以确认下有没有用HuatuoGPT2的Chat模版（可以参考 cli_demo.py或者调用Chat接口）。
用的是 HuatuoGPT2-34B-4bits，4bits量化对模型性能影响比较大，我们测试用的HuatuoGPT2-34B无量化版本。
我们测试用的一个很简单的prompt 请回答下面选择题。\n选择题问题\n选择题选项，也可以采用我们的prompt试一试。

也有可能其他原因导致的，后续还有问题可以继续交流下。