FreedomIntelligence / HuatuoGPT-II

HuatuoGPT2, One-stage Training for Medical Adaption of LLMs. (An Open Medical GPT)
370 stars 60 forks source link

本地测试用zero-shot方式huatuoII-34B,CMB得分与排行榜公布的分数不一致 #9

Closed chelovek21 closed 11 months ago

chelovek21 commented 11 months ago

本地按照https://github.com/FreedomIntelligence/CMB.git提供的zero-shot方式测试huatuoII-34B-4bits版本,跑出来的结果与排行榜公布(76.80分)的分数差距很大,这是什么原因?你们是如何测试的?

jymChen commented 11 months ago

@chelovek21 你好, 感谢你的关注,我觉得分数不同的原因可能在于:

  1. 首先可以确认下有没有用HuatuoGPT2的Chat模版 (可以参考 cli_demo.py或者 调用Chat接口)。
  2. 用的是 HuatuoGPT2-34B-4bits,4bits量化对模型性能影响比较大,我们测试用的HuatuoGPT2-34B无量化版本。
  3. 我们测试用的一个很简单的prompt 请回答下面选择题。\n选择题问题\n选择题选项,也可以采用我们的prompt试一试。

也有可能其他原因导致的,后续还有问题可以继续交流下。