open-compass / opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
https://opencompass.org.cn/
Apache License 2.0
3.78k stars 405 forks source link

关于 医疗方面 MedBench, 在连接模型测试时的问题 #905

Closed dawangda closed 4 months ago

dawangda commented 7 months ago

Describe the feature

对于 医疗方面的 MedBench 排行,https://medbench.opencompass.org.cn/leaderboard ,有点问题,请opencompass的相关朋友解答下: 1、opencompass排行中,有一个qwen-chat-72b条目,这是本地部署了开源的qwen-chat-72b 然后测试的?还是连接阿里的api测试的呢?如果是本地部署的开源的qwen-chat,那用的是哪个版本,v1、v1.5版本?如果是连api,那么在线连接的是哪个版本的模型呢?开源还是闭源的呢? 2、什么时候测试的呢?我看发布日期和更新日期都是2024/02/20,这里标的“发布日期”、“更新日期”分别是指啥呢? 3、在做这个MedBench 测试时,具体连接各个模型或api的相关代码,是在哪个文件里呢?

Will you implement it?

tonysy commented 6 months ago

Thanks for your attention. Please @xmshi-trio check this issue and share your idea.

tonysy commented 6 months ago

Please contact medbench@pjlab.org.cn for more information

xmshi-trio commented 6 months ago

您好!感谢对MedBench的关注。

  1. qwen-chat-72b是用户在本地部署,然后做一遍推理,然后提交结果到MedBench上,具体哪个版本我们需要后续联系该用户确认。
  2. “发布日期”是模型的发布日期,“更新日期是”是提交结果的日期
  3. 目前仅支持本地推理,然后上传。本地推理需要用户根据自己的模型自行进行。
bittersweet1999 commented 4 months ago

feel free to reopen it if needed