HuatuoGPT2-13B 测试 CMB 结果出入很大，在chat模板和prompt一致的情况下

FreedomIntelligence / HuatuoGPT-II

HuatuoGPT2, One-stage Training for Medical Adaption of LLMs. (An Open Medical GPT)

360 stars 59 forks source link

HuatuoGPT2-13B 测试 CMB 结果出入很大，在chat模板和prompt一致的情况下 #29

Open Nero-gitg opened 6 months ago

Nero-gitg commented 6 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

jymChen commented 4 months ago

@Nero-gitg 你好，请问下使用的答题prompt是否和我们评测的一致，可以试试下面的prompt:

请回答下面选择题。 
对评估肝硬化患者预后意义不大的是
A. 腹水
B. 清蛋白
C. 血电解质
D. 凝血酶原时间

还有一点，最好不要限制Huatuo2的生成长度，Huatuo2经常会采用CoT的答案方式，选项结果往往在最后生成。

xielinzhen commented 4 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

你好，请问复现成功了吗？可不可以分享一下 @Nero-gitg

litsh commented 4 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

你好，请问复现成功了吗？可不可以分享一下 @Nero-gitg

您好，请问您复现出来的结果是多少呢？ @xielinzhen

xielinzhen commented 4 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

你好，请问复现成功了吗？可不可以分享一下 @Nero-gitg

您好，请问您复现出来的结果是多少呢？ @xielinzhen

和67.85查很远，你的多少呢？这是我的参数设置，不知道哪里错了

xielinzhen commented 4 months ago

这是结果

litsh commented 4 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

你好，请问复现成功了吗？可不可以分享一下 @Nero-gitg

您好，请问您复现出来的结果是多少呢？ @xielinzhen

和67.85查很远，你的多少呢？这是我的参数设置，不知道哪里错了

@xielinzhen 你好，你的邮箱是多少呢？可以邮件交流。

xielinzhen commented 4 months ago

榜上分数67.85，本地测试相差很大。也可能是因为答案提取方式的不同，我查看huatuo模型输出，答案中包含选项信息的内容很少，想问下你们对模型生成答案的处理方式是怎么样的呢？当然也可能是其他原因，期待你们的建议与回复！

你好，请问复现成功了吗？可不可以分享一下 @Nero-gitg

您好，请问您复现出来的结果是多少呢？ @xielinzhen

和67.85查很远，你的多少呢？这是我的参数设置，不知道哪里错了

@xielinzhen 你好，你的邮箱是多少呢？可以邮件交流。

18810698745@163.com

jymChen commented 2 months ago

@xielinzhen 您好，感谢您的反馈。我们的QA评测代码开源了，可以通过下述命令复现：

accelerate launch evaluation/eval_qa.py --model_path=FreedomIntelligence/HuatuoGPT2-7B --data_path=./evaluation/data/eval_qa.json