mmbench 效果评估 error

will-wiki commented 4 months ago

想尝试测下xcomposer2-vl-7b模型在mmbench-cn上的效果，跑的下面代码 https://github.com/InternLM/InternLM-XComposer/blob/96731ae522019a90068f8e404d76d347f92a8bcb/evaluation/mmbench/eval_cn.py#L21

目前碰到两个问题： 1.代码错误，预测函数用的generate_answer，但是utils.py只有model_gen，已修改（英文eval.py好像用的也是同一套代码，是不是有问题？） 2.预测速度很慢，用https://github.com/haotian-liu/LLaVA 跑过mmbench-cn的预测，相同环境4329条数据基本9分钟左右能跑完，但是xcomposer2-vl-7b需要100分钟，看了下代码预测num_beams=5（其中llava为1），想问下这个num_beams影响大么，不过就算num_beams改成1，速度也没有llava快，这是为什么呢

LightDXY commented 4 months ago

这个是我们写错了，已修改，谢谢
这个影响因素比较多，我们的分辨率更大，所以image token是llava的两倍，整体inference也会变慢，num_beams对速度影响较大，但我们论文中结果是用beams=5测得，这里保持了一致，我们后续会更新num_beams=1的结果

chuangzhidan commented 2 months ago

这个是我们写错了，已修改，谢谢

这个影响因素比较多，我们的分辨率更大，所以image token是llava的两倍，整体inference也会变慢，num_beams对速度影响较大，但我们论文中结果是用beams=5测得，这里保持了一致，我们后续会更新num_beams=1的结果

请问xcomposer2-vl-7b训练的分辨率是多少哈？

InternLM / InternLM-XComposer

mmbench 效果评估 error #190