InternLM / InternLM-XComposer

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
2.06k stars 128 forks source link

mmbench 效果评估 error #190

Closed will-wiki closed 3 months ago

will-wiki commented 4 months ago

想尝试测下xcomposer2-vl-7b模型在mmbench-cn上的效果,跑的下面代码 https://github.com/InternLM/InternLM-XComposer/blob/96731ae522019a90068f8e404d76d347f92a8bcb/evaluation/mmbench/eval_cn.py#L21

目前碰到两个问题: 1.代码错误,预测函数用的generate_answer,但是utils.py只有model_gen,已修改(英文eval.py好像用的也是同一套代码,是不是有问题?) 2.预测速度很慢,用https://github.com/haotian-liu/LLaVA 跑过mmbench-cn的预测,相同环境4329条数据基本9分钟左右能跑完,但是xcomposer2-vl-7b需要100分钟,看了下代码 预测num_beams=5(其中llava为1),想问下这个num_beams影响大么,不过就算num_beams改成1,速度也没有llava快,这是为什么呢

LightDXY commented 4 months ago
  1. 这个是我们写错了,已修改,谢谢
  2. 这个影响因素比较多,我们的分辨率更大,所以image token是llava的两倍,整体inference也会变慢,num_beams对速度影响较大,但我们论文中结果是用beams=5测得,这里保持了一致,我们后续会更新num_beams=1的结果
chuangzhidan commented 2 months ago
  1. 这个是我们写错了,已修改,谢谢
  2. 这个影响因素比较多,我们的分辨率更大,所以image token是llava的两倍,整体inference也会变慢,num_beams对速度影响较大,但我们论文中结果是用beams=5测得,这里保持了一致,我们后续会更新num_beams=1的结果

请问xcomposer2-vl-7b训练的分辨率是多少哈?