open-compass / VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support ~100 VLMs, 40+ benchmarks
https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
Apache License 2.0
1.2k stars 171 forks source link

about vlmeval/evaluate/multiple_choice.py #228

Closed mary-0830 closed 4 months ago

mary-0830 commented 4 months ago

请问作者,关于这个函数的用处是什么呢?在我评估MMStar时,这个build_choices好像没有起到任何的作用,并且好像还会导致匹配错误。

def build_choices(item): ret = {} for ch in string.ascii_uppercase: if ch in item and (not pd.isna(item[ch])): ret[ch] = item[ch] return ret

是不是要提取“Options: ”后面的选项及其内容?

junming-yang commented 4 months ago

一个数据集中,每道题的选项个数可能是不一致的,有的题目有ABC三个选项,有的只有AB选项。这个函数用在 evaluation 阶段,获取题目给出的对应选项及内容

mary-0830 commented 4 months ago

一个数据集中,每道题的选项个数可能是不一致的,有的题目有ABC三个选项,有的只有AB选项。这个函数用来获取题目给出的对应选项有哪些。

okok,那跟我理解的一样,但是这个函数好像取不到MMStar的选项,可能麻烦您要修改一下啦

junming-yang commented 4 months ago

我打印了一下 ret,可以抽取到这种字典吧 {'A': 'the Dominican Republic', 'B': 'Grenada', 'C': 'Dominica', 'D': 'Haiti'}

mary-0830 commented 4 months ago

我打印了一下 ret,可以抽取到这种字典吧 {'A': 'the Dominican Republic', 'B': 'Grenada', 'C': 'Dominica', 'D': 'Haiti'}

不能,我改后可以取到这种

junming-yang commented 4 months ago

请检查下代码版本?这个是在目前github代码版本上测试的 InternVL-Chat-V1-5 MMStar

mary-0830 commented 4 months ago

请检查下代码版本?这个是在目前github代码版本上测试的 InternVL-Chat-V1-5 MMStar

好的好的