about vlmeval/evaluate/multiple_choice.py

open-compass / VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support ~100 VLMs, 40+ benchmarks

Apache License 2.0

1.2k stars 171 forks source link

Closed mary-0830 closed 4 months ago

mary-0830 commented 4 months ago

请问作者，关于这个函数的用处是什么呢？在我评估MMStar时，这个build_choices好像没有起到任何的作用，并且好像还会导致匹配错误。

def build_choices(item): ret = {} for ch in string.ascii_uppercase: if ch in item and (not pd.isna(item[ch])): ret[ch] = item[ch] return ret

是不是要提取“Options: ”后面的选项及其内容？

junming-yang commented 4 months ago

一个数据集中，每道题的选项个数可能是不一致的，有的题目有ABC三个选项，有的只有AB选项。这个函数用在 evaluation 阶段，获取题目给出的对应选项及内容

mary-0830 commented 4 months ago

一个数据集中，每道题的选项个数可能是不一致的，有的题目有ABC三个选项，有的只有AB选项。这个函数用来获取题目给出的对应选项有哪些。

okok，那跟我理解的一样，但是这个函数好像取不到MMStar的选项，可能麻烦您要修改一下啦

junming-yang commented 4 months ago

我打印了一下 ret，可以抽取到这种字典吧 {'A': 'the Dominican Republic', 'B': 'Grenada', 'C': 'Dominica', 'D': 'Haiti'}

mary-0830 commented 4 months ago

我打印了一下 ret，可以抽取到这种字典吧 {'A': 'the Dominican Republic', 'B': 'Grenada', 'C': 'Dominica', 'D': 'Haiti'}

不能，我改后可以取到这种

junming-yang commented 4 months ago

请检查下代码版本？这个是在目前github代码版本上测试的 InternVL-Chat-V1-5 MMStar

mary-0830 commented 4 months ago

请检查下代码版本？这个是在目前github代码版本上测试的 InternVL-Chat-V1-5 MMStar

好的好的