open-compass / VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support 160+ VLMs, 50+ benchmarks
https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
Apache License 2.0
1.4k stars 195 forks source link

about Qwen2-vl #598

Closed jun0wanan closed 1 week ago

jun0wanan commented 1 week ago

您好,我发现目前的代码貌似不支持视频的多图测试,想问问是吗?我看了看代码是只能支持视频路径和网址两类,但是视频多图不行看起来:

` messages = [

{

    "role": "user",

    "content": [

        {

            "type": "video",

            "video": [

                "file:///path/to/frame1.jpg",

                "file:///path/to/frame2.jpg",

                "file:///path/to/frame3.jpg",

                "file:///path/to/frame4.jpg",

            ],

        },

        {"type": "text", "text": "Describe this video."},

    ],

}

] `

FangXinyu-0913 commented 1 week ago

您好 @jun0wanan,因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理,因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中,让qwen2-vl的相关函数自行进行处理~ 视频的多图测试因为我们这边暂时没有相应的场景需求(加之自己取帧处理的话可能与qwen2-vl自己的处理不一致,进而导致结果的不一致),因此我们暂未实现。

jun0wanan commented 1 week ago

您好 @jun0wanan,因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理,因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中,让qwen2-vl的相关函数自行进行处理~ 视频的多图测试因为我们这边暂时没有相应的场景需求(加之自己取帧处理的话可能与qwen2-vl自己的处理不一致,进而导致结果的不一致),因此我们暂未实现。

请问取样帧率是指的maxpixel那些吗?不是fps是吗

jun0wanan commented 1 week ago

您好 @jun0wanan,因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理,因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中,让qwen2-vl的相关函数自行进行处理~ 视频的多图测试因为我们这边暂时没有相应的场景需求(加之自己取帧处理的话可能与qwen2-vl自己的处理不一致,进而导致结果的不一致),因此我们暂未实现。

请问取样帧率是指的maxpixel那些吗?不是fps是吗

另外想请教一下,您知道qwen2vl最多能输入多少帧吗?我输入800帧单卡爆掉了....