about Qwen2-vl - Githubissues

open-compass / VLMEvalKit

Open-source evaluation toolkit of large vision-language models (LVLMs), support 160+ VLMs, 50+ benchmarks

https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

Apache License 2.0

1.4k stars 195 forks source link

about Qwen2-vl #598

Closed jun0wanan closed 1 week ago

jun0wanan commented 1 week ago

您好，我发现目前的代码貌似不支持视频的多图测试，想问问是吗？我看了看代码是只能支持视频路径和网址两类，但是视频多图不行看起来：

` messages = [

{

    "role": "user",

    "content": [

        {

            "type": "video",

            "video": [

                "file:///path/to/frame1.jpg",

                "file:///path/to/frame2.jpg",

                "file:///path/to/frame3.jpg",

                "file:///path/to/frame4.jpg",

            ],

        },

        {"type": "text", "text": "Describe this video."},

    ],

}

] `

FangXinyu-0913 commented 1 week ago

您好 @jun0wanan，因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理，因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中，让qwen2-vl的相关函数自行进行处理～视频的多图测试因为我们这边暂时没有相应的场景需求（加之自己取帧处理的话可能与qwen2-vl自己的处理不一致，进而导致结果的不一致），因此我们暂未实现。

jun0wanan commented 1 week ago

您好 @jun0wanan，因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理，因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中，让qwen2-vl的相关函数自行进行处理～视频的多图测试因为我们这边暂时没有相应的场景需求（加之自己取帧处理的话可能与qwen2-vl自己的处理不一致，进而导致结果的不一致），因此我们暂未实现。

请问取样帧率是指的maxpixel那些吗？不是fps是吗

jun0wanan commented 1 week ago

您好 @jun0wanan，因为qwen2-vl在处理视频输入时是需要调用自己的process_vision_info函数进行取帧处理，因此我们在测试相关的视频benchmark时都是将视频路径及取样帧率直接放入到message中，让qwen2-vl的相关函数自行进行处理～视频的多图测试因为我们这边暂时没有相应的场景需求（加之自己取帧处理的话可能与qwen2-vl自己的处理不一致，进而导致结果的不一致），因此我们暂未实现。

请问取样帧率是指的maxpixel那些吗？不是fps是吗

另外想请教一下，您知道qwen2vl最多能输入多少帧吗？我输入800帧单卡爆掉了....