OpenGVLab / VisionLLM

VisionLLM Series

https://arxiv.org/abs/2305.11175

Apache License 2.0

865 stars 22 forks source link

generalist-model large-language-models object-detection

readme

VisionLLM Series

VisionLLM: Large Language Model as Open-Ended Decoder for Vision-Centric Tasks
VisionLLM v2: A Generalist Multimodal Large Language Model for Hundeds of Vision-Language Tasks

🚀 News

2024/06: We release VisionLLM v2, which is a generalist multimodal large language model to support hundres of vision-language tasks, covering visual understanding, perception and generation.