om-ai-lab / OmAgent

A multimodal agent framework for solving complex tasks
Apache License 2.0
439 stars 27 forks source link

调用的时候跑到了gpt-4o的配置文件,必须有gpt-4o的模型,这个项目才管用么? #4

Closed chenxu126 closed 1 month ago

chenxu126 commented 1 month ago

调用的时候跑到了gpt4o的配置文件,必须有gpt4o的模型,这个项目才管用么?

panregedit commented 1 month ago

我们提供的两个智能体工作流中,video_understanding 视频理解部分由于涉及到多模态理解,因此必须使用支持多图推理的多模态大语言模型(MLLM),GPT-4o是一个常见选择;general 部分是不限制必须用MLLM的,但推荐使用逻辑能力较强的模型,例如GPT-4、Gemini Ultra或其他同等级模型。值得注意的一点是,我们的prompt是根据GPT-4o进行优化调整的,切换模型可能需要同时调整prompt以达到最好的效果。