X-PLUG / MobileAgent

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family
https://arxiv.org/abs/2406.01014
MIT License
2.3k stars 193 forks source link

能否将gpt4-v改成国内的免费开源大模型 #3

Open spike2233 opened 5 months ago

spike2233 commented 5 months ago

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

junyangwang0410 commented 5 months ago

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。

Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

junyangwang0410 commented 4 months ago

我们提供了一个免费的API来调用Mobile Agent。请查看最新的README.md的Quick Start部分。

We provide a free API to try Mobile Agent. Please check the Quick Start section of the latest README.md.

DjangoCai1991 commented 4 months ago

支持其它模型有具体时间表吗?免费的api调用了一次就提示超出限制了(Exceeded the quota for today, please try again tomorrow)

RainPot commented 3 months ago

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。

Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗? 目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答

junyangwang0410 commented 3 months ago

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。 Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗? 目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答

最终方案预期是端到端的,也就是Agent可以直接产生坐标。目前基于GPT-4V版本的性能限制主要是你所提到的由语言空间转换为操作空间的gap,我们同时也会开发新的版本来针对这个问题来提升转换的效率。