X-PLUG / MobileAgent

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family
https://arxiv.org/abs/2406.01014
MIT License
2.3k stars 193 forks source link

这是不是没有成功,是怎么回事呀 #23

Open haoiwang opened 3 weeks ago

haoiwang commented 3 weeks ago

e550a0cb-5456-434b-9779-c0e9aea92c08

junyangwang0410 commented 3 weeks ago

Your picture doesn't seem to be uploaded successfully. Can you show other error messages so I can help you?

haoiwang commented 3 weeks ago

我已经重新上传了,我查看两个截图都一样,没有截到打开app的效果,在我重新尝试启动后给的指令是打开微信,但是他总是打开我手机上的信息这个软件,是不是识别错误了app把信息这个app识别为了微信,我手机上的这两个软件的图标很相似,

haoiwang commented 3 weeks ago

我试了一下把两个软件分开放置,打开成功了,我认为这个识别模型应该是还有误差的,相似的软件图标可能会出现误差,而且依赖算力,算力太低反应会很慢

junyangwang0410 commented 3 weeks ago

我试了一下把两个软件分开放置,打开成功了,我认为这个识别模型应该是还有误差的,相似的软件图标可能会出现误差,而且依赖算力,算力太低反应会很慢

目前的确还有一些能力上的瓶颈,我们会继续优化体验的

haoiwang commented 3 weeks ago

有没有其他解决方案如果依赖视觉的话,感觉处理起来速度很难提升,能不能以指令形式打开,让大模型根据提示词解析指令,使用agent来执行指令,在移动端如果我换个手机主题,他就可能识别不到了,并且我在实验时,就是把主题更改了,或者这个项目只是agent在移动端的一种实现方案的案例,而且我对这个项目很感兴趣,也在做这方面探索,相信如果成功了,可能是一次交互革命,让传统的点击事件响应以提示触发或者是用户的言语,在用户和app之间增加了一个调度或者是执行者,也可能他就叫agent,让用户交互更加‘’无感知‘’,反馈更加智能化,如果能够把这个调度执行在app域内,软件的形式也可能会被更改,或者传统软件的形式并不能满足这种需求,很期待这个项目的下一次更新。

junyangwang0410 commented 3 weeks ago

有没有其他解决方案如果依赖视觉的话,感觉处理起来速度很难提升,能不能以指令形式打开,让大模型根据提示词解析指令,使用agent来执行指令,在移动端如果我换个手机主题,他就可能识别不到了,并且我在实验时,就是把主题更改了,或者这个项目只是agent在移动端的一种实现方案的案例,而且我对这个项目很感兴趣,也在做这方面探索,相信如果成功了,可能是一次交互革命,让传统的点击事件响应以提示触发或者是用户的言语,在用户和app之间增加了一个调度或者是执行者,也可能他就叫agent,让用户交互更加‘’无感知‘’,反馈更加智能化,如果能够把这个调度执行在app域内,软件的形式也可能会被更改,或者传统软件的形式并不能满足这种需求,很期待这个项目的下一次更新。

感谢你对我们工作的关注,你的建议对我们非常重要,我们会认真讨论可行性