X-PLUG / MobileAgent

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family
https://arxiv.org/abs/2406.01014
MIT License
3.06k stars 283 forks source link

mobile-agent的速度,着实有些慢 #57

Open herist opened 2 months ago

herist commented 2 months ago

这个慢的原因是vpn连接gpt4o的问题吗? 截图、ocr、gpt做决策 这几个过程,到底是哪块慢呢?

junyangwang0410 commented 2 months ago

慢的原因主要有两个:

  1. gpt-4o本身推理速度就比较慢,加上网络通讯还会产生额外的延时
  2. 调用qwen-vl会有限速,目前限速应该是每分钟15-30次,超速需要等待

解决方案可以将部分模块设计为并行,例如planning和上一阶段的reflection是可以并行的,如果反思结果正确,则可以省去一次调用,如果错误,则回退操作并重新执行planning即可,不会产生额外的延时。

同时,ocr和sam也是可以并行的,并且可以放到GPU上加速。不过,想要速度真正达到可用,还需要解决基模型推理的速度,这将是下一步我们v3工作的重点。

iloveacm4 commented 2 months ago

好想法,我最近也在做类似的项目。要提升速度瓶颈始终在模型上,如果模型性能够用的话甚至可以省略反思记忆等流程,直接输出action,这样就能大幅提升速度。

junyangwang0410 commented 2 months ago

好想法,我最近也在做类似的项目。要提升速度瓶颈始终在模型上,如果模型性能够用的话甚至可以省略反思记忆等流程,直接输出action,这样就能大幅提升速度。

是的,我们也提供了反思和记忆的开关,如果任务难度不高,可以尝试关闭。