mobile-agent的速度，着实有些慢

herist commented 2 months ago

这个慢的原因是vpn连接gpt4o的问题吗？截图、ocr、gpt做决策这几个过程，到底是哪块慢呢？

junyangwang0410 commented 2 months ago

慢的原因主要有两个：

解决方案可以将部分模块设计为并行，例如planning和上一阶段的reflection是可以并行的，如果反思结果正确，则可以省去一次调用，如果错误，则回退操作并重新执行planning即可，不会产生额外的延时。

同时，ocr和sam也是可以并行的，并且可以放到GPU上加速。不过，想要速度真正达到可用，还需要解决基模型推理的速度，这将是下一步我们v3工作的重点。

iloveacm4 commented 2 months ago

好想法，我最近也在做类似的项目。要提升速度瓶颈始终在模型上，如果模型性能够用的话甚至可以省略反思记忆等流程，直接输出action，这样就能大幅提升速度。

junyangwang0410 commented 2 months ago

好想法，我最近也在做类似的项目。要提升速度瓶颈始终在模型上，如果模型性能够用的话甚至可以省略反思记忆等流程，直接输出action，这样就能大幅提升速度。

是的，我们也提供了反思和记忆的开关，如果任务难度不高，可以尝试关闭。

X-PLUG / MobileAgent