X-PLUG / MobileAgent

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family
https://arxiv.org/abs/2406.01014
MIT License
3.04k stars 281 forks source link

如何让agent去点击这个复选框,完成勾选? #56

Open herist opened 2 months ago

herist commented 2 months ago

image

尝试这样表达 "点击[我已阅读并同意]左边的复选框,完成勾选," 但是ocr识别似乎是以“点”为主,始终点不到这个复选框

image

junyangwang0410 commented 2 months ago

你可以在add_info中加入这样的描述:你需要勾选复选框,为了完成这个操作,你需要点击与“立即注册”同纵坐标、与“《用户服务协议》”同横坐标的位置

这个框因为特征不明显,不容易被检测出或者形象地描述出来,因此属于比较无解的case,不过可以尝试通过“参照物”的方法来解决,即找到容易被定位的位置,然后通过关联性让模型推理出需要点击的位置的坐标

dl-robert commented 1 month ago

我测试的也是这样,开启反思,重试多次后它能点到