X-PLUG / MobileAgent

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family
https://arxiv.org/abs/2406.01014
MIT License
3.04k stars 281 forks source link

fix OCR text coordinates bug #49

Closed kx-kexi closed 2 months ago

kx-kexi commented 2 months ago

mobileAgentV2里面OCR获得的坐标是图片的左标,不能直接写到prompt让agent选择然后在手机上点对应坐标吧,需要先将图片上的坐标转换到手机上的像素坐标然后写到prompt里面

junyangwang0410 commented 2 months ago

OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移

kx-kexi commented 2 months ago

OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置

junyangwang0410 commented 2 months ago

OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置

请问您使用的MobileAgent/路径是否来自于v1版本?在v2版本中,get_screenshot()获取的截屏不会被缩小到原图分辨率的一半 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/controller.py#L7 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent/MobileAgent/controller.py#L14

kx-kexi commented 2 months ago

OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置

请问您使用的MobileAgent/路径是否来自于v1版本?在v2版本中,get_screenshot()获取的截屏不会被缩小到原图分辨率的一半 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/controller.py#L7 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent/MobileAgent/controller.py#L14

哎呀,真不好意思,是我搞混了,抱歉抱歉