Closed kx-kexi closed 2 months ago
OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移
OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置
OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置
请问您使用的MobileAgent/路径是否来自于v1版本?在v2版本中,get_screenshot()获取的截屏不会被缩小到原图分辨率的一半 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/controller.py#L7 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent/MobileAgent/controller.py#L14
OCR的坐标已经经过处理,是检测框的中心坐标,不需要额外的偏移 不是偏移,我试了一下点击OCR的坐标,但是在手机上反应的不是那个位置,中间隔了一个倍数2,这个是手机像素宽度和图片的宽度之比,需要将OCR坐标乘以2才是手机上的那个位置
请问您使用的MobileAgent/路径是否来自于v1版本?在v2版本中,get_screenshot()获取的截屏不会被缩小到原图分辨率的一半 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/controller.py#L7 https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent/MobileAgent/controller.py#L14
哎呀,真不好意思,是我搞混了,抱歉抱歉
mobileAgentV2里面OCR获得的坐标是图片的左标,不能直接写到prompt让agent选择然后在手机上点对应坐标吧,需要先将图片上的坐标转换到手机上的像素坐标然后写到prompt里面