mnotgod96 / AppAgent

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.
https://appagent-official.github.io/
MIT License
5.16k stars 559 forks source link

可以用gpt-3.5? #26

Open levengeo opened 10 months ago

levengeo commented 10 months ago

可以用gpt-3.5?

yz93 commented 10 months ago

这里面是需要图文模型的,你可以用GPT 4V或者其他替代性的图文模型。GPT-3.5不太行。除非你可以尝试改一下流程,让GPT-3.5做一个类似OCR的事情把每个界面转换成纯文字,但这样效果不会太好