mnotgod96 / AppAgent

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.
https://appagent-official.github.io/
MIT License
4.85k stars 517 forks source link

改成了调用gemini pro 的api,效果不太好,没有成功实现演示中发邮件的示例 #28

Open wstszx opened 8 months ago

mnotgod96 commented 8 months ago

暂时还没有在Gemini上测过agent的能力。不过以我的经验来看Gmail发邮件的难点主要在于让模型填写收件人后点击下拉栏中的邮箱地址确认收件人这一步,如果模型生成的文档里没有关于这一步的说明的话,有很大概率会失败的。可以尝试手动优化一下ui文档或者一些别的邮箱app看看。

wstszx commented 8 months ago

是的,就是卡在确认收件人这一步,导致标题输入框和内容输入框不能显示,最后它会把标题和内容都填入到收件人那一栏里

zyxcambridge commented 8 months ago

想将 Google 官方的 Gemini API 转换为标准的 OpenAI 调用

gordonchanfz commented 7 months ago

想将 Google 官方的 Gemini API 转换为标准的 OpenAI 调用

试了华为平板,调用gemini pro vision,learn的时候都好好的,run起来,空跑代码,界面交互看几率,点到的也未必是learn的东西。