腾讯发布AppAgent:让 AI 自己去玩手机

昨天,腾讯团队发表了一篇论文:AppAgent: Multimodal Agents as Smartphone Users,同时开源了代码。该框架设计的初衷,是让 AI 智能体去自己操作手机,完成特定的任务。

image.png

论文链接:https://arxiv.org/pdf/2312.13771.pdf

Github 仓库:https://github.com/mnotgod96/AppAgent

该框架使智能体能够通过简化的操作空间来操作智能手机应用程序,模仿人类的交互,如点击和滑动。这种新颖的方法绕过了对系统后端访问的需要,从而扩大了它在不同应用程序中的适用性。

大家可以看一下下图,下图是我把原图翻译成中文了,其中的“代理”,就是智能体,这是AI翻译错了。

image.png

这个智能体功能的核心是其创新的学习方法。智能体通过自主探索观察人类演示来学习导航和使用新的应用程序。这个过程生成一个知识库,智能体在跨不同应用程序执行复杂任务时引用该知识库。

下面这个视频是 AppAgent 学会如何在推特上关注比尔盖茨。

image.png

我看了一下这个项目的介绍,这个智能体的核心是两个,先观察学习或者自主探索,然后就可以让它去执行你想要它干的任务了。

作者是使用的 GPT-4V 版本来作为智能体的。具体操作步骤大家可以去 Github 看一下,这里就不具体搬运了。

主要的就是配置手机连接电脑,配置 GPT-4V。

下面介绍一下核心的探索学习阶段。

探索阶段

这篇论文提出了一个新颖的解决方案,其中涉及两个阶段,即探索学习和部署阶段,将GPT-4V变成有能力的智能体,可以帮助用户在给出任务时自动操作其Android手机。探索阶段从您提供的任务开始,您可以选择让智能体自行探索该应用程序,或者从演示中学习。在这两种情况下,智能体都会生成一份交互文档,以在部署阶段使用。

选项1:自主探索

该方案是完全自主的探索,该探索使智能体可以通过尝试给定任务而无需任何人为干预,从而探索应用程序的使用。

首先,在根目录中运行Learn.py。请按照提示的说明选择自主探索作为操作模式,并提供应用程序名称和任务描述。然后,您的智能体将为您完成这项工作。在这种模式下,App Agent将反思其先前的操作,以确保其动作遵守给定的任务并为所探索的元素生成文档。

选项2:从人类示范中学习

该解决方案要求用户首先演示类似的任务。App Agent将从演示中学习,并为演示过程中看到的UI元素生成文档。

要开始人类演示,您应该在根目录中运行Learn.py。请按照提示的说明选择人类演示作为操作模式,并提供应用程序名称和任务描述。手机的屏幕截图将被捕获,屏幕上显示的所有交互式元素都将带有数字标签。您需要遵循提示,以确定您的下一个动作和动作的目标。当您相信演示完成时,请键入结束演示。

下图是人来教会它如何用 Gmail 来发邮件。主要就是 AI 问,人来回答,这样就把 AI 教会了。

image.png

AI 自己去执行任务

探索阶段完成后,你可以给出 APP 名字,并提出任务。然后,这个智能体将为你完成这项工作。智能体将自动检测到应用程序之前生成的文档基础;如果找不到文档,您也可以选择在没有任何文档的情况下运行智能体(但事不保证100%成功)。

大致看了一下这个论文,作者应该是让 AI 会自己操作手机来完成特定任务,虽然感觉有点扯,但是长远来看,AI 距离跟人一样玩手机,完成特定任务,的确更近了一步。

作者:元峰
文章来源:AIZOO

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18838
内容数
1374
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息