当前位置:首页 > 元宇宙 > AI

AI 玩手机越玩越 6,西湖大学发布会自我进化的智能体 AppAgentX

来源: 责编: 时间:2025-03-11 10:40:34 230观看
导读 人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。以 DeepSeek 为代表的 LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓

人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。2Zn28资讯网——每日最新资讯28at.com

以 DeepSeek 为代表的 LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。2Zn28资讯网——每日最新资讯28at.com

然而,LLM 的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态 ——GUI 代理(GUI Agents)。这类智能体不仅能理解指令,还能像人类一样直接操作计算机和手机,摆脱对预设规则或 API 的依赖,带来更自然、高效的交互方式,使 AI 真正融入软件生态,成为智能操作系统的一部分。2Zn28资讯网——每日最新资讯28at.com

问题在于,目前的 LLM 代理虽然具备强大的推理能力,却在任务执行效率上存在明显瓶颈。2Zn28资讯网——每日最新资讯28at.com

为了解决这个问题,现在,西湖大学 AGI 实验室张驰团队推出了 AppAgentX—— 一款具备自我进化能力的 GUI 代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。2Zn28资讯网——每日最新资讯28at.com

2Zn28资讯网——每日最新资讯28at.com

AppAgentX 的核心创新在于:2Zn28资讯网——每日最新资讯28at.com

自动归纳高效操作模式:代理能够在执行任务时,检测重复性操作模式,并自动总结成更高级别的“一键”操作。2Zn28资讯网——每日最新资讯28at.com

任务执行更快,减少重复计算:传统的 LLM 代理每次执行任务都需要重新思考操作流程,而 AppAgentX 能够记住并复用执行策略,从而避免重复推理,使得任务执行更加流畅高效。2Zn28资讯网——每日最新资讯28at.com

完全基于视觉操作,适用于各种软件:传统自动化方法通常需要访问后端 API,而 AppAgentX 仅依赖屏幕视觉信息进行操作,无需后端访问,因此能够在不同软件、不同设备上通用,真正做到“即插即用”。2Zn28资讯网——每日最新资讯28at.com

AppAgentX:让智能体学会“进化”

过去,计算机的自动化操作主要依赖 RPA(机器人流程自动化),通过预设规则或 API 进行固定任务的执行。然而,这种方式需要大量手动配置,缺乏灵活性。2Zn28资讯网——每日最新资讯28at.com

GUI 代理的出现,改变了这一局面,被誉为软件世界中的具身智能。2Zn28资讯网——每日最新资讯28at.com

GUI 代理不依赖后端 API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操作软件界面。这意味着,智能体可以自主学习如何操作各种应用程序,甚至能够在不同软件之间切换,执行复杂的跨应用任务。例如:2Zn28资讯网——每日最新资讯28at.com

办公场景:自动整理文档、批量发送邮件2Zn28资讯网——每日最新资讯28at.com

娱乐与创作:使用 Photoshop 处理图像、生成视频内容2Zn28资讯网——每日最新资讯28at.com

自动化操作:批量录入数据、自动处理订单2Zn28资讯网——每日最新资讯28at.com

跨应用任务:从网页爬取信息后填入 Excel、在多个软件之间进行联动操作2Zn28资讯网——每日最新资讯28at.com

正因如此,GUI 代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案,但现阶段的挑战也很突出:现有的智能体聪明但不够高效。2Zn28资讯网——每日最新资讯28at.com

现有的 LLM 代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次执行操作前,模型都要推理下一步动作。例如,在进行网页搜索时,它可能会这样决策:2Zn28资讯网——每日最新资讯28at.com

识别需要搜索的信息;2Zn28资讯网——每日最新资讯28at.com

点击搜索框;2Zn28资讯网——每日最新资讯28at.com

输入关键词;2Zn28资讯网——每日最新资讯28at.com

点击搜索按钮。2Zn28资讯网——每日最新资讯28at.com

这种方式赋予了智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行低效、重复计算严重的问题。AppAgentX 解决这一痛点的核心思路,是让智能体学会“进化”。2Zn28资讯网——每日最新资讯28at.com

下面是一个 AppAgentX 执行播放音乐的一个例子示意图,当找到了“一键”操作,就不需要每一步都耗费大量时间思考下一步需要做什么,从而快速完成任务。2Zn28资讯网——每日最新资讯28at.com

2Zn28资讯网——每日最新资讯28at.com

这里可以看出智能体进化出一个高级操作“搜索”,它取代了一系列低效的低级操作。这种进化避免了重复耗时的逐步推理,显著提高了代理的效率。2Zn28资讯网——每日最新资讯28at.com

2Zn28资讯网——每日最新资讯28at.com

▲AppAgentX 的功能示意图方法介绍

2Zn28资讯网——每日最新资讯28at.com

任务轨迹的分解

在执行任务时,AppAgentX 会将整个过程分解成多个重叠的三元组(即由三个部分组成的组合)。这些三元组包含了页面内容和用户界面(UI)元素的功能描述。具体来说,智能体会:2Zn28资讯网——每日最新资讯28at.com

生成功能描述:利用大语言模型(LLM),为每个页面和界面元素生成详细的功能描述。这些描述帮助智能体理解每个部分的作用。2Zn28资讯网——每日最新资讯28at.com

合并重复描述:如果某些页面的描述是重复生成的,智能体会将这些描述合并,以减少冗余信息。2Zn28资讯网——每日最新资讯28at.com

记录交互历史:整个交互过程会被记录成一个节点链,形成一个完整的操作历史,便于后续调用。2Zn28资讯网——每日最新资讯28at.com

进化机制与执行过程

在任务执行过程中,AppAgentX 还引入了一种进化机制,使得智能体能够更高效地执行操作。这个机制的核心在于生成“捷径节点”,允许智能体在执行一系列操作时,跳过逐步推理的过程。具体步骤如下:2Zn28资讯网——每日最新资讯28at.com

生成捷径节点:当智能体识别到某些操作具有固定的执行顺序时,它会创建捷径节点。这些节点将多个底层操作整合为一个更高级的动作。2Zn28资讯网——每日最新资讯28at.com

高效执行:通过调用这些捷径节点,智能体可以快速执行一系列操作,而无需逐步推理每一步。这大大提高了任务执行的效率。2Zn28资讯网——每日最新资讯28at.com

2Zn28资讯网——每日最新资讯28at.com

从实验结果来看,AppAgentX 从单步的执行效率到总体的 API token 消耗,在多个 GUI 交互任务上展现出了显著的“降本增效”。2Zn28资讯网——每日最新资讯28at.com

总体来说,AppAgentX 作为一项创新的移动终端交互技术,通过构建链式知识存储架构与动态匹配执行机制,在保持大型语言模型代理灵活性的同时显著提升执行效能,实现了无需后端访问的图形界面智能操作系统。2Zn28资讯网——每日最新资讯28at.com

该技术突破性地解决了传统智能体在响应速度与认知能力间的平衡难题,为移动端 AI 应用开辟了新的技术路径。此项研究不仅标志着智能体技术在效率与智能动态平衡方面取得重要突破,更为人机交互领域提供了可扩展的技术范式。2Zn28资讯网——每日最新资讯28at.com

项目地址:https://appagentx.github.io/2Zn28资讯网——每日最新资讯28at.com

Github 地址:https://github.com/Westlake-AGI-Lab/AppAgentX2Zn28资讯网——每日最新资讯28at.com

Arxiv 地址:https://arxiv.org/abs/2503.022682Zn28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:西湖大学,原标题《AI 玩手机越玩越 6!西湖大学发布新智能体:会自我进化的 AppAgentX》2Zn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11369-0.htmlAI 玩手机越玩越 6,西湖大学发布会自我进化的智能体 AppAgentX

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 作家指控 Meta AI 训练侵犯版权,法官允许诉讼继续推进

下一篇: 中科院院士丁洪倡议发起中学 AI 奥赛,打造成具有国际影响力的赛事

标签:
  • 热门焦点
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 元宇宙将会如何塑造未来的工作方式?

    科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词,但事实上,在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top