当前位置:首页 > 元宇宙 > AI

复旦大学AgentGym-RL框架:小模型大智慧,AI智能体学会复杂任务长期规划

来源: 责编: 时间:2025-09-23 11:20:44 62观看
导读复旦大学研究团队近期在人工智能训练领域取得重大突破,开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程,成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。

复旦大学研究团队近期在人工智能训练领域取得重大突破,开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程,成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。这项成果已发表在arXiv平台,开源代码和数据集同步在GitHub公开。EVT28资讯网——每日最新资讯28at.com

传统AI训练存在显著局限:多数系统只能处理单次交互的简单任务,面对需要多步骤规划的复杂场景时表现欠佳。研究团队形象地比喻,现有AI就像只会背书的学生,缺乏真正的理解和创新能力。在需要持续互动的任务中,这些系统往往因训练不稳定而崩溃,如同初学者同时学习驾驶和导航般手忙脚乱。EVT28资讯网——每日最新资讯28at.com

AgentGym-RL框架创造性地设计了五大训练环境,构建起AI的"虚拟游乐园"。网页导航环境模拟真实网站交互,要求AI完成购物、论坛管理等任务;深度搜索环境训练信息检索能力,需整合多个信息源得出结论;数字游戏环境采用文本版Minecraft,考验策略规划和资源管理;具身任务环境通过虚拟空间导航,测试空间推理能力;科学任务环境则专注实验设计和数据分析。EVT28资讯网——每日最新资讯28at.com

研究团队开发的ScalingInter-RL训练方法堪称框架核心。该方法采用渐进式策略,初期限制AI与环境的交互次数,使其专注掌握基础技能,如同教练先让学员在空旷场地熟悉驾驶。随着训练深入,逐步增加交互复杂度,鼓励探索更高级策略。这种"先易后难"的模式有效解决了传统强化学习中的探索-利用平衡难题。EVT28资讯网——每日最新资讯28at.com

实验数据显示,经过AgentGym-RL训练的70亿参数模型性能提升达33.65个百分点。在网页导航任务中,该模型准确率达26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任务表现更为突出,取得38.25分的整体得分,接近顶级开源模型DeepSeek-R1-0528的40.25分。在数字游戏最高难度级别,该模型是少数获得非零分数的系统之一。EVT28资讯网——每日最新资讯28at.com

研究团队发现,增加测试时的计算资源能显著提升模型表现。当交互回合数从2次增加到30次时,模型准确率稳步上升;并行采样次数从1次增至64次,成功率提升最高达7.05个百分点。这表明,对于AI智能体而言,战略性地投入更多计算资源进行推理,比单纯增加模型参数更有效。EVT28资讯网——每日最新资讯28at.com

算法比较实验揭示了训练方法的重要性。GRPO算法在多个任务中表现优于REINFORCE++,使用GRPO训练的30亿参数模型性能甚至超过使用REINFORCE++训练的70亿参数模型。研究还发现,训练初期严格限制交互次数能确保稳定性,后期逐步放开则有助于学习复杂策略,这种动态调整策略取得了最佳效果。EVT28资讯网——每日最新资讯28at.com

案例分析生动展示了训练成果。在网页导航任务中,经过强化学习的模型遇到"页面未找到"错误时,会主动回退到主页使用搜索功能,而基础模型则陷入无效点击循环。具身导航任务中,训练后的模型能系统性探索环境,遇到阻碍时选择替代路径,基础模型则常在已探索区域徘徊。EVT28资讯网——每日最新资讯28at.com

环境结构对学习效果的影响研究带来重要启示。在规则明确的模拟环境中,如数字游戏和科学实验,强化学习效果最为显著,模型得分提升幅度接近50个百分点。而在更开放的网页导航和深度搜索环境中,提升幅度相对温和。这表明训练初期应优先选择结构化环境,逐步引入复杂场景。EVT28资讯网——每日最新资讯28at.com

这项研究不仅在技术上取得突破,更体现了方法创新的重要性。通过渐进式训练和多样化环境设计,小规模模型也能获得强大能力。开源框架的发布为全球研究者提供了研究基础,促进了AI智能体技术的普及。研究显示,中国在AI基础研究领域的创新能力正不断提升,为国际AI社区贡献了新的智慧。EVT28资讯网——每日最新资讯28at.com

对技术细节感兴趣的读者可访问项目GitHub页面获取完整代码和数据集,或查阅arXiv平台上的完整论文(编号:arXiv:2509.08755v1)。这项研究将推动AI从简单问答向真正理解复杂任务、制定长期计划的智能伙伴发展,在网页操作、信息搜索、科学研究等领域展现广阔应用前景。EVT28资讯网——每日最新资讯28at.com

   更多>同类资讯Meta实验室新突破:AI模型开启"自我对弈"模式,不依赖数据也能持续进化09-23联发科天玑9500首推双NPU架构,让AI常驻手机开启主动服务新体验09-23DeepSeek-V3.1升级至Terminus版 优化语言一致性及Agent能力09-23斯坦福等高校联手:用LMEnt套件追踪AI语言模型知识学习轨迹09-23AI搜索的数学边界:当最强大模型遇上"简单问题"的隐秘困局09-23中科院团队创新CARVE法:破解AI视觉“分心”难题,助模型精准聚焦09-23Plaud携三款AI纪要新品入局大陆市场,多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus,输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus:语言更一致,代理更强大,输出更稳定09-23上海人工智能实验室牵头!科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布:修复Bug,编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立 共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破:首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场!修复关键Bug,Agent能力跃升,V4还会远吗?09-23百度智能云千帆开源Qianfan-VL视觉模型,多尺寸适配,全自研芯片赋能高效计算09-23点击查看更多 +全站最新​9月狭义乘用车零售预计达215万辆,新能源车渗透率或超58%引关注​​9月狭义乘用车零售预计达215万辆,新能源车渗透率或超58%引关注​6.88万起极狐T1实测:空间越级配置足,小电车市场杀出“全能王”?6.88万起极狐T1实测:空间越级配置足,小电车市场杀出“全能王”?​雷军官宣小米17系列9月25日发布,卢伟冰称产品力跨代升级且对标iPhone17​​雷军官宣小米17系列9月25日发布,卢伟冰称产品力跨代升级且对标iPhone17​​小米17系列9月25日发布在即,雷军年度演讲《改变》将揭秘芯片与汽车故事​​小米17系列9月25日发布在即,雷军年度演讲《改变》将揭秘芯片与汽车故事​​雷军宣布:9月25日小米17系列发布,同期将举办第6次年度演讲聊芯片与汽车故事​​雷军宣布:9月25日小米17系列发布,同期将举办第6次年度演讲聊芯片与汽车故事​小米SU7标准版11.7万辆召回:OTA升级背后的智能驾驶安全与行业新挑战小米SU7标准版11.7万辆召回:OTA升级背后的智能驾驶安全与行业新挑战热门内容
  • 寒武纪回应订单不实传闻:产品多行业部署,存货增长因云端备货
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵
  • 国金证券:A股第三轮重估脚步临近,三类资产投资方向值得关注
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 18岁涂津豪:从DeepSeek实习生到Nature封面作者,以少年之力叩响AI新章
  • WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 华为Mate系列2025年选购指南:三款高性价比机型技术解析与场景适配
  • ${亚马逊发布"2025产品创新出海品牌五十强":出口跨境电商规模达2.15万亿
本栏最新第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注华为全联接大会2025启幕,发布全球最强算力超节点与集群华为全联接大会2025启幕,发布全球最强算力超节点与集群有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来

本文链接:http://www.28at.com/showinfo-45-27964-0.html复旦大学AgentGym-RL框架:小模型大智慧,AI智能体学会复杂任务长期规划

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Orange Research DivMerge技术:智能拼装AI模型,解锁多任务处理新境界

下一篇: Meta实验室新突破:AI模型开启"自我对弈"模式,不依赖数据也能持续进化

标签:
  • 热门焦点
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • 国内涌现70余家数字藏品平台:合规、流量与利润在博弈

    作者:杨郑君2月16日,迅雷链企业数字藏品服务平台正式上线,继阿里、腾讯、京东、百度、网易等之后,又一家互联网企业正式加入到火热的数字藏品平台的竞争中。除互联
  • 元宇宙“概念股”集体崩塌,背后究竟发生了什么?

    近期,Roblox和Meta公布了第四季度的财务报告,在财报发布一日后,股价大跌。作为市值一度超过1万亿美元的世界第六大公司Meta,股价大跌4%,市值降至5650亿美元,甚至跌出
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
Top