当前位置：首页 > 元宇宙 > AI

复旦大学AgentGym-RL框架：小模型大智慧，AI智能体学会复杂任务长期规划

来源：责编：时间：2025-09-23 11:20:44 127观看

导读复旦大学研究团队近期在人工智能训练领域取得重大突破，开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程，成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。

复旦大学研究团队近期在人工智能训练领域取得重大突破，开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程，成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。这项成果已发表在arXiv平台，开源代码和数据集同步在GitHub公开。

传统AI训练存在显著局限：多数系统只能处理单次交互的简单任务，面对需要多步骤规划的复杂场景时表现欠佳。研究团队形象地比喻，现有AI就像只会背书的学生，缺乏真正的理解和创新能力。在需要持续互动的任务中，这些系统往往因训练不稳定而崩溃，如同初学者同时学习驾驶和导航般手忙脚乱。

AgentGym-RL框架创造性地设计了五大训练环境，构建起AI的"虚拟游乐园"。网页导航环境模拟真实网站交互，要求AI完成购物、论坛管理等任务；深度搜索环境训练信息检索能力，需整合多个信息源得出结论；数字游戏环境采用文本版Minecraft，考验策略规划和资源管理；具身任务环境通过虚拟空间导航，测试空间推理能力；科学任务环境则专注实验设计和数据分析。

研究团队开发的ScalingInter-RL训练方法堪称框架核心。该方法采用渐进式策略，初期限制AI与环境的交互次数，使其专注掌握基础技能，如同教练先让学员在空旷场地熟悉驾驶。随着训练深入，逐步增加交互复杂度，鼓励探索更高级策略。这种"先易后难"的模式有效解决了传统强化学习中的探索-利用平衡难题。

实验数据显示，经过AgentGym-RL训练的70亿参数模型性能提升达33.65个百分点。在网页导航任务中，该模型准确率达26%，超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任务表现更为突出，取得38.25分的整体得分，接近顶级开源模型DeepSeek-R1-0528的40.25分。在数字游戏最高难度级别，该模型是少数获得非零分数的系统之一。

研究团队发现，增加测试时的计算资源能显著提升模型表现。当交互回合数从2次增加到30次时，模型准确率稳步上升；并行采样次数从1次增至64次，成功率提升最高达7.05个百分点。这表明，对于AI智能体而言，战略性地投入更多计算资源进行推理，比单纯增加模型参数更有效。

算法比较实验揭示了训练方法的重要性。GRPO算法在多个任务中表现优于REINFORCE++，使用GRPO训练的30亿参数模型性能甚至超过使用REINFORCE++训练的70亿参数模型。研究还发现，训练初期严格限制交互次数能确保稳定性，后期逐步放开则有助于学习复杂策略，这种动态调整策略取得了最佳效果。

案例分析生动展示了训练成果。在网页导航任务中，经过强化学习的模型遇到"页面未找到"错误时，会主动回退到主页使用搜索功能，而基础模型则陷入无效点击循环。具身导航任务中，训练后的模型能系统性探索环境，遇到阻碍时选择替代路径，基础模型则常在已探索区域徘徊。

环境结构对学习效果的影响研究带来重要启示。在规则明确的模拟环境中，如数字游戏和科学实验，强化学习效果最为显著，模型得分提升幅度接近50个百分点。而在更开放的网页导航和深度搜索环境中，提升幅度相对温和。这表明训练初期应优先选择结构化环境，逐步引入复杂场景。

这项研究不仅在技术上取得突破，更体现了方法创新的重要性。通过渐进式训练和多样化环境设计，小规模模型也能获得强大能力。开源框架的发布为全球研究者提供了研究基础，促进了AI智能体技术的普及。研究显示，中国在AI基础研究领域的创新能力正不断提升，为国际AI社区贡献了新的智慧。

对技术细节感兴趣的读者可访问项目GitHub页面获取完整代码和数据集，或查阅arXiv平台上的完整论文（编号：arXiv:2509.08755v1）。这项研究将推动AI从简单问答向真正理解复杂任务、制定长期计划的智能伙伴发展，在网页操作、信息搜索、科学研究等领域展现广阔应用前景。

更多>同类资讯Meta实验室新突破：AI模型开启"自我对弈"模式，不依赖数据也能持续进化09-23联发科天玑9500首推双NPU架构，让AI常驻手机开启主动服务新体验09-23DeepSeek-V3.1升级至Terminus版优化语言一致性及Agent能力09-23斯坦福等高校联手：用LMEnt套件追踪AI语言模型知识学习轨迹09-23AI搜索的数学边界：当最强大模型遇上"简单问题"的隐秘困局09-23中科院团队创新CARVE法：破解AI视觉“分心”难题，助模型精准聚焦09-23Plaud携三款AI纪要新品入局大陆市场，多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus，输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus：语言更一致，代理更强大，输出更稳定09-23上海人工智能实验室牵头！科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布：修复Bug，编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破：首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场！修复关键Bug，Agent能力跃升，V4还会远吗？09-23百度智能云千帆开源Qianfan-VL视觉模型，多尺寸适配，全自研芯片赋能高效计算09-23点击查看更多 +全站最新

9月狭义乘用车零售预计达215万辆，新能源车渗透率或超58%引关注

6.88万起极狐T1实测：空间越级配置足，小电车市场杀出“全能王”？

雷军官宣小米17系列9月25日发布，卢伟冰称产品力跨代升级且对标iPhone17

小米17系列9月25日发布在即，雷军年度演讲《改变》将揭秘芯片与汽车故事

雷军宣布：9月25日小米17系列发布，同期将举办第6次年度演讲聊芯片与汽车故事

小米SU7标准版11.7万辆召回：OTA升级背后的智能驾驶安全与行业新挑战热门内容

寒武纪回应订单不实传闻：产品多行业部署，存货增长因云端备货
热度攀升！千亿科技龙头频获机构调研，业务增长透露哪些行业新动向？
苹果加速AI布局，或收购两家法国AI初创企业
苹果秋季发布会亮相iPhone 17系列："史上最薄"Air登场，Pro Max 2TB版定价17999元
苹果加速布局中国市场！Apple Intelligence和新版Siri或年底至明年上线
小米16系列或提前登场，首发骁龙8 Elite Gen5，9月机圈大战一触即发
均胜电子新品亮相：AI头部总成、全域控制器等完善机器人产品矩阵
国金证券：A股第三轮重估脚步临近，三类资产投资方向值得关注
苹果AI布局加速，或将斥巨资收购欧洲两大AI初创企业
18岁涂津豪：从DeepSeek实习生到Nature封面作者，以少年之力叩响AI新章
WAVE SUMMIT大会新动态：文心大模型X1.1上线，多项能力显著跃升
华为智能手表登顶全球，苹果需直面挑战求变革
‍字节跳动千人芯片团队架构调整，转至新加坡子公司Picoheart引关注‍
华为Mate系列2025年选购指南：三款高性价比机型技术解析与场景适配
${亚马逊发布"2025产品创新出海品牌五十强"：出口跨境电商规模达2.15万亿

本栏最新

第22届东博会AI元素亮眼：数字智能体引路机器人炫技展风采

AI云竞争下半场：华为以超节点、企业Agent等破局，谁能领跑产业？

2025网安周：每日互动刘宇谈AI时代，知识安全成关键，共筑数字新未来

中国大模型DeepSeek首登Nature封面，R1训练成本仅约208万引关注

华为全联接大会2025启幕，发布全球最强算力超节点与集群

有鹿机器人+连合直租：以智能租赁模式，开启高端场景清洁新未来

本文链接：http://www.28at.com/showinfo-45-27964-0.html复旦大学AgentGym-RL框架：小模型大智慧，AI智能体学会复杂任务长期规划

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Orange Research DivMerge技术：智能拼装AI模型，解锁多任务处理新境界

下一篇： Meta实验室新突破：AI模型开启"自我对弈"模式，不依赖数据也能持续进化

标签：

热门焦点

沉寂3年，大模型激活小度天猫精灵？

Tech星球（微信ID：tech618）文 | 何煦阳沉寂了许久的智能音箱，在今年大模型横空出世之后，又再次燃起了新的希望。 2月9日，小度宣布将融合文心一言，打造针对智能设备场景的AI模型&ldq
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
权限风波过后 X2Y2如何挑战OpenSea？

继LooksRare之后，又一个OpenSea挑战者X2Y2来了。上周，X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投，并启动了「挂单挖矿」的奖励机制。这场早期激励活动
Shiba Inu布局元宇宙走出Meme局限

以「狗狗币杀手」成名的Shiba Inu（SHIB）在人们的印象中始终有着浓厚的Meme（模因恶搞）烙印，但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后，Shiba Inu
过去女性在互联网领域是半边天，在Web3，将会是整片天！

Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中，如果女性在创造性方面发挥更大的作用，可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
Meta 在衰落吗？

扎克伯格已经很久没有出现在公众视野里了，近日，他罕见的接受播客采访，在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点：是的阿伦·达
FTX 加密货币交易所开始向游戏公司提供加密服务

据媒体报道，业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示，计划推出自己的游戏部门作为中介，专注于为传统游戏公司提供加密相关服务。此举将有助于
HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

今日热点：HTC Vive正式推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商北京蜂巢科技；面部追踪和眼动追踪是Quest下一版本的“重点”；索尼PSVR 2将推迟至2023
PayPal CEO 的加密语录：加密货币将重新定义金融世界

PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头，已经允许美国和英国的用户交易或持有比特币（BTC）、以太坊（ETH）、比特现金（BCH

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

复旦大学AgentGym-RL框架：小模型大智慧，AI智能体学会复杂任务长期规划

沉寂3年，大模型激活小度天猫精灵？

比特币的价格越高，使用价值越大

权限风波过后 X2Y2如何挑战OpenSea？

Shiba Inu布局元宇宙走出Meme局限

过去女性在互联网领域是半边天，在Web3，将会是整片天！

Meta 在衰落吗？

FTX 加密货币交易所开始向游戏公司提供加密服务

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

PayPal CEO 的加密语录：加密货币将重新定义金融世界

最新推荐

索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

音乐家如何利用NFTs来提高歌迷参与度

顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

从NFT数字收藏，洞察数字音乐版权市场发展趋势

猜你喜欢

热门推荐

相关资讯