当前位置:首页 > 科技  > 互联网

阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

来源: 责编: 时间:2025-09-19 17:57:56 131观看
导读阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。在人类终极考试基准

阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。TGZ28资讯网——每日最新资讯28at.com

在人类终极考试基准HLE测试中,通义DeepResearch以32.9%的准确率登顶全球榜首,领先第二名DeepSeek-V3.1达3.1个百分点,较OpenAI同类模型高出6.3个百分点。该模型在BrowseComp开源榜单上同样表现惊艳,43.4%的准确率刷新行业纪录。值得注意的是,如此强劲的性能仅需30B参数规模,实际激活参数仅3B,开创了轻量化模型实现深度研究的新范式。TGZ28资讯网——每日最新资讯28at.com

研发团队同步公开了核心技术体系,包括智能体合成数据生成框架和双模式推理架构。在数据构建层面,创新性地采用AgentFounder方法,通过整合知识图谱、网页数据和工具使用轨迹,构建出覆盖开放世界的记忆库。后训练阶段开发的WebSailor V2系统,能够自动生成包含迷雾设置和跨学科难题的高质量数据集,数据质量较人工标注提升显著。TGZ28资讯网——每日最新资讯28at.com

该模型独创的ReAct与Heavy双模式推理机制,有效解决了长程任务中的认知过载问题。Heavy模式通过迭代重构工作空间,将复杂任务分解为多个研究轮次,确保在超长上下文中保持推理质量。实验数据显示,采用Research-Synthesis框架的并行研究模式,可使模型在复杂基准上的性能提升12%-15%。TGZ28资讯网——每日最新资讯28at.com

技术实现层面,团队构建了全栈式强化学习基础设施。通过离线维基百科和定制工具套件搭建的仿真环境,配合工具沙盒的缓存重试机制,使训练效率提升3倍以上。基于GRPO算法的优化策略,结合token级损失函数和留一法筛选,成功将策略熵维持在高位,确保模型持续进化能力。TGZ28资讯网——每日最新资讯28at.com

实际应用场景中,该技术已深度赋能高德地图和法律智能体。在高德V16版本中,集成Deep Research能力的POI推理Agent可精准处理地理区域、交通约束等复杂需求,用户输入"西湖边4.5分以上带儿童餐的浙菜馆,距地铁站1公里内"等条件时,系统能瞬间生成最优方案。法律领域落地的通义法睿,通过迭代规划架构实现多步查询,在案例引用和法条匹配质量上超越国际主流模型。TGZ28资讯网——每日最新资讯28at.com

开源项目上线后迅速引发开发者热潮,GitHub仓库已收获7.2k星标,Hugging Face和ModelScope平台模型下载量持续攀升。斯坦福NLP实验室等权威机构第一时间转发技术报告,称赞其"重新定义了轻量模型的深度研究边界"。随着端到端训练框架和合成数据体系的全面公开,AI社区正迎来新一轮研究范式变革。TGZ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-182728-0.html阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta携手Oakley推运动智能眼镜Vanguard,续航强、设计轻或成市场新宠

下一篇: 小米YU7高性能版现身纽北赛道,或命名YU7 GT/Ultra,动力性能升级引期待

标签:
  • 热门焦点
  • 六大权益!华为8月服务日开启:手机免费贴膜、维修免人工费

    8月5日消息,一年一度的华为开发者大会2023(Together)日前在松山湖拉开帷幕,与此同时,华为8月服务日也式开启,到店可享六大专属权益。华为用户可在华为商城Ap
  • 一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    8月5日消息,此前就有爆料称,一加首款折叠屏手机将会在第三季度上市,如今随着时间临近,新机的各种消息也开始浮出水面。据悉,这款新机将会被命名为“On
  • 三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 华为HarmonyOS 4升级计划公布:首批34款机型今日开启公测

    8月4日消息,今天下午华为正式发布了HarmonyOS 4系统,在更流畅的前提下,还带来了不少新功能,UI设计也有变化,会让手机焕然一新。华为宣布,首批机型将会在
Top