当前位置:首页 > 科技  > 互联网

阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

来源: 责编: 时间:2025-09-19 17:57:56 204观看
导读阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。在人类终极考试基准

阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。JmN28资讯网——每日最新资讯28at.com

在人类终极考试基准HLE测试中,通义DeepResearch以32.9%的准确率登顶全球榜首,领先第二名DeepSeek-V3.1达3.1个百分点,较OpenAI同类模型高出6.3个百分点。该模型在BrowseComp开源榜单上同样表现惊艳,43.4%的准确率刷新行业纪录。值得注意的是,如此强劲的性能仅需30B参数规模,实际激活参数仅3B,开创了轻量化模型实现深度研究的新范式。JmN28资讯网——每日最新资讯28at.com

研发团队同步公开了核心技术体系,包括智能体合成数据生成框架和双模式推理架构。在数据构建层面,创新性地采用AgentFounder方法,通过整合知识图谱、网页数据和工具使用轨迹,构建出覆盖开放世界的记忆库。后训练阶段开发的WebSailor V2系统,能够自动生成包含迷雾设置和跨学科难题的高质量数据集,数据质量较人工标注提升显著。JmN28资讯网——每日最新资讯28at.com

该模型独创的ReAct与Heavy双模式推理机制,有效解决了长程任务中的认知过载问题。Heavy模式通过迭代重构工作空间,将复杂任务分解为多个研究轮次,确保在超长上下文中保持推理质量。实验数据显示,采用Research-Synthesis框架的并行研究模式,可使模型在复杂基准上的性能提升12%-15%。JmN28资讯网——每日最新资讯28at.com

技术实现层面,团队构建了全栈式强化学习基础设施。通过离线维基百科和定制工具套件搭建的仿真环境,配合工具沙盒的缓存重试机制,使训练效率提升3倍以上。基于GRPO算法的优化策略,结合token级损失函数和留一法筛选,成功将策略熵维持在高位,确保模型持续进化能力。JmN28资讯网——每日最新资讯28at.com

实际应用场景中,该技术已深度赋能高德地图和法律智能体。在高德V16版本中,集成Deep Research能力的POI推理Agent可精准处理地理区域、交通约束等复杂需求,用户输入"西湖边4.5分以上带儿童餐的浙菜馆,距地铁站1公里内"等条件时,系统能瞬间生成最优方案。法律领域落地的通义法睿,通过迭代规划架构实现多步查询,在案例引用和法条匹配质量上超越国际主流模型。JmN28资讯网——每日最新资讯28at.com

开源项目上线后迅速引发开发者热潮,GitHub仓库已收获7.2k星标,Hugging Face和ModelScope平台模型下载量持续攀升。斯坦福NLP实验室等权威机构第一时间转发技术报告,称赞其"重新定义了轻量模型的深度研究边界"。随着端到端训练框架和合成数据体系的全面公开,AI社区正迎来新一轮研究范式变革。JmN28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-182728-0.html阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta携手Oakley推运动智能眼镜Vanguard,续航强、设计轻或成市场新宠

下一篇: 小米YU7高性能版现身纽北赛道,或命名YU7 GT/Ultra,动力性能升级引期待

标签:
  • 热门焦点
  • vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 三星显示已开始为AR设备研发硅基LED微显示屏

    7月18日消息,据外媒报道,随着苹果首款头显产品Vision Pro在6月份正式推出,AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域,对显示屏这一关
  • 支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    2023年7月4日,“无损音质,声动人心”iQOO TWS 1正式发布,支持aptX Lossless无损传输,限时优惠价369元。iQOO TWS 1耳机率先支持端到端aptX Lossless无
  • 2299元起!iQOO Pad开启预售:性能最强天玑平板

    5月23日,iQOO如期举行了新品发布会,除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外,还在发布会上推出了旗下首款平板电脑——iQOO Pad,其搭载了天玑
  • OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    据此前官方宣布,OPPO将于7月25日也就是今天下午14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖
  • “买真退假” 这种“羊毛”不能薅

    □ 法治日报 记者 王春   □ 本报通讯员 胡佳丽  2020年初,还在上大学的小东加入了一个大学生兼职QQ群。群主“七王”在群里介绍一些刷单赚
Top