当前位置:首页 > 科技  > 互联网

阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

来源: 责编: 时间:2025-09-19 17:57:56 162观看
导读阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。在人类终极考试基准

阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。6Vx28资讯网——每日最新资讯28at.com

在人类终极考试基准HLE测试中,通义DeepResearch以32.9%的准确率登顶全球榜首,领先第二名DeepSeek-V3.1达3.1个百分点,较OpenAI同类模型高出6.3个百分点。该模型在BrowseComp开源榜单上同样表现惊艳,43.4%的准确率刷新行业纪录。值得注意的是,如此强劲的性能仅需30B参数规模,实际激活参数仅3B,开创了轻量化模型实现深度研究的新范式。6Vx28资讯网——每日最新资讯28at.com

研发团队同步公开了核心技术体系,包括智能体合成数据生成框架和双模式推理架构。在数据构建层面,创新性地采用AgentFounder方法,通过整合知识图谱、网页数据和工具使用轨迹,构建出覆盖开放世界的记忆库。后训练阶段开发的WebSailor V2系统,能够自动生成包含迷雾设置和跨学科难题的高质量数据集,数据质量较人工标注提升显著。6Vx28资讯网——每日最新资讯28at.com

该模型独创的ReAct与Heavy双模式推理机制,有效解决了长程任务中的认知过载问题。Heavy模式通过迭代重构工作空间,将复杂任务分解为多个研究轮次,确保在超长上下文中保持推理质量。实验数据显示,采用Research-Synthesis框架的并行研究模式,可使模型在复杂基准上的性能提升12%-15%。6Vx28资讯网——每日最新资讯28at.com

技术实现层面,团队构建了全栈式强化学习基础设施。通过离线维基百科和定制工具套件搭建的仿真环境,配合工具沙盒的缓存重试机制,使训练效率提升3倍以上。基于GRPO算法的优化策略,结合token级损失函数和留一法筛选,成功将策略熵维持在高位,确保模型持续进化能力。6Vx28资讯网——每日最新资讯28at.com

实际应用场景中,该技术已深度赋能高德地图和法律智能体。在高德V16版本中,集成Deep Research能力的POI推理Agent可精准处理地理区域、交通约束等复杂需求,用户输入"西湖边4.5分以上带儿童餐的浙菜馆,距地铁站1公里内"等条件时,系统能瞬间生成最优方案。法律领域落地的通义法睿,通过迭代规划架构实现多步查询,在案例引用和法条匹配质量上超越国际主流模型。6Vx28资讯网——每日最新资讯28at.com

开源项目上线后迅速引发开发者热潮,GitHub仓库已收获7.2k星标,Hugging Face和ModelScope平台模型下载量持续攀升。斯坦福NLP实验室等权威机构第一时间转发技术报告,称赞其"重新定义了轻量模型的深度研究边界"。随着端到端训练框架和合成数据体系的全面公开,AI社区正迎来新一轮研究范式变革。6Vx28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-182728-0.html阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta携手Oakley推运动智能眼镜Vanguard,续航强、设计轻或成市场新宠

下一篇: 小米YU7高性能版现身纽北赛道,或命名YU7 GT/Ultra,动力性能升级引期待

标签:
  • 热门焦点
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • 一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

    集微网消息,据彭博社报道,在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后,苹果、三星电子和惠普等大公司暂停向印度
  • 三星Galaxy Z Fold5官方渲染图曝光:13.4mm折叠厚度依旧感人

    据官方此前宣布,三星将于7月26日在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy Z Flip 5、
  • “买真退假” 这种“羊毛”不能薅

    □ 法治日报 记者 王春   □ 本报通讯员 胡佳丽  2020年初,还在上大学的小东加入了一个大学生兼职QQ群。群主“七王”在群里介绍一些刷单赚
Top