当前位置:首页 > 元宇宙 > AI

华为盘古718B模型如何突围?从数据质量到Agent能力的系统化创新

来源: 责编: 时间:2025-09-30 10:28:16 70观看
导读在最新一期的SuperCLUE中文大模型通用基准测评中,华为凭借其7180亿参数的MoE架构大模型openPangu-Ultra-MoE-718B跻身前三,与DeepSeek-V3.1、Qwen3-235B等开源模型同台竞技。这一成绩的背后,是团队对模型训练逻辑的深度

在最新一期的SuperCLUE中文大模型通用基准测评中,华为凭借其7180亿参数的MoE架构大模型openPangu-Ultra-MoE-718B跻身前三,与DeepSeek-V3.1、Qwen3-235B等开源模型同台竞技。这一成绩的背后,是团队对模型训练逻辑的深度重构——通过数据质量优先、三阶段预训练、批判性思维内化等创新策略,突破了传统“堆数据”的路径依赖。bPx28资讯网——每日最新资讯28at.com

数据构建环节,团队摒弃了“以量取胜”的常规做法,转而建立“质量评估-科学筛选-精准增强”的全流程体系。在指令数据清洗阶段,采用规则、模型、人工三重审核机制,确保低质量样本被彻底过滤;在任务设计上,通过领域与任务类型的双重维度覆盖,结合去重算法避免冗余;针对模型易在简单任务上过拟合的问题,团队量化推理步骤、概念抽象度等指标,重点强化中高难度任务的训练比例。这种对数据质量的严苛把控,为模型在复杂场景下的推理能力奠定了基础。bPx28资讯网——每日最新资讯28at.com

预训练阶段,团队将整个过程拆解为通用、推理、退火三个递进阶段。通用阶段通过海量文本与代码数据,构建模型的世界知识基础;推理阶段大幅增加泛数学、STEM及代码数据的比重,并引入高难度多步骤推理题库,配合详细思维链(CoT)引导模型学习逻辑路径;退火阶段则通过阶梯式扩展上下文长度至128K,同时增加指令类数据与Agent工具使用数据,使模型逐步掌握外部工具调用能力。这种分阶段训练策略,有效平衡了模型的基础认知与专项能力。bPx28资讯网——每日最新资讯28at.com

针对大型语言模型普遍存在的幻觉问题,团队提出“批判内化”机制。与传统批判微调(CFT)依赖固定人类反馈数据不同,该机制在模型训练完成后,通过拒绝采样引入自我批判信号,迫使模型在生成答案时主动审视推理过程。例如,在数学推理任务中,模型需检查逻辑链条是否完整、计算步骤是否准确;在代码生成任务中,则需验证语法正确性与功能实现度。实验数据显示,这一机制使模型的指令遵从性与输出可靠性显著提升。bPx28资讯网——每日最新资讯28at.com

在工具使用能力方面,团队开发的ToolACE框架通过四项关键技术实现突破:领域工具组合技术将关联工具(如日历查询与航班预订)绑定,提供工具依赖图;交互式目标轨迹生成采用“计划-执行”分离策略,先由AI规划工具调用序列,再通过模拟环境执行;多智能体对话生成引入随机打断、反问澄清等复杂交互;多维校验与错例迭代则对生成数据进行内容满足度、状态变化正确性等多维度评估,低分数据将反哺生成策略优化。经此训练的模型,在复杂多轮交互中展现出精准的工具调用能力。bPx28资讯网——每日最新资讯28at.com

后训练阶段,团队采用“渐进动态微调-强化学习-模型融合”三步策略。渐进动态微调(PDFT)通过动态调整训练权重,避免模型对特定数据过拟合;强化学习环节选用GSPO算法,相比传统GRPO算法在训练稳定性上提升30%;模型融合阶段则通过黑盒优化算法,自动搜索不同版本模型的最佳组合权重,生成综合性能更强的最终模型。这一系列优化,使openPangu-718B在数学推理、代码生成、幻觉控制等六个维度的评估中均表现优异。bPx28资讯网——每日最新资讯28at.com

从数据筛选到训练策略,从幻觉控制到工具学习,openPangu-718B的突破印证了一个核心逻辑:大模型的竞争力不在于参数规模或数据体量,而在于对技术细节的极致打磨。当行业仍在争论“规模定律”是否适用时,华为用实践给出了另一种答案——通过系统性技术创新,同样能在激烈竞争中开辟新路径。bPx28资讯网——每日最新资讯28at.com

   更多>同类资讯华为盘古718B模型脱颖而出:数据质量与技术创新双轮驱动09-29象屿集团携手钉钉,借AI之力开启数智化新篇,3万员工共赴转型新程象屿集团此次与钉钉合作,不仅是AI技术平台的引入,更是双方对未来发展方向的高度共识。 值得一提的是,象屿集团此次全面引入钉钉One、DingTalk A1、AI听记、AI搜问、AI表格等钉钉AI新品,聚焦用…09-29云天励飞加入OISA生态,以“算力积木”助力国产AI算力突破MoE大模型瓶颈凭借在 AI 推理芯片与算力架构的长期积累,云天励飞成为 OISA 生态的重要一员。 未来,云天励飞将继续秉持“AI时代的加速器”愿景,持续迭代芯片技术与架构创新,携手 OISA 生态伙伴,共同推动智能算…09-29四川资源集团携手华为 共绘智慧矿山蓝图 探索数智化赋能新路径封面新闻记者 付文超9月29日,记者获悉,四川省自然资源投资集团有限责任公司(以下简称“四川资源集团”)与华为技术有限公司(以下简称“华为”)签署框架合作协议。 根据协议,双方将在智慧矿山规划和建设、人工智…09-29Flash Attention作者Tri Dao:英伟达GPU主导地位或三年内瓦解,AI硬件将迎多元生态他们设计了非常好的芯片,也有非常好的软件支持,这让我能够做很多有意思的事情,而这正是我追求的:能不能做出有意思的东西。举例我做的Mamba,思路是让模型把历史压缩成更小的状态向量,而不是保存完整的KV c…09-29​长智具身智能科技公司在海南成立 智元机器人长飞光纤等携手布局​09-29AMD与NVIDIA下一代AI GPU竞速:设计迭代升级,技术差距或缩小09-29中国算力生态竞速:华为开源破局,产业链协同共筑全球竞争力09-29奥特曼携OpenAI大举布局AI投资,与英伟达等合作能否成就AI未来?09-29第22届东博会AI元素爆棚:“黑科技”互动不断,共绘中国—东盟新蓝图09-29科技浪潮下的人文温度:莫言忆小学课堂“粉笔头”里的鲜活记忆09-29俄罗斯数字服务员亮相高端餐厅:AI精准推荐,重塑餐饮服务新体验09-29高德云栖大会亮剑:空间智能赋能千行百业,构建物理世界交互新生态09-29京东JDD大会发布AI全景图,推三大新品四大应用,绘万亿AI生态蓝图该体系依托Joy AI大模型打造丰富的系统能力和多元化智能体,通过AI技术构建电商购物、供应链管理等智能应用场景,系统展现了AI技术在京东电商业务中的应用,描摹出京东零售面向未来的AI电商蓝图。同时,承载新一…09-29“人机共创”三重真相:AI为翼 人为舵 共拓创作新边界09-29点击查看更多 +全站最新科大讯飞P30学习机:宝妈育儿好帮手,护眼又高效,孩子学习更轻松科大讯飞P30学习机:宝妈育儿好帮手,护眼又高效,孩子学习更轻松王心凌倾情代言!马自达EZ-60携双动力上市,11.99万起开启合资新体验王心凌倾情代言!马自达EZ-60携双动力上市,11.99万起开启合资新体验深蓝汽车X华为乾崑长沙试驾落幕:智能增程齐发力,亲子互动共团圆深蓝汽车X华为乾崑长沙试驾落幕:智能增程齐发力,亲子互动共团圆MAZDA EZ-60售价11.99万元起,王心凌代言,智能配置拉满开启电动新篇MAZDA EZ-60售价11.99万元起,王心凌代言,智能配置拉满开启电动新篇小米定制服务:以顶级工艺邂逅个性色彩,三年百色计划解锁专属汽车美学小米定制服务:以顶级工艺邂逅个性色彩,三年百色计划解锁专属汽车美学小米新品发布会全览:一图解锁系列新品亮点与指南小米新品发布会全览:一图解锁系列新品亮点与指南热门内容
  • 寒武纪回应订单不实传闻:产品多行业部署,存货增长因云端备货
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵
  • 国金证券:A股第三轮重估脚步临近,三类资产投资方向值得关注
  • 18岁涂津豪:从DeepSeek实习生到Nature封面作者,以少年之力叩响AI新章
  • ‍阿里云与英伟达达成Physical AI合作,通义大模型升级,AI算力存力大增‍
  • WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
  • 华为Mate系列2025年选购指南:三款高性价比机型技术解析与场景适配
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 人工智能浪潮下胜宏科技19亿定增落地 获270名投资者追捧
  • 深圳众擎创始人赵同阳:10月郑州设子公司 规划打造全球生产制造中心
本栏最新第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注华为全联接大会2025启幕,发布全球最强算力超节点与集群华为全联接大会2025启幕,发布全球最强算力超节点与集群有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来

本文链接:http://www.28at.com/showinfo-45-28567-0.html华为盘古718B模型如何突围?从数据质量到Agent能力的系统化创新

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 余承东宣布:鸿蒙5终端设备达2000万

下一篇: 华为盘古718B模型脱颖而出:数据质量与技术创新双轮驱动

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 量子计算在未来能否提高区块链技术的效率

    区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
Top