当前位置:首页 > 科技  > 手机

华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力

来源: 责编: 时间:2025-08-28 10:20:34 161观看
导读 快科技8月27日消息,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。通过xDeepServe架构创新,单芯片高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

快科技8月27日消息,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点9yV28资讯网——每日最新资讯28at.com

通过xDeepServe架构创新,单芯片高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。9yV28资讯网——每日最新资讯28at.com

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。9yV28资讯网——每日最新资讯28at.com

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。9yV28资讯网——每日最新资讯28at.com

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。9yV28资讯网——每日最新资讯28at.com

华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力9yV28资讯网——每日最新资讯28at.com

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。9yV28资讯网——每日最新资讯28at.com

首先,CloudMatrix384超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基;CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”,彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。9yV28资讯网——每日最新资讯28at.com

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。9yV28资讯网——每日最新资讯28at.com

之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。9yV28资讯网——每日最新资讯28at.com

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。9yV28资讯网——每日最新资讯28at.com

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。9yV28资讯网——每日最新资讯28at.com

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。9yV28资讯网——每日最新资讯28at.com

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。9yV28资讯网——每日最新资讯28at.com

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。9yV28资讯网——每日最新资讯28at.com

以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,大尺寸支持2K×2K。9yV28资讯网——每日最新资讯28at.com

而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。9yV28资讯网——每日最新资讯28at.com

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。9yV28资讯网——每日最新资讯28at.com

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。9yV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-179092-0.html华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 星闪日本正式成立!我国自研无线技术出海里程碑

下一篇: 华为Mate XTs非凡大师官宣定档9月4日 超强配置前瞻

标签:
  • 热门焦点
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面,外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • 当家的盒马,加速谋生

    来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马,开始加速谋生了。据盒马官微消息,盒马计划今年开放生鲜供应链,将其生鲜商品送往食堂。目前,盒马在上海已经与
  • iQOO Neo8系列今日官宣:首发天玑9200+ 全球安卓最强芯!

    在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上,iQOO官方也正式宣布,全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台
  • SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘,不仅闪存技术更为精进,性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外
Top