当前位置：首页 > 科技 > 手机

训练MoE足足提速70% 华为只用了3招

来源：责编：时间：2025-06-04 08:02:10 195观看

导读 Scaling Law之下，MoE（混合专家）如今已经成为各大模型厂商扩展模型能力的制胜法宝。不过，在高效实现模型参数规模化的同时，MoE的训练难题也日益凸显：训练效率不足，甚至一半以上训练时间都浪费在“等待”

Scaling Law之下，MoE（混合专家）如今已经成为各大模型厂商扩展模型能力的制胜法宝。

不过，在高效实现模型参数规模化的同时，MoE的训练难题也日益凸显：

训练效率不足，甚至一半以上训练时间都浪费在“等待”上。

训练MoE足足提速70% 华为只用了3招

现在，为了突破MoE的训练瓶颈，华为出手了：

构建了一套名为Adaptive Pipe & EDPB的优化方案，开启“上帝视角”，让MoE面临“交通拥堵”的训练集群，实现无等待流畅运行。

MoE大规模训练难题：一半以上的训练时间在等待？

实践已经表明，MoE模型训练集群的效率面临两方面挑战：

首先，是专家并行引入了计算和通信等待。

当模型规模较大时，需要切分专家到不同设备形成并行（EP），这就引入额外All-to-All通信。

与此同时，MoE层绝大部分EP通信与计算存在时序依赖关系，一般的串行执行模式会导致大量计算单元空闲，等待通信。

训练MoE足足提速70% 华为只用了3招

其次，负载不均会引入计算和计算等待。

MoE算法核心是“有能者居之”，在训练过程中会出现部分热专家被频繁调用，而冷专家使用率较低的情况。

同时，真实训练数据的长度不一，不同的模型层（如稀疏层、嵌入层等）的计算量也存在明显差异，造成不同卡之间计算也在互相等待。

用一个形象点的说法就是，MoE训练系统就像一个存在局部交通阻塞的城区，面临两大核心问题：

-人车混行阻塞：所有车辆（计算）与行人（通信）在红绿灯交替通行，互相等待。

-车道分配僵化：固定划分的直行、左转车道就像静态的专家分配，导致热门车道（热专家）大排长龙，而冷门车道（冷专家）闲置。

针对以上问题，华为团队打造了“智慧化交通”设施：

首先，建造“行人地下通道”（通信掩盖技术），彻底分离人车动线，使计算不再等待通信。

其次，部署“智能可变车道”（动态专家路由），根据实时车流（数据分布）动态调整车道功能，让闲置的左转车道也能分担直行压力，实现负载均衡。

这套组合方案既解决了资源分配不均的问题，又消除了通信阻塞的瓶颈，就像为城市交通装上了“智慧大脑”，让每个方向的通行效率都得到大化提升。

DeployMind仿真平台，小时级自动并行寻优

具体来说，华为首先构建了名为DeployMind的仿真平台，它是一个基于昇腾硬件训练系统的“数字孪生”平台，通过计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术，能在1小时内模拟百万次训练场景，实现MoE模型多样化训练负载的快速分析和自动找到与集群硬件规格匹配的优策略选择。

在训练实践验证中，该建模框架可达到90%精度指标，实现低成本且高效的优并行选择。

针对Pangu Ultra MoE 718B模型，在单卡内存使用约束下，华为通过DeployMind以训练性能为目标找到了TP8/PP16/VPP2/EP32（其中TP只作用于Attention），这一适合昇腾集群硬件规格的并行方案，综合实现计算、通信、内存的佳平衡。

通信掩盖>98%，让计算不再等待通信

华为还提出了一套名为Adaptive Pipe的通信掩盖框架。在DeployMind仿真平台自动求解优并行的基础上，采用层次化All-to-All降低机间通信和自适应细粒度前反向掩盖，实现通信几乎“零暴露”。

层次化专家并行通信

针对不同服务器之间通信带宽低，但机内通信带宽高的特点，华为创新地将通信过程拆成了两步走：

第一步，让各个机器上“位置相同”的计算单元联手，快速地从所有机器上收集完整的数据块（Token）；

第二步，每台机器内部先对数据块进行整理，然后利用机器内部的高速通道，快速完成互相交换。

这种分层设计的巧妙之处在于，它把每个数据块多的复制分发操作都限制在单台机器内部的高速网络上完成，而在跨机器传输时，每个数据块只需要发送一份拷贝，相比传统All-to-All通信加速1倍。

也就是说，有效通过减少跨机通信，提升了集群的通信速度。

自适应细粒度前反向掩盖

在DualPipe掩盖框架的基础上，华为基于虚拟流水线并行技术，实现了更精密的调度，即Adaptive Pipe。

训练MoE足足提速70% 华为只用了3招

相比DualPipe，Adaptive Pipe仅利用一份权重，不仅将流水线并行所需的内存占用减半，有效降低了计算“空泡”，释放了流水线的峰值性能潜力；同时，该策略能够额外实现与分层通信的完美协同，无缝覆盖机间与机内两层通信的掩盖。

在这种层次化通信和细粒度计算通信切分调度优化下，Adaptive Pipe可实现98%以上的EP通信掩盖，让计算引擎不受通信等待的束缚。

训练MoE足足提速70% 华为只用了3招

克服负载不均，训练再加速25%

由于MoE模型训练过程中天然存在的负载不均问题，集群训练效率时高时低，华为团队还提出了EDPB全局负载均衡，实现专家均衡调度。

在优并行和通信掩盖基础上，EDPB再取得了25.5%的吞吐提升收益。

训练MoE足足提速70% 华为只用了3招 △集群P2P通信分析对比

所谓EDPB，E是专家预测动态迁移。

MoE模型训练中，设备间的专家负载不均衡如同“跷跷板”——部分设备满载运行，另一些却处于“半休眠”状态。团队提出了基于多目标优化的专家动态迁移技术，让专家在分布式设备间“智能流动”。

该技术主要有三个特点：

-预测先行，让专家负载“看得见未来”：预测负载趋势，实现“计算零存储开销，预测毫秒级响应”；

-双层优化，计算与通信的黄金分割点：提出节点-设备双层贪心优化架构，在让计算资源“齐步走”的同时，给通信链路“减负”；

-智能触发，给专家迁移装上“红绿灯”：设计分层迁移阈值机制，通过预评估迁移收益动态决策，实现专家迁移的智能触发。

训练MoE足足提速70% 华为只用了3招 △基于专家动态迁移的EP间负载均衡整体框架图

D是数据重排Attention计算均衡。

在模型预训练中普遍采用数据拼接固定长度的策略，但跨数据的稀疏Attention计算量差异显著，会引入负载不均衡问题，导致DP间出现“快等慢”的资源浪费。

为解决这一问题，华为团队提出了一种精度无损的动态数据重排方案，其核心在于：通过线性模型量化单样本计算耗时，在严格保持训练精度无损下，批次内采用贪心算法构建小化耗时的数据重排，实现负载均衡。

P是虚拟流水线层间负载均衡。

MoE模型通常采用混合结构，Dense层、MTP层、输出层所在的Stage与纯MoE层所在的Stage负载不均，会造成的Stage间等待。

华为团队提出虚拟流水线层间负载均衡技术，将MTP层与输出层分离，同时将MTP Layer的 Embedding计算前移至首个Stage，有效规避Stage间等待问题，实现负载均衡。

训练MoE足足提速70% 华为只用了3招 △基于异构模块设计的VPP并行负载均衡

系统端到端72.6%训练吞吐提升

在Pangu Ultra MoE 718B模型的训练实践中，华为团队在8K序列上测试了Adaptive Pipe & EDPB吞吐收益情况。

实验结果显示，在优并行策略的初始性能基础上，华为这套“通信掩盖+动态专家迁移”的优化方案，能实现系统端到端72.6%的训练吞吐提升。

训练MoE足足提速70% 华为只用了3招

总而言之，华为的这套打法可以说是为大模型训练优化提供了关键路径。感兴趣的小伙伴可以再通过完整技术报告深入了解——

技术报告地址：https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization

文章出处：量子位

本文链接：http://www.28at.com/showinfo-22-155755-0.html训练MoE足足提速70% 华为只用了3招

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： REDMI电竞小平板本月发：8英寸板王

下一篇：性能碾压竞品！紫光展锐W527穿戴芯片发布：12nm工艺、支持4G

标签：

热门焦点

JavaScript 混淆及反混淆代码工具

介绍在我们开始学习反混淆之前，我们首先要了解一下代码混淆。如果不了解代码是如何混淆的，我们可能无法成功对代码进行反混淆，尤其是使用自定义混淆器对其进行混淆时。什么是混
CSS单标签实现转转logo

转转品牌升级后更新了全新的Logo，今天我们用纯CSS来实现转转的新Logo，为了有一定的挑战性，这里我们只使用一个标签实现，将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
得物效率前端微应用推进过程与思考

一、背景效率工程随着业务的发展，组织规模的扩大，越来越多的企业开始意识到协作效率对于企业团队的重要性，甚至是决定其在某个行业竞争中突围的关键，是企业长久生存的根本。得物
零售大模型“干中学”，攀爬数字化珠峰

文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言，攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条，一是尼泊尔境内的南坡路线，一是中国境内的北坡路线。相
OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

7月20日消息，据外媒报道，研究机构的报告显示，在全球智能手机出货量同比仍在下滑的大背景下，印度这一有潜力的市场也未能幸免，出货量同比也有下滑，多家厂
华为发布HarmonyOS 4：更好玩、更流畅、更安全

在8月4日的华为开发者大会2023（HDC.Together）大会上，HarmonyOS 4正式发布。自2019年发布以来，HarmonyOS一直以用户为中心，经历四年多的发展HarmonyOS已
华为Mate60标准版细节曝光：经典星环相机模组回归

这段时间以来，关于华为新旗舰的爆料日渐密集。据此前多方爆料，今年华为将开始恢复一年双旗舰战略，除上半年推出的P60系列外，往年下半年的Mate系列也将
联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

联想小新Pad Pro 12.6将于秋季新品会上推出，官方按照惯例直接在发布会前给出了机型的所有参数。联想小新 Pad Pro 12.6 将搭载高通骁龙 870 处理器，重量为 5
2021中国国际消费电子博览会与青岛国际软件融合创新博览会新闻发布会隆重举行

9月18日，2021中国国际消费电子博览会与青岛国际软件融合创新博览会新闻发布会在青岛国际新闻中心隆重举行。发布会上青岛市政府领导联袂出席，对本次双展会情

训练MoE足足提速70% 华为只用了3招

JavaScript 混淆及反混淆代码工具

CSS单标签实现转转logo

得物效率前端微应用推进过程与思考

零售大模型“干中学”，攀爬数字化珠峰

OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

华为发布HarmonyOS 4：更好玩、更流畅、更安全

华为Mate60标准版细节曝光：经典星环相机模组回归

联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

2021中国国际消费电子博览会与青岛国际软件融合创新博览会新闻发布会隆重举行

最新推荐

猜你喜欢

热门推荐

相关资讯