当前位置:首页 > 科技  > 软件

摩尔线程王华解析:大智算集群时代,FP8精度与集群可靠性助力万亿模型训练

来源: 责编: 时间:2025-08-04 10:13:04 141观看
导读随着人工智能领域对算力的需求呈现指数级增长,大智算集群已成为模型训练不可或缺的基础设施。这一趋势的背后,是模型参数与数据量的不断膨胀,驱动着算力需求的急剧上升。从GPT、Llama到Grok等主流模型的发展历程中,算力需

随着人工智能领域对算力的需求呈现指数级增长,大智算集群已成为模型训练不可或缺的基础设施。这一趋势的背后,是模型参数与数据量的不断膨胀,驱动着算力需求的急剧上升。从GPT、Llama到Grok等主流模型的发展历程中,算力需求的增长尤为显著,Grok-4等最新模型的算力需求已较早期模型提升了近千倍。lvu28资讯网——每日最新资讯28at.com

在大规模集群训练的场景下,算力需求的增长带来了前所未有的挑战。以DeepSeek、Kimi K2及GPT-4等模型为例,其训练所需的算力及时间成本均极为高昂。即便是采用高性能的英伟达H100集群,训练这些模型也需耗费数十天乃至数百天的时间。因此,单纯依靠扩大集群规模已难以满足当前的算力需求,亟需探索新的解决方案。lvu28资讯网——每日最新资讯28at.com

在这一背景下,低精度训练成为了提升训练效率的关键途径。从FP32到FP16,再到如今的FP8,精度的降低带来了算力的显著提升。然而,精度的下降也伴随着模型效果的损失。如何在精度与算力之间找到平衡点,成为了业界关注的焦点。摩尔线程副总裁王华在WAIC2025期间的摩尔线程技术分享日上,以《基于FP8的国产万卡训练》为主题,分享了摩尔线程在这一领域的创新与思考。lvu28资讯网——每日最新资讯28at.com

王华指出,通过引入精度参数,可以构建新的Scaling Law模型,从而在参数量、数据量与精度之间找到最优配置。实验结果表明,FP8成为了精度与算力之间的最佳平衡点。然而,低精度训练也面临着诸多挑战,如数值范围小、易上溢下溢等问题。为解决这些问题,摩尔线程采用了混合精度训练等技术手段,对非敏感部分采用FP8进行计算,而对敏感部分则继续使用高精度。lvu28资讯网——每日最新资讯28at.com

lvu28资讯网——每日最新资讯28at.com

在软硬件支持方面,摩尔线程提供了全栈的完整解决方案。硬件上,其GPU支持从FP64到FP8的全精度算力;软件上,摩尔线程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等开源框架,这些框架均支持FP8混合精度训练,并实现了对FP8数据类型的完整支持。在此基础上,摩尔线程成功复现了DeepSeek-V3的整个训练过程,成为业内率先能复现DeepSeek满血版训练的厂商。lvu28资讯网——每日最新资讯28at.com

王华还分享了摩尔线程在FP8训练上的探索与实验。在scaling factor的选择及outlier的影响等方面,摩尔线程进行了深入的研究,并提出了有效的解决方案。例如,在scaling factor的选择上,摩尔线程采用了Per-Tensor及JIT动态的scaling factor选择策略;在降低outlier影响方面,则采用了Smooth SwiGLU等技术手段。lvu28资讯网——每日最新资讯28at.com

在大规模集群训练方面,摩尔线程同样取得了显著的进展。为提高集群训练的可靠性,摩尔线程引入了起飞检查、飞行检查及落地检查等训练生命周期管理措施。同时,针对慢节点及容错训练等问题,摩尔线程也提出了相应的解决方案。例如,在慢节点检测方面,摩尔线程通过起飞检查阶段的小工作负载测试及训练过程中的通信执行时间监测等手段,有效识别并解决了慢节点问题;在容错训练方面,则采用了动态摘除故障节点等策略,确保了集群训练的持续稳定运行。lvu28资讯网——每日最新资讯28at.com

lvu28资讯网——每日最新资讯28at.com

王华的分享不仅展示了摩尔线程在FP8低精度训练及大规模集群训练方面的创新成果,也为业界提供了宝贵的参考与借鉴。随着人工智能技术的不断发展,摩尔线程将继续深耕这一领域,为人工智能的未来发展贡献更多力量。lvu28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-175375-0.html摩尔线程王华解析:大智算集群时代,FP8精度与集群可靠性助力万亿模型训练

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 2025世界机器人大会启幕:科技创新引领,共筑机器人产业新生态

下一篇: 库克接任苹果CEO时长破纪录,超越乔布斯成历史最长任期CEO

标签:
  • 热门焦点
  • vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • JavaScript学习 -AES加密算法

    引言在当今数字化时代,前端应用程序扮演着重要角色,用户的敏感数据经常在前端进行加密和解密操作。然而,这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 从零到英雄:高并发与性能优化的神奇之旅

    作者 | 波哥审校 | 重楼作为公司的架构师或者程序员,你是否曾经为公司的系统在面对高并发和性能瓶颈时感到手足无措或者焦头烂额呢?笔者在出道那会为此是吃尽了苦头的,不过也得
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • iQOO 11S或7月上市:搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

    去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top