当前位置:首页 > 科技  > 手机

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

来源: 责编: 时间:2024-09-20 16:06:34 202观看
导读 快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。Llama3.1-405B作为4000亿参数规

快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。2at28资讯网——每日最新资讯28at.com

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。2at28资讯网——每日最新资讯28at.com

另外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。2at28资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型2at28资讯网——每日最新资讯28at.com

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。2at28资讯网——每日最新资讯28at.com

其中,天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。2at28资讯网——每日最新资讯28at.com

在目前业内大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。2at28资讯网——每日最新资讯28at.com

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。2at28资讯网——每日最新资讯28at.com

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。2at28资讯网——每日最新资讯28at.com

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。2at28资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型2at28资讯网——每日最新资讯28at.com

自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。2at28资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型2at28资讯网——每日最新资讯28at.com

天翼云国产化万卡智算中心还有多项技术突破——2at28资讯网——每日最新资讯28at.com

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。2at28资讯网——每日最新资讯28at.com

自动断点续训系统:2at28资讯网——每日最新资讯28at.com

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险;2at28资讯网——每日最新资讯28at.com

通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。2at28资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型2at28资讯网——每日最新资讯28at.com

高速多级CheckPoint系统:2at28资讯网——每日最新资讯28at.com

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并终异步写入远端系统;2at28资讯网——每日最新资讯28at.com

针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。2at28资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型2at28资讯网——每日最新资讯28at.com

全链路检测工具链:2at28资讯网——每日最新资讯28at.com

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。2at28资讯网——每日最新资讯28at.com

该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。2at28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-114898-0.html中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 小米15入网,3999元一去不复返

下一篇: 自己搞定卡脖子技术!余承东:制裁某种意义是坏事变好事

标签:
  • 热门焦点
  • MIX Fold3包装盒泄露 新机本月登场

    小米的全新折叠屏旗舰MIX Fold3将于本月发布,近日该机的真机包装盒在网上泄露。从图上来看,新的MIX Fold3包装盒在外观设计方面延续了之前的方案,变化不大,这也是目前小米旗舰
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • 企业采用CRM系统的11个好处

    客户关系管理(CRM)软件可以为企业提供很多的好处,从客户保留到提高生产力。  CRM软件用于企业收集客户互动,以改善客户体验和满意度。  CRM软件市场规模如今超过580
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 余承东:AI大模型技术的发展将会带来下一代智能终端操作系统的智慧体验

    8月4日消息,2023年华为开发者大会(HDC.Together)今天正式开幕,华为发布HarmonyOS 4、全新升级的鸿蒙开发套件、HarmonyOS Next开发者预览版本等一系列
  • 滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 存在16项违法事实开始于2121年7月,历经一年时间,网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
  • 联想小新Pad Pro 12.6将要推出,搭载高通骁龙 870 处理器

    联想小新Pad Pro 12.6将于秋季新品会上推出,官方按照惯例直接在发布会前给出了机型的所有参数。联想小新 Pad Pro 12.6 将搭载高通骁龙 870 处理器,重量为 5
Top