当前位置:首页 > 科技  > 知识百科

支持原生 FP8 和 PyTorch 2.5.0,摩尔线程开源发布 Torch-MUSA v2.0.0

来源: 责编: 时间:2025-05-11 10:24:31 251观看
导读 5 月 9 日消息,摩尔线程今日宣布推出 Torch-MUSA v2.0.0 版本,这是其面向 PyTorch 深度学习框架的 MUSA 扩展库的重要升级。新版本基于 MUSA Compute Capability 3.1 计算架构,支持原生 FP8 数据类型,支持 PyTorc

5 月 9 日消息,摩尔线程今日宣布推出 Torch-MUSA v2.0.0 版本,这是其面向 PyTorch 深度学习框架的 MUSA 扩展库的重要升级。Rcx28资讯网——每日最新资讯28at.com

新版本基于 MUSA Compute Capability 3.1 计算架构,支持原生 FP8 数据类型,支持 PyTorch 2.5.0,并通过多项针对 MUSA 计算平台的性能优化,进一步提升了对 AI 模型和大规模数据处理的支持能力。Rcx28资讯网——每日最新资讯28at.com

Rcx28资讯网——每日最新资讯28at.com

作为本次升级的核心亮点,Torch-MUSA v2.0.0 率先在国产 GPU 上实现了对 FP8 数据类型的完整支持。Rcx28资讯网——每日最新资讯28at.com

FP8 是当前 AI 计算的一种前沿低精度格式,在支持原生 FP8 的 GPU 上,大语言模型(LLM)训练采用 FP8 混合精度可大幅提高 GPU 算力,显著降低显存占用。Rcx28资讯网——每日最新资讯28at.com

摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,提升大语言模型训练和推理的效率。Rcx28资讯网——每日最新资讯28at.com

Torch-MUSA v2.0.0 在 MUSA 计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:Rcx28资讯网——每日最新资讯28at.com

新增虚拟内存管理支持:Rcx28资讯网——每日最新资讯28at.com

MUSA 虚拟内存管理技术能够有效缓解 GPU 内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于 FSDP、DeepSpeed 和 Megatron-LM 等主流大模型训练框架。Rcx28资讯网——每日最新资讯28at.com

新增 MUSA Graph 支持:Rcx28资讯网——每日最新资讯28at.com

MUSA Graph 技术将多个 MUSA 内核整合到一个图中,通过单次 CPU 调度大幅减少启动开销,提升计算效率,同时与 CUDA Graph 接口高效兼容。Rcx28资讯网——每日最新资讯28at.com

torch.compile 增加 Triton 后端支持:Rcx28资讯网——每日最新资讯28at.com

为 torch.compile 提供了 Triton-MUSA 后端支持,开发者可以直接使用 PyTorch 原生接口,获得更高效的性能表现。Rcx28资讯网——每日最新资讯28at.com

Torch-MUSA v2.0.0 在完整支持 PyTorch 2.2.0 的基础上,新增了对 PyTorch 2.5.0 的支持,使开发者能够在基于 MUSA Compute Capability 3.1 计算架构的全功能 GPU 上,无缝运行新版本的 PyTorch。Rcx28资讯网——每日最新资讯28at.com

Torch-MUSA 已完全开源,开发者可通过访问 GitHub 获取源代码。附开源地址:Rcx28资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/torch_musaRcx28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-148904-0.html支持原生 FP8 和 PyTorch 2.5.0,摩尔线程开源发布 Torch-MUSA v2.0.0

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: GNOME 49 桌面环境焕新视频播放器:Showtime 取代 Totem 成核心应用

下一篇: TIOBE 指数 5 月排行榜公布:Python“已统治全球编程界”

标签:
  • 热门焦点
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 当家的盒马,加速谋生

    来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马,开始加速谋生了。据盒马官微消息,盒马计划今年开放生鲜供应链,将其生鲜商品送往食堂。目前,盒马在上海已经与
  • OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

    7月20日消息,据外媒报道,研究机构的报告显示,在全球智能手机出货量同比仍在下滑的大背景下,印度这一有潜力的市场也未能幸免,出货量同比也有下滑,多家厂
  • 8月见!小米MIX Fold 3获得3C认证:支持67W快充

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料,而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
  • iQOO Neo8 Pro抢先上架:首发天玑9200+ 安卓性能之王

    经过了一段时间的密集爆料,昨日iQOO官方如期对外宣布:将于5月23日推出全新的iQOO Neo8系列新品,官方称这是一款拥有旗舰级性能调校的作品。随着发布时
Top