当前位置：首页 > 科技 > 数码

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

来源：责编：时间：2025-02-27 08:16:17 216观看

导读快科技2月26日消息，DeepSeek启动“开源周”以来，已经陆续开源了三个代码库，而作为国产GPU的代表，摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。摩尔线程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息，DeepSeek启动“开源周”以来，已经陆续开源了三个代码库，而作为国产GPU的代表，摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构，可提供原生的FP8精度计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持FlashMLA。

不仅如此，摩尔线程还基于MUTLASS，在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能。

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

FlashMLA是一款高效的MLA推理内核开源仓库，可以加速MLA机制的计算，特别适用于DeepSeek系列模型，包括DeepSeek-V2、V3、R1。

DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，可以为V3/R1的训练与推理提供强大动力。

这两个重要的开源仓库，都基于高性能通用矩阵乘法（GEMM）的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU，具备全新的Tensor计算引擎及数据搬运引擎，能够提供原生FP8计算能力。

升级的MUTLASS高性能线性代数模板库，支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的优化参考实现，包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子，特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。

得益于全新的Tensor计算引擎，FP8计算具有足够高的累加精度，无需额外的二次精度修正，为前沿算法的探索打下了坚实基础。

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

借助MUTLASS 0.2.0，摩尔线程发布了开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。

同时，摩尔线程MUTLASS提供了一个全新的参考实现，充分汲取FlashAttention3的先进算法思想，针对摩尔线程GPU设计了全新的计算流水线。

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销，充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

▼ MT-FlashMLA开源地址：

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

本文链接：http://www.28at.com/showinfo-24-133910-0.html原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： EK 推出 RTX 5090 FE 专属水冷头，329.90 欧元，支持三区 PCB 设计

下一篇： RTX 5060 Ti功耗小幅增至180W：还是8/16GB两种显存

标签：

热门焦点

从 Pulsar Client 的原理到它的监控面板

背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题，比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态，
当家的盒马，加速谋生

来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马，开始加速谋生了。据盒马官微消息，盒马计划今年开放生鲜供应链，将其生鲜商品送往食堂。目前，盒马在上海已经与
OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

7月20日消息，据外媒报道，研究机构的报告显示，在全球智能手机出货量同比仍在下滑的大背景下，印度这一有潜力的市场也未能幸免，出货量同比也有下滑，多家厂
疑似小米14外观设计图曝光：后置相机模组变化不大

下半年的大幕已经开启，而谁将成为下半年手机圈的主角就成为了大家关注的焦点，其中被传有望拿下新一代骁龙8 Gen3旗舰芯片的小米14系列更是备受大家瞩
郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

8 月 1 日消息，郭明錤今天在 Medium 平台发布博文，称华为正在和江淮汽车合作，开发售价在 100 万元的问界 MPV，预计在 2024 年第 2 季度量产，销量目标为
自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

年初，全新的三星Galaxy S23系列发布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本，全系搭载超频版骁龙8 Gen 2，虽同样采用台积电4nm工艺制
机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

7月20日消息，据外媒报道，研究机构的报告显示，由于需求下滑，今年二季度全球智能手机的出货量，同比下滑了11%，三星、苹果等主要厂商的销量，较去年同期均有下
上海举办人工智能大会活动，建设人工智能新高地

人工智能大会在上海浦江两岸隆重拉开帷幕，人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚，作为大会的特色活动之一的上海人工智能发展盛典人工

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

从 Pulsar Client 的原理到它的监控面板

重估百度丨“晚熟”的百度云，能等到春天吗？

当家的盒马，加速谋生

OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

疑似小米14外观设计图曝光：后置相机模组变化不大

郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

上海举办人工智能大会活动，建设人工智能新高地

最新推荐

猜你喜欢

热门推荐

相关资讯