当前位置:首页 > 科技  > 数码

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

来源: 责编: 时间:2025-02-27 08:16:17 130观看
导读 快科技2月26日消息,DeepSeek启动“开源周”以来,已经陆续开源了三个代码库,而作为国产GPU的代表,摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。摩尔线程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息,DeepSeek启动“开源周”以来,已经陆续开源了三个代码库,而作为国产GPU的代表,摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。VPJ28资讯网——每日最新资讯28at.com

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构,可提供原生的FP8精度计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持FlashMLA。VPJ28资讯网——每日最新资讯28at.com

不仅如此,摩尔线程还基于MUTLASS,在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。VPJ28资讯网——每日最新资讯28at.com

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMMVPJ28资讯网——每日最新资讯28at.com

FlashMLA是一款高效的MLA推理内核开源仓库,可以加速MLA机制的计算,特别适用于DeepSeek系列模型,包括DeepSeek-V2、V3、R1。VPJ28资讯网——每日最新资讯28at.com

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,可以为V3/R1的训练与推理提供强大动力。VPJ28资讯网——每日最新资讯28at.com

这两个重要的开源仓库,都基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。VPJ28资讯网——每日最新资讯28at.com

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。VPJ28资讯网——每日最新资讯28at.com

升级的MUTLASS高性能线性代数模板库,支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。VPJ28资讯网——每日最新资讯28at.com

得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。 VPJ28资讯网——每日最新资讯28at.com

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMMVPJ28资讯网——每日最新资讯28at.com

借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。VPJ28资讯网——每日最新资讯28at.com

同时,摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。VPJ28资讯网——每日最新资讯28at.com

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。VPJ28资讯网——每日最新资讯28at.com

▼ MT-FlashMLA开源地址:VPJ28资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/MT-flashMLAVPJ28资讯网——每日最新资讯28at.com

▼ MUTLASS FlashAttention3地址:VPJ28资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwdVPJ28资讯网——每日最新资讯28at.com

▼ MUTLASS FP8 GEMM地址:VPJ28资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builderVPJ28资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemmVPJ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-133910-0.html原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: EK 推出 RTX 5090 FE 专属水冷头,329.90 欧元,支持三区 PCB 设计

下一篇: RTX 5060 Ti功耗小幅增至180W:还是8/16GB两种显存

标签:
  • 热门焦点
  • 6月安卓手机性价比榜:Note 12 Turbo断层式碾压

    6月份有一个618,虽然这是京东周年庆的日子,但别的电商也都不约而同的跟进了,反正促销没坏处,厂商和用户都能满意。618期间一些产品也出现了历史低价,那么各个价位段的产品性价比
  • 帅气纯真少年!日本最帅初中生选美冠军出炉

    日本第一帅哥初一生选美大赛冠军现已正式出炉,冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛,从“最美JK”起到“最美女星&r
  • 轿车从天而降电动车主被撞身亡 超速抢道所致:现场视频让网友吵翻

    近日,上海青浦区法院判决轿车从天而降电动车主被撞身亡案,轿车车主被判有期徒刑一年。案件显示当时男子驾驶轿车在上海某路段行驶,前车忽然转弯提速超车,
  • 线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • OPPO K11样张首曝:千元机影像“卷”得真不错!

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
Top