当前位置:首页 > 元宇宙 > AI

DeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

来源: 责编: 时间:2025-02-28 12:38:35 190观看
导读 2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能无复

2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。xi328资讯网——每日最新资讯28at.com

xi328资讯网——每日最新资讯28at.com

在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能xi328资讯网——每日最新资讯28at.com

无复杂依赖,代码简洁如教程xi328资讯网——每日最新资讯28at.com

完全采用即时编译技术(Just-In-Time)xi328资讯网——每日最新资讯28at.com

核心代码仅约 300 行 —— 在大多数矩阵尺寸下超越了专家优化的内核xi328资讯网——每日最新资讯28at.com

支持稠密布局和两种 MoE 布局xi328资讯网——每日最新资讯28at.com

附开源链接:https://github.com/deepseek-ai/DeepGEMMxi328资讯网——每日最新资讯28at.com

官方介绍大意如下:xi328资讯网——每日最新资讯28at.com

DeepGEMM 是一个专为高效且清晰的 FP8 通用矩阵乘法(GEMM)设计的库,具备 DeepSeek-V3 所提出的精细化缩放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分组 GEMM。xi328资讯网——每日最新资讯28at.com

该库基于 CUDA 编写,在安装时无需预编译,而是通过轻量级的即时编译(JIT)模块,在运行时动态编译所有内核。xi328资讯网——每日最新资讯28at.com

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了应对 FP8 张量核心累加不精确的问题,它使用了 CUDA 核心的两级累加(提升)方法。虽然它借鉴了部分 CUTLASS 和 CuTe 的理念,但并未过度依赖它们的模板或代数结构。xi328资讯网——每日最新资讯28at.com

DeepGEMM 的设计简洁,核心内核函数只有大约 300 行代码,方便学习 Hopper FP8 矩阵乘法和优化技术。xi328资讯网——每日最新资讯28at.com

尽管采用轻量设计,DeepGEMM 在多种矩阵形状下的性能表现与专家优化的库相当,甚至更好。xi328资讯网——每日最新资讯28at.com

我们在 H800 上,使用 NVCC 12.8 测试了 DeepSeek-V3 / R1 推理中可能用到的各种矩阵形状(包括预填充和解码,但不涉及张量并行)。所有加速指标都是相对于我们内部精心优化的 CUTLASS 3.6 实现计算的。xi328资讯网——每日最新资讯28at.com

DeepGEMM 在某些矩阵形状下的表现不尽如人意,欢迎有兴趣的朋友提交优化 PR。xi328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11196-0.htmlDeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 香港:预留 10 亿港元成立人工智能研发院

下一篇: 豪掷 2000 亿美元,消息称 Meta 正洽谈 AI 数据中心园区新项目

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+Defi(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • Steam 禁止NFT和加密货币原因曝光

    近日,Valve(V社)总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日,PC Gamer就报道Steam推出的新规:使用区块链或允许交
Top