当前位置:首页 > 元宇宙 > AI

DeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

来源: 责编: 时间:2025-02-28 12:38:35 163观看
导读 2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能无复

2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。7ka28资讯网——每日最新资讯28at.com

7ka28资讯网——每日最新资讯28at.com

在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能7ka28资讯网——每日最新资讯28at.com

无复杂依赖,代码简洁如教程7ka28资讯网——每日最新资讯28at.com

完全采用即时编译技术(Just-In-Time)7ka28资讯网——每日最新资讯28at.com

核心代码仅约 300 行 —— 在大多数矩阵尺寸下超越了专家优化的内核7ka28资讯网——每日最新资讯28at.com

支持稠密布局和两种 MoE 布局7ka28资讯网——每日最新资讯28at.com

附开源链接:https://github.com/deepseek-ai/DeepGEMM7ka28资讯网——每日最新资讯28at.com

官方介绍大意如下:7ka28资讯网——每日最新资讯28at.com

DeepGEMM 是一个专为高效且清晰的 FP8 通用矩阵乘法(GEMM)设计的库,具备 DeepSeek-V3 所提出的精细化缩放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分组 GEMM。7ka28资讯网——每日最新资讯28at.com

该库基于 CUDA 编写,在安装时无需预编译,而是通过轻量级的即时编译(JIT)模块,在运行时动态编译所有内核。7ka28资讯网——每日最新资讯28at.com

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了应对 FP8 张量核心累加不精确的问题,它使用了 CUDA 核心的两级累加(提升)方法。虽然它借鉴了部分 CUTLASS 和 CuTe 的理念,但并未过度依赖它们的模板或代数结构。7ka28资讯网——每日最新资讯28at.com

DeepGEMM 的设计简洁,核心内核函数只有大约 300 行代码,方便学习 Hopper FP8 矩阵乘法和优化技术。7ka28资讯网——每日最新资讯28at.com

尽管采用轻量设计,DeepGEMM 在多种矩阵形状下的性能表现与专家优化的库相当,甚至更好。7ka28资讯网——每日最新资讯28at.com

我们在 H800 上,使用 NVCC 12.8 测试了 DeepSeek-V3 / R1 推理中可能用到的各种矩阵形状(包括预填充和解码,但不涉及张量并行)。所有加速指标都是相对于我们内部精心优化的 CUTLASS 3.6 实现计算的。7ka28资讯网——每日最新资讯28at.com

DeepGEMM 在某些矩阵形状下的表现不尽如人意,欢迎有兴趣的朋友提交优化 PR。7ka28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11196-0.htmlDeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 香港:预留 10 亿港元成立人工智能研发院

下一篇: 豪掷 2000 亿美元,消息称 Meta 正洽谈 AI 数据中心园区新项目

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
Top