当前位置:首页 > 科技  > 资讯

摩尔线程GPU实力展现:快速适配DeepSeek开源库,原生FP8计算能力引关注!

来源: 责编: 时间:2025-02-27 08:21:38 180观看
导读近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。摩尔线程此番适配的GPU产品,基于其自主研发的MU

近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。H4V28资讯网——每日最新资讯28at.com

摩尔线程此番适配的GPU产品,基于其自主研发的MUSA Compute Capability 3.1计算架构。这一架构不仅提供了原生的FP8精度计算能力,还对高性能线性代数模板库MUTLASS进行了全面升级,从而快速支持了FlashMLA的应用。H4V28资讯网——每日最新资讯28at.com

不仅如此,摩尔线程还充分利用了MUTLASS的优势,在新一代GPU架构上实现了FP8矩阵乘法的优化。这一成果使得摩尔线程的GPU能够完美支持DeepGEMM的相关功能,进一步提升了其在大规模模型训练和推理方面的性能。H4V28资讯网——每日最新资讯28at.com

FlashMLA是一个专注于加速MLA推理的内核开源项目,特别适用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM则是一个专为密集矩阵与混合专家(MoE)矩阵乘法设计的FP8 GEMM库,能够为V3/R1的训练与推理提供强大的计算支持。H4V28资讯网——每日最新资讯28at.com

这两个开源项目均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,具有极高的灵活性和可扩展性。摩尔线程能够快速适配这些项目,得益于其GPU架构的创新设计和MUTLASS库的强大支持。H4V28资讯网——每日最新资讯28at.com

摩尔线程的新一代GPU不仅具备全新的Tensor计算引擎和数据搬运引擎,还提供了原生FP8计算能力。这使得摩尔线程的GPU在处理前沿算法时,能够保持足够高的累加精度,无需额外的二次精度修正。H4V28资讯网——每日最新资讯28at.com

MUTLASS 0.2.0版本的发布,更是为摩尔线程的开源生态注入了新的活力。借助这一版本,摩尔线程推出了MT-FlashMLA开源仓库,实现了对DeepSeek FlashMLA的快速兼容部署。同时,MUTLASS还提供了一个全新的参考实现,充分借鉴了FlashAttention3的先进算法思想,为摩尔线程GPU设计了高效的计算流水线。H4V28资讯网——每日最新资讯28at.com

H4V28资讯网——每日最新资讯28at.com

这一计算流水线的设计,有效隐藏了数据搬运的延迟和Softmax计算的开销,充分发挥了摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。这无疑为摩尔线程在AI计算领域的竞争力注入了强劲的动力。H4V28资讯网——每日最新资讯28at.com

对于开发者而言,摩尔线程的开源资源无疑是一笔宝贵的财富。他们可以通过访问以下链接,获取MT-FlashMLA和MUTLASS的相关资源:H4V28资讯网——每日最新资讯28at.com

MT-FlashMLA开源地址:https://github.com/MooreThreads/MT-flashMLAH4V28资讯网——每日最新资讯28at.com

MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwdH4V28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!02-26be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场02-26EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效02-26海南商业航天发射场二期:可复用火箭测控船项目正式签约!02-26天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元02-26攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!02-26迈信林2024年净利大增近2倍,业绩快报亮点抢先看!02-26《哪吒2》IP衍生品火爆,品牌厂商加速生产冲刺“千户千吒”市场02-26天智航2024年财报:手术机器人“第一股”业绩初现曙光,净亏损大幅收窄02-26RTX 5060 Ti即将发布:功耗升至180W,显存配置仍为8GB/16GB02-26smart精灵#1黑金灵限量版来袭!21.99万仅售500台,你心动了吗?02-26威高血净IPO过会,年营收达36亿,拟募资13.5亿,华兴资本持股其中02-26smart精灵#1黑金灵限量版来袭!21.99万仅500台,你会抢购吗?02-26掌阅科技股东量子跃动计划减持股份 不超过公司总股本1%02-26小米15 Ultra影像旗舰来袭!2亿像素长焦+骁龙8 Elite,性能与影像巅峰对决?02-26点击查看更多 +全站最新奇瑞艾瑞泽8 PRO新车型预售在即,A+级家轿外观内饰全面升级!奇瑞艾瑞泽8 PRO新车型预售在即,A+级家轿外观内饰全面升级!be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场极氪智能科技离线部署AI大模型,8295座舱平台车型年内全落地极氪智能科技离线部署AI大模型,8295座舱平台车型年内全落地上汽安吉物流“两港三地”汽车吞吐量领跑全球,年吞吐363万辆!上汽安吉物流“两港三地”汽车吞吐量领跑全球,年吞吐363万辆!无极SR250GT双版本焕新来袭,DeepSeek大模型赋能,售价15980元起!无极SR250GT双版本焕新来袭,DeepSeek大模型赋能,售价15980元起!EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效热门内容
  • 《哪吒之魔童降世》票房破110亿,全球影史排名第十二!《美国队长4》上映票房如何?
  • 2025春节档火爆!《哪吒之魔童闹海》领跑,总票房直逼55亿大关
  • 浙大智能体“浙大先生”上线,全国829所高校师生可免费共享DeepSeek
  • 《唐探1900》春节档上映,豆瓣评分6.7,口碑两极分化?
  • 金价飙升!847元/克金饰创新高,黄金牛市还能走多远?
  • 浙大DeepSeek全国高校开放!829所学子免费用,告别系统繁忙
  • 《哪吒2》票房高歌猛进,全球动画电影榜冲进前三!
  • 《哪吒之魔童闹海》票房破20亿,领跑春节档,第三部还会远吗?
  • 《哪吒之魔童闹海》春节档大捷,单日票房破17亿刷新动画电影纪录!
  • 《蛟龙行动》遇一星差评潮,于冬怒批豆瓣粉圈互黑,誓言影片绝不撤档!
  • 美摄科技胜诉!字节跳动8款产品被判代码抄袭赔偿8266万
  • 《熊出没》动画电影系列十一部齐发力,总票房突破80亿大关!
  • 2025年春节档电影盛宴:六部大片齐贺岁,哪部将成票房黑马?
  • 导演票房榜大洗牌:饺子跻身前三,张艺谋紧随其后
  • 短剧热度榜揭晓!《行道者之剑二十四》登顶,大盘热度破6000万
本栏最新中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效海南商业航天发射场二期:可复用火箭测控船项目正式签约!海南商业航天发射场二期:可复用火箭测控船项目正式签约!天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!

本文链接:http://www.28at.com/showinfo-16-134118-0.html摩尔线程GPU实力展现:快速适配DeepSeek开源库,原生FP8计算能力引关注!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 涂鸦智能Q4财报亮点:营收增27%,利息收入助盈利,派息达3700万美元

下一篇: 中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!

标签:
  • 热门焦点
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • 华为将推出盘古数字人大模型 可帮助用户12小时完成数字人生成

    在今日举行的2023年华为云数字文娱AI创新峰会上,华为云全球Marketing与销售服务总裁石冀琳表示,华为云将在后续推出盘古数字人大模型,可帮助用户12小
  • 英特尔Xe-HP项目终止,将专注Xe-HPC/HPG系列显卡

    据10 月 31 日消息报道,英特尔高级副总裁兼加速计算系统和图形事业部总经理 表示,Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
  • onebot M24巧系列一体机采用轻薄机身设计,现已在各平台开售

    onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计,最薄处为 10.15mm,拥有宝石红、午夜蓝、石墨绿、雅致
Top