当前位置:首页 > 科技  > 通信

大模型千亿参数让GPU显存告急,英特尔居然让你试试CPU

来源: 责编: 时间:2025-12-30 10:03:01 74观看
导读 阿里云优惠券 先领券再下单你敢想象:仅一台仅装备了单块24G显存消费级显卡的系统,不但能跑满血671B DeepSeek R1模型,还能带来5并发51 Token/秒的性能(更细节数据见下图),要知道这个性能水准,足以搞定像报告解读或数据分析

 阿里云优惠券 先领券再下单Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

你敢想象:仅一台仅装备了单块24G显存消费级显卡的系统,不但能跑满血671B DeepSeek R1模型,还能带来5并发51 Token/秒的性能(更细节数据见下图),要知道这个性能水准,足以搞定像报告解读或数据分析这类对实时性要求不高的任务了。Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

这就是英特尔开发的全新异构LLM服务方案流出的最新测试数据,这个方案基于HeteroFlow软件框架,搭配了至强6性能核CPU(配MRDIMM内存,开启AMX加速)作为硬件基座,它的目标就是缓解 “满血”大模型们面临的存力困局。Yt028资讯网——每日最新资讯28at.com

众所周知:大模型,是乐也“大参数”,痛也“大参数”——满血版动辄千亿级的参数规模,再叠加GPU大佬们在显存容量上的“精准”刀法,总能让你钱包严重失血!如果你就搞一个节点,即便GPU多卡插满,也就是能刚刚装下海量参数,剩余的显存会限制并发性能和上下文的长度。咬咬牙上多个节点,那就只能是……把牙咬碎,因为付出翻倍。Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

而现在,有了HeteroFlow框架的加持,如果你用的是MoE类大模型,且选择了英特尔的至强6性能核CPU来做机头处理器,那么恭喜你,破局方法来了!Yt028资讯网——每日最新资讯28at.com

当然这个方法可能会颠覆你“AI让CPU走开”,或者“AI应用中CPU只是GPU小助手”的观念。但这个方法,恰恰是充分利用了GPU和CPU各自的优势——GPU算力强,CPU内存大。HeteroFlow的工作原理就是把Attention、Dense MLP这些算力敏感型的,也是高价值的任务留给高算力的GPU,但把MoE这种需要大存力的任务,部分或全部卸载给CPU+大容量的内存。Yt028资讯网——每日最新资讯28at.com

这种方法的终极奥义,并不是说CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分担与协助,GPU的工作更有意义了——它能把其成本高昂的算力和显存全用在榨取并发性能与上下文长度上,正所谓“好钢用在刀刃上”,让整个系统不仅性能收益明显,投资回报率也是原地起飞。Yt028资讯网——每日最新资讯28at.com

接下来,让我们瞧瞧HeteroFlow是怎样具体干活的:Yt028资讯网——每日最新资讯28at.com

一、卸载Yt028资讯网——每日最新资讯28at.com

对AI任务做智能拆分,把部分或全部MoE负载移到CPU上,让GPU更专注算力密集型任务,细节如下图。Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

二、调度Yt028资讯网——每日最新资讯28at.com

通过Pipelined Scheduling设计,让CPU与GPU在各自承载的子任务间实现无缝衔接,最大化榨取它们各自的潜能,如下图:Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

三、加速Yt028资讯网——每日最新资讯28at.com

虽然至强CPU没有GPU那么强的AI加速算力,但它还是有自己的看家本领——英特尔AMX(高级矩阵扩展技术,有人将其比拟为“CPU里的Tensor Core”),它能为MoE任务涉及的计算提供加速。如果你对AMX技术没有那么了解,可以借下面两张图快速了解一下它的核心组件与架构,以及加速能力。Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

如果你比较细心,一定注意到我们在前文提到的是HeteroFlow框架 +至强6 性能核CPU这个组合,推荐这款CPU的原因很简单,因为它内置AMX技术,且主流型号(SKU),特别是用于机头的SKU能解锁对MRDIMM内存(8000/8800)的支持,几乎是目前市面上能同时兼顾内存的大容量与高带宽的惟一选择。Yt028资讯网——每日最新资讯28at.com

如果你还意犹未尽,觉得前文测试场景里的“低配”型系统和它实现的性能,还远远不能满足你一些更加“高大上”的需求,先别急,因为英持尔正在测试HeteroFlow+至强6的另外两种应用场景:Yt028资讯网——每日最新资讯28at.com

在更多节点的、中量级的系统中,瞧它能不能把MoE中的“冷专家”(不常被激活的专家)卸载到CPU上,尽可能提升这类系统的并发度和拓展其上下文长度; 在更大或特大规模的AI集群中,当GPU出现单卡故障时,用CPU暂时顶一下,保障集群的稳定运行。Yt028资讯网——每日最新资讯28at.com

由衷期待这两个新场景能尽快落地,并有性能或性价比上的优异表现供大家分享。你可以访问英特尔官网了解更多基于HeteroFlow框架的异构LLM服务方案的细节,或者联系英特尔官方得到英特尔相关技术专家的支持。Yt028资讯网——每日最新资讯28at.com

谁说CPU只是GPU的小助手?用至强® 6高存力搞定MoE卸载!Yt028资讯网——每日最新资讯28at.com

Yt028资讯网——每日最新资讯28at.com

想Get基于HeteroFlow的大模型异构新方案?Yt028资讯网——每日最新资讯28at.com

欢迎访问英特尔官网,即刻揭秘!Yt028资讯网——每日最新资讯28at.com

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!Yt028资讯网——每日最新资讯28at.com

相关标签
英特尔

本文链接:http://www.28at.com/showinfo-20-191122-0.html大模型千亿参数让GPU显存告急,英特尔居然让你试试CPU

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 手机数码家电国补2026年最新消息:2026年国补确认会再次继续!汽车数码手机家电国补领取操作步骤方法教程

下一篇: 朱百超亮相2025海南博鳌国际碳中和大会

标签:
  • 热门焦点
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 分享六款相见恨晚的PPT模版网站, 祝你做出精美的PPT!

    1、OfficePLUSOfficePLUS网站旨在为全球Office用户提供丰富的高品质原创PPT模板、实用文档、数据图表及个性化定制服务。优点:OfficePLUS是微软官方网站,囊括PPT模板、Word模
  • 量化指标是与非:挽救被量化指标扼杀的技术团队

    作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享,更多精彩内容及现场PPT,请关注51CTO技术栈公众号,发消息【WOT2023PPT】即可直接领取
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 3699元!iQOO Neo8 Pro顶配版今日首销:1TB UFS 4.0同价位唯一

    5月23日,iQOO推出了全新的iQOO Neo8系列,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更是首发搭载了联发科天玑9200+旗舰
  • 微软发布Windows 11新版 引入全新任务栏状态

    近日,微软发布了Windows 11新版,而Build 22563更新主要引入了几周前曝光的平板模式任务栏等,系统更流畅了。更新中,Windows 11加入了专门针对平板优化的任务栏
Top