当前位置:首页 > 科技  > 通信

大模型千亿参数让GPU显存告急,英特尔居然让你试试CPU

来源: 责编: 时间:2025-12-30 10:03:01 44观看
导读 阿里云优惠券 先领券再下单你敢想象:仅一台仅装备了单块24G显存消费级显卡的系统,不但能跑满血671B DeepSeek R1模型,还能带来5并发51 Token/秒的性能(更细节数据见下图),要知道这个性能水准,足以搞定像报告解读或数据分析

 阿里云优惠券 先领券再下单mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

你敢想象:仅一台仅装备了单块24G显存消费级显卡的系统,不但能跑满血671B DeepSeek R1模型,还能带来5并发51 Token/秒的性能(更细节数据见下图),要知道这个性能水准,足以搞定像报告解读或数据分析这类对实时性要求不高的任务了。mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

这就是英特尔开发的全新异构LLM服务方案流出的最新测试数据,这个方案基于HeteroFlow软件框架,搭配了至强6性能核CPU(配MRDIMM内存,开启AMX加速)作为硬件基座,它的目标就是缓解 “满血”大模型们面临的存力困局。mtU28资讯网——每日最新资讯28at.com

众所周知:大模型,是乐也“大参数”,痛也“大参数”——满血版动辄千亿级的参数规模,再叠加GPU大佬们在显存容量上的“精准”刀法,总能让你钱包严重失血!如果你就搞一个节点,即便GPU多卡插满,也就是能刚刚装下海量参数,剩余的显存会限制并发性能和上下文的长度。咬咬牙上多个节点,那就只能是……把牙咬碎,因为付出翻倍。mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

而现在,有了HeteroFlow框架的加持,如果你用的是MoE类大模型,且选择了英特尔的至强6性能核CPU来做机头处理器,那么恭喜你,破局方法来了!mtU28资讯网——每日最新资讯28at.com

当然这个方法可能会颠覆你“AI让CPU走开”,或者“AI应用中CPU只是GPU小助手”的观念。但这个方法,恰恰是充分利用了GPU和CPU各自的优势——GPU算力强,CPU内存大。HeteroFlow的工作原理就是把Attention、Dense MLP这些算力敏感型的,也是高价值的任务留给高算力的GPU,但把MoE这种需要大存力的任务,部分或全部卸载给CPU+大容量的内存。mtU28资讯网——每日最新资讯28at.com

这种方法的终极奥义,并不是说CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分担与协助,GPU的工作更有意义了——它能把其成本高昂的算力和显存全用在榨取并发性能与上下文长度上,正所谓“好钢用在刀刃上”,让整个系统不仅性能收益明显,投资回报率也是原地起飞。mtU28资讯网——每日最新资讯28at.com

接下来,让我们瞧瞧HeteroFlow是怎样具体干活的:mtU28资讯网——每日最新资讯28at.com

一、卸载mtU28资讯网——每日最新资讯28at.com

对AI任务做智能拆分,把部分或全部MoE负载移到CPU上,让GPU更专注算力密集型任务,细节如下图。mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

二、调度mtU28资讯网——每日最新资讯28at.com

通过Pipelined Scheduling设计,让CPU与GPU在各自承载的子任务间实现无缝衔接,最大化榨取它们各自的潜能,如下图:mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

三、加速mtU28资讯网——每日最新资讯28at.com

虽然至强CPU没有GPU那么强的AI加速算力,但它还是有自己的看家本领——英特尔AMX(高级矩阵扩展技术,有人将其比拟为“CPU里的Tensor Core”),它能为MoE任务涉及的计算提供加速。如果你对AMX技术没有那么了解,可以借下面两张图快速了解一下它的核心组件与架构,以及加速能力。mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

如果你比较细心,一定注意到我们在前文提到的是HeteroFlow框架 +至强6 性能核CPU这个组合,推荐这款CPU的原因很简单,因为它内置AMX技术,且主流型号(SKU),特别是用于机头的SKU能解锁对MRDIMM内存(8000/8800)的支持,几乎是目前市面上能同时兼顾内存的大容量与高带宽的惟一选择。mtU28资讯网——每日最新资讯28at.com

如果你还意犹未尽,觉得前文测试场景里的“低配”型系统和它实现的性能,还远远不能满足你一些更加“高大上”的需求,先别急,因为英持尔正在测试HeteroFlow+至强6的另外两种应用场景:mtU28资讯网——每日最新资讯28at.com

在更多节点的、中量级的系统中,瞧它能不能把MoE中的“冷专家”(不常被激活的专家)卸载到CPU上,尽可能提升这类系统的并发度和拓展其上下文长度; 在更大或特大规模的AI集群中,当GPU出现单卡故障时,用CPU暂时顶一下,保障集群的稳定运行。mtU28资讯网——每日最新资讯28at.com

由衷期待这两个新场景能尽快落地,并有性能或性价比上的优异表现供大家分享。你可以访问英特尔官网了解更多基于HeteroFlow框架的异构LLM服务方案的细节,或者联系英特尔官方得到英特尔相关技术专家的支持。mtU28资讯网——每日最新资讯28at.com

谁说CPU只是GPU的小助手?用至强® 6高存力搞定MoE卸载!mtU28资讯网——每日最新资讯28at.com

mtU28资讯网——每日最新资讯28at.com

想Get基于HeteroFlow的大模型异构新方案?mtU28资讯网——每日最新资讯28at.com

欢迎访问英特尔官网,即刻揭秘!mtU28资讯网——每日最新资讯28at.com

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!mtU28资讯网——每日最新资讯28at.com

相关标签
英特尔

本文链接:http://www.28at.com/showinfo-20-191122-0.html大模型千亿参数让GPU显存告急,英特尔居然让你试试CPU

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 手机数码家电国补2026年最新消息:2026年国补确认会再次继续!汽车数码手机家电国补领取操作步骤方法教程

下一篇: 朱百超亮相2025海南博鳌国际碳中和大会

标签:
  • 热门焦点
  • K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    Redmi的后性能时代战略发布会今天下午如期举办,在本次发布会上,Redmi公布了多项关于和联发科的深度合作,以及新机K60 Ultra在软件和硬件方面的特性,例如:“K60 至尊版,双芯旗舰
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 在线图片编辑器,支持PSD解析、AI抠图等

    自从我上次分享一个人开发仿造稿定设计的图片编辑器到现在,不知不觉已过去一年时间了,期间我经历了裁员失业、面试找工作碰壁,寒冬下一直没有很好地履行计划.....这些就放在日
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 三星显示已开始为AR设备研发硅基LED微显示屏

    7月18日消息,据外媒报道,随着苹果首款头显产品Vision Pro在6月份正式推出,AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域,对显示屏这一关
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • 电博会上海尔智家模拟500平大平层,还原生活空间沉浸式体验

    电博会为了更好地让参展观众真正感受到智能家居的绝妙之处,海尔智家的程传岭先生同样介绍了展会上海尔智家的模拟500平大平层,还原生活空间沉浸式体验。程传
  • 外交部:美方应停止在网络安全问题上不负责任地指责他国

      中国外交部今天(16日)举行例行记者会。会上,有记者问,美国情报官员称,他们正在阻拦来自中国以及其他国家的黑客获取相关科研成果。 中方对此有何评论?对此
Top