当前位置:首页 > 科技  > 软件

北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万 tokens 成本仅 1 元

来源: 责编: 时间:2025-07-29 10:21:18 85观看
导读 在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高

在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万 tokens 输入成本低至 1 元,为产业提供了高效能、低成本的解决方案。23J28资讯网——每日最新资讯28at.com

此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用 3% 的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的 flash-attention 算子,使得注意力头的参数得到更高效利用。23J28资讯网——每日最新资讯28at.com

第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合 KV 的低秩压缩方法,仅保留 12.5% 的 KV Cache 即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。23J28资讯网——每日最新资讯28at.com

最后,基于昇腾硬件在出色的并行计算能力,团队实现的 Recurrent Decoding(RD)技术通过替换 LM-head 提升了训练数据利用率并加速了推理。在训练阶段,RD 通过将解码出的多个 tokens 与 target tokens 进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了 tokens 的采样通过率,进而提升了推理速度。23J28资讯网——每日最新资讯28at.com

这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为 AI 大模型在企业中的应用大幅降低了成本。自去年 6 月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。23J28资讯网——每日最新资讯28at.com

23J28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-173985-0.html北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万 tokens 成本仅 1 元

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微算法科技(NASDAQ: MLGO)研究量子信息递归优化(QIRO)算法,拓展解决新思路

下一篇: 浪潮 KaiwuDB 出席 2025 开放原子开源生态大会,开源社区项目挑战赛正式发布

标签:
  • 热门焦点
  • Mate60手机壳曝光 致敬自己的经典设计

    8月3日消息,今天下午博主数码闲聊站带来了华为Mate60的第三方手机壳图,可以让我们在真机发布之前看看这款华为全新旗舰的大致轮廓。从曝光的图片看,Mate 60背后摄像头面积依然
  • 微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 英特尔Xe HPG游戏显卡:拥有512EU,单风扇版本

    据10 月 30 日外媒 TheVerge 消息报道,英特尔 Xe HPG Arc Alchemist 的正面实被曝光,不仅拥有 512 EU 版显卡,还拥有 128EU 的单风扇版本。另外,这款显卡 PCB
  • 电博会上海尔智家模拟500平大平层,还原生活空间沉浸式体验

    电博会为了更好地让参展观众真正感受到智能家居的绝妙之处,海尔智家的程传岭先生同样介绍了展会上海尔智家的模拟500平大平层,还原生活空间沉浸式体验。程传
Top