当前位置:首页 > 科技  > 软件

北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万 tokens 成本仅 1 元

来源: 责编: 时间:2025-07-29 10:21:18 121观看
导读 在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高

在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万 tokens 输入成本低至 1 元,为产业提供了高效能、低成本的解决方案。Ut428资讯网——每日最新资讯28at.com

此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用 3% 的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的 flash-attention 算子,使得注意力头的参数得到更高效利用。Ut428资讯网——每日最新资讯28at.com

第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合 KV 的低秩压缩方法,仅保留 12.5% 的 KV Cache 即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。Ut428资讯网——每日最新资讯28at.com

最后,基于昇腾硬件在出色的并行计算能力,团队实现的 Recurrent Decoding(RD)技术通过替换 LM-head 提升了训练数据利用率并加速了推理。在训练阶段,RD 通过将解码出的多个 tokens 与 target tokens 进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了 tokens 的采样通过率,进而提升了推理速度。Ut428资讯网——每日最新资讯28at.com

这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为 AI 大模型在企业中的应用大幅降低了成本。自去年 6 月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。Ut428资讯网——每日最新资讯28at.com

Ut428资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-173985-0.html北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万 tokens 成本仅 1 元

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微算法科技(NASDAQ: MLGO)研究量子信息递归优化(QIRO)算法,拓展解决新思路

下一篇: 浪潮 KaiwuDB 出席 2025 开放原子开源生态大会,开源社区项目挑战赛正式发布

标签:
  • 热门焦点
  • 小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • WebRTC.Net库开发进阶,教你实现屏幕共享和多路复用!

    WebRTC.Net库:让你的应用更亲民友好,实现视频通话无痛接入! 除了基本用法外,还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 年轻人的“职场羞耻感”,无处不在

    作者:冯晓亭 陶 淘 李 欣 张 琳 马舒叶来源:燃次元“人在职场,应该选择什么样的着装?”近日,在网络上,一个与着装相关的帖子引发关注,在该帖子里,一位在高级写字楼亚洲金
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top