当前位置:首页 > 科技  > 软件

抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3

来源: 责编: 时间:2024-05-11 09:17:52 280观看
导读DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门,成为了Hacker News等许多科技媒体的头版头条。图片Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。图片到底是什么样的成果,竟然可以顶

DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门,成为了Hacker News等许多科技媒体的头版头条。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

到底是什么样的成果,竟然可以顶着AlphaFold 3的热度出圈?30X28资讯网——每日最新资讯28at.com

这篇论文不仅切中了大语言模型推理速度慢的痛点,而且实现了性能大幅度提升。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

CLLM在多个下游任务上都取得了2-3倍的加速,且推理过程没有引入额外成本。在GSM8K和Spider两个任务中,相比今年1月刚发布的Medusa 2都有了明显提升。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

论文的两位共同一作都是一年级博士生,分别是来自上海交通大学的寇思麒和来自加州大学圣地亚哥分校的胡岚翔,他们的指导老师是交大的邓志杰教授和UCSD的张昊教授,后者也是Vicuna/vLLM/Chatbot Arena等项目的作者。30X28资讯网——每日最新资讯28at.com

目前这篇论文已经被ICML 2024会议接收,所用代码已在GitHub上开源,可以在HuggingFace仓库上看到模型多个版本的权重。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

https://huggingface.co/cllm30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

https://github.com/hao-ai-lab/Consistency_LLM30X28资讯网——每日最新资讯28at.com

LLM苦推理速度久矣

以GPT和Llama家族为代表的大语言模型虽然可以出色地完成人类语言任务,但代价也是巨大的。30X28资讯网——每日最新资讯28at.com

除了参数量大,推理速度慢、token吞吐量低也是经常被人诟病的问题,尤其是对于上下文信息较多的任务,因此大语言模型的部署和在现实中的应用十分受限。30X28资讯网——每日最新资讯28at.com

Reddit上经常有开发者询问减少LLM推理时间的方法,有人曾经发帖,在64G GPU内存、4块英伟达T4芯片上用langchain部署7B的Llama 2模型后,需要10秒钟回答较小的查询,较大的查询则需要3分钟。30X28资讯网——每日最新资讯28at.com

图片30X28资讯网——每日最新资讯28at.com

为了提高推理速度和token吞吐量,研究者们想了很多方法,比如去年很流行的vLLM推理框架,就是通过改进注意力算法来提高语言模型的效率。30X28资讯网——每日最新资讯28at.com

CLLM的思路则放在了解码上,使用更适合并行的Jacobi算法替代传统的自回归方法。30X28资讯网——每日最新资讯28at.com

Jacobi解码算法

自回归解码算法在运行时,每次只能基于已知序列生成1个token,这种基于时间序列的算法对GPT之类的大模型非常不友好,要想实现并行化的推理,就必须修改模型架构或者添加额外的构件。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

这篇研究则提出,使用Jacobi解码算法取代传统的自回归,每一次解码可以同时生成序列后n个token。30X28资讯网——每日最新资讯28at.com

Jacobi解码源自用于求解非线性方程的Jacobi和Gauss-Seidel定点迭代,并被证明与使用贪婪解码的自回归生成相同。30X28资讯网——每日最新资讯28at.com

给定一个初始序列时,首先生成n个随机token作为起始点,之后将这n个token的优化问题看作n个非线性方程组,里面含有的n个变量可以基于Jacobi迭代并行求解。30X28资讯网——每日最新资讯28at.com

每一次Jacobi迭代可以预测出一个或多个正确的token,进行多轮迭代直至收敛,就完成了n个token的预测,迭代的过程形成Jacobi轨迹。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

本篇文章所用Jacobi算法的灵感追溯至2021年的一篇论文,用求解非线性方程组加速神经网络计算。30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2002.0362930X28资讯网——每日最新资讯28at.com

以及张昊组的另一篇论文lookahead decoding:30X28资讯网——每日最新资讯28at.com

图片图片30X28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2402.0205730X28资讯网——每日最新资讯28at.com

一致性语言模型

使用Jacobi算法解码时,大语言模型的推理过程可以被归纳为——一致地将雅可比轨迹

本文链接:http://www.28at.com/showinfo-26-87963-0.html抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 异步编程在C#中的应用:深入理解Task

下一篇: 这个 TypeScript 技巧会让你大吃一惊

标签:
  • 热门焦点
  • Find N3入网:最高支持16+1TB

    OPPO将于近期登场的Find N3折叠屏目前已经正式入网,型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化,不再是小号的横向折叠屏,而是跟别的厂商一样采用了较为常见的
  • Mate60手机壳曝光 致敬自己的经典设计

    8月3日消息,今天下午博主数码闲聊站带来了华为Mate60的第三方手机壳图,可以让我们在真机发布之前看看这款华为全新旗舰的大致轮廓。从曝光的图片看,Mate 60背后摄像头面积依然
  • 7月安卓手机性价比榜:努比亚+红魔两款新机入榜

    7月登场的新机有努比亚Z50S Pro和红魔8S Pro,除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品,而且努比亚和红魔也一贯有着不错的性价比,所以在本次的性价比榜单
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 华为Mate 60保护壳曝光:硕大后置相机模组 凸起程度有惊喜

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • 华为Mate60标准版细节曝光:经典星环相机模组回归

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top