当前位置:首页 > 科技  > 软件

四行代码让大模型上下文暴增3倍,羊驼Mistral都适用

来源: 责编: 时间:2024-01-08 17:10:36 314观看
导读无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。近日,来自得克萨斯

无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!3eI28资讯网——每日最新资讯28at.com

而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。3eI28资讯网——每日最新资讯28at.com

有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。3eI28资讯网——每日最新资讯28at.com

图片3eI28资讯网——每日最新资讯28at.com

近日,来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended(简称SE)3eI28资讯网——每日最新资讯28at.com

在Mistral上,研究者在24k长度的文本中随机插入5位数字让模型搜索,结果经SE处理后,呈现出了全绿(通过)的测试结果。3eI28资讯网——每日最新资讯28at.com

而未经处理的版本,在6k长度时就已经开始“见红”了。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

GitHub Copilot主创Alex Graveley也激动地宣布,在Llama2上进行的实验同样取得了成功。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

在网友的进一步询问之下,Alex解释了推文中“work”的具体含义:原先在4k长度时就会出现的噪声,现在已经消失了。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

而对于SE窗口长度的极限,一位根据论文复现SE代码的大佬表示,理论上(只要算力足够)可以达到无限长。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

那么,SE具体能达到什么样的效果呢?3eI28资讯网——每日最新资讯28at.com

长文本能力显著增强

在窗口长度从4096增长到16384的过程中,Llama 2的困惑度从一开始变飙升了两个数量级。3eI28资讯网——每日最新资讯28at.com

但使用SE后,文本长度变成了原来的4倍,困惑度却只增加了0.4。3eI28资讯网——每日最新资讯28at.com

而在Mistral上,SE比Mistral自身采用的滑动窗口(SWA)机制带来了更低的困惑度。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

△左下图使用对数坐标

在专为长文本模型设计的LongBench数据集中,SE处理后的模型在单/多文档问答、总结、少样本学习、代码等任务中,评分均相比起原始版本有所提升。3eI28资讯网——每日最新资讯28at.com

特别是在一个名为SOLAR的模型上,处理后的模型在16k长度下的表现比原始版本在4k长度下的表现还要优异。3eI28资讯网——每日最新资讯28at.com

SOLAR由两个羊驼掐头去尾拼接而成,这种拼接的方式,使得其注意力层结构与其他基于Transformer的模型形成了一定差异。3eI28资讯网——每日最新资讯28at.com

图片3eI28资讯网——每日最新资讯28at.com

同时,在GSM等由考试题组成的闭域问答任务中,SE优化后的模型也都相比原始版本取得了更高的平均成绩,在Mistral上稍逊于其自身的SWA方法。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

而长文本能力的增强,并没有带来模型在短文本上的能力下降。3eI28资讯网——每日最新资讯28at.com

在HuggingFace的OpenLLM基准下,SE版Llama2的测评成绩相比原版均为发生显著降低。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

目前,SE的开箱即用版支持Phi、Llama和Mistral三种模型,在这三种模型上只需4行代码就能进行窗口扩增。3eI28资讯网——每日最新资讯28at.com

对于其他模型,则需要对代码进行一定修改。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

那么,SE是如何给模型增加窗口长度的呢?3eI28资讯网——每日最新资讯28at.com

两种注意力机制共同作用

研究者认为,长文本能力是大模型本身就具有的,但需要通过一定方法激发才能实现。3eI28资讯网——每日最新资讯28at.com

其中最主要的问题是,大模型在处理长文本时,会遇到相对位置编码超出训练时所见范围的情况。3eI28资讯网——每日最新资讯28at.com

针对这一情况,作者采用了FLOOR注意力机制作为解决策略。3eI28资讯网——每日最新资讯28at.com

FLOOR对输入的文本序列进行分组,然后用组数对某一token的绝对位置做取整除,就可以长距离将映射到较短的范围。3eI28资讯网——每日最新资讯28at.com

然后,对这些映射值进行注意力运算,就解决了位置编码超限的问题,实现了长文本的处理。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

而在处理中短长度文本时,仍然使用模型原有的注意力机制,从而确保了模型不会“顾此失彼”,避免因长文本能力的增长导致短文本能力损失。3eI28资讯网——每日最新资讯28at.com

此外,在Mistral上复现SE的作者还坦言,目前该模型并不完美,可能存在计算量暴增的问题。3eI28资讯网——每日最新资讯28at.com

图片图片3eI28资讯网——每日最新资讯28at.com

同时,SE的原作者也说,目前SE方法的确还没有做过效率方面的优化,未来计划通过引入FlashAttention机制等策略来解决这一问题。3eI28资讯网——每日最新资讯28at.com

图片3eI28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/abs/2401.013253eI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-58903-0.html四行代码让大模型上下文暴增3倍,羊驼Mistral都适用

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 在Rust中编写自动化测试

下一篇: 在 Flutter 中创建圆角图像和圆形图像有多少种方法?

标签:
  • 热门焦点
  • 石头智能洗地机A10 Plus体验:双向自清洁治好了我的懒癌

    一、前言和介绍专为家庭请假懒人而生的石头科技在近日又带来了自己的全新旗舰新品,石头智能洗地机A10 Plus。从这个产品名上就不难看出,这次石头推出的并不是常见的扫地机器
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 拼多多APP上线本地生活入口,群雄逐鹿万亿市场

    Tech星球(微信ID:tech618)文 | 陈桥辉 Tech星球独家获悉,拼多多在其APP内上线了“本地生活”入口,位置较深,位于首页的“充值中心”内,目前主要售卖美食相关的
  • 滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 存在16项违法事实开始于2121年7月,历经一年时间,网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
Top