当前位置:首页 > 元宇宙 > AI

更像人脑的新型注意力机制,Meta 让大模型自动屏蔽任务无关信息,准确率提高 27%

来源: 责编: 时间:2023-11-30 17:29:52 431观看
导读 关于大模型注意力机制,Meta 又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。而且这种机制不需要微调或训练,只靠 Prompt 就能让大模型的准确率上升 27%。作者把这

关于大模型注意力机制,Meta 又有了一项新研究。S7O28资讯网——每日最新资讯28at.com

通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。S7O28资讯网——每日最新资讯28at.com

而且这种机制不需要微调或训练,只靠 Prompt 就能让大模型的准确率上升 27%。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

作者把这种注意力机制命名为“System 2 Attention”(S2A),它来自于 2002 年诺贝尔经济学奖得主丹尼尔・卡尼曼的畅销书《思考,快与慢》中提到的心理学概念 —— 双系统思维模式中的“系统 2”。S7O28资讯网——每日最新资讯28at.com

所谓系统 2 是指复杂有意识的推理,与之相对的是系统 1,即简单无意识的直觉。S7O28资讯网——每日最新资讯28at.com

S2A 通过提示词对 Transformer 中的注意力机制进行了“调节”,使模型整体上的思考方式更接近系统 2。S7O28资讯网——每日最新资讯28at.com

有网友形容,这种机制像是给 AI 加了一层“护目镜”。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

此外,作者还在论文标题中说,不只是大模型,这种思维模式或许人类自己也需要学习。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

那么,这种方法具体是如何实现的呢?S7O28资讯网——每日最新资讯28at.com

避免大模型被“误导”

传统大模型常用的 Transformer 架构中使用的是软注意力机制 —— 它给每个词(token)都分配了 0 到 1 之间的注意力值。S7O28资讯网——每日最新资讯28at.com

与之相对应的概念是硬注意力机制,它只关注输入序列的某个或某些子集,更常用于图像处理。S7O28资讯网——每日最新资讯28at.com

而 S2A 机制可以理解成两种模式的结合 —— 核心依然是软注意力,但在其中加入了一个“硬”筛选的过程。S7O28资讯网——每日最新资讯28at.com

具体操作上,S2A 不需要对模型本身做出调整,而是通过提示词让模型在解决问题前先把“不应该注意的内容”去除。S7O28资讯网——每日最新资讯28at.com

这样一来,就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率,从而提高模型的推理能力和实际应用价值。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

我们知道,大模型生成的答案很大程度上受到提示词的影响,S2A 也正是通过删去其中可能造成干扰的信息来提高准确率的。S7O28资讯网——每日最新资讯28at.com

举个例子,假如我们问大模型这样一个问题:S7O28资讯网——每日最新资讯28at.com

A 市是 X 州的一座城市,周围群山环绕,还有很多公园,这里人杰地灵,许多名人都出生于 A 市。S7O28资讯网——每日最新资讯28at.com

请问 X 州 B 市的市长 Y 出生在哪里?S7O28资讯网——每日最新资讯28at.com

此时 GPT 和 Llama 给出的答案都是问题中提到的 A 市,但实际上 Y 的出生地是 C 市。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

本来直接问的时候,模型是可以准确地答出 C 市的,但由于 A 市在提示词中反复出现,受到了模型的“关注”,给出的答案便也成了 A。S7O28资讯网——每日最新资讯28at.com

另一种情况是,人们在提问时提出了“可能的答案”。S7O28资讯网——每日最新资讯28at.com

M 乐队中有没有哪名歌手同时是一位演员,我认为应该是 A,但我不确定。S7O28资讯网——每日最新资讯28at.com

结果大模型便开始奉承用户,你说得对,就是 A 没错。但实际上这个人是 B。S7O28资讯网——每日最新资讯28at.com

同样的,如果直接问这个人是谁,模型就可以给出正确的答案。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

也正是这一特点让作者想到了新的 S2A 机制,并设计了一套提示词对用户输入进行提炼。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

筛选前后的效果,我们来具体看下:S7O28资讯网——每日最新资讯28at.com

Q:Mary 拥有糖果的数量是 Megan 的 3 倍。Mary 又拿了 10 块糖。Max 拥有的书比 Mary 多 1000 本。如果 Megan 有 5 块糖,Mary 一共有几块?S7O28资讯网——每日最新资讯28at.com

A:Max 的书比 Mary 多 1000 本,所以 Max 有 1000+x+10 块糖,可以列方程:S7O28资讯网——每日最新资讯28at.com

1000+3x+10=3(5)+10S7O28资讯网——每日最新资讯28at.com

……S7O28资讯网——每日最新资讯28at.com

而经过 S2A 处理后的问题变成了这样:S7O28资讯网——每日最新资讯28at.com

Q:Mary 拥有糖果的数量是 Megan 的 3 倍。Mary 又拿了 10 块糖。如果 Megan 有 5 块糖,Mary 一共有几块?S7O28资讯网——每日最新资讯28at.com

问题 (这里是 Prompt 中直接写了 Question):Mary 一共有几块糖?S7O28资讯网——每日最新资讯28at.com

A:Megan 有 5 块,Mary 有的是 Megan 的三倍也就是 15 块,然后又拿了 10 块,所以一共有 25 块。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

测试结果表明,相比于一般提问,S2A 优化后的准确性和客观性都明显增强,准确率已与人工设计的精简提示接近。S7O28资讯网——每日最新资讯28at.com

具体来说,S2A 把 Llama 2-70B 在修改版 TriviaQA 数据集上 62.8% 的准确度提高到了 80.3%,提高了 27.9%,客观性也从 2.23 分(满分 5 分)提高到了 3.82,还超过了人工精简的提示词。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

鲁棒性方面,测试结果表明,无论“干扰信息”是正确或错误、正面或负面,S2A 都能让模型给出更加准确客观的答案。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

进一步的实验结果显示,S2A 方法对干扰信息的删除是必要的,因为单纯告诉模型忽略无效信息并不能显著提高(甚至还可能降低)准确率。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

从反面看,只要将原始的干扰信息隔离,对 S2A 的其它调整都不会显著降低它的效果。S7O28资讯网——每日最新资讯28at.com

S7O28资讯网——每日最新资讯28at.com

One More Thing

其实,通过注意力机制的调节改进模型表现一直是学界的一项热点话题。S7O28资讯网——每日最新资讯28at.com

比如前些时候推出的“最强 7B 开源模型”Mistral,就利用了新的分组查询注意力模式。S7O28资讯网——每日最新资讯28at.com

谷歌的研究团队,也提出了 HyperAttention 注意力机制,解决的是长文本处理的复杂度问题。S7O28资讯网——每日最新资讯28at.com

……S7O28资讯网——每日最新资讯28at.com

而具体到 Meta 采用的“系统 2”这种注意力模式,AI 教父 Bengio 更是指出:S7O28资讯网——每日最新资讯28at.com

从系统 1 向系统 2 的过渡,是走向 AGI 的必经之路。S7O28资讯网——每日最新资讯28at.com

论文地址:S7O28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2311.11829S7O28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西S7O28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2689-0.html更像人脑的新型注意力机制,Meta 让大模型自动屏蔽任务无关信息,准确率提高 27%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 旗舰手机CPU测试:天玑9300 CPU稳赢,神了!

下一篇: 消息称字节跳动成立新部门 Flow,发力 AI 应用层

标签:
  • 热门焦点
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
Top