当前位置：首页 > 元宇宙 > AI

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

来源：责编：时间：2024-10-11 16:31:21 179观看

导读 10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命

10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。

Transformer 架构简介

Transformer 是一种革命性的神经网络架构，由谷歌在 2017 年提出，主要用于处理序列数据，特别是在自然语言处理（NLP）领域。

Transformer 的核心是自注意力机制，允许模型在处理输入序列时捕捉词与词之间的关系，让模型能够关注输入序列中的所有部分，而不仅仅是局部信息。

Transformer 由多个编码器和解码器组成。编码器负责理解输入数据，而解码器则生成输出。多头自注意力机制使模型能够并行处理信息，提高了效率和准确性。

Transformer 架构模型挑战

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下，由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度，这就导致随着上下文长度的增加，计算和内存需求呈指数增长。

现在解决这一问题的方法包括稀疏注意力机制（sparse attention mechanisms），它限制了标记之间的交互数量，以及通过总结过去信息来减少序列长度的上下文压缩技术。

不过这种方法是通过减少在注意力机制中考虑的标记数量达成的，因此通常以性能为代价，可能会导致上下文关键信息丢失。

谷歌新方法

谷歌研究的研究人员提出了一种名为选择性注意的新方法，可以动态忽略不再相关的标记，从而提高 Transformer 模型的效率。

选择性注意力使用软掩码矩阵来确定每个标记对未来标记的重要性，减少对不重要标记的关注。

研究表明，配备选择性注意的 Transformer 架构模型在多个自然语言处理任务中表现出色，同时显著降低了内存使用和计算成本。

例如，在拥有 1 亿参数的 Transformer 模型中，注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基准测试中也优于传统 Transformer，对于较大的模型规模实现了高达 5% 的准确率提升。

选择性注意力允许构建更小、更高效的模型，在不损害准确性的情况下，显著减少内存需求。

附上参考地址

Selective Attention Improves Transformer

This AI Paper from Google Introduces Selective Attention: A Novel AI Approach to Improving the Efficiency of Transformer Models

本文链接：http://www.28at.com/showinfo-45-8656-0.htmlAI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：仅靠微软无法满足激增的 AI 计算需求，OpenAI 被曝和甲骨文合作

下一篇：消息称 Kimi AI 助手内测深度推理功能，月之暗面有团队国庆加班 7 天 3 倍工资

标签：

热门焦点

人间诚实周鸿祎：360 All in 大模型的六个解读

主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今，人间躁动，各路大模型你方唱罢我登场，VC圈互联网圈媒体圈已近癫狂。谁也没想到，今日，360再度刷屏，老牌互联网巨头展现
FMIFAwards奖项即将揭晓！

来源：X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
星展银行(DBS)计划推出零售数字资产交易服务

2月14日消息，新加坡星展银行CEO Piyush Gupta在财报会议上表示，计划于2022年年底前推出零售数字资产交易服务。据悉，DBS于2021年初开设了机构数字资产交易平台，全
NFT的未来：传统企业与去中心化机构之间的竞赛

传统企业和去中心化机构一直存在分歧，但最近NFT的爆炸式增长让他们产生了共同的兴趣，双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问，NFT 市场正在增长。
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

上周，外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项，暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中，Meta Reali
2021年中国智慧城市行业概览：AI慧眼独具，赋能“双碳”目标

中国智慧城市试点项目主要集中于东南地区以及华中地区，受制于应用场景分散以及行业地域建设差异，目前中国智慧城市存在较多弊端，未来数量有望持续突破。中国智慧
如何在元宇宙中建立品牌忠诚度

Snoop Dogg、耐克、苏富比和普华永道都有什么共同点？他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
虚拟人行业研究报告

最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

人间诚实周鸿祎：360 All in 大模型的六个解读

FMIFAwards奖项即将揭晓！

星展银行(DBS)计划推出零售数字资产交易服务

NFT的未来：传统企业与去中心化机构之间的竞赛

比特币的价格越高，使用价值越大

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

2021年中国智慧城市行业概览：AI慧眼独具，赋能“双碳”目标

如何在元宇宙中建立品牌忠诚度

虚拟人行业研究报告

最新推荐

《从营销AIGC化到AIGC营销化》报告发布

拯救XR，苹果力不从心

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

DAO登上了历史舞台，但是主流准备好采用DAO了吗？

NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

与元宇宙美少女艺术家的对话

猜你喜欢

热门推荐

相关资讯