当前位置:首页 > 科技  > 资讯

StreamingLLM框架亮相:突破文本长度限制

来源: 责编: 时间:2023-10-06 19:15:52 368观看
导读10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。这一研究的关键焦点

10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。SgM28资讯网——每日最新资讯28at.com

SgM28资讯网——每日最新资讯28at.com

这一研究的关键焦点在于克服实现高效流式语言模型(Efficient Streaming LanguageModels,ESLM)时所面临的障碍,尤其是在长时间多轮对话等场景下可能出现的问题。SgM28资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,研究人员指出,构建流式语言模型主要面临两大挑战。解码阶段获取标记(token)的键(Key)和值(Value)状态会耗费大量内存。其次,现有的大型语言模型很难泛化到处理超出其训练序列长度的长文本。SgM28资讯网——每日最新资讯28at.com

过去的研究尝试解决这些挑战,例如扩展注意力窗口以处理长文本或建立一个固定大小的活动窗口,只关注最近的标记状态以维护内存使用和解码速度。然而,这些策略在处理超出缓存大小的序列时表现不佳。SgM28资讯网——每日最新资讯28at.com

SgM28资讯网——每日最新资讯28at.com

StreamingLLM采用了一种名为"注意力下沉"的策略,通过观察到自回归语言模型中,某些标记会获得大量的注意力,即使它们在语义上并不重要,这些标记也会吸引模型的关注。这种策略确保了无论输入序列的长度如何,模型的注意力计算都能保持稳定。SgM28资讯网——每日最新资讯28at.com

StreamingLLM的重要贡献在于提供了一种简单而高效的解决方案,使语言模型能够处理无限长度的文本,而无需进行微调。这将有助于解决当前流式应用中语言模型面临的问题。虽然流式语言模型在未来将变得更加重要,但由于内存效率和长序列处理性能等方面的限制,相关模型的发展仍面临挑战。SgM28资讯网——每日最新资讯28at.com

据研究团队验证,StreamingLLM能够使Llama2、MPT、Falcon和Pythia等模型可靠地处理长达400万个标记的文本,从而为流式语言模型的部署提供了更多可能性。这一创新有望推动自然语言处理领域的发展,并为各种应用场景带来更强大的语言模型支持。SgM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-11921-0.htmlStreamingLLM框架亮相:突破文本长度限制

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为鸿蒙原生应用全面启动,全面布局移动生态链

下一篇: OpenAI或将收购目标公司,推进AI芯片自主研发计划

标签:
  • 热门焦点
  • MIX Fold3包装盒泄露 新机本月登场

    小米的全新折叠屏旗舰MIX Fold3将于本月发布,近日该机的真机包装盒在网上泄露。从图上来看,新的MIX Fold3包装盒在外观设计方面延续了之前的方案,变化不大,这也是目前小米旗舰
  • Redmi Pad评测:红米充满野心的一次尝试

    从Note系列到K系列,从蓝牙耳机到笔记本电脑,红米不知不觉之间也已经形成了自己颇有竞争力的产品体系,在中端和次旗舰市场上甚至要比小米新机的表现来得更好,正所谓“大丈夫生居
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • Java NIO内存映射文件:提高文件读写效率的优秀实践!

    Java的NIO库提供了内存映射文件的支持,它可以将文件映射到内存中,从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 网红炒股不为了赚钱,那就是耍流氓!

    来源:首席商业评论6月26日高调宣布入市,网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上,几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
  • 首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

    2023年5月23日晚,iQOO Neo8系列正式发布。其中,Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场,限时售价3099元起;价位段最强性能手机iQOO Neo8同期上市
  • 质感不错!OPPO K11渲染图曝光:旗舰IMX890传感器首次下放

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
Top