当前位置:首页 > 科技  > 资讯

StreamingLLM框架亮相:突破文本长度限制

来源: 责编: 时间:2023-10-06 19:15:52 323观看
导读10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。这一研究的关键焦点

10月06日消息,麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架,该框架被认为能够解决大型语言模型面临的内存和泛化问题,使其能够轻松处理无限长度的文本内容。L6i28资讯网——每日最新资讯28at.com

L6i28资讯网——每日最新资讯28at.com

这一研究的关键焦点在于克服实现高效流式语言模型(Efficient Streaming LanguageModels,ESLM)时所面临的障碍,尤其是在长时间多轮对话等场景下可能出现的问题。L6i28资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,研究人员指出,构建流式语言模型主要面临两大挑战。解码阶段获取标记(token)的键(Key)和值(Value)状态会耗费大量内存。其次,现有的大型语言模型很难泛化到处理超出其训练序列长度的长文本。L6i28资讯网——每日最新资讯28at.com

过去的研究尝试解决这些挑战,例如扩展注意力窗口以处理长文本或建立一个固定大小的活动窗口,只关注最近的标记状态以维护内存使用和解码速度。然而,这些策略在处理超出缓存大小的序列时表现不佳。L6i28资讯网——每日最新资讯28at.com

L6i28资讯网——每日最新资讯28at.com

StreamingLLM采用了一种名为"注意力下沉"的策略,通过观察到自回归语言模型中,某些标记会获得大量的注意力,即使它们在语义上并不重要,这些标记也会吸引模型的关注。这种策略确保了无论输入序列的长度如何,模型的注意力计算都能保持稳定。L6i28资讯网——每日最新资讯28at.com

StreamingLLM的重要贡献在于提供了一种简单而高效的解决方案,使语言模型能够处理无限长度的文本,而无需进行微调。这将有助于解决当前流式应用中语言模型面临的问题。虽然流式语言模型在未来将变得更加重要,但由于内存效率和长序列处理性能等方面的限制,相关模型的发展仍面临挑战。L6i28资讯网——每日最新资讯28at.com

据研究团队验证,StreamingLLM能够使Llama2、MPT、Falcon和Pythia等模型可靠地处理长达400万个标记的文本,从而为流式语言模型的部署提供了更多可能性。这一创新有望推动自然语言处理领域的发展,并为各种应用场景带来更强大的语言模型支持。L6i28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-11921-0.htmlStreamingLLM框架亮相:突破文本长度限制

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为鸿蒙原生应用全面启动,全面布局移动生态链

下一篇: OpenAI或将收购目标公司,推进AI芯片自主研发计划

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 28个SpringBoot项目中常用注解,日常开发、求职面试不再懵圈

    前言在使用SpringBoot开发中或者在求职面试中都会使用到很多注解或者问到注解相关的知识。本文主要对一些常用的注解进行了总结,同时也会举出具体例子,供大家学习和参考。注解
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • Java NIO内存映射文件:提高文件读写效率的优秀实践!

    Java的NIO库提供了内存映射文件的支持,它可以将文件映射到内存中,从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 英特尔Xe HPG游戏显卡:拥有512EU,单风扇版本

    据10 月 30 日外媒 TheVerge 消息报道,英特尔 Xe HPG Arc Alchemist 的正面实被曝光,不仅拥有 512 EU 版显卡,还拥有 128EU 的单风扇版本。另外,这款显卡 PCB
Top