当前位置：首页 > 科技 > 资讯

StreamingLLM框架亮相：突破文本长度限制

来源：责编：时间：2023-10-06 19:15:52 402观看

导读10月06日消息，麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架，该框架被认为能够解决大型语言模型面临的内存和泛化问题，使其能够轻松处理无限长度的文本内容。这一研究的关键焦点

10月06日消息，麻省理工学院与metaAI的研究人员最近宣布他们成功开发了一项名为StreamingLLM的创新框架，该框架被认为能够解决大型语言模型面临的内存和泛化问题，使其能够轻松处理无限长度的文本内容。

这一研究的关键焦点在于克服实现高效流式语言模型(Efficient Streaming LanguageModels，ESLM)时所面临的障碍，尤其是在长时间多轮对话等场景下可能出现的问题。

据ITBEAR科技资讯了解，研究人员指出，构建流式语言模型主要面临两大挑战。解码阶段获取标记(token)的键(Key)和值(Value)状态会耗费大量内存。其次，现有的大型语言模型很难泛化到处理超出其训练序列长度的长文本。

过去的研究尝试解决这些挑战，例如扩展注意力窗口以处理长文本或建立一个固定大小的活动窗口，只关注最近的标记状态以维护内存使用和解码速度。然而，这些策略在处理超出缓存大小的序列时表现不佳。

StreamingLLM采用了一种名为"注意力下沉"的策略，通过观察到自回归语言模型中，某些标记会获得大量的注意力，即使它们在语义上并不重要，这些标记也会吸引模型的关注。这种策略确保了无论输入序列的长度如何，模型的注意力计算都能保持稳定。

StreamingLLM的重要贡献在于提供了一种简单而高效的解决方案，使语言模型能够处理无限长度的文本，而无需进行微调。这将有助于解决当前流式应用中语言模型面临的问题。虽然流式语言模型在未来将变得更加重要，但由于内存效率和长序列处理性能等方面的限制，相关模型的发展仍面临挑战。

据研究团队验证，StreamingLLM能够使Llama2、MPT、Falcon和Pythia等模型可靠地处理长达400万个标记的文本，从而为流式语言模型的部署提供了更多可能性。这一创新有望推动自然语言处理领域的发展，并为各种应用场景带来更强大的语言模型支持。

本文链接：http://www.28at.com/showinfo-16-11921-0.htmlStreamingLLM框架亮相：突破文本长度限制

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：华为鸿蒙原生应用全面启动，全面布局移动生态链

下一篇： OpenAI或将收购目标公司，推进AI芯片自主研发计划

标签：

热门焦点

K60至尊版刚预热一加Ace2 Pro正面硬刚

Redmi这边刚如火如荼的宣传了K60 Ultra的各种技术和硬件配置，作为竞品的一加也坐不住了。一加中国区总裁李杰发布了两条微博，表示在自家的一加Ace2上早就已经采用了和PixelWo
石头智能洗地机A10 Plus体验：双向自清洁治好了我的懒癌

一、前言和介绍专为家庭请假懒人而生的石头科技在近日又带来了自己的全新旗舰新品，石头智能洗地机A10 Plus。从这个产品名上就不难看出，这次石头推出的并不是常见的扫地机器
6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

没有新品发布，自然iOS设备性能榜的上榜设备就没有什么更替，仅仅只有跑分变化而产生的排名变动，毕竟苹果新品的发布节奏就是这样的，一年下来也就几个移动端新品，不会像安卓厂商，一
JavaScript 混淆及反混淆代码工具

介绍在我们开始学习反混淆之前，我们首先要了解一下代码混淆。如果不了解代码是如何混淆的，我们可能无法成功对代码进行反混淆，尤其是使用自定义混淆器对其进行混淆时。什么是混
企业采用CRM系统的11个好处

客户关系管理（CRM）软件可以为企业提供很多的好处，从客户保留到提高生产力。　　CRM软件用于企业收集客户互动，以改善客户体验和满意度。　　CRM软件市场规模如今超过580
消息称小米汽车开始筛选交付中心：需至少120个车位

IT之家 7 月 7 日消息，日前，有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者发文表示，据经销商集团反馈，小米汽车目前
AI芯片初创公司Tenstorrent获三星和现代1亿美元投资

Tenstorrent是一家由芯片行业资深人士Jim Keller领导的加拿大初创公司，专注于开发人工智能芯片，该公司周三表示，已经从现代汽车集团和三星投资基金等
世界人工智能大会国际日开幕式活动在世博展览馆开启

30日上午，世界人工智能大会国际日开幕式活动在世博展览馆开启，聚集国际城市代表、重量级院士专家、国际创新企业代表，共同打造人工智能交流平台。上海市副市
外交部：美方应停止在网络安全问题上不负责任地指责他国

　中国外交部今天（16日）举行例行记者会。会上，有记者问，美国情报官员称，他们正在阻拦来自中国以及其他国家的黑客获取相关科研成果。中方对此有何评论？对此

StreamingLLM框架亮相：突破文本长度限制

K60至尊版刚预热一加Ace2 Pro正面硬刚

石头智能洗地机A10 Plus体验：双向自清洁治好了我的懒癌

6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

JavaScript 混淆及反混淆代码工具

企业采用CRM系统的11个好处

消息称小米汽车开始筛选交付中心：需至少120个车位

AI芯片初创公司Tenstorrent获三星和现代1亿美元投资

世界人工智能大会国际日开幕式活动在世博展览馆开启

外交部：美方应停止在网络安全问题上不负责任地指责他国

最新推荐

猜你喜欢

热门推荐

相关资讯