当前位置：首页 > 科技 > 软件

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

来源：责编：时间：2024-01-08 17:10:36 341观看

导读无需微调，只要四行代码就能让大模型窗口长度暴增，最高可增加3倍！而且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。有了这项技术，大模型（LargeLM）就能摇身一变，成为LongLM。近日，来自得克萨斯

无需微调，只要四行代码就能让大模型窗口长度暴增，最高可增加3倍！

而且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。

有了这项技术，大模型（LargeLM）就能摇身一变，成为LongLM。

近日，来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended（简称SE）。

在Mistral上，研究者在24k长度的文本中随机插入5位数字让模型搜索，结果经SE处理后，呈现出了全绿（通过）的测试结果。

而未经处理的版本，在6k长度时就已经开始“见红”了。

图片

GitHub Copilot主创Alex Graveley也激动地宣布，在Llama2上进行的实验同样取得了成功。

图片

在网友的进一步询问之下，Alex解释了推文中“work”的具体含义：原先在4k长度时就会出现的噪声，现在已经消失了。

图片

而对于SE窗口长度的极限，一位根据论文复现SE代码的大佬表示，理论上（只要算力足够）可以达到无限长。

图片

那么，SE具体能达到什么样的效果呢？

长文本能力显著增强

在窗口长度从4096增长到16384的过程中，Llama 2的困惑度从一开始变飙升了两个数量级。

但使用SE后，文本长度变成了原来的4倍，困惑度却只增加了0.4。

而在Mistral上，SE比Mistral自身采用的滑动窗口（SWA）机制带来了更低的困惑度。

图片

△左下图使用对数坐标

在专为长文本模型设计的LongBench数据集中，SE处理后的模型在单/多文档问答、总结、少样本学习、代码等任务中，评分均相比起原始版本有所提升。

特别是在一个名为SOLAR的模型上，处理后的模型在16k长度下的表现比原始版本在4k长度下的表现还要优异。

SOLAR由两个羊驼掐头去尾拼接而成，这种拼接的方式，使得其注意力层结构与其他基于Transformer的模型形成了一定差异。

同时，在GSM等由考试题组成的闭域问答任务中，SE优化后的模型也都相比原始版本取得了更高的平均成绩，在Mistral上稍逊于其自身的SWA方法。

图片

而长文本能力的增强，并没有带来模型在短文本上的能力下降。

在HuggingFace的OpenLLM基准下，SE版Llama2的测评成绩相比原版均为发生显著降低。

图片

目前，SE的开箱即用版支持Phi、Llama和Mistral三种模型，在这三种模型上只需4行代码就能进行窗口扩增。

对于其他模型，则需要对代码进行一定修改。

图片

那么，SE是如何给模型增加窗口长度的呢？

两种注意力机制共同作用

研究者认为，长文本能力是大模型本身就具有的，但需要通过一定方法激发才能实现。

其中最主要的问题是，大模型在处理长文本时，会遇到相对位置编码超出训练时所见范围的情况。

针对这一情况，作者采用了FLOOR注意力机制作为解决策略。

FLOOR对输入的文本序列进行分组，然后用组数对某一token的绝对位置做取整除，就可以长距离将映射到较短的范围。

然后，对这些映射值进行注意力运算，就解决了位置编码超限的问题，实现了长文本的处理。

图片

而在处理中短长度文本时，仍然使用模型原有的注意力机制，从而确保了模型不会“顾此失彼”，避免因长文本能力的增长导致短文本能力损失。

此外，在Mistral上复现SE的作者还坦言，目前该模型并不完美，可能存在计算量暴增的问题。

图片

同时，SE的原作者也说，目前SE方法的确还没有做过效率方面的优化，未来计划通过引入FlashAttention机制等策略来解决这一问题。

论文地址：https://arxiv.org/abs/2401.01325

本文链接：http://www.28at.com/showinfo-26-58903-0.html四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：在Rust中编写自动化测试

下一篇：在 Flutter 中创建圆角图像和圆形图像有多少种方法？

标签：

热门焦点

小米平板5 Pro 12.4简评：多专多能兼顾影音娱乐的大屏利器

疫情带来了网课，网课盘活了安卓平板，安卓平板市场虽然中途停滞了几年，但好的一点就是停滞的这几年行业又有了新的发展方向，例如超窄边框、高刷新率、多摄镜头组合等，这就让安卓
摸鱼心法第一章——和配置文件说拜拜

为了能摸鱼我们团队做了容器化，但是带来的问题是服务配置文件很麻烦，然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比，简单对比下独立配置中心和k8s作为配
量化指标是与非：挽救被量化指标扼杀的技术团队

作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享，更多精彩内容及现场PPT，请关注51CTO技术栈公众号，发消息【WOT2023PPT】即可直接领取
三万字盘点 Spring 九大核心基础功能

大家好，我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说，先上目录：图片友情提示，本文过长，建议收藏，嘿嘿嘿！一、资源管理资源管理是Spring的一个核心的基础功能，不
一篇文章带你了解 CSS 属性选择器

属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式，而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

2023年7月26日，三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板电脑以及三星Galaxy Watch6系列智能手表也同期
Counterpoint ：OPPO双旗舰战略全面落地高端产品销量增长22%

2023年6月30日，全球行业分析机构Counterpoint Research发布的《中国智能手机高端市场白皮书》显示，中国智能手机品牌正在寻求高质量发展，中国高端智能
微软发布Windows 11新版引入全新任务栏状态

近日，微软发布了Windows 11新版，而Build 22563更新主要引入了几周前曝光的平板模式任务栏等，系统更流畅了。更新中，Windows 11加入了专门针对平板优化的任务栏
利用职权私自解除被封帐号 Meta开除20多名员工

11月18日消息，据外媒援引知情人士表示，过去一年时间内，Facebook母公司Meta解雇或处罚了20多名员工以及合同工，指控这些人通过内部系统以不当方式重置用户帐号，其

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

长文本能力显著增强

△左下图使用对数坐标

两种注意力机制共同作用

小米平板5 Pro 12.4简评：多专多能兼顾影音娱乐的大屏利器

摸鱼心法第一章——和配置文件说拜拜

量化指标是与非：挽救被量化指标扼杀的技术团队

三万字盘点 Spring 九大核心基础功能

一篇文章带你了解 CSS 属性选择器

三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

Counterpoint ：OPPO双旗舰战略全面落地高端产品销量增长22%

微软发布Windows 11新版引入全新任务栏状态

利用职权私自解除被封帐号 Meta开除20多名员工

最新推荐

猜你喜欢

热门推荐

相关资讯