当前位置:首页 > 科技  > 软件

LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

来源: 责编: 时间:2024-04-29 16:13:57 241观看
导读大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k个token。最近,Microsoft Research的研究人员

大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k个token。0Qr28资讯网——每日最新资讯28at.com

最近,Microsoft Research的研究人员提出了一个新模型LongRoPE,首次将预训练 LLM 的上下文窗口扩展到了2048k个token,在256k的训练长度下只需要1000个微调步骤即可,同时还能保持原始短上下文窗口的性能。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/abs/2402.137530Qr28资讯网——每日最新资讯28at.com

代码链接:https: //github.com/microsoft/LongRoPE0Qr28资讯网——每日最新资讯28at.com

LongRoPE主要包含了三个关键创新点:0Qr28资讯网——每日最新资讯28at.com

1. 通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在非微调情况下实现了 8 倍扩展;0Qr28资讯网——每日最新资讯28at.com

2. 引入了渐进扩展策略,首先微调 256k 长度的 LLM,然后在微调扩展的LLM上进行第二次位置插值,以实现 2048k 上下文窗口;0Qr28资讯网——每日最新资讯28at.com

3. 在8k长度上重新调整 LongRoPE以恢复短上下文窗口性能。0Qr28资讯网——每日最新资讯28at.com

在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了该方法的有效性。0Qr28资讯网——每日最新资讯28at.com

通过 LongRoPE 扩展的模型保留了原始架构,只对位置嵌入稍作修改,并且可以重复使用大部分已有的优化。0Qr28资讯网——每日最新资讯28at.com

位置插值的不均匀性

Transformer模型需要明确的位置信息,通常以位置嵌入(position embedding)的形式来表示输入token的顺序。0Qr28资讯网——每日最新资讯28at.com

本文中的位置嵌入表示方法主要来自于RoPE, 对于位置索引为 n 的标记,其相应的 RoPE 编码可简化如下:0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

其中,d 是嵌入维度,nθi 是标记在位置 n 上的旋转角度,θi = θ -2i/d 表示旋转频率。在 RoPE 中,θ 的默认基准值为 10000。0Qr28资讯网——每日最新资讯28at.com

受 NTK 和 YaRN 的启发,研究人员注意到这两个模型可以从非线性嵌入中获得性能提升,特别是在考虑 RoPE 各维度的不同频率以进行专门的内插法和外推法时。0Qr28资讯网——每日最新资讯28at.com

然而,当前的非线性在很大程度上依赖于人为设计的规则。0Qr28资讯网——每日最新资讯28at.com

这也自然引出了两个问题:0Qr28资讯网——每日最新资讯28at.com

1. 当前的位置插值是否是最佳的?0Qr28资讯网——每日最新资讯28at.com

2. 是否存在尚未探索的非线性?0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

为了回答这些问题,研究人员使用进化搜索(evolution search)为LLaMA2-7B发现更好的非均匀位置插值。搜索以易错性为指导,使用来自PG19验证集的5个随机样本。0Qr28资讯网——每日最新资讯28at.com

通过实证分析,研究人员总结了几个主要发现。0Qr28资讯网——每日最新资讯28at.com

发现1:RoPE维度表现出很大的不均匀性,目前的位置插值方法无法有效处理这些不均匀性;0Qr28资讯网——每日最新资讯28at.com

在公式 2 中为每个 RoPE 维度搜索最佳 λ。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

研究人员对比了PG19和Proof-pile测试集上使用不同方法的 LLaMA2-7B 在不进行微调的情况下的复杂度。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

从结果来看,搜索到的解决方案有明显改善,表明当前的线性(PI,positional interpolation)和非均匀(Dynamic-NTK 和 YaRN)插值方法都不是最佳的。0Qr28资讯网——每日最新资讯28at.com

值得注意的是,YaRN 在 PG19 上的表现不如 PI 和 NTK,因为其达不到非微调 LLM 的目标上下文窗口长度。0Qr28资讯网——每日最新资讯28at.com

例如,在 8k 上下文大小的情况下,YaRN 的困惑度在 7k 后达到峰值。0Qr28资讯网——每日最新资讯28at.com

通过搜索,公式 2 中的重标度(rescaled)因子λ变得不均匀,与PI、NTK的公式计算和YaRN的分组计算中的固定标度s有所不同。0Qr28资讯网——每日最新资讯28at.com

在8k和16k上下文窗口中,这些非均匀因子大大提高了LLaMA2的语言建模性能(即复杂度),而无需进行微调,主要是因为由此产生的位置嵌入有效地保留了原始的RoPE,尤其是关键维度,从而降低了LLM区分近似token位置的难度。0Qr28资讯网——每日最新资讯28at.com

发现2:输入序列中初始词块的RoPE推断应减少插值;0Qr28资讯网——每日最新资讯28at.com

对于输入序列中的初始n个token,假设RoPE应该做较少的插值,这是因为会获得较大的注意力分数,从而对注意力层至关重要,正如在Streaming LLM和 LM-Infinite 中观察到的那样。0Qr28资讯网——每日最新资讯28at.com

为了验证这一点,研究人员使用PI和NTK将上下文窗口扩展到 8k 和 16k,保留前 n(0,2, ..., 256)个token,不进行插值。当n=0 时,则恢复到原来的 PI 和 NTK。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

上表中可以观察到两个结果:0Qr28资讯网——每日最新资讯28at.com

1. 保留起始token而不进行位置插值确实能提高性能。0Qr28资讯网——每日最新资讯28at.com

2. 最佳起始token数n取决于目标扩展长度。0Qr28资讯网——每日最新资讯28at.com

发现3:在微调和非微调设置中,非均匀位置插值都能有效扩展 LLM 上下文窗口。0Qr28资讯网——每日最新资讯28at.com

虽然已经证明,在不进行微调的情况下,搜索到的非均匀位置插值能显著提高8k和16k扩展性能,但更长的扩展需要微调。0Qr28资讯网——每日最新资讯28at.com

因此使用搜索到的RoPE对LLaMA2-7B的64k上下文窗口大小进行了微调。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

从结果中可以看到,在微调LLaMA2-7B之前和之后,该方法都明显优于PI和YaRN,主要原因是有效地使用了非均匀位置插值、最小化信息损失,以及为微调提供了更好的初始化。0Qr28资讯网——每日最新资讯28at.com

受上述发现的启发,研究人员提出了LongRoPE,首先引入了一种高效的搜索算法,以充分利用这两种不均匀性,并将LLM上下文窗口扩展到 200 万个token。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

具体形式化算法参见原文。0Qr28资讯网——每日最新资讯28at.com

实验结果

研究人员将LongRoPE应用于LLaMA2-7B和Mistral-7B模型上,并从三个方面对其性能进行了评估:0Qr28资讯网——每日最新资讯28at.com

1. 长文档中扩展上下文 LLM 的困惑度;0Qr28资讯网——每日最新资讯28at.com

2. 密钥(passkey)检索任务,该任务衡量模型从大量无关文本中检索简单密钥的能力;0Qr28资讯网——每日最新资讯28at.com

3. 4096上下文窗口的标准LLM基准;0Qr28资讯网——每日最新资讯28at.com

在256k范围内进行长序列语言建模。0Qr28资讯网——每日最新资讯28at.com

在Proof-pile和PG19上通过不同插值方法扩展的 LLaMA2 和 Mistral 的困惑度。0Qr28资讯网——每日最新资讯28at.com

从实验结果中可以得出两个关键的结论:0Qr28资讯网——每日最新资讯28at.com

1. 从 4k 到 256k 的评估长度来看,扩展模型展现出整体困惑度下降的趋势,表明模型有能力利用更长的上下文;0Qr28资讯网——每日最新资讯28at.com

2. 即使在上下文窗口长度为 16 倍的情况下(这通常是在较短上下文长度下保持性能所面临的挑战),我们的 LongRoPE-2048k 模型在 256k 上下文长度内的性能仍优于最先进的基线模型。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

超过2000k的长序列语言建模

为了评估超长文档的有效性,研究人员使用了Books3数据集。0Qr28资讯网——每日最新资讯28at.com

为了评估效率,随机选择20本书,每本长度超过2048k个token,并使用256k的滑动窗口。0Qr28资讯网——每日最新资讯28at.com

图片图片0Qr28资讯网——每日最新资讯28at.com

从结果中可以看出,LongRoPE成功地将LLaMA2-7B和Mistral-7B的上下文窗口扩展到2048k,同时还在8k-128k的较短长度内实现了与基线相当或更好的困惑度。0Qr28资讯网——每日最新资讯28at.com

还可以观察到2048k LLaMA2和Mistral之间的显著性能差异:Mistral在较短的长度上优于基线,但困惑度在超过256k长度时达到7。0Qr28资讯网——每日最新资讯28at.com

LLaMA2的性能与预期一致:随着时间的延长,困惑感会有所减少,在1024k和2048k时略有增加。0Qr28资讯网——每日最新资讯28at.com

此外,在LLaMA2上,LongRoPE-2048k在256k比128k的微调长度下表现更好,主要是由于次级延伸比(secondary extension ratio)更小(即8倍对16倍)。0Qr28资讯网——每日最新资讯28at.com

相比之下,Mistral在微调128k的窗口大小方面表现更好,主要原因是对于Mistral的128k和256k微调,研究人员遵循YaRN的设置使用16k训练长度,影响了Mistral在微调后进一步扩展上下文窗口的能力。0Qr28资讯网——每日最新资讯28at.com

参考资料:0Qr28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2402.137530Qr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-86504-0.htmlLLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 早知如此!来看看 Python 函数的七个秘密

下一篇: 首届AI方程式大赛,8圈开了一个小时

标签:
  • 热门焦点
  • Find N3入网:最高支持16+1TB

    OPPO将于近期登场的Find N3折叠屏目前已经正式入网,型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化,不再是小号的横向折叠屏,而是跟别的厂商一样采用了较为常见的
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • 雅柏威士忌多款单品价格大跌,泥煤顶流也不香了?

    来源 | 烈酒商业观察编 | 肖海林今年以来,威士忌市场开始出现了降温迹象,越来越多不断暴涨的网红威士忌也开始悄然回归市场理性。近日,LVMH集团旗下苏格兰威士忌品牌雅柏(Ardbeg
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top