当前位置：首页 > 科技 > 软件

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

来源：责编：时间：2024-04-29 16:13:57 305观看

导读大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token。最近，Microsoft Research的研究人员

大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token。

最近，Microsoft Research的研究人员提出了一个新模型LongRoPE，首次将预训练 LLM 的上下文窗口扩展到了2048k个token，在256k的训练长度下只需要1000个微调步骤即可，同时还能保持原始短上下文窗口的性能。

图片

论文链接：https://arxiv.org/abs/2402.13753

代码链接：https: //github.com/microsoft/LongRoPE

LongRoPE主要包含了三个关键创新点：

1. 通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供了更好的初始化，并在非微调情况下实现了 8 倍扩展；

2. 引入了渐进扩展策略，首先微调 256k 长度的 LLM，然后在微调扩展的LLM上进行第二次位置插值，以实现 2048k 上下文窗口；

3. 在8k长度上重新调整 LongRoPE以恢复短上下文窗口性能。

在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了该方法的有效性。

通过 LongRoPE 扩展的模型保留了原始架构，只对位置嵌入稍作修改，并且可以重复使用大部分已有的优化。

位置插值的不均匀性

Transformer模型需要明确的位置信息，通常以位置嵌入（position embedding）的形式来表示输入token的顺序。

本文中的位置嵌入表示方法主要来自于RoPE，对于位置索引为 n 的标记，其相应的 RoPE 编码可简化如下：

图片

其中，d 是嵌入维度，nθi 是标记在位置 n 上的旋转角度，θi = θ -2i/d 表示旋转频率。在 RoPE 中，θ 的默认基准值为 10000。

受 NTK 和 YaRN 的启发，研究人员注意到这两个模型可以从非线性嵌入中获得性能提升，特别是在考虑 RoPE 各维度的不同频率以进行专门的内插法和外推法时。

然而，当前的非线性在很大程度上依赖于人为设计的规则。

这也自然引出了两个问题：

1. 当前的位置插值是否是最佳的？

2. 是否存在尚未探索的非线性？

图片

为了回答这些问题，研究人员使用进化搜索（evolution search）为LLaMA2-7B发现更好的非均匀位置插值。搜索以易错性为指导，使用来自PG19验证集的5个随机样本。

通过实证分析，研究人员总结了几个主要发现。

发现1：RoPE维度表现出很大的不均匀性，目前的位置插值方法无法有效处理这些不均匀性；

在公式 2 中为每个 RoPE 维度搜索最佳 λ。

图片

研究人员对比了PG19和Proof-pile测试集上使用不同方法的 LLaMA2-7B 在不进行微调的情况下的复杂度。

图片

从结果来看，搜索到的解决方案有明显改善，表明当前的线性（PI，positional interpolation）和非均匀（Dynamic-NTK 和 YaRN）插值方法都不是最佳的。

值得注意的是，YaRN 在 PG19 上的表现不如 PI 和 NTK，因为其达不到非微调 LLM 的目标上下文窗口长度。

例如，在 8k 上下文大小的情况下，YaRN 的困惑度在 7k 后达到峰值。

通过搜索，公式 2 中的重标度（rescaled）因子λ变得不均匀，与PI、NTK的公式计算和YaRN的分组计算中的固定标度s有所不同。

在8k和16k上下文窗口中，这些非均匀因子大大提高了LLaMA2的语言建模性能（即复杂度），而无需进行微调，主要是因为由此产生的位置嵌入有效地保留了原始的RoPE，尤其是关键维度，从而降低了LLM区分近似token位置的难度。

发现2：输入序列中初始词块的RoPE推断应减少插值；

对于输入序列中的初始n个token，假设RoPE应该做较少的插值，这是因为会获得较大的注意力分数，从而对注意力层至关重要，正如在Streaming LLM和 LM-Infinite 中观察到的那样。

为了验证这一点，研究人员使用PI和NTK将上下文窗口扩展到 8k 和 16k，保留前 n（0,2, ..., 256）个token，不进行插值。当n=0 时，则恢复到原来的 PI 和 NTK。

图片

上表中可以观察到两个结果：

1. 保留起始token而不进行位置插值确实能提高性能。

2. 最佳起始token数n取决于目标扩展长度。

发现3：在微调和非微调设置中，非均匀位置插值都能有效扩展 LLM 上下文窗口。

虽然已经证明，在不进行微调的情况下，搜索到的非均匀位置插值能显著提高8k和16k扩展性能，但更长的扩展需要微调。

因此使用搜索到的RoPE对LLaMA2-7B的64k上下文窗口大小进行了微调。

图片

从结果中可以看到，在微调LLaMA2-7B之前和之后，该方法都明显优于PI和YaRN，主要原因是有效地使用了非均匀位置插值、最小化信息损失，以及为微调提供了更好的初始化。

受上述发现的启发，研究人员提出了LongRoPE，首先引入了一种高效的搜索算法，以充分利用这两种不均匀性，并将LLM上下文窗口扩展到 200 万个token。

图片

具体形式化算法参见原文。

实验结果

研究人员将LongRoPE应用于LLaMA2-7B和Mistral-7B模型上，并从三个方面对其性能进行了评估：

1. 长文档中扩展上下文 LLM 的困惑度；

2. 密钥（passkey）检索任务，该任务衡量模型从大量无关文本中检索简单密钥的能力；

3. 4096上下文窗口的标准LLM基准；

在256k范围内进行长序列语言建模。

在Proof-pile和PG19上通过不同插值方法扩展的 LLaMA2 和 Mistral 的困惑度。

从实验结果中可以得出两个关键的结论：

1. 从 4k 到 256k 的评估长度来看，扩展模型展现出整体困惑度下降的趋势，表明模型有能力利用更长的上下文；

2. 即使在上下文窗口长度为 16 倍的情况下（这通常是在较短上下文长度下保持性能所面临的挑战），我们的 LongRoPE-2048k 模型在 256k 上下文长度内的性能仍优于最先进的基线模型。

图片

超过2000k的长序列语言建模

为了评估超长文档的有效性，研究人员使用了Books3数据集。

为了评估效率，随机选择20本书，每本长度超过2048k个token，并使用256k的滑动窗口。

图片

从结果中可以看出，LongRoPE成功地将LLaMA2-7B和Mistral-7B的上下文窗口扩展到2048k，同时还在8k-128k的较短长度内实现了与基线相当或更好的困惑度。

还可以观察到2048k LLaMA2和Mistral之间的显著性能差异：Mistral在较短的长度上优于基线，但困惑度在超过256k长度时达到7。

LLaMA2的性能与预期一致：随着时间的延长，困惑感会有所减少，在1024k和2048k时略有增加。

此外，在LLaMA2上，LongRoPE-2048k在256k比128k的微调长度下表现更好，主要是由于次级延伸比（secondary extension ratio）更小（即8倍对16倍）。

相比之下，Mistral在微调128k的窗口大小方面表现更好，主要原因是对于Mistral的128k和256k微调，研究人员遵循YaRN的设置使用16k训练长度，影响了Mistral在微调后进一步扩展上下文窗口的能力。

参考资料：

https://arxiv.org/abs/2402.13753

本文链接：http://www.28at.com/showinfo-26-86504-0.htmlLLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：早知如此！来看看 Python 函数的七个秘密

下一篇：首届AI方程式大赛，8圈开了一个小时

标签：

热门焦点

JavaScript 混淆及反混淆代码工具

介绍在我们开始学习反混淆之前，我们首先要了解一下代码混淆。如果不了解代码是如何混淆的，我们可能无法成功对代码进行反混淆，尤其是使用自定义混淆器对其进行混淆时。什么是混
从 Pulsar Client 的原理到它的监控面板

背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题，比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态，
分享六款相见恨晚的PPT模版网站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS网站旨在为全球Office用户提供丰富的高品质原创PPT模板、实用文档、数据图表及个性化定制服务。优点：OfficePLUS是微软官方网站，囊括PPT模板、Word模
拼多多APP上线本地生活入口，群雄逐鹿万亿市场

Tech星球（微信ID：tech618）文 | 陈桥辉 Tech星球独家获悉，拼多多在其APP内上线了“本地生活”入口，位置较深，位于首页的“充值中心”内，目前主要售卖美食相关的
网红炒股不为了赚钱，那就是耍流氓！

来源：首席商业评论6月26日高调宣布入市，网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上，几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
华为发布HarmonyOS 4：更好玩、更流畅、更安全

在8月4日的华为开发者大会2023（HDC.Together）大会上，HarmonyOS 4正式发布。自2019年发布以来，HarmonyOS一直以用户为中心，经历四年多的发展HarmonyOS已
自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

年初，全新的三星Galaxy S23系列发布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本，全系搭载超频版骁龙8 Gen 2，虽同样采用台积电4nm工艺制
7月4日见！iQOO 11S官宣：“鸡血版”骁龙8 Gen2+200W快充加持

上半年已接近尾声，截至目前各大品牌旗下的顶级旗舰都已悉数亮相，而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流，其中就包括全新的iQOO 11S系
iQOO Neo8 Pro抢先上架：首发天玑9200+ 安卓性能之王

经过了一段时间的密集爆料，昨日iQOO官方如期对外宣布：将于5月23日推出全新的iQOO Neo8系列新品，官方称这是一款拥有旗舰级性能调校的作品。随着发布时

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

位置插值的不均匀性

实验结果

超过2000k的长序列语言建模

JavaScript 混淆及反混淆代码工具

从 Pulsar Client 的原理到它的监控面板

分享六款相见恨晚的PPT模版网站, 祝你做出精美的PPT!

拼多多APP上线本地生活入口，群雄逐鹿万亿市场

网红炒股不为了赚钱，那就是耍流氓！

华为发布HarmonyOS 4：更好玩、更流畅、更安全

自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

7月4日见！iQOO 11S官宣：“鸡血版”骁龙8 Gen2+200W快充加持

iQOO Neo8 Pro抢先上架：首发天玑9200+ 安卓性能之王

最新推荐

猜你喜欢

热门推荐

相关资讯