人工智能-探秘Transformer系列之（23） - 长度外推

慢吞云雾缓吐愁 发表于 2025-4-5 09:27:42

探秘Transformer系列之（23）--- 长度外推

探秘Transformer系列之（23）--- 长度外推

目次

[*]探秘Transformer系列之（23）--- 长度外推

[*]0x00 概述
[*]0x01 配景

[*]1.1 问题
[*]1.2 解决思路
[*]1.3 微调的挑战
[*]1.4 长度外推的必要性

[*]0x02 长度外推

[*]2.1 定义
[*]2.2 衡量
[*]2.3 分析
[*]2.4 方案

[*]0x03 位置编码和长度外推

[*]3.1 绝对位置编码及其外推

[*]3.1.1 增长平滑
[*]3.1.2 随机偏移
[*]3.1.3 小结

[*]3.2 相对位置编码及其外推
[*]3.3 LLM时代的长度外推
[*]3.4 随机化位置编码

[*]0x04 RoPE外推

[*]4.1 原因
[*]4.2 性质

[*]4.2.1 性质1 临界维度
[*]4.2.2 性质2 临界base

[*]4.3 法则

[*]4.3.1 缩小base时的缩放法则
[*]4.3.2 base放大时RoPE外推的缩放法则

[*]0x05 RoPE外推基本方案

[*]5.1 直接外推
[*]5.2 线性内插

[*]5.2.1 思路
[*]5.2.2 原理
[*]5.2.3 微调
[*]5.2.4 对比
[*]5.2.5 缺点
[*]5.2.6 实现

[*]0x06 RoPE外推进阶方案

[*]6.1 位置编码的通用公式

[*]6.1.1 三角函数编码
[*]6.1.2 RoPE
[*]6.1.3 PI

[*]6.2 NTK-Aware Interpolation

[*]6.2.1 方案
[*]6.2.2 分析

[*]进制
[*]修改base
[*]对比
[*]拟合曲线

[*]6.3 NTK-by-parts Interpolation
[*]6.4 Dynamic NTK Interpolation
[*]6.5 YaRN
[*]6.6 Giraffe
[*]6.7 训练

[*]0xFF 参考

0x00 概述

LLM的进步正在推动更长的上下文和广泛的文本生成，这些模型在数百万个标记的序列上进行训练。这种趋势给体系内存带宽带来了压力，导致执行成本增长。多轮对话场景的 LLMs 有几个难点：1. 注意力机制的$O(n^2)$计算量；2. 解码阶段缓存 KV 需要泯灭大量的内存；3. 盛行的 LLMs 不能拓展到训练长度之外。在本文，我们来讨论第三点。
文本续写和语言延展是人类语言的焦点本领之一，在有限的学习资源下，人类可以通过明白它们的组成部门和结构来明白潜在无限长度的话语。尽管Transformer在几乎全部NLP任务中都取得了巨大乐成，然而，在长度有限文本上预训练的语言模型却无法像人类一样泛化到恣意长度文本，从而限定了其应用潜力。
怎样在推理阶段确保模型能处理远超预训练时的文本长度，已成为当前大型模型面对的焦点问题之一，我们将此问题视为大模型的长度外推挑战。因为我们总盼望模型能够处理恣意长的文本，但又不可能把训练样本的长度拉到恣意长。
本文从位置编码（Position Encoding, PE）的角度出发来学习 Transformer 模型在长度外推方面的研究进展，研究各种旨在加强 Transformer 长度外推本领的方法，主要包括可外推的位置编码和基于这些位置编码的拓展方法。
注：全部文章列表在这里，后续每发一篇文章，会修改文章列表。
cnblogs 探秘Transformer系列之文章列表
0x01 配景

1.1 问题

Transformer自诞生以来就席卷了NLP领域。随着LLM本领的增长，我们对它们的期望也在增长，比如盼望模型可以处理更长的文本，因为明白和扩展LLM的上下文长度对于提高其在各种 NLP 应用程序中的性能至关重要。
然而，增长LLM的上下文窗口并不是那么简朴，因为Transformer的上风容量是以相对于输入序列长度的二次计算和内存复杂度为代价的。这导致了Transformer 及在其基础之上的 LLM 都不具备有效长度外推（Length Extrapolation）的本领。这意味着，受限于其训练时预设的上下文长度限定，大模型无法有效处理凌驾该长度限定的序列。当输入凌驾该限定时，由于模型没有在预训练中见过超出上下文窗口的新的 token 位置，其性能会显著下降。
因此，怎样解决长度泛化问题成为了 LLM 的一项主要挑战。
1.2 解决思路

为了实现更长文本的支持，当前的解决思路主要可以分为几个计谋：

[*]在预训练阶段尽可能支持更长的文本长度。为实现这一阶段目标，通常采用并行化方法将显存占用分摊到多个 device，或者改造 attention 结构，避免显存占用与文本长度成二次关系。
[*]进行微调。比如在相对较小的窗口（例如 4K 令牌）上使用大量数据训练模型，然后在较大的窗口（例如 64K 令牌）上对其进行微调。
[*]在推理阶段尽可能外推到更大长度。为实现这一阶段目标，通常需要在两个方面进行思量：对位置编码进行外推，优化 Attention 机制。
1.3 微调的挑战

因为微调和预训练本质类似，而微调难度远逊于预训练，所以我们来看看微调的挑战。
LLM配景下的微调代表了 NLP 领域的复杂演变。这个过程涉及专门完善模型的现有功能，通过微调，LLM可以明白而且可以准确生成超出其初始训练数据参数的文本，在顺应新的内容类型和结构方面表现出非凡的灵活性。微调外推侧重于通过额外的、有针对性的训练来提高模型的纯熟程度。然而，进一步扩展上下文窗口（微调）则存在以下几个主要挑战：

[*]高微调成本：扩展预训练的大型语言模型（LLMs）的上下文窗口到更长的文本时，通常需要在相应长度的文本上进行微调。但是由于attention的空间复杂度是$O(n^2)$，这导致计算资源和时间上成本很高。随着上下文窗口的继续扩展，模型的计算量和内存需求将显著增长，带来极其昂贵的微调时间成本和 GPU 资源开销。
[*]长文本稀缺：微调通常需要相应长度的长文本，但当前训练数据中长文本数量有限。在当前的数据集中，尤其是凌驾1000k的长文本非常有限，这限定了通过微调来扩展上下文窗口的方法。
[*]新位置引入的灾难性值：首先，未经训练的新位置索引引入了许多异常值，使得微调变得困难。例如，当从 4k tokens 扩展凌驾1000k时，会引入凌驾90%的新位置。这些位置引入了许多灾难性值，导致分布外问题，使得微调难以收敛。
[*]注意力分散：当扩展到超长的上下文窗口后，由于引入众多新位置信息，大模型的注意力会分散在大量的token位置上，从而降低了大模型在原始短上下文窗口上的性能。尽管上下文长度不会影响模型权重的数量，但它确实会影响这些权重怎样编码令牌的位置信息。即使在微调之后，这也会降低模型顺应较长上下文窗口的本领，从而导致性能不佳。
因此，人们普遍认为，用更长的上下文窗口对现有模型进行微调要么是有害的，要么是昂贵的。
1.4 长度外推的必要性

由于传统的大模型的上下文窗口限定、高质量长文本数据的稀缺、和昂贵的微调成本，通过直接在长序列上训练Transformer来扩展上下文窗口是不可行的。
既然微调上有众多难度。那么我们会想到，是否可以在较短的上下文窗口上进行训练，在较长的上下文窗口上进行推理（train on short, test on long）？理论上是可行的，而且推理时模型的空间成本会比训练低许多。因此，长度外推好像是减少训练开销、同时放松Transformer上下文长度限定的最合适的方法。
0x02 长度外推

2.1 定义

外推概念的提出，最早可以追溯到ALiBi的论文中。如果模型在不经微调的环境下，在凌驾训练长度的文本上测试，依然能较好的维持其训练效果，我们就称该模型具有长度外推本领（extrapolation，也称length extrapolation）。厥后这种任务也被称为「上下文窗口拓展」(Context Window Extension)，目的依旧是用已经训好的模型来生成更大的文本，只是不再夸大方法是外推。
顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和猜测长序列的模型，即“Train Short, Test Long（短训练，长推理）”。

[*]train short：大部门文本的长度不会特别长，特别长的输入只是长尾环境，因此训练时的使用特别长的文本其实意义不大。再加上受限于训练成本，因此人们通常使用短序列训练，如许即符合实际环境，也可以显著降低训练开销。
[*]test long：这里long是指推理时候的文本长度比训练时的最大文本长度还要长，盼望不用微调就能在长文本上也有不错的效果。
2.2 衡量

外推本领的衡量，一般是基于语言建模任务，即测试序列的长度增长，对应文本的困惑度不显著增长、持平甚至下降。因为长文本会导致模型无法顺应。拿现在最常用的位置编码RoPE来说，训练时使用短文本推理使用长文本，会使模型不认识那么长的相对距离，最终的结果可能是模型的困惑度爆表。更加符合实践的评测则是输入足够长的Context，让模型去猜测答案，然后跟真实答案做对比，算BLEU、ROUGE等，LongBench就是就属于这类榜单。
但要注意的是，长度外推应当不以牺牲远程依赖为代价——否则思量长度外推就没有意义了，倒不如直接截断文本——这意味着通过显式地截断远程依赖的方案都需要谨慎选择。怎样判定在长度外推的同时有没有损失远程依赖呢？比较严谨的是准备足够长的文本，但每个模型只算每个样本最后一段的指标。
2.3 分析

长度外推性是一个训练和猜测的长度不一致的问题。LLM的训练和推断本质上是不对齐的，训练时，解码器总是在固定token数上进行的，例如2048个token。然而推断时，decoder总是不定长的。这个问题表现有两点：

[*]猜测的时候用到了没训练过的位置编码（不管绝对还是相对）。没训练过的就没法包管能处理好，无法包管很好的泛化，这是DL中很现实的现象，哪怕是Sinusoidal或RoPE这种函数式位置编码也是如此，毕竟训练的时候没有见过。
[*]猜测时序列更长，导致注意力相比训练时更分散。猜测的时候注意力机制所处理的token数量远超训练时的数量。训练和猜测长度不一致影响什么呢？答案是熵，越多的token去均匀注意力，意味着最后的分布相对来说越“均匀”（熵更大），即注意力越分散；而训练长度短，则意味着注意力的熵更低，注意力越集中，这也是一种训练和猜测的差异性，也会影响效果。
2.4 方案

外推技术指的是LLM预训练时候的Context长度为n，在猜测的时候为m（m>>n），而且可以包管模型性能。或者说，外推技术旨在将模型的明白扩展到超出其最初观察长度的序列，采用创新计谋来捕获扩展范围内的依赖性。
总结起来外推技术包括三类：

[*]基于Attention修改外推技术。因为基于 RoPE 的自注意力无法在训练上下文之外保持稳固，并且表现出注意得分爆炸以及单调熵增长，所以这个派系注重通过调解注意力的范围来进行外推。比如：

[*]稀疏注意力：让“聚光灯”只“照亮”那些真正重要的信息，通过限定每个 token 只关注部门上下文，降低计算复杂度。固然Attention 固然具备稀疏性质，但是其稀疏外形在不同的模型甚至同一模型的不同层中都是不同的，表现出很强的动态性。因此，实现一种各种模型通用的，无需训练的稀疏Attention是非常困难的。
[*]全局注意力：在“聚光灯”的基础上，增长一个“泛光灯”，兼顾全局信息，在局部注意力的基础上，增长少量全局 token，用于捕捉长距离依赖。
[*]动态注意力：根据文本内容，动态调解“聚光灯”的“亮度”和“照射范围”，根据上下文动态调解注意力范围，提高计算效率。

[*]基于Memory机制外推技术。基于Memory机制的外推技术其实相沿的还是压缩思想，借助外部存储将历史信息存储，然后使用迩来的token进行查询，获取一些历史上重要的token。
[*]基于位置编码的外推技术。通过插入位置编码（PE）来有效地扩展预训练 LLM 的上下文窗口。与高效 Transformer 和内存加强等其他技术不同，基于 PE 的方法不需要改变模型的架构或合并补充模块。因此，基于 PE 的方法具有直接实施和快速顺应的上风，使其成为在涉及更大上下文窗口的任务中扩展 LLM 操作范围的实用解决方案。
可见，长度外推性问题并不完全与设计一个良好的位置编码等价。本篇主要来学习怎样通过调解位置编码来解决或者缓解长度外推问题。
0x03 位置编码和长度外推

随着文本长度的增长，位置编码也会发生相应的变化，因此处理好位置编码问题是解决长文本问题的重要环节。如前所述，怎样通过修改或调解位置编码，将本来不具备外推本领的模型，颠末重训练或微调，使之能够很好地驾驭长文档，就成为了当下的一大痛点。
在 Transformer 结构的模型中，Attention模块的值与顺序无关，因此需要加入位置编码以确定不同位置的 token。典型的位置编码方式有两类：

[*]绝对位置编码：即将位置信息融入到输入中。
[*]相对位置编码：微调Attention结构，使其能够分辨不同位置的Token。
为了解决外推问题，针对这两种位置编码，研究人员依据其特点进行了相应调解和优化。下图给出了不同外推PE列表，该列表是根据PE是绝对的还是相对的来进行划分。其中，Manifestation 显示了怎样引入位置信息。Learnable显示它是否可以根据输入进行调解。Integration 显示了位置表示怎样与token表示集成。Injection 层显示在哪里部署位置PE。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103001109-292981156.jpg
注：外推方案的分类或者阐释各不相同，此处笔者选取一个自己认为相对容易明白的思路进行学习，此思路参见下面图。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103011574-129495356.jpg
接下来我们就看看详细怎样调解。
3.1 绝对位置编码及其外推

最早的绝对位置编码有如下两种：可学习位置编码和三角函数式位置编码。可学习位置编码不具备外推性，我们不进行讨论。三角函数式位置编码的特点是有显式的生成规律，因此可以期望于它有一定的外推性。另外，由于三角函数有如下性质：

\
这阐明sin-cos位置编码具有表达相对位置的本领，即位置$\alpha + \beta$向量可以表达为位置$\alpha$向量和位置$\beta$ 向量的组合。这提供了位置拓展的可能性。
Transformer作者声称正弦位置嵌入可能能够推断出比所看到的更长的序列。
We chose the sinusoidal version because it may allow the model to extrapolate to sequence lengths longer than the ones encountered during training.
但是厥后的研究成果否定了这一猜想。然而，研究人员随后发现，正弦APE很难外推。即，正弦APE有一定的外推性，但是缺少相对位置关系，效果较差。这是因为正弦编码将绝对位置信息融入输入$x$中：在输入的第i个输入向量$x_i$ 中加入位置向量$p_i$ 得到 $x_i+p_i$ ，其中 $p_i$ 仅依赖于位置 i 。因此查询 $q_i$ 与键 $k_j$ 之间的兼容性得分形式化为：
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103025926-1104899776.jpg
由于绝对位置编码最终是由两部门组成，且两部门相互独立，因此无法计算相对距离。
正弦位置编码是许多不同PE的基础和重点。因此，人们提出了各种APEs和RPEs，以加强正弦位置编码，从而加强Transformer的外推。后续的绝对位置编码主要从两个方向试图改善外推性：

[*]生成随位置平滑变化的位置嵌入并期望模型能够学会推断这一变化函数。
[*]通过随机位移（random shift）将位移不变性（shift invariance）融入正弦 APE 中。
3.1.1 增长平滑

这种方案试图直接捕捉位置表示之间的依赖关系或动态关系，比如引入一个动态体系来对单词的全局绝对位置及其顺序关系进行建模。如许可以使位置编码随位置索引平滑变化，并期望模型在训练过程中学会这一变化规律并推断出从未见过的位置编码。论文”Encoding word order in complex embeddings“就提出将每个单词嵌入扩展为一个独立变量（即位置）上的一连词函数（而不是用一个词向量和位置编码的加和来表示一个词），以便单词表示随着位置的增长而平滑变化。一连函数相对于可变位置的好处是，单词表示随着位置的增长而平滑地移动。因此，不同位置的单词表示可以在一连函数中相互关联。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103035728-1213582152.jpg
3.1.2 随机偏移

有些研究人员推测优秀的外推性能来自PE的平移不变性：即使输入发生移动，函数也不会改变其输出。因此，他们在位置索引中引入随机偏移来解决外推性。此方案在三角函数编码公式中，将每个位置索引移位一个随机偏移，这制止了模型使用绝对位置，而是鼓励使用相对位置。论文”CAPE: encoding relative positions with continuous augmented positional embeddings“除了用相同的随机偏移量移动APE的每个位置索引（全局偏移）外，还引入了局部偏移和全局缩放。这三种增广方法的形式如下。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103045690-671326788.jpg
3.1.3 小结

正弦APE作为Transformer的第一个PE，对以后的PE有重要影响。然而，它的外推性很差。为了加强Transformer的外推性，研究人员要么使用随机移位将移位不变性纳入正弦APE中，要么生成随位置平滑变化的位置嵌入。基于这些思想的方法显现出比正弦 APE 更强的外推本领，但仍无法达到 RPE 的程度。原因之一是，APE 将不同的位置映射到不同的位置嵌入，外推意味着模型必须推断出不曾见过的位置嵌入。然而，这对于模型来说是一项艰巨的任务。因为在广泛的预训练过程中重复出现的位置嵌入数量有限，特别是在 LLM 的环境下，模型极易对这些位置编码过拟合。
3.2 相对位置编码及其外推

相对位置编码天然有平移不变性，更易外推。目前已经提出了许多新的RPE，这些RPE可以通过刻画序列不同位置间的相对距离来加强外推。因为在前文中已经介绍过这些RPE。这里不再赘述。
3.3 LLM时代的长度外推

LLM彻底改变了NLP领域，并对长度外推提出了很高的要求，以更好地顺应各种业务，也导致了许多新的PE的出现。其实前文介绍的许多RPE就是这种产物。基于这些PE，已经提出了许多方法来进一步加强LLM的长度外推。在LLM时代主要有以下两种优化思路：

[*]提出新型可泛化的位置编码，比如 Alibi，XPOS。
[*]以内插、外推等方式修改已有位置编码（以 RoPE 为主），比如PI、YaRN、随机PE。
我们先介绍随机PE，在后续会详解位置插值。
3.4 随机化位置编码

本质上，随机PE是通过在训练过程中引入随机位置，将预训练的上下文窗口与较长的推理长度解耦，从而提高了较长的上下文窗口中全部位置的暴露。
对于没有clipping（窗口截断）机制的APE和RPE，长度外推意味着位置表示超出了训练期间观察到的位置表示，导致分布外位置表示，从而性能下降。限定模型的长文本本领的关键在于训练长度与测试长度的鸿沟，即”猜测的时候用到了没训练过的位置编码”。为了解决这个问题，最直观的方法之一是使模型在训练期间观察全部可能的位置表示，即“训练阶段把猜测所用的位置编码也训练一下”。这正是随机PEs背后的焦点思想。
作为这一想法的详细化，研究人员提出模拟更长的序列的位置，并随机选择一个随机（或有序）子集来顺应训练上下文窗口，这个子集可以覆盖每个训练样本测试期间可能位置的整个范围。详细来说，设N为训练长度（论文N=40），M为猜测长度（论文M=500），M 的长度宏大于训练和评估过程中的最大长度。选定一个较大L>M（这是一个超参，论文L=2048），训练阶段本来长度为N的序列对应的位置序列是，现在改为从{0,1,⋯,L−2,L−1}中随机不重复地选N个并从小到大分列，作为当前序列的位置序列。对于每个训练步骤，长度为 N 的序列的随机位置是较大范围位置的升序子样本，且不包含重复。
但是这有一个问题：训练阶段和猜测阶段的相邻位置差不一样，这也可以说是某种不一致性，但它表现依然良好，这是为什么呢？我们可以从“序”的角度去明白它。由于训练阶段的位置id是随机采样的，那么相邻位置差也是随机的，所以不管是相对位置还是绝对位置，模型不大可能通过精确的位置id来获取位置信息，取而代之是一个模糊的位置信号，更准确地说，是通过位置序列的“序”来编码位置而不是通过位置id本身来编码位置。比如，位置序列跟是等价的，因为它们都是从小到大分列的一个序列，随机位置训练“迫使”模型学会了一个等价类，即全部从小到大分列的位置序列都是等价的，都可以相互替换，这是位置鲁棒性的真正寄义。
因此，通过充分的训练，可以确保模型遇到足够的唯一位置，并且在推理之前已经充分训练了从1到 M 的全部位置，从而在推理中的任何序列上实现与训练一致的性能。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103058152-1092792396.jpg
简朴来说，随机化 PE 只是通过在训练期间引入随机位置来将预训练的上下文窗口与较长的推理长度解耦，从而提高了较长上下文窗口中全部位置的曝光度。随机化 PE 的思想与位置插值方法有很大不同，前者旨在使模型在训练过程中观察到全部可能的位置，而后者试图在推理过程中对位置进行插值，使它们落入既定的位置范围内。出于同样的原因，位置插值方法大多是即插即用的，而随机化 PE 通常需要进一步微调，这使得位置插值更具吸引力。然而，这两类方法并不互斥，因此可以结合它们来进一步加强模型的外推本领。
0x04 RoPE外推

RoPE（Rotary Position Embedding/旋转位置编码）被广泛应用于目前的大模型中，包括但不限于Llama、Baichuan、ChatGLM、Qwen等。尽管RoPE可以理论上可以编码恣意长度的绝对位置信息，并且通过三角计算将恣意长度的相对位置信息出现出来，RoPE仍旧存在外推问题（length extrapolation problem），即对于基于RoPE的大语言模型，在推理时，当模型的输入长度超出训练长度，模型的效果会有显著的崩坏，详细表现为困惑度的急剧上升。因此，人们提出了许多方法来加强现有的用RoPE进行预训练的LLM的外推，其中最盛行的是位置插值方法。
4.1 原因

当推理长度超出RoPE的训练长度 L 时，为什么模型的性能会下降？这主要原因是RoPE的频率不变性和频率分布的刚性（全部维度的频率分布固定，不支持动态调解）。
从直观角度来看。位置编码外推问题是在于训练过程中的过拟合问题。$\theta_d$在预训练时被固定，位置编码诱导模型错误地明白短序列上的特征，从而使得模型学习到的规律无法拓宽至长序列上，无法顺应更长的上下文长度。在RoPE中，每个位置 i 都对应一个旋转弧度$\theta$ ，恣意向量q位于位置m时，它的第 i 组分量的旋转弧度为$m\theta_i = m \times base ^{-2i/d}$，其中d表示向量q的维度。详细参见下图。当模型的训练长度为L 时，位置0到位置 L−1 对应的旋转弧度范围为$ $。我们可以合理地猜想：模型在训练时，只见过 $ $ 范围内的旋转弧度，未见过大于 $ (L−1)\theta $的旋转弧度，所以当推理长度大于 $ (L−1)\theta $ 时，模型难以明白新的旋转弧度，无法正确注入位置信息，导致模型性能下降。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103111015-732846922.jpg
对于模型的性能下降或者说外推本领不足，也有其它的论点，我们摘录如下：

[*]RoPE的偏置曲线本身就是不具有单调性的。在这种环境下，模型很难无法明白位置信息的特征与规律。xPos通过加入指数校正，让较远位置的RoPE偏置强行收敛于0，有效地改善了外推性能。
[*]旋转角取值不当会导致RoPE的偏置曲线在其相近位置就有所波动；在这种环境下，语言模型的每次猜测都会造成一定的损失，随长度的增长而单调增长。这些波动都会影响到梯度回传过程，从而让模型将猜测损失错误地归因到无关位置，最终把握了一个扭曲的错误的位置分布规律；正是由于这种“被扭曲的意识”，使得模型在猜测长序列时出现瓦解一般的效果。
[*]RoPE有限的维度会导致拟合精度不够，相对距离越大，拟合误差越大。
[*]训练过程中的过拟合问题也是一个原因，即位置编码诱导模型错误地明白短序列上的特征，从而使得模型学习的规律无法拓宽至长序列上。
[*]RoPE相对偏置的长尾问题也可能是影响其外推本领的一个原因。
我们接下来看看RoPE的一些关于外推的性质。
4.2 性质

论文"Scaling Laws of RoPE-based Extrapolation"对RoPE进行了详细的分析。接下来以该论文为主，结合其它论文进行解读。
https://img2024.cnblogs.com/blog/1850883/202504/1850883-20250404103120523-1705212337.jpg
4.2.1 性质1 临界维度

在原始RoPE中，维度和训练有一定的相关性。每个维度对应的旋转角是否在训练阶段就已经完成一个周期的旋转是一个非常关键的问题。

[*]维度越靠前，其对应的$\theta$取值越大，周期越短，如许该维度在训练阶段就可以见过全周期的信息。
[*]相反，最靠后的一些维度并不会在训练时见过本维度完整的cos/sin值域。
假设模型的预训练文本长度为$T_{train}$，自注意力头维度数量为d，对于RoPE-based LLMs，存在如许一个特征维度$d_{extra} = 2\lceil \frac{d}{2} log_{10000} \frac{T_{train}}{2\pi} \rceil$，该维度的前后维度在行为上存在很大差异。
<ul>前$d_{extra}$个维度被称为"pre-critical dimensions"（前关键维度），即在模型的预训练阶段已经覆盖了全部可能的旋转角度的特征维度。其特点如下：

[*]这些维度的波长（wavelength）较短，其$\theta_n$对应的三角函数周期$T_n$能够被涵盖在训练长度$T_{train}$范围内。
[*]预训练期间，在这些维度上，每个位置的标记都能够经历一次或多次完整的旋转周期。在预训练阶段都能看到全部的位置信息并得到充分的训练。
[*]因为训练充分，所以在这些维度上可以进行外推。
后$d - d_{extra}$个维度被称为"post-critical dimensions"（后关键维度）。即指的是那些在模型的预训练阶段未被完全覆盖的RoPE特征维度。其特点如下：

[*]这些维度的波长（wavelength）较长，其$\theta_n$对应的三角函数周期$T_n$长于训练长度$T_{train}$。
[*]在预训练期间，在这些维度上，模型没有机会看到全部可能的旋转角度。只感知了对应维度上一个周期内的部门编码。
[*]因为缺乏足够的训练，没有感知到完整的位置信息，所以没有感知完整的位置信息是外推问题的根源。对于$d_{extra}$之后的维度，当基于 RoPE LLM 在 $T_{train}$之外进行外推时，新加入token的绝对位置信息是训练中没有见过的，将变因素布外 (OOD），这些新token相对于先前 token 的相对位置信息也会是分布外。这种错位意味着与这些维相关的注意得分偏离其预期分布，导致整体注意得分明显表现分布外，从而导致外推问题。使得整个模型的attention score在超出训练长度之后产生显著崩坏。
[*]当模型在测试阶段遇到超出预训练序列长度的序列时，这些维度的特征会遭遇到在训练期间未见过的旋转角度，导致模型难以泛化到这些新的位置。

$d_{extra}$就是RoPE外推的临界维度（Critical Dimension），即
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

探秘Transformer系列之（23）--- 长度外推