【论文条记】Top-nσ: Not All Logits Are You Need

登录 · 发表于 2025-11-15 11:58:07

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技能小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开平静。

根本信息

标题: Top- n σ n\sigma nσ: Not All Logits Are You Need
作者: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
arXiv: https://arxiv.org/abs/2411.07641

择要

大型语言模子（LLMs）通常利用贪婪解码或低温采样举行推理使命，这反映了一种在多样性和正确性之间的权衡观念。
我们通过引入 top-nσ 这一新颖的采样方法寻衅了这一传统方法。该方法直接基于 pre-softmax logits，利用统计阈值举行利用。
我们的焦点见解是，logits 自然分为高斯分布的噪声地域和独立的信息地域，从而在不举行复杂概率利用的情况下，实现了高效的token过滤。
与现有方法（比方，top-p、min-p）在较高温度下偶然中包罗更多噪声token差别，top-nσ 可以或许在差别温度缩放情况下保持稳固的采样空间。
我们还从理论上分析了 top-nσ 的举动，以更好地明确其特性。
通过在四个专注于推理的数据集上的广泛实行效果表明，我们的方法不但优于现有的采样方法，还在高温下保持了划一的性能，同时逾越了贪婪解码的体现。
弁言

LLAMA3-8B-Instruct 在 AQuA 样本上的 logits 分布及其按概率降序分列的分布。请留意，右图中概率较高的前导 token 对应于 logits 分布的右侧地域。最大 logit 约莫比分布的匀称值高出 10σ。
重要贡献

基于 Logit 的新视角：我们引入了一个专注于预软化 logit 分布的新分析框架，不但为采样战略开辟提供了根本见解，还为模子训练方法的潜伏改进提供了大概性。
高效的 Top-nσ 算法：我们提出了一种概念上简单但功能强大的采样方法，该方法直接作用于 logits，在保持盘算服从的同时，通过免排序和免 softmax 的实现，得到了更高的天生质量。将 top-nσ 集成到现有的 LLM 框架中非常容易。
实用于测试时扩展技能：我们的 top-nσ 算法可以或许更风雅地探索解空间，在探索和利用之间实现更好的均衡。这一特性使其在测试时扩展技能中尤其有用。
理论分析：我们提供了对 top-nσ 的全面定量分析，研究了其累积概率质量特性，并证明了其温度稳固性属性。这些理论底子为该方法的实现和明确奠定了坚固的底子。
广泛的实证验证：我们通过对四个差别数据集的严格实行，证明了我们方法的有用性，与现有方法相比，显着提拔了天生质量。

洞察

从图1中，我们观察到模子的 logits 好像依照一个界说明确的统计分布。这一履历观察自然引出了几个根本标题：

我们怎样从 logit 空间的角度表明基于概率的采样方法（比方，核采样）？
大型语言模子中 logit 分布的根本特性是什么？
我们怎样利用这些分布来有用地域分嘈杂和信息丰富的地域？

在本节中，我们将体系地答复上述标题并展示我们的发现。
从概率到 logits

当代大型语言模子（LLMs）通过两步过程天生文本：首天赋生 logits，然后通过 softmax 变动将它们转换为概率。
为了更好地明确 logit 空间中的采样方法，我们起首观察传统的基于概率的采样方法，特殊是核采样，怎样从 logit 的角度重新表明。
给定一个输入序列，LLM首天赋生一个 logit 向量                            l                   =                   (                            l                      1                            ,                   ⋯                ,                            l                      V                            )                   ∈                            R                      V                               l = (l_1, \cdots, l_V) \in \mathbb{R}^V             l=(l1,⋯,lV)∈RV，此中                            V                         V             V 是词汇表巨细。
这些logits起首按温度缩放：                            l                   ←                   l                   /                   T                         l \leftarrow l / T             l←l/T，然后通过softmax函数转换为概率                            p                   =                   (                            p                      1                            ,                   ⋯                ,                            p                      V                            )                   ∈                            R                      V                               p = (p_1, \cdots, p_V) \in \mathbb{R}^V             p=(p1,⋯,pV)∈RV：
                                          p                         i                               =                                           e                                        l                               i                                              s                               ,                               where                        s                      =                                  ∑                                     j                            =                            1                                     V                                           e                                     l                            j                                           ,                      1                      ≤                      i                      ≤                      V                            p_i = \frac{e^{l_i}}{s}, \quad \text{where } s = \sum_{j=1}^V e^{l_j}, 1 \leq i \leq V                pi=seli,where s=j=1∑Velj,1≤i≤V
从根本上说，全部采样方法都通过确定一个概率阈值                                     p                                  (                         t                         )                                     ∈                   [                   0                   ,                   1                   ]                         p^{(t)} \in [0, 1]             p(t)∈[0,1] 来利用。概率高于此阈值的token形成采样核，其累积概率界说了核质量。
情势上，对于阈值                                     p                                  (                         t                         )                                        p^{(t)}             p(t)，核                            N                         \mathcal{N}             N 是：
                                 N                      =                      {                      i                      ∣                                  p                         i                               ≥                                  p                                     (                            t                            )                                           }                      =                      {                      i                      ∣                                  l                         i                               ≥                      t                      }                            \mathcal{N} = \{i \mid p_i \geq p^{(t)}\} = \{i \mid l_i \geq t\}                N={i∣pi≥p(t)}={i∣li≥t}
这种基于概率的选择可以在 logit 空间中等效地实行，通过确定相应的logit阈值                            t                   =                   ln                   ⁡                   (                   s                   ⋅                            p                                  (                         t                         )                                     )                         t = \ln(s \cdot p^{(t)})             t=ln(s⋅p(t))。
基于我们在图1中的履历观察，我们假设logits依照某个分布                            f                         f             f。在这一假设下，我们可以推导出核采样参数和logit阈值                            t                         t             t 之间的关系。
定理1 思量                            V                         V             V 个独立同分布的 logits                            {                            l                      i                            ∣                   i                   =                   1                   ,                   ⋯                ,                   V                   }                         \{l_i \mid i = 1, \cdots, V\}             {li∣i=1,⋯,V}，它们根据                            f                   (                   x                   )                         f(x)             f(x) 分布。对于任何阈值                            t                         t             t，我们有：
                                          ∑                                                 l                               i                                        >                            t                                                    e                                     l                            i                                                    →                                     P                                           V                                  ∫                         t                                     +                            ∞                                                    e                         x                               f                      (                      x                      )                       d                      x                            \sum_{l_i > t} e^{l_i} \xrightarrow{P} V \int_t^{+\infty} e^x f(x) \, \mathrm{d}x                li>t∑eliP          V∫t+∞exf(x)dx
完备的证着实附录 A.1 中提供。只管该定理本身概念上简单，但它引发了一系列具有实际意义的强大引理：
引理2 设                            I                   (                   t                   )                   =                            ∫                      t                                  +                         ∞                                              e                      x                            f                   (                   x                   )                d                   x                         \mathcal{I}(t) = \int_t^{+\infty} e^x f(x) \, \mathrm{d}x             I(t)=∫t+∞exf(x)dx，因此                            s                   =                   V                   ⋅                   I                   (                   −                   ∞                   )                         s = V \cdot \mathcal{I}(-\infty)             s=V⋅I(−∞)。给定阈值                            t                         t             t 的核质量为
                                          p                         N                               =                                  ∑                                     i                            ∈                            N                                                    p                         i                               =                                           I                            (                            t                            )                                              I                            (                            −                            ∞                            )                                                 p_\mathcal{N} = \sum_{i \in \mathcal{N}} p_i = \frac{\mathcal{I}(t)}{\mathcal{I}(-\infty)}                pN=i∈N∑pi=I(−∞)I(t)
表明该引理的一个关键寄义是，给定 logits 的概率分布，核采样的 logit 阈值可以分析地导出。我们通过推导两个根本案例的闭合情势表达式来展示这一点。给定累积概率阈值                            p                         p             p：

高斯分布： l i ∼ N ( μ , σ 2 ) l_i \sim N(\mu, \sigma^2) li∼N(μ,σ2)。阈值为 t = μ + 2 σ ( erf ⁡ − 1 ( 1 − 2 p ) ) + σ 2 t = \mu + \sqrt{2} \sigma (\operatorname{erf}^{-1}(1 - 2p)) + \sigma^2 t=μ+2 σ(erf−1(1−2p))+σ2 此中 erf ⁡ ( ⋅ ) \operatorname{erf}(\cdot) erf(⋅) 体现偏差函数。
匀称分布： l i ∼ U ( M − a , M ) l_i \sim U(M - a, M) li∼U(M−a,M)，阈值为 t = M − ln ⁡ [ 1 1 − p ( 1 − e − a ) ] t = M - \ln \left[ \frac{1}{1 - p(1 - e^{-a})} \right] t=M−ln[1−p(1−e−a)1]

这些表达式的详细推导见附录 A.2。这些分析表达式提供了关于 logit 分布与采样阈值之间关系的名贵见解。
固然语言模子中的实际 logit 分布大概更复杂，但这些根本案例作为告急的理论基准，而且可以引导筹划更高效的采样算法。
明确 Logits 的真实分布

噪声地域

如图 1 所示，绝大多数的 token 体现出依照高斯分布的 logits。由于这些 logits 对应的概率通常可以忽略不计，而且在之前的工作中被以为是噪声，我们将这个地域指定为噪声地域。
这种特性与统计直觉很好地符合，在统计直觉中，高斯分布通常表明体系中存在随机噪声。
当噪声地域和信息地域之间的界限变窄时，颠末 softmax 变动后的噪声衍生概率倾向于干扰模子的天生过程，潜伏地低落输出质量。
这种征象在高温采样场景中尤为显着，全部当前的非确定性采样算法在这种情况下体现不佳。
我们将这种退化归因于在高温下两个地域之间减小的间隙，使得噪声分布主导了概率景观。
我们辨认出几个导致这种噪声的关键因素：
训练数据噪声 训练数据中的固有噪声和厘革自然会通过模子的学习过程流传，终极体现为 logit 空间中高斯分布的一部门。
正则化效应 在训练过程中接纳的各种正则化技能，固然对于防止过拟合至关告急，但也有副作用，即给词汇表中语义无关的 token 分配较小但非零的概率。
沉默沉静噪声 模子架构束缚将有限值分配给无关的 token（抱负情况下应该是“沉默沉静”的，具有                            −                   ∞                         -\infty             −∞ logits），这导致了一种独特的噪声模式。这是 softmax 函数的一个内涵缺陷。
只管从根本上办理这些噪声源超出了本文的范围，但我们信赖这些见解大概有助于未来工作中改进训练步调。
在本文中，我们将专注于如安在推理过程中消除这些噪声 token。
信息地域

如图 1 所示，一小部门 token 占据了概率质量的大部门。这种会合表明大型语言模子对这些 token 具有特定的知识，因此我们将此指定为信息地域。
由于该地域中的 token 数量有限，很难对该地域的基天职布做出明确的声明。然而，关于采样方法的近期履历观察提供了对该地域特性的风趣见解。
值得留意的是，我们观察到 min-                            p                         p             p 采样方法在天生质量方面取得了显着改进。这种方法创建了一个基准概率阈值                            p                         p             p，并消除了全部低于                                     p                                  m                         a                         x                                     ⋅                   p                         p_{max} \cdot p             pmax⋅p 的概率值，此中                                     p                                  m                         a                         x                                        p_{max}             pmax 是最大概率。固然 Nguyen 等人通过履历推导出这种方法，但我们做出了一个令人惊奇的理论发现：
定理3 对于依照匀称分布的 logits，min-                            p                         p             p 采样等价于top-                            (                   1                   −                   p                   )                         (1 - p)             (1−p) 采样。
证明：我们起首将 min-                            p                         p             p 放入logits空间。对于                                     l                      i                            ∼                   U                   (                   −                   ∞                   ,                   M                   )                         l_i \sim U(-\infty, M)             li∼U(−∞,M)，阈值为
                                 t                      =                      ln                      ⁡                      (                      s                      ⋅                                  p                                     m                            a                            x                                           ⋅                      p                      )                      =                      ln                      ⁡                      (                                  e                         M                               ⋅                      p                      )                      =                      M                      +                      ln                      ⁡                      p                            t = \ln(s \cdot p_{max} \cdot p) = \ln(e^M \cdot p) = M + \ln p                t=ln(s⋅pmax⋅p)=ln(eM⋅p)=M+lnp
由于                                     l                      i                            ∼                   U                   (                   −                   ∞                   ,                   M                   )                         l_i \sim U(-\infty, M)             li∼U(−∞,M)，                            a                   =                   −                   ∞                         a = -\infty             a=−∞，以是 top-                            (                   1                   −                   p                   )                         (1 - p)             (1−p) 的阈值完全类似：
                                 t                      =                      M                      −                      ln                      ⁡                                  [                                     1                                        1                               −                               (                               1                               −                               p                               )                                              ]                               =                      M                      +                      ln                      ⁡                      p                            t = M - \ln \left[ \frac{1}{1 - (1 - p)} \right] = M + \ln p                t=M−ln[1−(1−p)1]=M+lnp
这个分析显现了只管 min-                            p                         p             p 声称具有顺应性，但它本质上在 logits 空间中实行静态截断。别的，min-                            p                         p             p 采样的有用性表明信息地域大抵依照匀称分布。
确定界限

区分信息地域和噪声地域的一种自然方法是将信息地域视为噪声分布的非常值。根据这一假设，可以应用传统的 μ + 3σ 规则来确定界限。然而，我们的履历观察表明，这种方法大概不是当前使命的最佳选择。
我们界说                            σ                   -distance                         σ\text{-distance}             σ-distance 为最大概率与分布均值之间的标准差数量，即                            σ                   -distance                   =                   (                   M                   −                   μ                   )                   /                   σ                         σ\text{-distance} = (M - μ) / σ             σ-distance=(M−μ)/σ，此中                            M                         M             M 是最大 logit，依照匀称分布情况下的类似符号。

如图 2a 所示，最大概率与均值之间的间隔始终高出 10σ，在天生过程中体现出显着颠簸。联合图 2b，出现了一个风趣的模式：较大的核巨细与较低的                            σ                   -distance                         σ\text{-distance}             σ-distance 相干。
这一观察效果与传统的非常值检测方法（如 μ + 3σ 准则）相抵牾，后者理论上以为较高的                            σ                   -distance                         σ\text{-distance}             σ-distance 应包罗更多的 token。这一发现剧烈表明信息 token 不应被视为噪声 token 的非常值。究竟上，较高的                            σ                   -distance                         σ\text{-distance}             σ-distance 表明模子对其输出具有剧烈的信心，从而导致较小的核巨细。
这使我们从根本上改变了视角：与其将少数从高斯分布中视为非常值，我们应该熟悉到大多数是从匀称分布中的非常值。这种反直觉的变化寻衅了传统非常值检测的通例假设，此中非常通常是有数变乱。在我们的案例中，噪声地域中的 token 根本上是无关的候选者，应该被扫除在外，只管它们的数量占多数。
为了实现这一视角，我们引入了 top-                            n                   σ                         nσ             nσ 算法。我们的算法从最大值开始向下延伸，利用分布的标准差动态调解界限。详细来说，我们捕获一个向下延伸                            n                   σ                         nσ             nσ 的最大值地域，此中                            n                         n             n 是通过履历确定的，以均衡保存信息 token 和扫除匀称噪声。在实践中，我们发现                            n                   =                   1.0                         n = 1.0             n=1.0 实现了令人满足的效果。
算法形貌

我们的方法引入了一个统计阈值来在采样前过滤候选 token。算法 1 概述了我们方法的重要步调。

该算法盘算服从高，由于它直接在 logits 上利用，而不须要额外的 softmax 变动或排序。焦点运算（最大值和标准差）针对当代 GPU 实现举行了高度优化。实行时间通常保持在几十微秒内，此中大部门盘算资源由内核启动开销占据。
核质量

只管在 logits 空间中分布肴杂简直切机制尚不清楚，我们专注于分析两种界限情况：

当分布近似高斯分布时，这通常发生在高温场景中；
当分布近似匀称分布时，如在低温设置中观察到的情况，大概当模子体现出高置信度（通常陪同着较大的标准差）时。

这两种情况为我们分析方法在实际中的举动提供了理论界限。
在高斯情况下，                            l                   ∼                   N                   (                   μ                   ,                            σ                      2                            )                         l \sim N(\mu, \sigma^2)             l∼N(μ,σ2)，我们得到以下方程：
                                 M                      −                      n                      σ                      =                      μ                      +                                  2                               σ                      (                                  erf                                     −                            1                                           (                      1                      −                      2                      p                      )                      )                      +                                  σ                         2                                     M - n\sigma = \mu + \sqrt{2}\sigma (\text{erf}^{-1}(1-2p)) + \sigma^2                M−nσ=μ+2          σ(erf−1(1−2p))+σ2
因此，
                                 p                      =                                  1                         2                                           [                         1                         −                         erf                                     (                                                       M                                  −                                  μ                                  −                                  n                                  σ                                  −                                                 σ                                     2                                                                                     2                                                 σ                                                    )                                     ]                                     p = \frac{1}{2} \left[ 1 - \text{erf} \left( \frac{M - \mu - n\sigma - \sigma^2}{\sqrt{2}\sigma} \right) \right]                p=21[1−erf(2                   σM−μ−nσ−σ2)]
该公式的一个关键属性是，当                            σ                         \sigma             σ 靠近零时，                            erf                         \text{erf}             erf 内的项靠近正无穷大，导致                            p                         p             p 收敛到零。这有用地防止了来自噪声地域的token被包罗进来，为采样过程中的潜伏不稳固性提供了一种自然的掩护。
在匀称分布的情况下，                            l                   ∼                   U                   (                   M                   −                   a                   ,                   M                   )                         l \sim U(M-a, M)             l∼U(M−a,M)，我们有：
                                 M                      −                      n                      σ                      =                      M                      −                      ln                      ⁡                                  [                                     1                                        1                               −                               p                               (                               1                               −                                              e                                                 −                                     a                                                          )                                              ]                                     M - n\sigma = M - \ln \left[ \frac{1}{1-p(1-e^{-a})} \right]                M−nσ=M−ln[1−p(1−e−a)1]
因此，
                                 p                      =                                           1                            −                                        e                                              −                                  n                                  σ                                                                      1                            −                                        e                                              −                                  a                                                                      p = \frac{1-e^{-n\sigma}}{1-e^{-a}}                p=1−e−a1−e−nσ
为了确定                            a                         a             a 的得当值，我们利用 logit 的总体标准差为                            σ                         \sigma             σ 这一究竟。思量到匀称分布的方差为                                     a                      2                            /                   12                         a^2/12             a2/12，我们有                                     a                      2                            /                   12                   ≤                            σ                      2                               a^2/12 \leq \sigma^2             a2/12≤σ2 以保持与观察到的标准差的划一性。这为我们提供了上限                            a                   ≤                   2                            3                            σ                         a \leq 2\sqrt{3}\sigma             a≤23          σ。
因此，
                                 p                      ≥                                           1                            −                                        e                                              −                                  n                                  σ                                                                      1                            −                                        e                                              −                                  2                                                 3                                                 σ                                                                      p \geq \frac{1-e^{-n\sigma}}{1-e^{-2\sqrt{3}\sigma}}                p≥1−e−23                         σ1−e−nσ
对于典范的参数值，如                            n                   =                   1                         n=1             n=1 和                            σ                   =                   1.9                         \sigma=1.9             σ=1.9，我们得到下限约为 0.85，表明我们的 top-                            n                   σ                         n\sigma             nσ 算法有用地保存了信息丰富的token。
这种分析也为选择超参数                            n                         n             n 提供了有代价的引导：它不但应该是正数，而且应保持在                            2                            3                            ≈                   3.46                         2\sqrt{3} \approx 3.46             23          ≈3.46 以下，由于                            p                   ≤                   1                         p \leq 1             p≤1。高出这个上限大概会导致包罗噪声 token，从而大概低落算法的性能。
温度稳固性

我们采样方法的一个关键特性是其温度稳固性。详细来说，候选 token 的聚集在利用任何温度值时都保持稳固。
定理4 对于任何温度                            T                   >                   0                         T > 0             T>0，top-                            n                   σ                         nσ             nσ 的焦点保持稳固。
证明：思量恣意 token                            i                         i             i 和温度                            T                   >                   0                         T > 0             T>0。设                                     l                      i                               l_i             li 为原始 logit。颠末温度缩放后，对于全部 token，我们有                                     l                      i                      ′                            =                            l                      i                            /                   T                         l'_i = l_i/T             li′=li/T。对于给定的 token                            i                         i             i：
                                          M                         ′                               =                      max                      ⁡                      (                                  l                         j                         ′                               )                      =                                  M                         T                                     M' = \max(l'_j) = \frac{M}{T}                M′=max(lj′)=TM
                                          σ                         ′                               =                                                       1                               N                                                    ∑                               j                                        (                                        l                               j                               ′                                        −                                        μ                               ′                                                    )                               2                                                    =                                                       1                               N                                                    ∑                               j                                        (                                                       l                                  j                                           T                                        −                                                       μ                                  j                                           T                                                    )                               2                                                    =                                  σ                         T                                     \sigma' = \sqrt{\frac{1}{N}\sum_j (l'_j - \mu')^2} = \sqrt{\frac{1}{N}\sum_j (\frac{l_j}{T} - \frac{\mu_j}{T})^2} = \frac{\sigma}{T}                σ′=N1j∑(lj′−μ′)2          =N1j∑(Tlj−Tμj)2          =Tσ
token                            i                         i             i 被选中当且仅当                                     l                      i                      ′                            ≥                            M                      ′                            −                   n                            σ                      ′                               l'_i ≥ M' − nσ'             li′≥M′−nσ′。代入：
                                          l                         i                         ′                               ≥                                  M                         ′                               −                      n                                  σ                         ′                                ⟺                                            l                            i                                     T                               ≥                                  M                         T                               −                                           n                            σ                                     T                                ⟺                                l                         i                               ≥                      M                      −                      n                      σ                            l'_i \geq M' - n\sigma' \iff \frac{l_i}{T} \geq \frac{M}{T} - \frac{n\sigma}{T} \iff l_i \geq M - n\sigma                li′≥M′−nσ′⟺Tli≥TM−Tnσ⟺li≥M−nσ
这个终极条件与                            T                         T             T 无关。因此，对于任何 token                            i                         i             i，它是否被选中取决于类似的条件，无论温度怎样。
这种温度稳固性特性将我们的方法与其他常见的采样方法区分开来。对于 top-                            p                         p             p 和 min-                            p                         p             p 采样，选择的 token 集随温度厘革。随着温度升高，logit 分布趋向于高斯噪声部门，导致 top-                            p                         p             p 和 min-                            p                         p             p 在其采样池中包罗更多噪声 token。固然 top-                            k                         k             k 采样确实保持了温度稳固性，但它利用固定的                            k                         k             k 值，这仅仅转移了标题：固定的                            k                         k             k 无法在差别上下文中动态地域分有用 token 和噪声 token。
眇小的探索控制 利用 top-                            n                   σ                         nσ             nσ，探索被分解为两个差别的参数。参数                            n                         n             n 控制焦点的巨细，而温度仅调治如安在焦点内举行探索。这种机制作为一种软屏蔽方法，有用地消除了潜伏的不相干 token，同时仍允许肯定程度的受控探索。这种解耦提供了对采样过程更眇小的控制：参数                            n                         n             n 确定有用 token 和噪声 token 之间的界限，而温度参数则在验证的 token 空间内微调探索战略。
实行

设置

效果

总结

我们提出了 top- n σ nσ nσ，证明了其在现有采样方法上具有理论和实证上风。
我们的分析显现了关于大型语言模子中 logit 分布的根本洞察，寻衅了推理使掷中传统对贪婪解码的偏好。
该方法的稳固性温度和高效盘算使其特殊恰当于新兴的测试时缩放技能。
除了采样战略之外，我们关于 logit 空间中噪声地域和信息地域之间独特分离的发现，为模子架构和训练过程的改进提供了潜伏的大概性。
未来的工作大概会探索如安在训练过程中利用这些统计特性来进步模子性能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

【论文条记】Top-nσ: Not All Logits Are You Need

本帖子中包含更多资源

浏览过的版块

九天猎人