图 5:绝对位置编码(Absolute Positional Embeddings)(图片由作者提供)
**只管绝对位置编码已经办理了 Transformer 不区分顺序的问题,但它天生的位置编码是相互独立的,没有考虑到序列中单词之间的相对位置关系。**这意味着在模子看来,位置 1 和位置 2 之间的相关性与位置 1 和位置 500 之间的相关性并无差异。然而,我们知道实际环境并非云云,由于在位置上更接近的单词,其相关性理论上应该更高。
旋转式位置编码[7](RoPE)可以或许办理上述问题,**它通过将序列中的每个位置转换成词嵌入的旋变化量来模拟单词间的相对位置关系。**以前文的 “Llama 2 is better than Llama 1” 为例,假设词嵌入现在是二维的。那么,“better ”一词将由基于其位置 m (4) 和常数 θ 的原始二维向量的二维旋转向量来表示。
图 6:展示了怎样通过旋转式位置编码(Rotary Positional Embedding)将原始向量转换为新的向量。这一转换是基于向量在序列中的位置(例如,m=4)和常数θ来进行的(图片由作者提供)
接纳这种方式,即便在原句中增长更多词汇,单词之间的相对隔断也能得到保持。比如,在句子 “The LLM Llama 2 is better than Llama 1” 中添加两个单词,只管“better”和“than”的位置从(4和5)变为(6和7),但由于旋转量保持一致,两个向量之间的相似性(即左图中向量的点积与右图中的点积相同)仍旧稳定。
表 2:不同 LLM 模子性能排名差异的明显性分析
末了,从定性角度,我们分析了两种模子对某一特定问题的答复:“What percentage of improvement over energy code requirements will be the goal of all new construction and renovations?”。这一问题基于以下上下文信息得出答案,两者均正确地答复了问题。