Tokenformer:基于参数标记化的高效可扩展Transformer架构

打印 上一主题 下一主题

主题 1012|帖子 1012|积分 3036

本文是对发表于arXiv的论文 “TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS” 的深入解读与扩展分析。重要探究了一种革新性的Transformer架构计划方案,该方案通过参数标记化实现了模子的高效扩展和计算优化。
论文动机

如今的人工智能离不开Transformer,由于它是大型语言模子背后的基础架构。然而它的影响力并不仅限于天然语言处置惩罚。Transformer在其他领域也发挥着紧张作用,比如计算机视觉领域中的Vision Transformer(ViT)就扮演着紧张角色。随着我们的进步,模子规模不断扩大,从头开始训练模子变得越来越昂贵且不可持续
论文的研究团队观察到,虽然Transformer架构在多个领域取得了巨大成功,但其可扩展性受到了严峻限定,重要是由于在token-parameter交互计算方面采用了固定的线性投影方法。
Tokenformer创新计划

Tokenformer消除了在增加模子规模时需要从头开始重新训练模子的需求,大大降低了成本。
论文中提出的关键创新包括:

  • 完全基于留意力的架构计划:- 不仅用于token之间的交互- 还用于token和模子参数之间的交互- 提供了更大的架构机动性
  • 参数标记化方法:- 将模子参数视为可学习的token- 利用交叉留意力机制管理交互- 支持动态参数扩展
Transformer vs Tokenformer — 架构对比

让我们从高条理比较传统的Transformer架构和Tokenformer:

Transformer高层流程

在左侧,我们可以看到原始Transformer架构的简化视图。从底部的输入token序列开始:
输入首先通过线性投影块来计算留意力块的输入,即Q、K和V矩阵。这个阶段涉及模子参数和输入token之间的交互,利用线性投影举行计算。然后,自留意力组件答应输入token之间相互交互,通过留意力块举行计算。末了,前馈网络(FFN)产生下一层的输出,同样表示利用线性投影计算的token和参数之间的交互。
论文指出,传统Transformer架构中的这种线性投影计划限定了模子的机动性和可扩展性。当需要增加模子规模时,必须改变这些线性投影层的维度,这就需要重新训练整个模子。
Tokenformer的架构创新

Token-参数交互是通过线性投影组件计算的,这些组件具有固定大小的参数,在增加模子规模时需要从头开始训练。Tokenformer的重要理念是创建一个完全基于留意力的模子,包括token-参数交互,以实现一个更机动的架构,支持增量参数数量的增加。
Tokenformer高层流程

在上面架构图的右侧,我们可以看到Tokenformer架构的简化视图:
为了计算自留意力块的输入(Q、K和V矩阵),输入token被送入一个称为token-参数留意力的新组件,在这里除了输入token外,还传入了参数。输入token代表查询部门,参数代表token-参数留意力块的键和值部门。然后有和之前雷同的自留意力组件。末了为了准备下一层的输出,用另一个token-参数留意力块替代了前馈网络,其中来自自留意力块的输出用作查询,再次包含了不同的参数用于键和值矩阵。
Tokenformer架构详解


论文中的详细架构图展示了Tokenformer的完整计划。重要包括:

  • 输入处置惩罚:defprocess_input(X, K_P, V_P): # X: 输入tokens # K_P, V_P: 参数tokens attention_scores=compute_attention(X, K_P) returnweighted_sum(attention_scores, V_P)
  • 改进的留意力机制:defimproved_attention(query, key, value): # 利用改进的softmax (theta函数) scores=theta(matmul(query, key.transpose())) returnmatmul(scores, value)
Pattention机制详解

论文对比了标准留意力机制和新提出的Pattention机制:

原始留意力机制的计算公式

Pattention的计算公式
这种新的留意力机制计划具有以下优势:

  • 更好的梯度稳固性
  • 支持动态参数扩展
  • 保持输出分布的连续性
FFN的革新

传统Transformer中的前馈网络被更换为:

  • 两个连续的pattention块
  • 通过残差连接与输入token合并
  • 支持参数的动态扩展# 增量模子增长
在架构图的右下方,我们可以看到当想要通过添加新参数来增量增加模子规模时会发生什么。基本上是在每个pattention块的键和值矩阵中添加更多的参数token行,但保留已训练的参数token。然后在训练更大模子时所有token都会继续更新,从实验结果中可以看到,相比从头开始训练,规模增加的模子训练速率要快得多。
实验结果


论文中呈现的实验结果显示了y轴上的Tokenformer模子性能和x轴上的训练成本,与从头训练的Transformer举行比较:

  • 基线模子(蓝线):- 利用3000亿个token从头训练的Transformer模子- 不同圆圈大小代表不同的模子规模(从124M到1.4B参数)
  • Tokenformer性能(其他颜色线):- 红线:从1.24亿参数扩展到14亿参数- 仅利用300亿个token举行增量训练- 最终性能与完整训练相当,但训练成本显著降低
  • 效率提拔:- 黄线表明利用600亿个token的增量训练- 达到了比传统Transformer更好的性能- 同时保持较低的训练成本
关键优势

论文的实验结果证实了Tokenformer在以下方面的优势:

  • 计算效率:# 传统Transformer的计算复杂度 flops_transformer=O(n_layer*d_model^2*T+d_model*T^2) # Tokenformer的计算复杂度 flops_tokenformer=O(n_layer*d_token*N*T+d_token*T^2) # 其中N为参数token数量,可以机动调整
  • 扩展性能:- 支持从124M到1.4B参数的顺滑扩展- 保持模子性能的同时显著降低训练成本- 实现了更高效的参数利用
  • 实际应用价值:- 降低了大模子训练的资源门槛- 支持模子的持续演进和更新- 提供了更环保的AI模子训练方案
将来预测

论文末了提出了几个紧张的研究方向:

  • 将Tokenformer扩展到混淆专家体系
  • 探索参数高效的迁移学习方法
  • 研究视觉-语言模子的统一架构
  • 开辟基于Tokenformer的设备-云协同体系
  • 提拔模子的可表明性
这些方向都显示了Tokenformer架构的巨大潜力,有望在将来的AI发展中发挥紧张作用。
论文地址
https://avoid.overfit.cn/post/af881e4ed65b424693211253d66cf2b1

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

惊落一身雪

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表