IT评测·应用市场-qidao123.com

标题: PatchTST：通道独立的、切片的时序 Transformer [打印本页]

作者: 立聪堂德州十三局店 时间: 2025-1-15 22:42
标题: PatchTST：通道独立的、切片的时序 Transformer

出处：ICLR 2023
代码链接：yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730

一模型重要头脑及预实验

1. Patch 头脑
Input Token：将各时间点视为单一 token
Patch：时间序列被分为多少时间段 (segment)，各时间段被视为单一 token（提取局部语义信息）

2. 关于通道混合 Channel-mixing（CD / CM）和通道独立 Channel-independence（CI）通道混合
通道混合 Channel-mixing（CD / CM）：
强调：差异通道间的 “相关性、交互性” 建模，提高模型的表达本领及泛化本领；一个模型处理多个（所有）通道的时序信息
Transformer 架构的 “通道混合”：
1) 自注意力机制：每个位置的表示都是所有位置的加权组合；
2) 多头注意力机制：差异注意力头内，学习差异的特性表示，并进行归并；
通道独立 Channel-independence（CI）：一个模型只处理一个通道的时序信息
3. 预实验：

二 Method

2.1 通道独立性（Channel-independence）

针对多元时序数据，按其 “变量数”（M），将其拆分为 M 个 “单变量时序数据”，针对每个单变量时序数据，利用 “单独的 transformer backbone” 处理，终极汇聚多个变量各自的预测结果。
2.2 Patch 操纵（举个现实例子，帮助理解）

(1) 通过图示，直观理解：公式内的 “( L - P ) / S” 的含义；
(2) 理解 “+2” ：加的是首部的第一个 Patch，以及 “除不尽/需padding” 情况下尾部的末了一个 Patch（除得尽，就只需 “+1”，添加首部的第一个 Patch）；
(3) 之前的部分工作是将每个时间戳当作一个 token，故其时间复杂度为：O(L)，而当我们采取 “Patch” 策略，则以一个 Patch 为一个 token；又因为 L >> P，故其时间复杂度可近似为：O(L/S)；— 效率提升！！！
2.3 Transformer Encoder（多头注意力机制）

2.4 丧失函数，如下：

2.5 Instance Normalization
帮助减轻 “训练、测试数据” 间的分布偏移效应 (Ulyanov et al., 2016; Kim et al., 2022)；
2.6 “自监督” （self-supervised）策略的表示学习
论文阐述了在自监督学习中，通太过块（patch）对掩码（mask）进行重修的上风：如果仅对单一时间点进行掩码处理，那么直接利用相邻时间点的数据进行插值即可容易实现重修，这种方式几乎不需学习就能够完成任务。然而，当采取对一个数据块（patch）进行掩码并实验重修时，这种方法不仅更加具有挑战性，而且能够赋予模型更高的学习代价，因为这要求模型理解并利用数据的整体布局和模式，而不是简单地依赖于局部信息的插值。这样做的结果是提高了模型的泛化本领和对复杂模式的捕捉本领。

三实验结果

“有监督” 的实验结果：

“自监督” 的实验结果：

迁移学习：

表示学习：

PS. 固然在消融实验内，“通道独立性” 效果不错，但现实上现在的 sota 工作更倾向于 “通道混合” 大概采取介于 “CI / CD” 的中心状态。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)