IT评测·应用市场-qidao123.com

标题: PatchTST:通道独立的、切片的 时序 Transformer [打印本页]

作者: 立聪堂德州十三局店    时间: 2025-1-15 22:42
标题: PatchTST:通道独立的、切片的 时序 Transformer

出处:ICLR 2023 
代码链接:yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730

一  模型重要头脑及预实验

1. Patch 头脑
Input Token:将各时间点视为单一 token
Patch:时间序列被分为多少时间段 (segment),各时间段被视为单一 token(提取局部语义信息)

2. 关于通道混合 Channel-mixing(CD / CM) 和通道独立 Channel-independence(CI) 通道混合
通道混合 Channel-mixing(CD / CM):
强调:差异通道间的 “相关性、交互性” 建模,提高模型的表达本领及泛化本领;一个模型处理多个(所有)通道的时序信息
Transformer 架构的 “通道混合”:
1) 自注意力机制:每个位置的表示都是所有位置的加权组合;
2) 多头注意力机制:差异注意力头内,学习差异的特性表示,并进行归并;
通道独立 Channel-independence(CI):一个模型只处理一个通道的时序信息
3. 预实验:

二  Method

2.1  通道独立性(Channel-independence)

针对多元时序数据,按其 “变量数”(M),将其拆分为 M 个 “单变量时序数据”,针对每个单变量时序数据,利用 “单独的 transformer backbone” 处理,终极汇聚多个变量各自的预测结果。
2.2   Patch 操纵(举个现实例子,帮助理解)

(1)  通过图示,直观理解:公式内的 “( L - P ) / S” 的含义;
(2) 理解 “+2” :加的是首部的第一个 Patch,以及 “除不尽/需padding” 情况下尾部的末了一个 Patch(除得尽,就只需 “+1”,添加首部的第一个 Patch);
(3) 之前的部分工作是将每个时间戳当作一个 token,故其时间复杂度为:O(L),而当我们采取 “Patch” 策略,则以 一个 Patch 为 一个 token;又因为 L >> P,故其时间复杂度可近似为:O(L/S);— 效率提升!!!
2.3  Transformer Encoder(多头注意力机制)

2.4 丧失函数,如下:

2.5 Instance Normalization
帮助减轻 “训练、测试数据” 间的分布偏移效应 (Ulyanov et al., 2016; Kim et al., 2022);
2.6 “自监督” (self-supervised)策略 的 表示学习
论文阐述了在自监督学习中,通太过块(patch)对掩码(mask)进行重修的上风:如果仅对单一时间点进行掩码处理,那么直接利用相邻时间点的数据进行插值即可容易实现重修,这种方式几乎不需学习就能够完成任务。然而,当采取对一个数据块(patch)进行掩码并实验重修时,这种方法不仅更加具有挑战性,而且能够赋予模型更高的学习代价,因为这要求模型理解并利用数据的整体布局和模式,而不是简单地依赖于局部信息的插值。这样做的结果是提高了模型的泛化本领和对复杂模式的捕捉本领。

三  实验结果

“有监督” 的实验结果:

“自监督” 的实验结果:

迁移学习:

表示学习: 

PS. 固然在消融实验内,“通道独立性” 效果不错,但现实上现在的 sota 工作更倾向于 “通道混合” 大概采取介于 “CI / CD” 的中心状态。 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4