基于Pathways架构的自适应多尺度时间序列预测模子Pathformer ...

乌市泽哥 · 12 小时前

本文主要是转载一下几篇博客（感谢楼主），举行一个总结以及思索：
ICLR2024 | Pathformer: 基于Pathways架构的自适应多尺度时间序列预测 - 知乎
时序必读论文09｜ICLR24基于Transformer 自适应多尺度patch的时序预测模子 - 知乎
[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模子Pathformer-阿里云开发者社区
话不多说，开始讲解

原文地址：pdf
发表会议：ICLR2024
代码地址：decisionintelligence/pathformer

https://github.com/decisionintelligence/pathformer
作者：陈鹏，张颖莹，程云爻，树扬，王益杭，文青松，杨彬，郭晨娟
单位：华东师范大学、阿里巴巴、奥尔堡大学

前言

         这篇文章的思路就是：通过傅立叶变化举行周期分解，把时序数据自适应切分为最佳的、不同尺度的patch，然后设计patch内和patch间的留意力机制，举行下游任务。关于自适应尺度这样的学术词汇，以电影举例，有的电影情节冗长拖沓，我们就会快进，看电影的粒度和尺度就会更宽。而有的电影情节紧凑，我们会逐步欣赏，看电影的粒度和尺度就很精细。自适应的意思就是根据电影情节密度主动帮你计算合适的快进步长。
          多尺度（日、月、季节等）建模主要从不同的尺度中提取时序特征和依靠关系，建模多尺度需要考虑两个方面：时间分辨率和时间距离。时间分辨率指用于建模的每个时间patch的大小。如图1中，雷同的时序别分别为小的patch（蓝色）或大的patch（橙色），提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依靠性，决定用于时序建模时时间步之间的距离。如图1中，玄色箭头模仿了相邻时间步之间的关系，提取时序的局部细节，而彩色箭头模仿了跨长距离的时间步之间的关系，提取时序的全局关联。

图1.左：时间序列被分别为不同大小的时间分辨率的patch。蓝色、橙子和赤色的间隔表现不同的patch大小。右图：通过不同的时间距离对局部细节（玄色箭头）和全局相关性（彩色箭头）举行建模。
挑战

基于Transformer模子的多尺度建模，主要有两个挑战。
一：不完备的多尺度建模。只是针对时间分辨率不能有用地捕捉不同范围的时间依靠关系，相反，考虑时间距离虽然能提取不同范围的时间依靠，但到数据全局和局部间隔受分别的影响，单一的时间分辨率并不完备。
二：固定的多尺度建模过程。对所偶然序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉，然而为每个数据集或每个时序手动调解最佳尺度非常耗时且难以处理。
解决方案

针对这两个挑战，提出了一个基于Pathways架构的自适应多尺度Transformer模子（Pathformer）。

针对挑战一，整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块，主要包括patch 分别和双重留意力机制。使用不同大小的patch举行多尺度分别，基于每个尺度得到的patch分别，使用双重留意力机制（patch内留意力和patch间留意力）建模时间依靠关系，通过patch内留意力捕捉局部细节，patch间留意力捕捉全局关联。
针对挑战二，提出自适应pathways，激活Transformer的多尺度间建模能力。在模子的每一层，一个多尺度路由器根据输入时序的时间动态性自适应选择不同的patch大小举行分别，经过双重留意力举行建模，然后使用聚合器自适应聚合这些多尺度的特征。这种逐层地路由和聚合最终形成了自适应pathways的多尺度建模。

框架

论文提出Pathformer模子，它整合了时序的resolution和distance，可以或许根据输入时间序列中不同的时序，动态调解多尺度建模过程，自适应的用不同尺度的patch分解时间序列。并在patch内和patch间设计了留意力机制，以捕捉全局和局部的依靠关系，用于时间序列预测。提高了预测准确性和泛化性。对九个真实世界数据集的实验效果表明，Pathformer优于现有模子，展现出更强的泛化能力。

图2.自适应路径选择具有路由器生成的前K个权重的patch大小以捕捉多尺度特征，并且所选patch大小以蓝色表现。然后，聚合器将加权聚合应用于从MST块获得的特性。如上图左半部分所示，整个预测网络由：实例正则化（Instance Norm）、自适应多尺度块（Adaptive Multi-Scale block, AMS Blocks）的堆叠，以及预测器（Predictor）构成，核心是中间的自适应多尺度AMS block模块。
AMS block模块则包含多尺度Transformer block模块和Adaptive pathways模块。此中：
多尺度Transformer模块

多尺度分别. 为了方便表现，我们以单变量举行描述。在多尺度Transformer块中，界说M个patch大小集合

, 每一个patch大小对应一个patch分别操作。对于输入的时序

,此中每个 patch 大小为 S，原序列长度为 H，则序列被分割为 P（此中 P=H/S）个 patch，一个patch

大小为S分别时序为

，P表现Patch的数目，不同的patch大小得到不同时序的时间分辨率。

图3 双重留意力机制. 基于每个尺度的patch分别，提出了双重留意力机制来建模不同范围的时间依靠。如图3（a）所示，经过patch大小S分别得到的(X1,X2,…,XP)，patch内留意力（intra-patch attention）建模每个patch内部不同时间点之间的关联。对于第i个patch

，对特征维度d举行embedding得到

，然后举行线性映射得到键矩阵和值矩阵

。初始化一个可学习的查询矩阵

，然后对

举行跨留意力计算来建模第i个patch内部局部细节。

经过了patch内留意力机制，每个patch的长度从S变为1.将每个patch的得到的留意力效果举行合并得到最终的效果

。

patch间留意力（inter-patch attention）建模不同patch之间的关系来捕捉全局关联。对分别后的时序

在特征维度上举行embedding。根据标准的自留意力机制，通过线性映射得到

，计算出留意力效果

，代表时序的全局关联。

自适应Pathways

这里又引出了一个新的题目，即需要主动的匹配到最佳的序列分割长度。作者在adaptive pathways模块设计了两个部分，包括：多尺度路由器和多尺度聚合器。

多尺度路由器。通过傅立叶变更选择最佳的patch分别尺寸，从而控制了多尺度建模的过程。路由器中引入了时间分解模块，它包括季节性和趋势分解，以提取周期性和趋势模式，选择top K个权重送至多尺度Transformer模块以执行多尺度建模。
多尺度聚合器。对从多尺度Transformer模块获得的特征举行加权聚合。

多尺度路由器

周期分解将时序从时域转换到频域来提取周期模式。我们利用离散傅立叶变更

将输入时序分解为傅立叶基并选择振幅

的基，然后通过逆傅立叶变更

得到周期模式

。

这里

分别代表经过每个频率对应的相位和振幅，

表现具有前

个振幅的频率。趋势分解使用不同的 kernel 举行平均池化来提取周期分解后的剩余部分的趋势模式
。对于不同的 kernel，采用加权操作来获得最终的趋势项表现。

我们对周期项和趋势项与原输入相加，然后在时间维度上举行线性映射得到
。基于时序分解的效果

，路由器使用路由函数

生成路径权重来选择 patch 大小举行分别。为了制止权重生成过程中一直选择某几个 patch 大小，导致相应的尺度模块重复更新而忽视别的更有用的尺度，因此我们引入噪声项来为权重生成加入随机性。整个权重生成过程如下所示：

为了保持路由的稀疏性同时鼓励选择关键尺度，在路径权重上使用 Top-K 战略，保留前 K 个路径权重，并将别的权重设置为 0，并将最终效果表现为

。
多尺度聚合器

生成的路径权重的每个维度对应多尺度Transformer中的一个patch大小，此中

表现执行此patch大小对应的patch分别和双重留意力。设表现patch大小为

对应的多尺度Transformer块的输出，基于路径权重，聚合器对多尺度输出执行加权聚合操作，得到AMS块的最终输出：

这里是指示函数，在

时输出 1，否则输出 0。
实验

如表1所示，Pathformer超过了baselines,取得了SOTA预测效果。相比于最好的基准PatchTST，Pathformer在MAE和MSE上取得了8.1% 和6.4% 的提升。相比于线性模子DLinear和NLinear，Pathformer超过了它们，特殊是在大数据集上，说明基于Transformer架构的模子依然具有很大的远景。相比于多尺度模子Pyraformer和Scaleformer, Pathformer展现出很大的预测效果提升，说明基于自适应多尺度的建模更加有用。

   表1    迁移实验

        在两种场景中举行了迁移实验。为了评估模子在不同数据集之间的迁移，模子在ETTh1和ETTm1上举行预训练，然后在ETTh2和ETTm2举行迁移。为了评估模子在同一数据会合对时间的迁移，模子在阿里云三个集群数据（Cluster-A,Cluster-B,Cluster-C）取前70% 训练数据举行预训练，用后30%训练数据举行微调。我们在基准上举行了两种迁移方式，直接预测（zero-shot）和全部微调。同时Pathformer提出了一个部分微调战略，针对模子中少量参数（如多尺度路由网络参数）举行微调，大大降低了计算成本。
        如表3所示， Pathformer在直接预测和全部微调方法上都超过了基准，表明了Pathformer具有好的泛化性和迁移性，主要来自它自适应多尺度建模的能力。部分微调作为一种轻量化的微调方式仍然实现了一个好的预测效果，大部分超过了基准，说明Pathformer可以或许提供一种轻量级迁移学习方法。

   图3    溶解实验

        为了验证pathformer中各个模块的有用性，举行了溶解实验，重点关注patch间留意力，patch内留意力，时序分解和Pathways。如表3所示，每个模块展现了不同的影响，此中Pathways的影响明显，这夸大了模子自适应选择不同尺度举行多尺度建模的能力对预测效果很重要。patch内留意力在捕捉局部模式方面比较出色，与捕捉全局模子的patch间留意力形成对比。时间序列分解模块分解出周期和趋势项，提升了模子捕捉时间动态性，帮助路由网络更好地举行自适应选择。

   表3.溶解实验效果。 W/O Inter，W/O Intra，W/O Decompose代表分别去掉path间留意力，patch内留意力和时序分解    敏感性分析

        对自适应选择patch size K 的数目举行敏感性分析，评估不同的K 对模子预测效果的影响。如表4所示，K为2和3时比K为1和4产生更好的预测效果，说明模子的自适应建模多尺度特征帮助提升预测准确率。同时，选择所有的patch 大小并没有取得最好的预测效果，说明针对一个时序样本并不是所有的patch都完全有用，有些patch大小对某些时序样本可能对模子产生负面预测效果，这也突出自适应多尺度建模的重要性。

   表4.Patch size数目k的敏感性实验效果    思索和总结

        本文提出了一种用于时间序列预测的多尺度Transformer与自适应路径（Pathformer）。它通过引入具有多尺寸的patch分别和对分别的patch举行双重留意力建模，将多尺度序列分辨率和距离整合在一起，从而实现了对多尺度特征的全面建模。此外，自适应路径根据不同的时间动态路由选择和聚合尺度特定特征。这些创新机制共同使Pathformer可以或许在多个预测任务中取得出色的预测性能，并展现出强大的泛化能力。
        patch是一个趋势，后续的工作应该考虑先patch，然后设计各类改进。patch动态分割是很轻易从图像范畴鉴戒过来的，只是没想到有人速度如此之快。此外，关于未来可做的点还想说一句：diffusion和patch的联合大概有搞头。
这篇论文的路由函数选择最佳patch有什么依据？
路由函数配备了趋势分解和季节性分解模块。通过将时间序列从时间域转换到频率域，提取周期性模式，然后通过逆变更得到季节性成分，同时还可以得到趋势成分。这样路由器可以或许更好地明确时间序列的内在特性，从而为选择合适的 patch 大小提供依据。
  代码讲解

代码部分，为了大家更好的阅读和探讨我在飞书举行上传，有题目大家可以在疑问区域直接品评和且代码部分每个公式我也做了具体数学介绍，绝对通俗易懂！
代码位置：
https://h1sy0ntasum.feishu.cn/wiki/QznlwjXJsiGdxykDTukc9MuZnAc?from=from_copylink

https://h1sy0ntasum.feishu.cn/wiki/QznlwjXJsiGdxykDTukc9MuZnAc?from=from_copylink

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

基于Pathways架构的自适应多尺度时间序列预测模子Pathformer ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云