本赛题Baseline 来源于《ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING》,该文发表于2024ICLR会议上。文章提出了一种倒置Transformer,旨在办理长时间多变量时序预测问题。 Transformer在天然语言处置惩罚和计算机视觉领域取得了巨大乐成,并成为遵循缩放定律的底子模型。受很多领域乐成应用的启发,具有强大的依赖关系提取本领和提取序列中多条理表示的本领的Transformer在时间序列预测中应用。然而,研究人员最近开始质疑基于Transformer预测模型的有用性,这些预测模型通常将同一时间步的多个变量嵌入到不可区分的通道中,并将留意力集中在这些时间标记上以捕捉时间依赖性。考虑到时间点之间的数值关系,但语义关系较少,研究人员发现,简朴的线性层,在性能和效率上都高出了复杂的Transformer。
考虑到基于Transformer模型的争议,本文反思了为什么Transformer在时间序列预测中比线性模型表现更差,而在很多其他领域发挥主导作用。本文留意到现有的基于变压器的预测模型结构大概不适合多变量时间序列预测。如图1顶部所示,值得留意的是,由不一致的丈量记录的根本上表示完全不同物理含义的同一时间步的点被嵌入到一个具有消除的多元干系性的标记中。而单个时间步形成的标记由于同时存在的时间点所表示的过度局部的担当域和时间不对齐的事件而难以显示有益信息
考虑到将同一时间步的多变量点作为(时间)标记嵌入的埋伏风险,本文对时间序列采取了相反的看法,并将每个变量的整个时间序列独立嵌入到(变量)标记中,通过反转,嵌入令牌聚合了序列的全局表示,这些表示可以更加以变量为中心。同时,前馈网络可以熟练地学习任意回溯序列编码的不同变量的泛化表示,并解码以预测未来序列。基于上述动机,本文提出了iTransformer,贡献体现在三个方面:
1.对Transformer的体系结构进行了反思,并指出尺度Transformer组件在多变量时间序列上的提取本领尚未得到充分的开发。
2.本文提出了iTransformer,它将独立的时间序列作为标记,通过自关注来捕捉多元干系性,并使用层归一化和前馈网络模块来学习更好的序列-全局表示,用于时间序列预测。
3.在实验上,iTransformer在真实数据集上具有较好的性能,并广泛地分析了倒置模块和架构选择,为未来基于Transformer的预测模型的改进指明了一个有渴望的方向。