一种新的肴杂大模子架构：TITAN

莱莱 · 2025-1-5 07:05:06

本推文详细介绍了一种新的肴杂大模子架构，相关研究泉源于论文《A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction》，该论文第一作者为Guangyu Wang。交通流预测需要深刻明确时空信息及其多变量之间的复杂交互。然而，现有方法多接纳序列中心建模方式，忽略了变量间关系的动态依赖，从而影响性能。为相识决这一题目，论文提出了一种异构肴杂专家（MoE）模子TITAN。TITAN融合了序列中心、变量中心和先验知识中心的建模方法，通过动态路由机制实现专家选择，从而精准建模复杂的交通流预测任务。在两个公开数据集METR-LA和PeMS-BAY上，TITAN超越了现有最优模子，实现了4.37%至11.53%的性能提升。
本推文由朱旺撰写，考核为陆新颖与李杨。
论文链接：
https://arxiv.org/abs/2409.17440
代码链接：
https://github.com/sqlcow/TITAN
一、研究背景及主要贡献

1.1 交通流预测的挑衅

交通流预测是根据汗青传感器数据预测未来交通状态的关键任务，其广泛应用于智能交通管理、城市规划和主动驾驶等范畴。然而，由于交通数据本身具有显著的时空异质性，传统方法（如支持向量回归、随机丛林等）难以有效捕捉这些复杂特性。近年来，图神经网络的引入为非欧几里得空间建模提供了强有力的工具，但现有GNN模子仍存在以下局限：
变量中心建模不敷： 多数模子主要关注时间序列中节点的时空关系，忽视了多变量间的动态交互。
路由优化不敷： 基于专家选择的模子在早期练习阶段易发生次优路由，影响模子团体性能。
1.2 肴杂专家模子的潜力

肴杂专家模子（MoE）自提出以来，已经被应用于多个范畴，通过动态选择最相关的专家以分担任务复杂性。然而传统MoE模子结构单一，未能充分使用异构专家的潜力。此外，MoE在时空任务中存在路由初始化不稳固的题目，导致其在交通流预测中的应用受限。
1.3论文的主要贡献：

（1）设计了一种新的异构专家框架
集成序列中心、变量中心和先验知识中心的异构专家。通过多元建模方式捕捉更全面的数据依赖关系。
（2）设计低秩适配矩阵
使用低秩矩阵优化差别专家之间的知识对齐，减少传统MoE的归纳偏差。
（3）专家退火策略
在练习初期引入先验知识中心专家指导路由，逐步削弱干预，提升模子适应性。
（4）显著性能提升
在多个评估指标上均实现提升，相比当前最优模子平均提高约4.37%至11.53%。
二、方法

图1 TITAN团体框架图

TITAN通过将以变量为中心和以先验知识为中心的方法与传统的以序列为中心的方法结合起来，从而降服以往模子难以练习、次优路由等题目。如图1所示，TITAN集成了这五个专家：三个以序列为中心的专家，一个以变量为中心的专家，以及一个先验知识专家。先验知识专家之外，这些专家都基于稍微修改过的Transformer体系结构，从而降低了练习的复杂性。终极输出通过路由机制进行管理，保证了专家的自适应选择。
2.1序列中心专家

时间注意力模块：专注于捕捉差别时间步之间的依赖关系，并引入周期性嵌入（如周末与工作日差别）来提升预测的正确性。
时空注意力模块：通过两阶段的多头自注意力机制，分别建模节点间的空间相似性和时间依赖性。
记忆注意力模块：借助外部记忆模块增强对汗青事件的捕捉能力，并通过图卷积网络进一步聚合空间特征。
2.2变量中心专家

将时间序列转化为变量特定的令牌（tokens），通过自注意力机制捕捉变量之间的关系。
使用可练习的低秩矩阵对每一层进行调整，确保变量中心模子天生的隐藏状态与序列中心模子兼容，从而减少归纳偏差。
2.3先验知识中心专家

基于动态时间规整（Dynamic Time Warping, DTW）矩阵盘算节点间的相似性，用于初始化路由过程。
通过高斯核函数调整权重，避免远距离节点对预测结果的负面影响。
2.4专家路由机制

动态路由：基于门控网络（Gating Network）实现，门控网络盘算输入与每个专家的相关性分数，并通过Softmax归一化确定终极路由概率。
退火策略：在练习初期，通过先验知识中心专家指导路由选择，确保路由的合理性；练习后期逐步减少先验知识的干预，使模子更加依赖数据驱动的决策。
融合输出：各专家的输出根据路由概率加权后，天生终极预测结果。

三、实行及结果

3.1数据集及对基线模子

数据集：
METR-LA：洛杉矶高速公路的207个传感器数据，覆盖4个月。
PEMS-BAY：加州湾区的325个传感器数据，覆盖6个月。
基线模子： 比力了14个基线模子，包括STGCN、DCRNN、Graph-WaveNet、GMAN、MTGNN 等。
3.2 对比试验

论文在两个公开数据集上和十四种基线模子进行了对比，对比结果如表1所示，其中粗体表示最优解，带下划线表示次优解。表中实行结果表明，TITAN优于全部其他模子，与最佳基线相比，在全部预测范围内平均提高了约9%。以序列为中心的建模方法，包括静态图模子（DCRNN、RGDAN、MTGNN、CCRNN）和动态图模子（GMAN、AdpSTGCN），在捕获时空依赖性方面体现出竞争力。然而，STD-MAE通过在顺序和变分两个维度上重构时间序列来捕捉复杂的时空关系，从而取得了更好的性能。相比之下，论文提出的模子TITAN优于全部其他模子，包括那些具有可学习矩阵的模子。

表1 对比实行结果

3.3 消融实行

表2 消融实行结果

论文消融实行部分有两个目标：评估每种方法所取得的实际改进，并检验两个假设：(1)对于异构MOE模子，使用低秩自适应方法构造模子是有益的；(2)通过监督路由的方式构造专家是有效的。为了实现这些目标，论文设计了一组TITAN变体，通过移除或更换差别模块验证了各部分的重要性，变体内容及结果如表2所示，结果表明，移除变量中心专家：性能降落显著，验证了变量间关系建模的关键性。移除先验知识中心专家：早期路由体现不稳固，说明先验知识在练习初期的有效性。通过退火策略和低秩矩阵的引入，显著优化了模子的适应性和泛化能力。
四、总结与展望
论文提出了一种创新性的异构肴杂专家模子TITAN，在时空数据建模中体现卓越。其核心创新包括引入变量中心和先验知识中心的建模方式，结合动态路由机制和专家退火策略，有效办理了传统模子在变量关系建模和早期路由稳固性方面的不敷。在时空依赖建模的有效性中，通过异构专家写作，分别从时间、时空、记忆注意力角度成功捕获了时空数据中的复杂依赖关系，显著提高了交通流预测的精度。此外，论文通过引入低秩适配矩阵和先验知识，为多样化的建模需求提供了灵活的框架。
在未来的发展中，论文实验引入启发式算法进一步优化路由机制，并拓展TITAN到更广泛的多变量时间序列预测任务，深入研究异构专家间的协作机制，提升多模态数据处理能力。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

一种新的肴杂大模子架构：TITAN

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云