本推文详细介绍了一种新的肴杂大模子架构,相关研究泉源于论文《A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction》,该论文第一作者为Guangyu Wang。交通流预测需要深刻明确时空信息及其多变量之间的复杂交互。然而,现有方法多接纳序列中心建模方式,忽略了变量间关系的动态依赖,从而影响性能。为相识决这一题目,论文提出了一种异构肴杂专家(MoE)模子TITAN。TITAN融合了序列中心、变量中心和先验知识中心的建模方法,通过动态路由机制实现专家选择,从而精准建模复杂的交通流预测任务。在两个公开数据集METR-LA和PeMS-BAY上,TITAN超越了现有最优模子,实现了4.37%至11.53%的性能提升。
本推文由朱旺撰写,考核为陆新颖与李杨。 论文链接:
https://arxiv.org/abs/2409.17440 代码链接:
https://github.com/sqlcow/TITAN 一、研究背景及主要贡献