基于时空Transformer的短时交通流预测

1、文章信息

《Spatial-Temporal Transformer Networks for Traffic Flow Forecasting》。

今年贴在arXiv上的一篇文章。

2、摘要

由于交通流具有高度的非线性和动态的时空依赖性，因此实时准确的交通预测，尤其是长期预测仍然是一个有待解决的问题。本文提出了一种Spatial-Temporal Transformer Networks，STTN，利用动态有向空间相关性和长期时间相关性来提高长期交通预测准确性的网络(STTNs)。特别地，我们提出了一种新的图神经网络变体，命名为spatial transformer，通过动态地对带有self attention机制的有向空间依赖进行建模，来捕捉实时交通状况和交通流的方向性。此外，不同的空间依赖模式可以通过多头注意机制进行联合建模，以考虑与不同因素的各种关系(如相似性、连通性和协方差)。另一方面，Temporal transformer被用来对跨越多个时间步长的双向时间依赖关系进行建模。最后，将它们组合成一个块，共同对时空依赖关系进行建模，实现准确的交通预测。与现有的工作相比，该模型能够在较长的时间和空间依赖性范围内实现快速和可扩展的训练enables fast and scalable training。实验结果表明，所提出的模型与现有模型相比具有较强的竞争力，特别是对真实的PeMS-Bay和PeMSD7(M)数据集的长期交通流进行了预测。

3、模型框架

基于时空Transformer的短时交通流预测

所提出的时空transformer网络的总体结构如图3所示，它由堆叠的时空块和由两个1×1卷积层组成的预测层组成。更具体地说，时空块包含一个空间transformer和一个时间transformer，以便在动态变化的时空依赖中同时学习时空特征。几个块可以叠加起来形成更复杂的时空特征的深度模型。然后，预测层将学习到的深时空特征集合起来进行最终预测。以往的模型通常采用自回归的方式进行预测，每次都输出单步预测。通常有两种完全不同的方案来训练模型。在STGCN中，只采用单步预测误差来训练模型，而在测试中采用多步预测。它忽略了交通流的动态性，因此其性能相对有限，尤其是在长期预测方面。相比之下，DCRNN采用编解码器方案，将多步预测误差纳入最终损失，并进一步采用随机抽样方案，缓解了长期预测的误差积累问题。GraphWaveNet，我们认为，可通过强大的深层模型直接进行多步预测，而不是以一种自回归的方式。通过直接进行多步预测，短期和长期预测都可以用真实的观测数据来预测，而不需要使用容易出错的预测。因此，误差积累问题可以得到很好的解决。在此，我们利用所学习的深时空特征输出多步预测，并利用多步误差训练模型。

4、Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的，可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！

基于时空Transformer的短时交通流预测