《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》

作者：
Chen, Suting
Zhang, Song
Geng, Huantong
Chen, Yaodeng
Zhang, Chuang
Min, Jinzhong
单位：南京信息科技大学
点击下载：https://www.mdpi.com/2073-4433/11/6/569

1. 主要工作

针对传统雷达回波临近预报容易时空信息丢失、预报精度低的问题。

本文提出了一种结合3DCNN和双向卷积长短期记忆网络的编码预报模型(3DCNN-BCLSTM)。模型的第一个结构输入数据是具有时空特性的三维张量数据, 通过3D卷积神经网络提取提取雷达回波的局部短期的时空特征, 然后利用构造双向卷积LSTM学习全局长期依赖时空特性,最后实现回波图像变化的预报预测网络。

该结构能充分捕捉雷达回波连续运动时的时空相关性，更准确地预测某一区域内短期雷达回波的运动趋势。雷达回波图像的样本由深圳和香港气象站记录用于实验,结果表明,critical success index (CSI)与八个模型预测回声相比时达到0.578当阈值为10 dBZ时,假警报率(FAR)为20%，低于卷积LSTM网络(ConvLSTM)。均方误差(MSE)低于实时光学流由变分法(ROVER)16%, 比目前最先进的雷达回波临近预报方法更有效。

关键词: 雷达回波预测(radar echonowcasting); 3DCNN; bi-directional convolutional LSTM; spatiotemporal correlation

2. DCNN-BCLSTM Model

为了进一步提高短时预测的准确性和更好地利用雷达回波图像之间的时空相关性,提出了一种 $encoding-forecasting$ 的结构，该结构结合3D-CNN和bi-convolutional LSTM。这可以更有效地捕捉时空连续的雷达回波特征关系，提高传输能力之间的时空特性,具体的模型体系结构如图1所示。
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
首先构造连续的雷达图像序列作为模型输入，通过对数据维度的处理，可以得到具有完整时空特征的张量。在主要结构上，建立了Encoding-forecasting结构的生成模型，该模型主要由encoding和forecasting网络两部分组成。

Encoding network：本文通过3DCNN提取连续多帧图像的局部短期时空特征，然后通过三层双向卷积LSTM网络学习全局长期时空特征的依赖关系，将捕获和学习到的回波运动特征压缩为隐状态张量(前一部分是模型的编码网络)。

Forecasting network：预测网络由三层双向卷积LSTM组成，连接编码网络内部状态和最后一层3DCNN。该算法用于融合多帧时空状态，将编码网络学习到的时空特征信息传输到预测网络中，根据当前输入和特征信息重建未来回波图像序列。

此外，引入批量归一化(BN)方法[33]，并以修正后的线性单元(ReLU)作为非线性**函数来代替传统的Sigmoid，提高了网络收敛速度，缓解了网络的过拟合现象。

2.1 Construction of 3D Spatiotemporal Data

在雷达回波预测问题上，原始输入数据维数已不能满足网络模型的要求，其主要缺点是对流 (convective) 时空特征信息不能被完全编码。为了解决这个问题，需要将所有的输入、单元(unit)输出和单元(unit)状态转换为三维张量 $X∈R^{T×W×H}$ ，其中 $R$ 为大气数据特征域。第一个维 $T$ 是时间维，第二个维 $W$ ，第三个维 $H$ 分别是空间维的行和列。事实上，三维时空数据的使用不同于天气雷达的体积 (volumetric) 数据。
图2中, 将原始单回波图像在空间网格中变换为多帧时间维向量，将连续图像依次叠加，生成三维时空立体结构，然后神经网络可以通过局部邻近信息和过去状态预测网格中单元的未来状态。
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
图2. 雷达回波图的维度重构

对于3DCNN-BCLSTM网络结构，需要重构回波图像的输入数据维数，即分别构建时间维数和空间维数。在时空特征提取和运动信息学习过程中，输入和输出都是三维张量，状态间的转换也是三维张量的卷积计算。使得雷达回波数据具有统一的维数，同时保留了所有的时空特征，使得该区域的雷达回波临近预报更加全面和准确。

2. DCNN Module

卷积神经网络具有局部连接、特征映射和权值共享等特点，非常适合用于图像数据处理。尽管传统2D-CNN拥有强大的图像数据特征提取能力。但在连续处理回波图像的任务时,它没有考虑到多帧图像预测之间的影响关系,容易失去运动趋势信息的目标特性, 因此无法有效解决动态回波预测的问题。为了得到更准确的结果，我们使用构造的3DCNN来代替传统的2DCNN。3DCNN的计算公式如下：
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
神经网络的卷积层中存在多个卷积核，每个卷积核对应一个回波特征，卷积核越多，生成的特征图就越多。这种3DCNN结构可以保存更多连续多帧图像的信息，可以有效地用于气象临近预报任务。在对输入雷达回波图像进行维数重构的过程中，对空间大小一致的连续帧进行时间叠加，形成具有时空特征的三维数据。然后，如图3所示，使用三维卷积核对这个连续的三维数据进行运算，图中的三维卷积核包含三帧的时间维数，即需要对三个连续的映射进行卷积运算。在编码网络的最后一层，3DCNN提取的特征数据将作为输入传输给下一个网络。卷积在这个结构中,卷积层中的每个feature map都将与前一层的几个连续帧相连接。通过对前一层连续多个相同位置的局部感知，得到feature map各位置的具体值，从而获取回波图像的时空运动信息。

《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
图3. 提取时空特征但3D卷积操作

在雷达回波外推模型的编码网络部分，我们改进了多帧图像难以处理、易丢失时空信息的问题。网络的输入由连续的图像序列组成，然后依次进入Conv1和Conv2进行短期特征提取。该部分主要由两个Conv3D层组成，每个Conv3D层后面是批处理归一化(BN)和ReLU非线性**函数层。双层Conv3D的卷积核较小，大小为3×3×3，滤波器数分别为16和32个，每个三维卷积核的权系数相同。为了保持特征映射的大小不变，在进行卷积运算之前进行填充运算。为了加快深度学习网络训练的速度，有效避免相关的梯度问题，我们在每一个3D卷积层[33]后增加BN，对网络计算过程中每批的数据分布进行归一化。传统**函数的导数范围小于1，且梯度在穿过每一层时会不断衰减，随着网络结构的加深，梯度可能会消失。因此，我们选择ReLU**函数来代替传统的Sigmoid**函数。

ReLU增加了网络的稀疏性，提高了收敛速度，增强了特征提取的泛化能力，缓解了过度拟合现象，在一定程度上提高了准确率。这里3DCNN模块使用了两个浅层，这是为了以后结合双向卷积的LSTM层，更有效地捕捉图像的时空特征;这减少了神经网络的特征损失，加快了神经网络的收敛速度。

预测网络部分也使用了3DCNN网络，然后是ReLU非线性**函数层。此处设置滤波器个数为1，以便模型最终生成与原始输入通道数相同的灰度图像，并输出可视化结果。

2.3 Bi-Directional Convolutional LSTM Module

LSTM作为RNN的一种特殊变体，其创新之处是记忆单元，其本质是信息不断更新和交互的场所。然而，传统的周期性更新结构既不能实现信息的更新和过滤，又不能满足信息的远距离依赖;因此，引入三门结构来满足这些要求。LSTM依靠内存单元不断更新当前时刻的状态信息，利用遗忘门、输入门和输出门来决定遗忘什么信息、输入什么信息、输出什么信息。LSTM网络解决了RNN的长期依赖问题，扩展了外推的时效性，使输入序列有效地映射到隐藏节点，并可以通过训练了解长时间序列的前后关系。

LSTM结构具有较强的时间序列问题求解能力;但是对于空间数据的处理，它包含了太多的冗余信息。时空信息不能编码;如果直接应用于雷达回波临近预报，将不可避免地造成时空信息的丢失。[27]提出了一种卷积的LSTM，其结构本质上仍然是LSTM，但状态之间的转换由乘法转变为卷积。它像LSTM一样建立了时间序列关系，也像CNN一样描述了空间特征，有效地克服了序列传输过程中空间信息丢失的问题。基于此结构，本文构建了双向卷积LSTM，结构如图4所示。
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
双向卷积LSTM网络由一个前向传输和一个后向传输组成。该网络将正反向信息综合结合，输出雷达回波结果，解决了单方向传输无法处理正反向信息的问题。在网络中，每个双向卷积LSTM存储单元包含了3D卷积网络在时空上的输出，结构中各部分的计算过程如下:
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
本文提出的3DCNN-BCLSTM模型，将三层双向卷积LSTM置于编码网络，三层位于预测网络，两部分的滤波器个数均为32、48、64，卷积核大小为3x3。在双向卷积的LSTM中，为了统一时空特征的大小，也进行了填充操作，每层都进行了一层批处理归一化。
预测网络采用双向卷积LSTM传输连续多帧图像序列的时空信息，并在全局长期范围内进行了有效融合。与单方向卷积LSTM相比，双向卷积LSTM可以学习正向和反向的全局长期特征依赖关系，更高效地完成临近预测任务。

2.4 Encoding - forecasting network structrure

对于雷达时空序列临近预报，当存在一组三维张量序列数据时 $\{x_1,x_2,...,x_t\}$ 已知固定 $L$ 个观测序列数据，通过编码-预测网络结构可生成 $K \{y_{t+1}',y_{t+2}',...,y_{t+K}',\}$ 个未来的雷达回波图像序列，其中 $t$ 为当前时刻。
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
本文主要使用图5所示的编码-预测网络结构生成模型，它由编码网络和预测网络组成。该网络将二层的堆叠3DCNN和三层的BCLSTM的编码网络，以及三层的BCLSTM和一层的3DCNN的预测网络相结合，接收编码网络的内部状态。该结构将捕获的运动回波特征信息通过编码网络压缩成隐张量格式，预测网络将展开隐状态张量，并根据最后时刻的特征信息生成新的雷达回波预测结果。网络如下。
《Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM》
图3. Encoding-forecasting 网络结构

Reference

[1] Chen, S., Zhang, S., Geng, H., Chen, Y., Zhang, C., & Min, J. (2020). Strong Spatiotemporal Radar Echo Nowcasting Combining 3DCNN and Bi-Directional Convolutional LSTM. Atmosphere, 11(6), 569.