【发布时间】:2023-03-15 15:14:01
【问题描述】:
我有兴趣在自定义数据集上实现基于 LinkNet 的编码器-解码器结构,用于语义分割。我正在尝试在编码器和解码器之间引入 convLSTM 层。通常,正如预期的那样,编码器的输出是 4-dim 输出(batch_size、channels、height、width)。 convLSTM 层需要 5 维输入(batch_size、sequence_length、channels、height、width)。如何在不丢失任何信息的情况下将此 4 维张量转换为 5 维张量?我最初也想过拆分 batch_size 以适应 sequence_length,但这可能是个问题,因为我正在处理视频帧。
也许我正在考虑使用四/五帧序列进行训练,即帧 t 的语义分割图是通过最后三到四帧的信息确定的,因此,sequence_length 为 4 或 5 就可以了。
如何引入序列长度?是在预处理期间还是在编码器结构之后?
最重要的是,怎么做?
【问题讨论】:
标签: deep-learning computer-vision pytorch conv-neural-network semantic-segmentation