结合图像的两个视图以增强 DL 模型的输出答案

【问题标题】：Combine two views of an image to strengthen the output of a DL model结合图像的两个视图以增强 DL 模型的输出
【发布时间】：2018-04-25 07:29:17
【问题描述】：

我已经尝试这个问题好几个星期了，但没有成功。

我的问题是：

深度学习模型有以下信息：

输入：图像序列

输出：图像中发生了什么，即从 10 个活动的序列中对正在发生的活动进行分类。

我有两个摄像头从两个视图记录相同的活动，我如何结合这两个视图来提高准确性？

【问题讨论】：

【解决方案1】：

我认为你应该使用 DELF 特征，提取两个相似图像的特征并将它们组合起来。

【讨论】：

嗯，其实我的组合部分本身有问题？如何实际组合这些模型？
将每个图像的特征保存在csv中，并使用简单的python脚本进行组合。假设 image1a image1b 是两个样本，将它们的特征转换为 .csv，使用 python 代码组合。

【解决方案2】：

如何结合这两种观点完全取决于你对问题的理解。让我给你两个不同的例子，

案例一：当您查看您的训练数据时，您可以轻松判断哪个相机更适合某些数据。例如一台相机可能会捕捉到所有有用的东西，而另一台相机可能由于可能的遮挡而无法捕捉（注意：我并不是说一台相机总是比另一台更好）。在这种情况下，您可以使用稍后的融合技术来仅融合代表来自两个相机的序列的两个结果特征。

案例二：你很难判断哪个相机更好。这基本上表明，在考虑两个摄像头后，您可能看不到性能提升，但可能会有一些小的改进。

最后，当您说两个摄像头时，您是否可以做双目立体视觉之类的事情？在这种情况下，您可能会获得额外的深度信息，这些信息不包含在任何单个相机中，并且可能有助于识别任务。

【讨论】：

我不太确定深度部分（如果它确实有用的话）。然而，很多天以来困扰我的事情是如何实际组合不同的视图，我是否需要做一些事情，比如将另一个视图附加到第一个视图并将两个图像而不是一个提供给神经网络，或者使用像 ResNet 这样的东西, DenseNet 架构？