使用深度神经网络估计对象大小答案

【问题标题】：Estimating Object size using Deep Neural Network使用深度神经网络估计对象大小
【发布时间】：2018-03-28 07:15:45
【问题描述】：

我有一个大型车辆图像数据集，其中包含它们长度的基本事实（超过 10 万个样本）。是否可以训练深度网络来估计车辆长度？

我还没有看到任何与使用深度神经网络估计对象大小有关的论文。

【问题讨论】：

您是否尝试过查看姐妹网站ai.stackexchange.com ？
真的很有趣，我以前没见过，看到它工作我会很惊讶

标签： machine-learning neural-network deep-learning computer-vision data-science

【解决方案1】：

[更新：我没有注意到问题中的计算机视觉标签，所以我原来的答案是针对不同的问题]：

当前的卷积神经网络非常擅长从原始像素中识别车辆模型。该技术称为transfer learning：采用通用的预训练模型，例如 VGGNet 或 AlexNet，并在车辆数据集上对其进行微调。例如，CS 231n 课程项目的here's a report 正是这样做的（注意：由学生完成，2015 年）。难怪已经有apps 在智能手机中使用了。

所以这或多或少是一个已解决的问题。一旦您知道模型类型，就很容易查找它的大小/长度。

但是，如果您要问一个更一般的问题，当车辆不是标准的（例如有拖车，或以某种方式改装）时，这要困难得多，即使对于人类来说也是如此.视角的微小变化可能会导致重大错误。更不用说车辆的某些部分可能只是不可见。所以这个问题的答案是否定的。

原始答案（假设数据是一般车辆特征的表格，而不是图片）：

我认为车辆尺寸预测与house price prediction 之间没有任何区别。过程是相同的（在最简单的设置中）：模型从训练数据中学习特征和目标之间的相关性，然后能够预测看不见的数据的值。

如果你有良好的输入特征和足够大的训练集（100k 就可以了），你可能甚至不需要一个 deep 网络。在我见过的许多情况下，simplest linear regression 会产生非常合理的预测，而且几乎可以立即进行训练。因此，总的来说，答案是“是”，但归结为您拥有哪些特定数据（功能）。

【讨论】：

【解决方案2】：

您可以在某些严格的条件下执行此操作。

计算机视觉/多视图几何简介：

基于多视图几何的基础，识别物体大小的主要问题是找到从相机视图到现实世界坐标的转换函数。通过应用不同的条件（即捕获许多连续图像 - 视频 / SfM -，从不同角度拍摄同一物体的图片），我们可以估计这个转换函数。因此，这完全取决于焦距、像素宽度/高度、失真等相机参数。一旦我们有了相机到现实世界的转换功能，就可以非常容易地计算相机到点的距离，从而计算物体的大小。

因此，根据您当前的任务，您需要提供

图片
相机的内在参数
（可选）相机的外部参数

并获得您希望的输出。

或者，如果您可以修复相机（相同的模型，相同的内在/外在参数），您只需将图像作为唯一输入即可直接找到相同相机的图像与距离/对象大小之间的相关性。但是，NN 很可能不适用于不同的相机。

【讨论】：