从单个图像估计相机高度、方向和视野答案

【问题标题】：Estimating camera height, orientation and field of view from a single image从单个图像估计相机高度、方向和视野
【发布时间】：2021-04-28 14:07:10
【问题描述】：

我希望有人能指出我正确的方向（或者让我知道我是否走在正确的道路上）。

我正在尝试构建一个图像编辑应用程序，该应用程序使用计算机视觉来协助插入虚拟对象 - 基本上是 AR，但具有单个单目图像（未校准）的约束。

虚拟对象插入只会发生在地平面上（例如，想想地板上的虚拟地毯）。因此（很像 AR），我需要将虚拟相机与物理相机对齐，并将渲染的虚拟场景与物理图像合成。

我已经成功地训练了语义分割深度 CNN 来预测室内场景的地板（用作掩码，因此虚拟对象，例如地毯，仅在该区域可见），但我遇到了难以确定相机属性。

我的直觉是，为了构建一个可以合成的虚拟场景，我关心的相机校准属性是相机的高度、俯仰、滚动和视野（或焦距）。现在因为这只是为了渲染目的，所以估计值不需要非常准确，只要足够接近渲染对象看起来不会失真即可。

在研究了这个问题后，我发现了这篇论文Single View Metrology In the Wild - 它似乎提供了上面列出的所有校准属性的估计值。话虽如此，由于没有可用的培训代码，这最终可能需要很长时间才能完成可能会或可能不会起作用的事情——尽管我愿意调查这是否是唯一的选择。

我在这里错过了一个明显的方法吗？我已经阅读了一些关于更传统的 CV 方法（例如消失点）和一些更现代的方法（例如 UprightNet）的论文，但它们通常缺少上面列出的必要相机校准值之一。

【问题讨论】：

【解决方案1】：

您可以根据OpenCV docs校准相机参数。你试过吗？

【讨论】：

【解决方案2】：

嗯，“更现代”...Canoma 于 1998 年 IIRC 发布，部分基于 Paul Devevec 在 UCB 早期所做的工作。两者都表明，在单个图像上插入逼真的 CG 是可行的，只需很少/很容易的用户输入。

该软件通过让用户用鼠标跟踪几个与视野中的结构（例如建筑物、塔楼）相匹配的盒子或圆柱体来校准相机的焦距和姿势。稍加练习，只需一两个盒子就可以得到一个好的解决方案。

【讨论】：