【发布时间】:2021-04-28 14:07:10
【问题描述】:
我希望有人能指出我正确的方向(或者让我知道我是否走在正确的道路上)。
我正在尝试构建一个图像编辑应用程序,该应用程序使用计算机视觉来协助插入虚拟对象 - 基本上是 AR,但具有单个单目图像(未校准)的约束。
虚拟对象插入只会发生在地平面上(例如,想想地板上的虚拟地毯)。因此(很像 AR),我需要将虚拟相机与物理相机对齐,并将渲染的虚拟场景与物理图像合成。
我已经成功地训练了语义分割深度 CNN 来预测室内场景的地板(用作掩码,因此虚拟对象,例如地毯,仅在该区域可见),但我遇到了难以确定相机属性。
我的直觉是,为了构建一个可以合成的虚拟场景,我关心的相机校准属性是相机的高度、俯仰、滚动和视野(或焦距)。现在因为这只是为了渲染目的,所以估计值不需要非常准确,只要足够接近渲染对象看起来不会失真即可。
在研究了这个问题后,我发现了这篇论文Single View Metrology In the Wild - 它似乎提供了上面列出的所有校准属性的估计值。话虽如此,由于没有可用的培训代码,这最终可能需要很长时间才能完成可能会或可能不会起作用的事情——尽管我愿意调查这是否是唯一的选择。
我在这里错过了一个明显的方法吗?我已经阅读了一些关于更传统的 CV 方法(例如消失点)和一些更现代的方法(例如 UprightNet)的论文,但它们通常缺少上面列出的必要相机校准值之一。
【问题讨论】:
标签: computer-vision camera-calibration