变焦单目论文阅读笔记

文章目录

双焦距光学成像模型

双焦成像原理
视场转像
本篇小结

基于双焦成像的单目立体视觉算法

算法分析

图像获取
运动模型

深度恢复
本篇小结

基于双焦的单目立体成像系统分析

深度误差与焦距
双焦系统相对于双目立体视觉的优点
双焦特征匹配

预匹配点的寻找
稠密插值

本篇小结

主要参考南京大学王元庆老师的论文，总结阅读论文时得到的必要的知识

双焦距光学成像模型

2007年11月发表

从一个角度拍摄的多幅图像的光学特征变化来计算各像点的深度值。Carnegie Mellon 大学机器人学院的Y Xiong, Steven A Shafer 提出的采用离焦模糊的深度信息提取办法, 从图像的离焦模糊特征中提取景像的深度信息；广岛大学的N Asada 等人提出的基于变焦模糊的深度信息获取方法则是通过改变摄像机镜头的焦距来获得多幅画面的, 从中提取出景像的立体( 深度) 信息。
而作者介绍的“单目立体视觉中的双焦距成像系统”从一个角度同时获得两种焦距参数下的二维图像，这两幅图像中包含了场景的深度信息，利用双焦深度算法可以分析出空间物点的深度信息。

双焦成像原理

变焦单目论文阅读笔记
${H_1}^{'},{H_2}^{'}$ 分别是两个焦距物镜的像方主平面， $f_1,f_2$ 分别是物镜的焦距。以小焦距时的透镜中心为原点, 以透镜光轴为Z 轴, 设立摄像机坐标系, 并以此坐标系为参照系。如图，距离光轴径向为 $R$ 的空间物点 $A(R,D)$ 相对于焦距为 $f_1$ 的物镜光心距离为 $D$ ，即深度。物点 $A$ 在两个物镜上分别成像，像的矢量分别为 $r_1,r_2$ 。故而有成像关系
$\frac{r_1}{f_1}=\frac{R}{D} \tag{1}$
$\frac{r_2}{f_2}=\frac{R}{D-(f_2-f_1)} \tag{2}$
求解可得
$D=-\{f_1+f_2\frac{V}{\alpha r_1-V}\} =-\{f_1+f_2\frac{1}{\alpha r_1/V-1}\} \tag{3}$
其中， $V=r_2-r_1$ 为径向视差； $\alpha =(f_2-f_1)/f_1$ 为相对焦距差。物点深度 $D$ 与径向视差的相对变化关系为
$\frac{\partial D}{\partial V}=f_2\frac{\alpha r_1}{(\alpha r_1-V)^2}$

$=\frac{\alpha Rf_1f_2(D-f_1)}{[\alpha Rf_1-V(D-f_1)]^2} \tag{4}$
能够发现，双焦成像的深度分辨率与物点的径向位置 $R$ 有关，并且与 $R$ 成反比。对于处于视场中心区域的空间物点来说，其深度探测精度低；而对于处于视场边缘的空间物点来说，其深度探测精度较高。
所以上述系统不能直接用于机器视觉，作者提出使用光学转像提高视场中心区域的深度恢复精度

视场转像

坐标原点为物镜光轴与图像传感器感光面的相交点， $Z$ 轴与物镜光轴重合，并指向物体方向。
变焦单目论文阅读笔记
物镜与上述简单系统一致，但是使用转像镜（上下前后四块）与合成镜对视场范围内的图像坐标进行转换，理想情况下：

其中 $(x_0,y_0) (x,y)$ 分别是转像前后的物点坐标； $(x_c,y_c)$ 为视场中心点坐标值， $sign$ 为正负运算符，当 $x$ 为负数、零、正数时， $sign(x)$ 分别返回-1，0或1。 $k_i$ 为成像系统的比例因子， $k_i<1$ 。理想情况下，同一深度的物点经焦距分别为 $f_1,f_2$ 的物镜成像后有：
$k_1/k_2=f_1/f_2 \tag{6}$
但是由于光学制造工艺的限制，转像镜与合成镜的相对位置去查会引起图像坐标的偏转和平移，因此实际的成像系统坐标变换方式为
变焦单目论文阅读笔记

作者的实验结果：（测量深度为0.8m）

虽然平均的测量深度为798.857mm，平均误差很小但是测量的误差最大的点，误差达到了58mm，单独的误差还是挺大的。所以作者认为：需要对光学成像系统进行修正，同时提高图像对的匹配精度来提高测量精度。

本篇小结

主要讲述了双焦单目立体成像系统的基本光学模型，并且分析了该模型的特点（主要是测量精度与径向距离成反比的关系），提出了使用转向镜和合成镜以提高视场中心位置的物点的测量精度。通过转化，物点的位置关系相对于双焦物镜产生变化，物点的深度测量精度得以提高。
我对于转像镜与合成镜本身及其摆放存在疑问，需要进一步探讨。但是目前的理解就是：通过转化后的物点在双焦系统中可以得到一个三维坐标 $(x,y)$ ，然后通过公式（7）的转换关系可以获得真实的点坐标。

基于双焦成像的单目立体视觉算法

2007年1月发表

这一篇也是王元庆老师的，主要对双焦算法进行了分析，为了提高算法精度，需要校正非理想变焦图像对的中心点。该文章分析了中心点校正方法，并且给出了校正后空间物点深度恢复的实验结果。

算法分析

文章有一半的篇幅介绍了双焦单目立体视觉的特点，与上一部分重复。主要为该方法限定了适用范围：近距离（1m以内），非光轴中心的位置的物点。并且说明了图像校正在计算中的必要性。

图像获取

双焦成像方法要求两幅图像实在同一中心的基础上进行缩放，但是拍摄过程中会引起相机的抖动，使得两次拍照时对应的相机坐标系之间可能存在三维旋转与平移，从而导致两幅图像之间也存在相应的旋转和平移关系。故而需要对获取的图像进行校正。

运动模型

主要描述了两幅图像之间存在什么样运动关系：假设旋转矩阵为 $\textbf{R}$ ，平移矩阵为 $\textbf{T}$ ，设两幅图像中的对应点坐标分别为 $(X_1,Y_1)$ 和 $(X_0,y_0)$ ，则：
变焦单目论文阅读笔记

而考虑到由于手动拍摄造成的旋转和平移基本为垂直于光轴的二维平面，所以可以将模型进行转化为：

变焦单目论文阅读笔记
其中 $\theta$ 表示绕 $z$ 轴的旋转的角度，若是理想情况下 $\theta$ 很小，故而：

之后获得匹配点对对上式进行最小二乘求解即可。

深度恢复

获得经过校正的两幅变焦图像对后，采用LOG滤波器提取图像的特征点，并且进行匹配，通过匹配点对的坐标即可根据深度计算公式计算深度值。
作者比较了校正前后的深度计算结果，发现如果不进行校正的话，计算的深度值几乎没有任何意义，而校正之后的图像计算相对符合物理意义了。
变焦单目论文阅读笔记

本篇小结

本篇文章主要关注去除双焦图像采集中存在的非理想变换，作者通过分析双焦单目立体视觉系统的特性，提出了去除非理想旋转与平移变换的方法，并且将校正前后获得的深度进行了比较，体现了校正的必要性。
其实立体校正在立体视觉中时十分必要的，比如双目立体视觉中，只有进行了立体校正之后才能进行视差的稠密计算。而深度的恢复必定需要知道相机系统的参数，但是目前为止还没有看到双焦单目系统的标定。

基于双焦的单目立体成像系统分析

2008年发表

这篇文章主要探索了共轴模型下CCD成像离散型而导致的深度计算误差与镜头焦距及物点空间位置的关系。并且分析了适用于该系统的特征提取和匹配方法。

深度误差与焦距

双焦单目成像系统中引起误差的条件有

成像镜头光学误差
成像面位置偏差
数字传感器的离散误差

上述的前两个误差通过几何校正即可，第三种误差需要通过减小传感器的像素尺寸、提高同名点的匹配精度进行克服。
作者通过量化像素误差，将像素误差对于深度的影响也进行了量化。通过实验得到了以下几点结论：

深度计算误差与焦距大小、物点的空间位置有关：物点位置及焦距不变的情况下，深度计算误差随着CCD的分辨率的增大而减小——所以在实验中宜采用高分辨率摄像机。
深度误差随着深度的增大而增大，在同一深度下，焦距越大，深度误差越小；对于双焦成像系统，可恢复的深度取决于小焦距相机图像的深度误差——因此，在同样深度恢复条件下若使恢复深度增加，应使两摄像机焦距都增大。

总结来看：在两焦距不变的情况下，深度计算误差随深度的增加而增加；固定深度下，深度计算误差随着焦距的增加而减小，随焦距变化倍数的增加而增加。这种关系是由匹配精度以及与此相关的CCD离散成像对深度恢复的影响造成的。

文章中的焦距变化倍数我得理解一下：焦距的变化倍数表示两个焦距的比 $f_1/f_2$ ，例如在文中的描述“保证两焦距的变化倍数不变为0.8，调整小焦距由50mm至90mm”，两个焦距就从 $f_1=50mm，f_2=62.5mm$ 变成了 $f_1=90mm,f_2=112.5mm$ 。

双焦系统相对于双目立体视觉的优点

同样深度限定条件下，寻找对应点的搜索范围不到双目的一半
如果选取基准匹配点为小焦距图像中的点，则不会出现因区域图像不对称而导致的失配现象，而像点失配是双目立体视觉中不可避免地问题。

emm，我觉得双目中地像点失配不构成大问题。根据目前的阅读内容来看，我还是比较可双目。

双焦特征匹配

例行图像去噪、增强等预处理；
特征提取时需要采用不同的滤波器参数，对于大焦距图像，应用较大的平滑算子。例如若同时采用LOG算子，两幅图像中的滤波器尺度比应该为： $\sigma_1/\sigma_2=f_1/f_2$ ；
匹配方法采用特征匹配（一般有：区域匹配（假设区域内视差一样）、特征匹配以及相位匹配），由于在整幅图像中进行匹配过于耗时，所以采用变焦图像对的外极线定理寻找预匹配点，并且采用双向匹配策略。

预匹配点的寻找

变焦单目论文阅读笔记

由图4， $r_1=\sqrt{x_1^2+y_1^2},r_2=\sqrt{x_2^2+y_2^2}$ 由图1可知， $P_1,P_2$ 位于经过图像中心的一条射线上，由于物距远远大于焦距，故用 $r_1=f_1r_2/f_2$ 作为射线上的预估点，然后在以预估点为中心的一定区域内进行特征点匹配。

稠密插值

由于特征匹配很难获得稠密的深度图，因此需要深度插值，双焦系统可以利用图像对中的线匹配关系进行相应的深度插值。具体方法为：
变焦单目论文阅读笔记

本篇小结

主要时获得了焦距与深度之间的关系，想要更高的精度最好：使用高分辨率CCD、小焦距决定整体深度测量精度（焦距越大同一深度精度越高）；
以及双焦系统特征匹配应该注意的点：滤波尺度不同，注意极线关系。