An Iterative Image Registration Technique with an Application to Stereo Vision

图像迭代配准方法在立体视觉方面的应用

初学,很多问题、错误,非常欢迎批评指正。

A is registered with B,将A进行变换,使其拍摄相机坐标与b的坐标相同+共用一个尺度

in approximate registration 我现在的理解是 相机的 位置等一系列参数相同

感谢CSDN其他博主相关理解翻译

https://blog.csdn.net/u010008615/article/details/50741917?utm_source=blogxgwz0

https://cloud.tencent.com/developer/article/1163547

配准算法

如果你要写博客,绝不是为了给自己找存在感或者打镇定剂,而是真正的学会,东西。

光流算法

I(x+δx,y+δy,z+δz,t+δt)=I(x,y,z,t)+Ixδx+Iyδy+Izδz+Itδt+H.O.T{\rm{I}}(x + \delta x,y + \delta y,z + \delta z,t + \delta t) = I(x,y,z,t) + \frac{{\partial I}}{{\partial x}}\delta x + \frac{{\partial I}}{{\partial y}}\delta y + \frac{{\partial I}}{{\partial z}}\delta z + \frac{{\partial I}}{{\partial t}}\delta t + H.O.T

HOT指更高阶,在移动小时可以忽略

Ixδx+Iyδy+Izδz+Itδt=0\begin{array}{l}\frac{{\partial I}}{{\partial x}}\delta x + \frac{{\partial I}}{{\partial y}}\delta y + \frac{{\partial I}}{{\partial z}}\delta z + \frac{{\partial I}}{{\partial t}}\delta t{\rm{ = 0}} \end{array}

这里delta x是什么意思 :我的理解对于dt时间 x的改变量

对T求导的结果是什么?:光流关于t的导数

假设光流(Vx,Vy,Vz)在大小为m*m*m的小窗内是一个常数,则更具其中每一个像素可以得到如下的一组方程

Ix1Vx+Iy1Vy+Iz1Vz=It1Ix2Vx+Iy2Vy+Iz2Vz=It2...IxnVx+IynVy+IznVz=Itn\begin{array}{l} {{\rm{I}}_{x1}}{V_x} + {{\rm{I}}_{y1}}{V_y} + {{\rm{I}}_{z1}}{V_z} = - {I_{t1}}\\ {{\rm{I}}_{x2}}{V_x} + {{\rm{I}}_{y2}}{V_y} + {{\rm{I}}_{z2}}{V_z} = - {I_{t2}}\\ ...\\ {{\rm{I}}_{xn}}{V_x} + {{\rm{I}}_{yn}}{V_y} + {{\rm{I}}_{zn}}{V_z} = - {I_{tn}} \end{array}

这里就 转化为正常的矩阵乘法
笔记-An Iterative Image Registration Technique with an Application to Stereo Vision
因为是Ax=b型的问题,所以
笔记-An Iterative Image Registration Technique with an Application to Stereo Vision

论文综述

解决了什么问题(列出问题)解决了什么的不足

图像配准问题是:将不同时间/相机位置等参数下拍摄的两张图片进行匹配

识别效率低+对旋转仿射等变换的不适用

如何解决,解决问题的方法

将图像的形状信息,二阶导数作为权重,参与结果的计算中

使用牛顿迭代法计算最优的h

使用先匹配轮廓,再匹配细节的方法加速运算

实现:将上述求解方法应用于二维,求解出的h就是我们所需要的h

(效果)只用计算牛顿迭代法中的h,远小于对每个可能位置的搜索

如何验证有效性-评估方式

  1. 举了一个一维上正弦图像进行匹配的例子(论文4.3)(**但这里怎么又说到去除高频分量加速了…没懂…**我的理解是使用从低频到高频的匹配加速计算)

​ F(x) = sinX G ( x ) = F ( x + h ) = sin ( x + h)

  1. 应用于立体视觉,相机参数、图像位置,的计算图像深度

    给定一个物体,改变相机到该物体的距离z(图像深度),图像会不同,我们这样就可以求解出来这个z

结果分析

实现了从低频到高频的匹配

  1. 手动选择匹配点,来求解相机参数
  2. 使用带通滤波进行深度估计
  3. 提高所取的图像频率进行深度估计
  4. 再次提高频率进行匹配

即可计算出图像的深度

正式进入论文

引言

特征识别应用很广,目标是提升识别效率+克服当前对旋转等变形方法的不适用

文中提到的h是什么:两幅图之间的差异向量h,G图在F图中的偏移(可以有多个方向x,xy,xyz)

三种经典的匹配算法

一范数、二范数、负正则误差

现存技术

  1. 穷举(如何找到最佳匹配)

  2. 梯度下降(如何找到最佳匹配)

  3. SSDA (序贯相似性检测算法)(计算差异函数的方法)

  4. 从粗到细的策略,现在低分辨率下找到最佳匹配,作为高分辨率中可能匹配位置的约束(涉及到金字塔)

本文提出的是搜索h空间的顺序?(这篇论文讲的是匹配)

制定了搜索可能h空间的顺序,从h的初始估计开始,它使用图像的每个点处的空间强度梯度修改h获得更好匹配的h

使用牛顿-拉弗逊迭代

笔记-An Iterative Image Registration Technique with an Application to Stereo Vision

匹配方法

推导1

把两个图形间的变换看成线性变换

F’(x)是什么?F对于x的导数 一个像素的改变量

预告一下,平滑图像可以帮助这个近似

对所有点都计算,取个平均

二阶导数越大说明梯度变化越大

but 为何 F(x)接近于线性时逼近的好,|F’’(x)|大时则逼近不好
二次导数越大,比较效果越差?
难道不是二阶,更加偏向于角,所以更容易检测出来?
之后都能理解,给更好更接近线性的部分更大的权值

hxw(x)[G(x)F(x)]F(x)/xw(x){\rm{h}} \approx \sum {_x\frac{{w(x)[G(x) - F(x)]}}{{F'(x)}}/\sum {_xw(x)} }

使用牛顿迭代法,为什么突然成了这样子?为何突然变成了“+”,

牛顿迭代一般是xn+1=xnf(xn)f(xn){{\rm{x}}_{n + 1}} = {x_n} - {\textstyle{{f({x_{\rm{n}}})} \over {f'({x_n})}}}

h0=0hk+1=hk+xw(x)[G(x)F(x+hk)]F(x+hk)/xw(x)\begin{array}{l} {{\rm{h}}_0} = 0\\ {{\rm{h}}_{k + 1}} = {h_k} + \sum {_x\frac{{w(x)[G(x) - F(x + {h_k})]}}{{F'(x + {h_k})}}/\sum {_xw(x)} } \end{array}

推导2(因1中分母F’(x)可能为0)另一种推导

用SSD误差平方和衡量差别E=x[F(x+h)G(x)]2E{\rm{ = }}\sum {_{\rm{x}}{{[F(x + h) - G(x)]}^2}}

求解导数为0点 即得到h

(9)上面的推导中少了一个等号

(这个字,咳咳)

笔记-An Iterative Image Registration Technique with an Application to Stereo Vision

好处 只有在F’(x)全为0的时候 才无效

此时图像为一条平行于x轴的直线 故无法匹配

将权重考虑在内,并使用牛顿迭代法

笔记-An Iterative Image Registration Technique with an Application to Stereo Vision

推广到多维

推广到更复杂的线性变换

线性变换矩阵

双目视觉中的差异建模

Performance 性能

压缩 高频空间分量(我这里的理解是 在匹配的时候去掉细节,模糊可以加速收敛) 这里我的想法是使用低频分量是使用了,1.更少的信息2.高频分量会掺杂进更多的噪声,这些噪声误导了收敛,因此收敛速度较快

但高频分量还是包含了很多信息,所以忽略高频分量会降低匹配的正确率

之所以需要权衡 速度和正确率 如何较快的达到可以接受的争取率

立体视觉方面的引用 图像配准

F(x)=αG(x)+βF(x) = \alpha G(x) + \beta

alpha 对比度

beta 亮度

获得图像深度一般步骤

  1. 查找物品
  2. 匹配两个视图中的物品
  3. 确定相机参数
  4. 确定物品距离

本问题中将后三步同时解决

定位物品方法
  1. 兴趣点方法
  2. 过零点的带通滤波
  3. 线性特征

本方法在像素级别的匹配更快

问题:曾经方法直接比较匹配物体之间的距离(差异)

不足:应该考虑到不能提供精确相机的相对位置(多个相机的)

效果:做了一个两帧之间的跟踪

不同 视图之间的跟踪,求解一个Δz使得 G转化为F

找使差别最小的匹配

实现

距离

相机的5个参数(哪5个参数azimuth, elevation, pan, tilt, and roll)

明亮度 对比度

或者求解这些参数的子集

主要是一个从粗到细匹配的过程

  1. 手动选择匹配点,来求解相机参数
  2. 使用带通滤波进行深度估计
  3. 提高所取的图像频率进行深度估计
  4. 再次提高频率进行匹配

即可计算出图像的深度

相关文章: