2015-CVPR-Direction Matters_ Depth Estimation with a Surface Normal Classifier

2015-CVPR-Direction Matters: Depth Estimation with a Surface Normal Classifier

abstract

用分类器对整个集合法向量进行分类，通过一系列优化最终决定surface orientation(表面方向）

introduciton

用双目矫正图片对学习视差的局限性：
- 条纹少的地方，如墙
- 过度曝光的地方
- 输入数据本身就很模糊，如反射地面
目前处理以上问题的方案：
- 将基于不相似计算的匹配成本加入到最后的能量函数中
- 利用图片中的边缘信息和先验知识，如平面表面
机器学习的引入使得分类器能够基于单张图片估计表面方向
本文的亮点：
- 表面法向量估计对均匀的区域（墙，反射地面）的深度估计比较可靠
- 不限制每个像素点只有一个法向量，多个法向量的存在能够解决分类器在某个方向不能可靠的推断视差的问题

related work

Markov random field（MRF）：全局最优解决方案
anisotropic Total Variation(TV) ：将图像中的边缘信息和深度不连续性联合起来

formulation

基于2D图片获取深度信息的能量函数最小化的问题，由于问题（给一个像素打上什么标记最优）非凸，全局energy函数一般是非凸问题，不过可以把问题转化为3D体素，一般都可以得到全局最优
三个知识点:
- 前向差分离散化( forward difference discretization)
- positively 1-homogeneous function
  - wiki
  - homogeneous function of degree 1: $f (a x) = a f (x)$
  - 结论: $f (a x) = a f (x), a > 0$ 具有的性质: $f (x) = x ▽ f (x)$
- Wulff construction
  - wiki
  - 定义:体积一定的滴状或晶体达到平衡时的形状,能量(吉布斯自由能)最小化准则会选择晶体每个面的最佳形状
  - $△ G_{i} = \sum_{j} γ_{j} O_{j}$ , $γ_{j}$ 表示平面每单位面积的吉布斯自由能, $O_{j}$ 表示每个平面的面积, $△ G_{i}$ 表示实际的晶体形状和用Wulff construction出来的晶体之间能量的差值
  - 晶体表面法向量的长度和平面能量的大小成正比,法向量是指从晶体的中心到平面的距离,对于一个球体而言就是它的半径.

能量函数公式:

对于图片 $I = w * h$ 中的任意像素点 $(r, s)$ ,其标记 $ℓ (r, s) \in$ L $= {0, \dots, L}$ .那么引入变量 $u (r, s, t) \in [0, 1]$ ,对任意 $(r, s, t) \in Ω = I * L$ 成立.

u (r, s, t) = {\begin{array}{ll} 0 & if ℓ (r, s) < t \\ 1 & else \end{array}

这相当于在

Ω

立体空间找到一个分割面,在边界上添加规则化项和限制,使得标记分配问题变成一个凸优化问题

那么能量函数表达式如下:

E (u) = \sum_{r, s, t} {ρ (r, s, t) | (▽_{t} u)_{(r, s, t)} | + ϕ (r, s, t) (▽ u)_{(r, s, t)}} s . t . u (r, s, 0) = 0 u (r, s, L) = 1 \forall (r, s)

其中:
1.

ρ (r, s, t) 为 给 像 素 (r, s) 分 配 标 记 t 的

data costs,

▽_{t}

表示对标记维t进行求导,

▽

表示对所有维度进行求导.两种求导方式都用前向差分离散化替代.
2. 而

ϕ (r, s, t)

可以是任意 convex positively 1-homogeneous function,效果是对cut surface 进行anisotropic peneliazation(各向异性惩罚),并且这个规则化项是依据法向量方向分类器来定义的.
3. 分类器会对每个像素

(r, s)

和离散的平面法向量集合

n

输出一个分数

k (r, s, n)

,为了充分利用这个分数,惩罚项是各向异性的,那么就会选出平面的最佳法向量

不过,以上条件一般很难满足,所以可以通过构建一个凸包形状来代替,Wulff shape就是一个凸的,封闭的,有界的集合,并且包含原点(法向量所在的点).
构建Wulff shape思想:半空间(half space)相交.对于一个离散的半空间集合 $H$ ,法向量朝外,包含原点,且原点到边界的距离为 $d^{n}$ .从这个集合中选取用来构建Wulff shape 的子集为 $W_{H}$ .

ϕ_{w} (▽ u) = max_{p \in W} p^{T} ▽ u ⟶ ϕ_{W_{H}} (n) = max_{p \in W_{H}} p^{T} n = d^{n}, d_{r}^{n} = k (r, s, n)

2015-CVPR-Direction Matters_ Depth Estimation with a Surface Normal Classifier

Transforming the Normal Directions

法向量转换: 把法向矢量看作是矢量(法向量)而不是垂直于它们的平面，让 $v$ 和 $n$ 是矢量，使得 $v$ 垂直于 $n$ 。那么 $n^{T} v = 0$ 。因此，对于任意非奇异变换 $M$ ， $n^{T} M^{- 1} M v = 0$ ，这意味着 $n^{T} M^{- 1}$ 是变换的法向量的转置。因此，变换的法向矢量是 $(M^{- 1})^{T} n$ 。换句话说，法向量由变换点的变换的逆转置来变换。
$the transfromation of normal direction : N = (M^{- 1})^{T}$
相机图像帧与世界坐标系之间的转换关系
雅克比矩阵
下面将对binocular stereo的法向量转换进行分析:
- 对于图像上的点 $(r, s)$ ,视差值为 $t$ ,即(r,s,t);和世界坐标系中物体坐标(x,y,z),转换关系如下:
  $(\begin{array}{ll} r \\ s \\ t \end{array}) = (\begin{array}{ll} f_{x} \frac{x}{z} + c_{x} \\ f_{y} \frac{y}{z} + c_{y} \\ \frac{b f_{x}}{z} \end{array})$
- 上面是世界坐标系转换为视差空间的关系矩阵,对该矩阵求雅克比矩阵
  $J (x, y, z) = (\begin{array}{ll} \frac{f_{x}}{z} & 0 & - \frac{x f_{x}}{z^{2}} \\ 0 & \frac{f_{y}}{z} & - \frac{y f_{y}}{z^{2}} \\ 0 & 0 & - \frac{b f_{x}}{z^{2}} \end{array})$
- 即求得视差空间中某点处切平面的方向,那么世界坐标系vector变换到视差空间vector的关系矩阵记为 $M = J (x, y, z)$ ,那么normal法向量的变换矩阵为 $N = (M^{- 1})^{T}$
- 法向量转换矩阵:
  $N = (\begin{array}{ll} \frac{z}{f_{x}} & 0 & 0 \\ 0 & \frac{z}{f_{y}} & 0 \\ - \frac{x z}{b f_{x}} & - \frac{z y}{b f_{x}} & - \frac{z^{2}}{b f_{x}} \end{array}) \underline{M = (N^{T})^{- 1}} M^{T} \times N = E$
  ~~对于上面两个M矩阵之间的差异,我也没找到好的解释,欢迎大家留言讨论!~~
  本来是没有求雅克比矩阵,直接把空间点坐标变换当成 $M$ 矩阵,然后死活不知道 $M$ 变换到 $N$ 的,后来经过实验室数学系大佬orz的指点推导,发现没有求雅克比矩阵.其实也对,不同space间点坐标变换和向量变换的确是不一样的,normal法向量和切平面向量才是有对应关系的,所以求雅克比矩阵求得切平面向量才应该是正解.
  还是应了那句话:数学即真理!!!orz

final optimization problem

对法向量 $n$ 的分类划分是基于训练数据的聚类.因为不能对每个方向进行采样,所以在半空间交界处会出现long thin corners问题,解决方法是:将Wulff shape和单位球 $B^{3}$ (包含内部)相交,从而限制对long thin coreners的过度惩罚. 当然也需要对所有的分数进行归一化.
将边缘信息加入到规则化项可以让分类器处理不了的梯度不连续处的法向量方向被处理.而梯度不连续的地方的法向量方向一般和图片梯度方向或者负方向对齐.通过公式 $k = k_{1} + k_{2} e^{\frac{- ∥ ▽ I ∥}{k_{3}}}$ 将这种情况加入到Wulff shape中

那么,最终的优化目标是:
拉格朗日乘子 $η$ 强调 $p 和 q$ 的一致性;energy可以通过 $u$ 和 $η$ 极小化,通过 $p$ 和 $q$ 最大化.算法在primal项单调减,在dual项单调升.

E (u, η, p, q) = \sum_{r} {ρ_{r} | (▽_{t} u)_{r} | + p_{r}^{T} (▽ u)_{r} + η_{r}^{T} (p_{r} - q_{r})} subject to u (r, s, 0) = 0, u (r, s, L) = 1, \forall (r, s) p_{r} \in W_{H_{r}}, q_{r} \in B^{3}, \forall r

Implementation

Census transformation
2014-ECCV-Discriminatively trained dense surface normal estimation
- 结合上下文信息和分割信息,提取图像特征
- 用5000个弱分类器集成学习,合成一个强分类器.对surface normal 进行预测
- 对标签空间的编码:
  1. 用k-means对法向量的ground-truth聚类,并且在每次投影都把簇中心投影到单位(半)球.簇中心用参考向量 $N_{k}$ 表示.
  2. 然后选择三个参考向量构建三角形T( ${t_{i}^{1}, t_{i}^{2}, t_{i}^{3}}$ ),并寻找每个ground-truth法向量 $n^{j}$ 对应的最近邻三角形 $t (j)$
  3. 接着利用公式
    $t (j) = a r g m i n_{t_{i} \in T} m i n_{α_{t_{i}}^{j}} | n^{j} - \sum_{p = 1}^{3} α_{t_{i}^{p}}^{j} N_{t_{i}^{p}} | \sum_{p = 1}^{3} α_{t_{i}^{p}}^{j} = 1, a n d α_{t_{i}^{p}}^{j} ⩾ 0, \forall p \in {1, 2, 3} \Rightarrow n^{j} \approx \sum_{k} α_{k}^{j} N_{k}, α_{k}^{j} {\begin{array}{ll} > 0 & if k = t_{i}^{p} \\ 0 & otherwise \end{array}$
    用强分类器求解最近邻三角形 $t (j)$ ,在 $α$ 尽量小的情况下求解最能表示 $n^{j}$ 的三角形 $t (j)$
  4. 最后用三角形 $t (j)$ 表示ground-truth 法向量 $n^{j}$
法向量聚类为40个簇,法向量之间的相似性通过boosting regression(如adaboost,random forest)结合(contextual)上下文信息和超像素信息计算
Contextual信息由4个密集的特征提取方法:texton, self-similarity, local quantized ternary pattern, SIFT.每个方法提取的特征合成512维的Bag of Words
无监督超像素分割由4个分割方法:MeanShift, SLIC, GraphCut-segmentation, normalized cuts
分类器对每个像素输出是簇中心法向量方向的40个分数.归一化[0,1].
然后通过上面求出的法向量转换矩阵 $N$ 对每个像素的法向量转换到3维 $Ω$ 空间
半平面相交处的法向量数值变化小,所以不用保留交界处所有位置的法向量信息.而且一般只有一个或者几个法向量的分数较高
对边缘信息也加入到规则化项(regularization)