ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

主要用的左图与reconstructioned的左图之间的差异，叫做photometric loss，然后亮处像素之间的差异一定会比暗的地方的差异大的。所以像素之间的residual是跟像素的亮度有关。

然而，亮度与视差实际上是不相关的。所以，需要消除亮度的影响。因为非监督里面，的确loss是像素之间的loss。

局部一致性规范化

ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

这个loss对于occlusions部分非常的鲁邦，同时不受像素光照的影响因此在low tecture区域也可以表现出良好的性能。

Reconstruction error高度受高亮区域以及occluded 区域影响，如果每个块都可以在9×9的区域内，减均值，去方差，那么如图中不受此类区域影响。

对于低纹理区域，方差很小，几乎为零，这样残差就会被无故放大，因为方差为分母，因此残差加上一个权重，来消除这个影响。最后的结果如图右，这样，最后的残差residuals既不受高亮区域影响，也不受低纹理区域影响了。

ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

这是不同区域的cost volume曲线，窗口越大，越稳定，窗口越小，如蓝线，则非常的不稳定。

对于单一像素成本曲线，表现出非常严重的非凸性，这样是难以得到真正的ground truth的。传统算法是可以通过代价聚合，根据周围像素的信息对最后的预测结果进行鲁棒化的。这种聚合再实时性的系统上还是很慢的。训练过程中的聚合如下：

ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

全连接网络，使用左右一致性的性质来进行置信度的确定