3D ShapeNet RBM DRM

源地址 https://blog.csdn.net/cv_family_z/article/details/49797409

主页:http://vision.princeton.edu/projects/2014/3DShapeNets/

提要：使用CAD数据作为训练数据，使用卷积DBN网络构建了一个3D ShapeNets，对Kinect传感器获取的2.5D深度图进行目标识别和复原全3D形状。

3D shapeNets
将3D形状表示为3D voxel 网格二值变量的概率分布，作者构造了一个卷积DBN，学习输入x和label y的联合分布，为了降低对外形的影响，没有池化层。结构如下图所示：
3D ShapeNet RBM DRM

前三层是卷积RBM，第四层是标准的具有1200节点的全连接RBM，最后一层的输入是标记和Bernoulli特征变量。训练模型的过程包括最大似然学习联合概率p（x,y）,包括逐层预训练过程和全网络微调过程。预训练使用标准Contrastive Divergence 训练低四层RBM，Fast Persistent Contrastive Divergence训练最高层。微调时，使用wake-sleep算法。

2.5D识别和重建
使用3D形状训练，对2.5D点云识别，先将2.5D深度图转换为volumetric表示，使用Gibbs 采样拟合后验概率p(y|x_o)，如下图所示：
3D ShapeNet RBM DRM

NextBestView预测
单靠一个视角很难正确识别问题，输入可观测到的点，输出几个表示相机旋转或平移后的视角，算法选择的next view可以降低识别的不确定性，具有distincive 局部的视角可作为best视角，使用条件熵估计视图的识别不确定性：
3D ShapeNet RBM DRM
根据信息论，降低的熵是y和新观测到点xinxni的相互信息，选择最大的相互信息：

Best View预测的结果：
3D ShapeNet RBM DRM

预测的最优视角可以用来识别，与其他视角的对比如下表所示：
3D ShapeNet RBM DRM