PaperLink: https://arxiv.org/abs/1803.07289
简介
传统CNN在结构化(Structured)数据(如:2D图片)上的应用很成功,但是简单迁移到3D点云数据上的效果并不好,因为3D点云数据是非结构化(Unstructured)数据,文章的创新点:1. 提出泛化传统CNN layer的flex-convolution layer,同时提出一种高效的GPU实现。2. 使用了更少的内存空间,适用于百万数量级的点云数据并发处理(~7M)。
相关工作
-
基于体素的方法(Voxel-based):首先把不规则的(Irregular)点云数据转化为体素格栅,这个过程叫离散化(Discretization),细粒度(Granularity)的控制非常重要,太高会导致高内存占用而且会有维度诅咒(Curse of Dimensionality),太低会导致数据丢失带来的人造谬误(Artifact)。后面接上传统的3D卷积神经网络。
-
基于图的方法(Graph-based):灵感来源于知识图谱和社交网络,每个节点被自己到相邻点的绝对距离所定义,利用稀疏卷机应用于图结构的邻接矩阵。
-
基于欧几里得空间的方法(Euclidean space-based):直接使用原始点云数据,代表文章PointNet,它直接把每个点独立投射到一些特征空间,之后被空间变形模块改变,最终用Max-pooling函数聚合所有的高维特征。导致在内存中存储所有高维特征是不可避免的(Indispensable),但是对于硬件系统来说是不可行的。局部空间特征细粒度问题被PointNet++很好的解决。本文属于第三种方法。
实现细节
-
不规则数据次采样(Sub-sampling):Grid-based降采样的不足,对于稀疏结构点云,当前分辨率下的邻近点,在更高分辨率下就不一定能保持邻近关系,所以说有些点在下一粗糙分辨率下不具备代表性。IDISS(Inverse density importance sub-sampling)算法可以用来做次采样,具有统一的点云分布,又保持了随机性,对于避免过拟合(overfiting)有帮助,且只有O(n)的复杂性,降低计算量。
-
代码部分,实现了Tensorflow中的两个layer:flex-convolution layer和flex-max-pooling layer。
i. 首先需要先计算每个点对于的邻近点集,这个是使用高效的Kd-tree算法实现的。每个数据点的K邻近点是使用索引列表(indices list)存储的。
ii. flex-convolution layer:将传统的卷机核应用在K邻近点的特征Vector上,可以使用并行算法加速,特征Vector内存在对因点的位置。
iii. flex-max-pooling layer:对于每个邻近点做传统的max-pooling,但没有传统的降采样过程。
iv. Sub-sampling:使用IDISS算法次采样,因为所有的点集是静态的,而且是预先知道的,所有邻近点的索引是在数据预读取时间计算出来的。Upsampling是通过拷贝每个点的特征至更大size的layer实现的。
网络架构
-
a是空间像素的一个系数,当前layer内所存储的点云数量等于a*n,n是原始点云数量。
-
df是特征长度,nf个输入特征,nc个种类。
-
k表示邻点数量。k = 8
-
上图绿色方块表示的是点云的位置信息。红色方块表示的是邻点信息。蓝色方块表示的是flex-convolution层。紫色表示的是降采样层(flex-max-pool)。每个降采样层都会有一个跳转链接至解码器(decoder)部分。
-
基本网络架构:编码器+解码器(Encoder+Decoder),跟2D U-net相似。最后一层是softmax层,分类层。
-
网络中抛弃使用了一些传统方法:如,Batch Norm.,weighted soft-max classification,some preprocessing & post-processing operations.
-
编码器层中用了6个阶段不同的空间分辨率来处理多尺度空间信息,每个阶段包含了两个ResNet块,包含了一个1x1卷机,两个flex-convolution操作。
实验结果
本网络在2D-3D-S数据集上的表现:在简单设置特征值为f=1的情况下,特征向量(1, x, y, z)获得了0.31的mPA(Mean Pixel Accuracy),在对每一个坐标点做归一化之后,提升到0.39。在加入颜色信息后,特征向量变成了(1, x, y, z, r, g, b),mPA提升到了0.50。但是在beam,圆柱,和门的类别上精确性不高。后处理(Post-processing)的加入让最终的精确性得到了提升。