DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv]

DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv] 论文链接
$\qquad$ 这篇文章中作者提出了一个支持动态特征聚合的网络DAR-Net。DAR-Net的核心思想是生成一个自适应的pooling skeleton，这个结构既考虑了场景的复杂结构也结合了局部几何特征。skeleton提供可变的半局部感受野和权重，成为了连接局部卷积特征提取器和全局循环特征聚合器的桥梁。
DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv]
$\qquad$ skeleton如上图所示，我的理解所谓skeleton就是一些能够反映点云集合特征的keypoint。

$\qquad$ 网络的pipeline如上图所示，首先根据点云无监督、自适应地学习skeleton，使其合理分布在点云中。这个过程作用类似于从下图的a到b（node个数应人为指定）。
DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv]
$\qquad$ 然后从点云中学习局部的逐点特征，编码后的局部特征被动态地聚合到骨架中，作为信息抽象的中间尺度，得到node-wise的特征。

$\qquad$ 定义 $P_N=\{p_i|0<i\leq N\}$ 为点云， $S_M=\{s_j|0<j\leq M\}$ 为pooling skeleton。 $F^{agg-i}$ 为pointwise特征空间， $F^{agg-o}$ 为node-wise特征空间。 $T_j:0<Tj\leq N$ 为属于第 $j$ 个node的点的个数，用于控制node的感受野。全局干涉因子 $g$ 。

$\qquad$ 特征的动态聚合就是将与每个node相关的点的特征使用聚合函数整合到node上。可以表示为：
$\begin{array}{c} f_{j}^{agg-o}=f_{j}^{agg-o}(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i},g),0<i_t^j\leq N \end{array}$
$\qquad$ 属于每个node的点的索引可以通过构建每个点对node的k近邻索引矩阵 $I\subset \mathbb{N}^{N\times K}$ 来得到。 $I(i,k)$ 表示点 $p_i$ 的第k个近邻node。属于node $s_j$ 的点的索引可以表示为 $\{i_t^j\}=\{i|I(i,k)=s_j\}$ 。特征的聚合函数表示如下：
$\left\{ \begin{array}{l} f_{j}^{agg-o}=\sum_j(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i})/g\\ g=\sum_j|{i_t^j}|/M=\sum_jT_j/M \end{array} \right.$
$\qquad$ 在此基础上，利用全局神经网络对中间接受域独立对应的节点特征进行处理，可以有效地学习远程知识。将全局整合的信息传回点云进行局部特征连接和分层解码。最后使用1×1的pointwise卷积生成语义预测结果。