Hyper-PCN：用超图建模高阶相关的点云补全方法

原创已于 2026-06-29 16:40:24 修改 · 120 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#transformer

于 2026-06-29 16:39:58 首次发布

1. 引言

点云是三维视觉中最常见的几何表示之一，被广泛应用于自动驾驶、机器人操作、增强现实、三维重建、分类与分割等任务。然而，真实传感器采集到的点云往往并不完整：遮挡、视角限制、扫描分辨率不足等因素都会导致物体表面出现缺失区域。点云补全（Point Cloud Completion）的目标，就是根据一个稀疏且不完整的输入点云，恢复出完整、稠密且结构合理的三维形状。

在这里插入图片描述

已有方法大致可以分为几类。早期方法多依赖 PointNet、PointNet++ 这类结构提取全局特征，再通过 MLP 或 folding 操作生成完整点云。随后，PoinTr 等方法将点云划分为局部 patch，把点云补全建模为 token 序列预测问题，并引入 Transformer 的自注意力机制来捕获局部与全局依赖。近年来，也有方法进一步引入对称性、可学习几何先验等全局形状约束，以增强模型对缺失区域的推断能力。

这些方法已经取得了明显进展，但在复杂几何结构和精细结构恢复上仍然存在局限。一个核心原因是：许多方法主要建模的是点与点、patch 与 patch 之间的成对关系，或者依赖某种较强的几何先验，例如对称性。然而，真实三维物体的结构关系往往不是简单的成对关系。例如飞机的机翼、尾翼和机身并不是孤立部件，它们共同构成符合空气动力学约束的整体形状；船体上的多个帆、桅杆和船身之间也存在多部件协同关系。这类关系更接近“多对多”的高阶相关，而不是简单的两两相似。

从图结构角度看，普通图中的一条边通常只连接两个顶点：

$e = (u, v)$

而超图中的一条超边可以连接多个顶点：

$\subseteq V,\quad |e| \geq 2$

因此，超图天然适合表达多个点、多个局部区域或多个语义部件之间的高阶关系。基于这一观察，论文提出了 Hyper-PCN：一种基于超图神经网络的点云补全框架。它试图在不完整点云中显式挖掘高阶相关，从而更准确地恢复缺失区域。

Hyper-PCN 的核心设计包括两个模块：

Hyper Refinement Stack（HyperRS）：通过多层超图建模和超图卷积，逐步捕获从粗到细的高阶相关。
Anchor-based Hypergraph Neural Network（A-HGNN）：通过 key points 与 anchors 的协同采样构建超图，引导模型学习更全面的全局结构关系。

论文的主要贡献可以概括为三点：

首次将不完整点云中的高阶相关建模作为点云补全的核心问题，并提出基于超图的 Hyper-PCN。
设计 HyperRS 和 A-HGNN，分别解决“如何逐层细化高阶关系”和“如何在不完整输入中稳定构建超图”的问题。
在 PCN、ShapeNet55/34、MVP 和 KITTI 等数据集上取得优于已有方法的补全效果。

2. 相关工作

2.1 点云补全

点云补全方法的发展可以大致分为三个阶段。

第一类是早期的全局特征驱动方法。以 PCN 为代表，这类方法通常先使用 PointNet 从不完整点云中提取全局特征，然后生成一个粗略点云，最后通过 folding 或上采样模块得到更稠密的补全结果。这类方法结构清晰、计算相对简单，但由于主要依赖全局特征，对于复杂局部结构和细粒度几何细节的恢复能力有限。

第二类方法开始强调更强的结构建模和逐步细化。例如 SnowflakeNet、FBNet 等方法设计了专门的上采样或反馈模块，使补全过程不再只是一次性生成完整形状，而是逐步恢复局部结构。这类方法提升了细节质量，但对长距离结构关系和多部件协同关系的建模仍然不够充分。

第三类是 Transformer-based 方法。PoinTr 首先将点云补全转化为点代理或局部 patch 的序列预测问题，并利用 Transformer 的自注意力机制建模局部与全局依赖。后续方法如 SeedFormer、AdaPoinTr、SVDFormer、CRA-PCN 等继续沿着这一方向改进，通过更好的 token 表示、注意力结构或几何融合策略提升补全效果。

不过，Transformer 的核心交互仍然主要基于 query-key 之间的成对关系。对于点云中更复杂的结构依赖，例如多个局部区域共同决定一个缺失部件形状的情况，单纯的成对注意力并不总是足够。与此同时，一些方法引入对称性或可学习几何先验来提供全局约束，例如 SymmCompletion 等方法强调利用物体的对称结构进行补全。但当物体本身不具备明显对称性，或者对称区域也同时缺失时，这类先验就会失效。

因此，Hyper-PCN 的切入点不是继续强化单一的成对注意力或对称先验，而是直接建模更一般的高阶相关关系。

2.2 超图学习

超图（Hypergraph）可以看作普通图的推广。普通图中的边连接两个顶点，而超图中的超边可以连接任意数量的顶点。形式上，一个超图可以表示为：

$\mathcal{G} = (V, E, W)$

其中， $V$ 表示顶点集合， $E$ 表示超边集合， $W$ 表示超边权重矩阵。若顶点 $v$ 属于超边 $e$ ，则关联矩阵 $H$ 中对应元素为 1，否则为 0：

$H_{ve} = \begin{cases} 1, & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases}$

这种表示方式使超图能够自然刻画 group-wise relation，也就是一组点或一组区域之间的整体关系。相比普通图只能表达两两连接，超图更适合描述图像、人体姿态、三维点云等数据中的复杂结构依赖。

在计算机视觉中，超图学习已经被用于图像分类、目标检测、深度估计、姿态估计等任务。在三维点云领域，也有研究将超图用于三维目标检测、语义分割和质量评估等问题。这些任务证明了超图在建模高阶结构关系方面的潜力。

但现有点云超图方法大多面向完整点云，直接应用到点云补全中会遇到两个问题。第一，不完整点云本身稀疏且缺失严重，可靠的结构关系更难提取；如果只进行一次超图构建，容易得到有限甚至偏差较大的高阶关系。第二，常见的随机采样或体素划分方法容易把计算重点放在仍然存在的区域，而不是缺失区域附近，从而限制模型对缺失部分的推断能力。

Hyper-PCN 正是针对这些问题提出的。它通过 HyperRS 进行逐层、由粗到细的超图建模，又通过 A-HGNN 使用 key points 与 anchors 协同构建超图，从而在不完整点云中更稳定地挖掘全局高阶相关。

3. 方法

Hyper-PCN 的整体结构如原文 Figure 2 所示，可以理解为一个“超图编码器 + 两阶段解码器”的点云补全框架。输入是不完整点云，模型首先通过编码器提取关键点、局部特征和高阶相关特征，然后由解码器逐步生成完整点云。
在这里插入图片描述

3.1 整体框架

给定不完整点云：

$P_{in} \in \mathbb{R}^{N \times 3}$

Hyper-PCN 首先通过 Feature Embedding 模块选取一组关键点，并提取多尺度点云特征。随后，这些关键点和特征会被送入两个高阶关系建模模块：

Hyper Refinement Stack（HyperRS）：逐层构建超图，从粗到细挖掘高阶相关；
Anchor-based Hypergraph Neural Network（A-HGNN）：通过 anchors 与 key points 协同构建超图，增强全局结构建模能力。

编码器输出包括三类信息：粗略补全点云、HyperRS 提取的高阶特征，以及关键点特征。解码器再结合局部编码器、A-HGNN 和 CFG Transformer，对粗略点云进行细化，最终得到完整点云：

$\in \mathbb{R}^{N_o \times 3}$

其中， $N_o$ 表示输出点云的点数。

3.2 超图神经网络基础

普通图中的一条边只能连接两个顶点，而超图中的一条超边可以连接多个顶点。因此，超图更适合表达点云中多个局部区域之间的协同关系。

论文将超图定义为：

$\mathcal{G} = (V, E, W)$

其中， $V$ 是顶点集合， $E$ 是超边集合， $W$ 是超边权重矩阵。超图的关联矩阵 $H$ 定义为：

$H_{ve} = \begin{cases} 1, & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases}$

顶点度和超边度分别为：

$\sum_{e \in E} w_e H_{ve}, \quad \delta(e) = \sum_{v \in V} H_{ve}$

对应的度矩阵为：

$D_v = \operatorname{diag}(d(v)), \quad D_e = \operatorname{diag}(\delta(e))$

超图卷积可以看作一个“顶点 $→\rightarrow$ 超边 $→\rightarrow$ 顶点”的信息传播过程。其矩阵形式为：

$X^{(t+1)} = \sigma \left( D_v^{-1} H W D_e^{-1} H^\top X^{(t)} Q_t \right)$

其中， $X^{(t)}$ 表示第 $t$ 层的顶点特征， $Q_t$ 是可学习参数， $σ\sigma$ 是非线性激活函数。这个过程使一个点不仅能接收邻近点的信息，还能通过超边接收一组相关点的聚合信息。

3.3 Feature Embedding

在构建超图之前，模型需要先从输入点云中提取一组具有代表性的关键点。Feature Embedding 模块基于 PointNet 构建多尺度特征金字塔，得到关键点：

$P_k \in \mathbb{R}^{N_k \times 3}$

以及多尺度特征：

$F_m \in \mathbb{R}^{D_m \times N_k}$

随后，模型为关键点加入 3D 位置编码，并通过 Transformer 聚合上下文信息，得到关键点嵌入。最后再将 Transformer 输出与多尺度特征融合，形成关键点特征 $F_k$ ，作为后续 HyperRS 和 A-HGNN 的共同输入。

这一模块的作用可以概括为：先把原始点云压缩成结构上更关键、更适合建图的一组点，再为这些点补充局部与全局上下文。

3.4 Hyper Refinement Stack

HyperRS 是论文中最核心的模块之一，用于解决“不完整点云中高阶关系难以一次性可靠建模”的问题。它不是只构建一次超图，而是堆叠 $L$ 层超图建模模块，逐层从粗到细提取高阶相关。
在这里插入图片描述

在第 $ℓ\ell$ 层，给定特征 $X(ℓ)X^{(\ell)}$ ，模型根据特征空间中的距离构建关联矩阵：

$H^{(\ell)}_{i,j} = \begin{cases} 1, & \left\|X^{(\ell)}_i - X^{(\ell)}_j\right\|_2 \leq \tau_\ell, \\ 0, & \text{otherwise}. \end{cases}$

其中， $τℓ\tau_\ell$ 是当前层的距离阈值。论文采用线性退火策略，让阈值从较大的 $τstart\tau_{\text{start}}$ 逐渐减小到较小的 $τend\tau_{\text{end}}$ ：

$\tau_\ell = \tau_{\text{start}} + \frac{\ell - 1}{L - 1} \left( \tau_{\text{end}} - \tau_{\text{start}} \right), \quad \ell \in \{1,\dots,L\}$

这样设计的直觉是：浅层使用较大的阈值，超边覆盖范围更广，可以捕获粗粒度结构关系；深层使用较小的阈值，超边更加聚焦，可以捕获更细粒度、更强相关的局部结构。

完成超图构建后，HyperRS 使用超图卷积更新特征

3.5 Anchor-based Hypergraph Neural Network

A-HGNN 的目标是更稳定地建模全局高阶关系。由于不完整点云中存在明显缺失，如果只依赖随机采样或局部邻域，很容易让模型过度关注仍然完整的区域，而忽略缺失区域附近的结构推断。

因此，A-HGNN 使用 key points 和 anchors 协同构建超图。首先，从关键点集合 $P_k$ 中均匀采样得到 anchors：

$P_a = \{p_{a,j}\}_{j=1}^{N_a}$

然后计算每个关键点到每个 anchor 的欧氏距离
对每个关键点 $p_{k,i}$ ，选择距离最近的 $α\alpha$ 个 anchors
然后构建 anchor-based 超图关联矩阵：

$H^{(A)}_{i,j} = \begin{cases} 1, & j \in \mathcal{N}(i), \\ 0, & \text{otherwise}. \end{cases}$

这样，每个 anchor 可以看作一个全局结构参考点，多个关键点通过 anchors 建立更稳定的高阶连接。相比只根据局部邻域建图，A-HGNN 更有利于捕获跨区域、跨部件的全局关系。

3.6 CFG Transformer 与损失函数

编码器得到粗略点云后，解码器使用 CFG Transformer 进一步细化补全结果。CFG Transformer 首先将粗略点云坐标 $P_c$ 与 3D 位置编码拼接，得到位置增强表示：

$Z_{\text{PE}} \in \mathbb{R}^{N_c \times D_{\text{PE}}}$

随后，通过自注意力模块提取几何感知特征：

$F_g \in \mathbb{R}^{N_c \times D_g}$

这些特征会与 HyperRS 和 A-HGNN 提供的高阶结构特征融合，最终回归点级 offset，生成完整点云 $Y$ 。

总体来看，Hyper-PCN 的方法核心并不是简单地替换一个更强的特征提取器，而是围绕“如何在不完整点云中建模高阶相关”重新设计了编码过程。HyperRS 负责逐层细化高阶关系，A-HGNN 负责增强全局结构建模，CFG Transformer 则负责将这些结构信息转化为最终的稠密补全结果。

4. 实验

论文在多个公开数据集上验证了 Hyper-PCN 的有效性，包括 PCN、ShapeNet55/34、MVP 和 KITTI。整体实验目标有两个：一是证明 Hyper-PCN 在标准补全任务上优于已有方法；二是验证高阶相关建模、HyperRS 和 A-HGNN 是否真的带来了性能提升。

4.1 实验设置

论文使用三个常见的点云补全数据集进行训练和测试：

PCN dataset：经典点云补全数据集，包含飞机、柜子、汽车、椅子、灯、沙发、桌子、船等类别。
ShapeNet55/34 dataset：包含更多类别，并进一步划分为 seen 和 unseen 测试集，用于评估模型的泛化能力。
MVP dataset：另一个常用补全基准数据集。
KITTI dataset：真实自动驾驶场景数据，用于验证模型从合成数据迁移到真实场景的能力。

评价指标主要包括 Chamfer Distance 和 F1-Score@1%。

Chamfer Distance 用于衡量预测点云和真实点云之间的几何距离，数值越低越好：

F1-Score@1% 则衡量预测点云与真实点云在一定距离阈值下的匹配质量，数值越高越好。

模型训练使用 AdamW 优化器，训练 420 个 epoch，batch size 为 64，初始学习率为：

$\times 10^{-4}$

权重衰减为：

$\times 10^{-4}$

论文中 HyperRS 的默认层数设为：

$L = 6$

距离阈值从：

$\tau_{\text{start}} = 0.20$

线性退火到：

$\tau_{\text{end}} = 0.16$

A-HGNN 使用两阶段 anchor 设置，分别为：

$N_{a1}=128, k_1=24)$

和：

$N_{a2}=192, k_2=32)$

4.2 PCN 数据集结果

在 PCN 数据集上，Hyper-PCN 与 PCN、PoinTr、SeedFormer、AdaPoinTr、CRA-PCN、SymmCompletion、PointMAC 等方法进行了比较。论文报告的关键结果如下：

方法	CD-Avg ↓	F1 ↑
PCN	9.64	0.695
PoinTr	8.38	0.745
SeedFormer	6.74	0.818
AdaPoinTr	6.53	0.845
CRA-PCN	6.39	-
SymmCompletion	6.28	0.853
PointMAC	6.33	-
Hyper-PCN	6.20	0.858

可以看到，Hyper-PCN 在平均 CD 和 F1 上都取得了最优结果。相比依赖对称性先验的 SymmCompletion，Hyper-PCN 的 CD 从 6.28 降到 6.20，F1 从 0.853 提升到 0.858。这说明高阶相关建模不仅可以替代部分几何先验，而且在复杂结构上具有更强的表达能力。

4.3 ShapeNet55/34 数据集结果

ShapeNet55/34 数据集更关注模型在多类别和未见类别上的泛化能力。论文将测试样本分为 simple、median 和 hard 三种难度，对应保留不同程度的输入点云。

在 Seen ShapeNet-34 上，Hyper-PCN 的平均 CD 达到：

$0.58$

在 Unseen ShapeNet-21 上，Hyper-PCN 的平均 CD 达到：

$0.94$

相比此前方法，Hyper-PCN 在 seen 和 unseen 两种设置下都取得了最优结果。这说明模型并不是只记住训练类别的形状模板，而是确实学到了更一般的结构相关性。

在 ShapeNet55 上，论文同样报告了最优表现：

方法	CD-Avg ↓	F1 ↑
PoinTr	1.09	0.464
SeedFormer	0.92	0.472
AdaPoinTr	0.81	0.503
SymmCompletion	0.69	-
PointMAC	0.83	0.490
Hyper-PCN	0.65	0.565

其中，Hyper-PCN 的 F1 提升尤其明显，说明它不仅在点云整体距离上更接近真实形状，而且在局部几何匹配质量上也更好。

4.4 KITTI 真实场景结果

论文还在 KITTI 数据集上进行了真实场景测试。这里的设置更具挑战性：模型在 PCN 数据集上训练，然后直接迁移到 KITTI 上测试。Hyper-PCN 在真实车辆点云上能够恢复更完整的车身轮廓，并且边界更加清晰、点密度更加均匀。相比 PoinTr 和 SeedFormer，Hyper-PCN 的结果离群点更少，说明高阶结构建模对于真实缺失场景也具有一定泛化能力。

4.5 MVP 数据集结果

在 MVP 数据集上，Hyper-PCN 同样优于已有方法：

方法	CD ↓	F1 ↑
PCN	8.65	0.342
VRCNet	5.82	0.495
CRA-PCN	5.33	0.529
SymmCompletion	4.89	0.534
PointMAC	5.24	0.537
Hyper-PCN	4.76	0.558

这一结果进一步说明，Hyper-PCN 的优势并不局限于某一个数据集，而是在多个补全基准上都比较稳定。

4.6 HyperRS 可视化分析

为了说明 HyperRS 是否真的捕获了高阶关系，论文可视化了不同 HyperRS 层中的超边连接情况，也就是原文 Figure 3。

在浅层，距离阈值较大，超边覆盖范围较广，因此更容易捕获粗粒度结构关系，例如飞机左右机翼之间的对称关系。随着层数加深，阈值逐渐减小，超边连接变得更加精细，开始关注更强相关的局部结构或语义结构。

这种变化说明 HyperRS 的作用并不是简单地堆叠更多网络层，而是通过阈值退火机制，让超图关系从粗到细逐步收缩，从而形成多层次的高阶结构理解。

4.7 消融实验

论文进一步通过消融实验验证 HyperRS 和 A-HGNN 的作用。

HyperRS	A-HGNN	CD ↓	F1 ↑
✗	✗	6.43	0.844
✓	✗	6.36	0.848
✗	✓	6.32	0.851
✓	✓	6.20	0.858

从结果可以看出，单独加入 HyperRS 或 A-HGNN 都能提升性能，而两者结合时效果最好。这说明两个模块并不是重复设计：HyperRS 更强调逐层细化高阶关系，A-HGNN 更强调全局 anchor 引导下的稳定建图。

5. 结论

Hyper-PCN 的核心观点是：点云补全不应该只依赖成对关系或简单几何先验，而应该显式建模不完整点云中的高阶相关。真实三维物体往往由多个相互协同的部件组成，缺失区域的恢复也需要利用这种多部件、多区域之间的结构关系。

为此，论文提出了两个关键模块：

HyperRS：通过多层超图建模和阈值退火机制，逐步捕获从粗到细的高阶结构关系；
A-HGNN：通过 key points 和 anchors 协同构建超图，增强全局结构建模能力，减少不完整输入带来的建图偏差。

实验结果表明，Hyper-PCN 在 PCN、ShapeNet55/34、MVP 和 KITTI 等数据集上都取得了优于已有方法的结果。尤其是在复杂结构和细粒度几何恢复上，Hyper-PCN 能生成更连续、更干净、更接近真实形状的补全点云。

从方法意义上看，这篇论文的重要性不只是提出了一个新的点云补全网络，而是把“高阶相关建模”明确引入到不完整点云补全问题中。它说明超图不仅可以用于完整点云理解，也可以作为缺失场景下结构推理的一种有效工具。

当然，Hyper-PCN 仍然可能存在一些后续值得探索的问题。例如，超图构建仍依赖距离阈值和 anchor 采样策略；对于更大规模、更稀疏或更噪声化的真实点云，如何进一步提升超图构建的鲁棒性，仍然是值得研究的方向。但总体而言，Hyper-PCN 为点云补全提供了一个很有启发性的思路：与其只问“缺了哪些点”，不如进一步问“哪些区域应该共同决定这些缺失结构”。