[论文阅读：姿态识别&Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV

最新推荐文章于 2026-06-14 20:48:43 发布

原创

最新推荐文章于 2026-06-14 20:48:43 发布 · 7.1k 阅读

标签

#深度学习 #transformer #人工智能

本文介绍TransPose:一种结合CNN和Transformer的模型，用于精确捕获人体姿态关键点。Transformer的注意力机制揭示了关键点依赖，并在COCO和MPII上展现出色性能。通过预训练和微调，模型在轻量化条件下超越传统CNN，尤其在小样本迁移上表现优异。

[论文阅读：姿态识别&Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV

文章目录

[论文阅读：姿态识别&Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV

2021 ICCV 来自东南大学

paper https://arxiv.org/abs/2012.14214

github https://github.com/yangsenius/TransPose 主要参考的是HRNet, DarkPose以及DETR

使用的CNN backbone + Transformer Encoder的结构。如果从原图开始直接使用transformer则计算量过大。最后使用transformer的输出reshape回2维图像，取其激活最大值坐标位置作为关节点坐标。

Top-down方式。使用卷积作为backbone进行特征图提取
Transformer编码层通过query-key-value注意力迭代地从序列中捕获依赖项
再用一个简单的head来预测关键点热图
虽然全文讲了很久的可解释性，但我觉得有在讲故事的嫌疑
在COCO上进行预训练，再迁移到MPII数据集上的效果比直接在MPII上训练效果还好。说明在大数据集上训练基于Transformer的姿态识别模型再迁移，也是个不错的选择。

1. 摘要：

虽然基于cnn的模型在人体姿态估计方面取得了显著进展，但它们捕捉的空间依赖性来定位关键点仍不清楚。在本文中，我们提出了一种名为TransPose的模型，将Transformer引入人体姿态估计。Transformer中内置的注意层使我们的模型能够有效地捕获长期关系，并且还可以揭示预测的关键点依赖于什么。为了预测关键点热图，最后的注意层充当了一个聚合器，它从图像线索中收集贡献，并形成关键点的最大位置。这种通过Transformer的基于热图的本地化方法符合激活最大化[19]的原则。并且揭示的依赖关系是特定于图像的和细粒度的，这也可以提供模型如何处理特殊情况的证据，例如遮挡。实验表明，TransPose算法在COCO验证和测试开发集上实现了75.8 AP和75.0 AP，比主流CNN架构更加轻量级和快速。TransPose模型在MPII基准测试上的迁移也非常好，当用较小的训练成本进行微调时，在测试集上实现了优异的性能。

2.主要工作

在这项工作中，我们的目标是构建一个人体姿态估计器，它可以明确地捕获和揭示关键点之间的图像特定的空间依赖性，如图1所示。由于卷积的缩放特性较差，我们认为卷积在提取底层特征方面具有优势，但在高层深度叠加卷积以扩大感受野并不能有效地捕获全局依赖关系。这样的深度增加了解读CNN预测的难度。Transformer架构[58]在绘制成对或更高阶交互方面比cnn具有天然优势。如图2所示，注意层使模型能够捕获任何成对位置之间的交互，它的注意图充当了存储这些依赖关系的即时记忆。基于这些考虑，我们提出了一个名为Transpose的新模型，**它使用卷积在底层提取特性，而Transformer在高层捕获全局依赖关系。**详细地说，我们将特征图作为Transformer的输入并进行扁平化，并将其输出恢复到二维结构的热图中。

图2：CNN vs. Attention 左图:感受野在更深的卷积层中扩大。右:一个自我注意层可以捕捉任何位置的一对点之间的成对关系

3. Contributions

引入了用于人体姿态估计的Transformer来预测基于热图的关键点位置，可以有效地捕捉人体各部位之间的空间关系。
证明了我们基于Transformer的关键点定位方法符合激活最大化的可解释性[19,49]。定性分析揭示了直觉之外的依赖关系，这些依赖关系是特定于图像的和细粒度的。
通过更少的参数和更快的速度，TransPose模型实现了与最先进的基于cnn的模型的竞争性能。TransPose在COCO验证集和测试开发集上实现了75.8 AP和75.0 AP，比HRNet-W48少73%的参数，快1.4倍。此外，我们的模型在MPII基准测试中迁移非常好。

[外链图片转存中…(img-FtBdVMtN-1640848538796)]
图3：整体框架
首先，利用CNN骨干网络提取特征图并将其展开为序列。接下来，Transformer编码层通过query-key-value注意力迭代地从序列中捕获依赖项。然后，用一个简单的head来预测关键点热图。Transformer中的注意图可以揭示哪些依赖项(区域或关节点)对预测关键点热图中的激活最大位置有显著贡献

4. 框架总览

我们的目标是建立一个模型，可以显式地捕获人体各部分之间的全局依赖关系。我们首先描述模型架构。然后我们展示它如何利用自我注意来捕获全局交互，并在我们的方法和激活最大化原则之间建立联系。

4.1. Architecture

如图3所示，TransPose模型由三个分量组成: 一是提取低层次图像特征的CNN主干; 一个Transformer编码器，捕捉跨位置的特征向量之间的远距离空间交互; 一个预测关键点热图的head

Backbone
为了更好的比较，我们选择了两种典型的CNN架构:ResNet和HRNet。我们只保留原ImageNet预训练的CNN的最初几个部分来从图像中提取特征。我们将其命名为ResNet-S和HRNet-S，其参数仅为原CNN的5.5%和25%左右。具体细节如表8，表9所示。（CNN网络的前面部分的通道数小，参数量少）

Transformer
我们尽可能地遵循标准Transformer架构[58]。我们只使用了Transformer编码器，我们认为纯热图预测任务只是一个简单的编码任务，它将原始图像信息压缩为关键点的紧凑位置表示。
给定一个输入图像 $I∈{\mathbb{R}}^{3\times H_I\times W_I}$ ，我们假设CNN主干输出一个二维空间结构图像特征图 $X_f∈{\mathbb{R}}^{d\times H\times W}$ ，其特征维数已通过1x1卷积转换为d。然后将图像特征映射平化为一个序列 $X∈{\mathbb{R}}^{L\times d}$

最低0.47元/天解锁文章