场景图生成综述

原创

已于 2023-04-04 17:50:24 修改 · 1.4w 阅读

标签

#计算机视觉 #人工智能 #深度学习

于 2023-03-30 16:30:35 首次发布

本文详细介绍了场景图（SceneGraph）在视觉理解和推理中的重要性，以及相关研究进展。文章探讨了基于CRF、TransE、CNN、RNN/LSTM和GNN的场景图生成方法，强调了先验知识和长尾分布问题对模型性能的影响。此外，还讨论了未来研究方向，如长尾分布的处理、远距离物体关系检测和动态图像的场景图生成。

SG（Scene Graph，场景图）能够很好地帮助人们对视频场景的理解，SGG（Scene Graph Generation ）这一研究方向让我有必要去对这一领域进行全面的了解，先写一部分，后面补全，挑重要的翻译了下，仅用作个人学习记录。

参考论文：

2104.01111.pdf (arxiv.org)https://arxiv.org/pdf/2104.01111.pdf

摘要

场景图是对场景的结构化表示，可以清晰地表达场景中的对象、属性和对象之间的关系。随着计算机视觉技术的不断发展，人们不再满足于简单地检测和识别图像中的物体;相反，人们期待对视觉场景有更高层次的理解和推理。例如，给定一张图像，我们不仅要检测和识别图像中的物体，还要了解物体之间的关系(视觉关系检测)，并根据图像内容生成文本描述(图像字幕)。或者，我们可能希望机器告诉我们图像中的小女孩在做什么(视觉问答(VQA))，甚至从图像中删除狗并找到类似的图像(图像编辑和检索)，等等。这些任务需要对图像视觉任务有更高水平的理解和推理能力。场景图就是一个非常强大的场景理解工具。因此，场景图引起了大量研究者的关注，相关研究往往是跨模态的、复杂的、发展迅速的。本文总结了场景图的一般定义，然后对场景图(SGG)的生成方法以及借助先验知识的SGG进行了全面系统的讨论并总结了最常用的数据集。

1 Introduction

目前，与场景图生成(SGG)相关的工作呈爆炸式增长，但缺乏对SGG的全面、系统的调查。为了填补这一空白，这篇论文（下称论文）主要回顾了SGG的方法和应用。下图显示了论文调查的主要结构。此外，在第6节中，论文总结了场景图中常用的数据集和评估方法，并比较了模型的性能。在第7节中，论文讨论了SGG的未来发展方向并在第8节中作总结。

1.1 Definition

下图总结了构建场景图的总体流程。如图2(下)所示，场景图中的对象实例可以是一个人(女孩)、一个地方(网球场)、一件东西(衬衫)或其他物体的一部分(手臂)。属性用于描述当前对象的状态;这些可能包括球拍的形状(球拍是一条长条)、颜色(女孩的衣服是白色的)和姿势(女孩站着)。关系被用来描述物体对之间的联系，如动作(例如，女孩挥动球拍)和位置(放在女孩前面的锥体)。这种关系通常表示为 $<subject-predicate-object>$ 三元组，可缩写为 $<s-p-o>$ 。

形式上，场景图SG是一个有向图数据结构。用元组 $SG = (O,R,E)$ 的形式定义

$O = \{o_1,...,o__n\}$ 是图像中检测到的物体的集合，n是物体的数量。每个对象可以记为 $o_i = (c_i,A_i)$ ，其中 ${\color{Golden} }c_i$ 和 $A_i{\color{Golden} }$ 分别表示对象的类别和属性

R表示节点之间的一组关系，其中第i个对象实例和第j个对象实例之间的关系可以表示为 ${\color{Emerald} }r_{i\rightarrow j} ,i,j\in \{1,2,...,n\}$

$E\subseteq O\times R\times O$ 表示对象实例节点和关系节点之间的边，因此初始图中最多有n × n条边。那么，当 $o_i$ 被归类为背景或 $r_{i\rightarrow j}$ 被归类为不相关时， $Edge(o_i,r_{i\rightarrow j})\in E$ 被自动移除。也就是说，给定一个图像 $I$ 作为输入，SGG方法输出一个场景图SG，其中包含被包围框定位在图像中的对象实例以及每个对象对实例之间的关系

可以表示为:

$SG_{O,R,E}^I=SGG(I).$

1.2 Construction Process

参考《Unbiased scene graph generation from biased training》中的表达式，一个通用的SGG过程如图3所示。图3(左)是这个SGG过程的抽象表示，图3(右)是一个具体的例子。具体来说，节点 $I$ 表示给定的图像，节点 $X$ 表示对象的特征，节点 $Z$ 表示对象的类别。节点 $Y$ 表示预测谓词的类别和对应的三元组 $<s-p-o>$ ，它使用融合函数接收来自三个分支的输出，以生成最终的分数。节点 $Y$ 表示真正的三元组标签。对应的环节说明如下：

$I\rightarrow X$ (Object Feature Extraction)

预训练的Faster R-CNN 常用于提取一组包围框 $B=\{b_i|i=1,...,m\}$ 和对应的特征映射 $X=\{x_i|i=1,...,m\}$ 的输入图像 $I$ ，这个过程可以表示为:

$Input:\{I\}\Rightarrow Output:\{x_i|i=1,...,m\}.$

通过这个过程，每个对象的视觉上下文都被编码了。

$X\rightarrow Z$ (Object Classification)

这个过程可以简单地表示为:

$Input:\{x_i\}\Rightarrow Output:\{z_i,z_i\in O\},i=1,...,m.$

$Z\rightarrow \widetilde{Y}$ (Object Class Input for SGG)

使用配对的对象标签 $(z_i,z_j)$ ，通过组合嵌入层 $M$ 预测对象对之间的谓词 $\widetilde{y}_{ij}$ 。这个过程可以表示为: $\widetilde{Y}$

$Input:\{(z_i,z_j)\}\overset{M}{\Longrightarrow}Output:\{\tilde{y}_{ij}\},i\neq j;i,j=1,...,m.$

此处利用了一些先验知识，先验知识的计算可参见原文参考文献

$X\rightarrow \widetilde{Y}$ (Object Feature Input for SGG)

配对对象特征的组合 $[x_i,x_j]$ 作为输入，预测相应的谓词。这个过程可以表示为:

$I nput:\{[x_i,x_j]\}\Rightarrow Output:\{\widetilde{y}_{ij}\},i\neq j;i,j=1,...,m.$

$I\rightarrow \widetilde{Y}$ (Visual Context Input for SGG)

最低0.47元/天解锁文章