基于混合编码器和边缘引导的拉普拉斯金字塔网络用于遥感变化检测

最新推荐文章于 2025-04-20 13:48:46 发布

原创

最新推荐文章于 2025-04-20 13:48:46 发布 · 1.3k 阅读

标签

#计算机视觉 #图像处理 #人工智能 #学习

Laplacian Pyramid Network With HybridEncoder and Edge Guidance for RemoteSensing Change Detection

0、摘要

遥感变化检测（CD）是观测和分析动态土地覆盖变化的一项关键任务。许多基于深度学习的CD方法表现出强大的性能，但它们的有效性受到编码器选择和准确划定变化区域边缘的挑战的影响。在本文中，我们提出了一种混合编码器和边缘引导的拉普拉斯金字塔网络（HE-LPNet）来解决这些问题。具体来说，混合编码器结合了卷积神经网络和变压器的优势，从而提取出更细粒度的特征。同时，混合编码器结合了视觉基础模型，从而增强了整体模型的泛化。除了特征提取，图像被处理以生成拉普拉斯金字塔，然后与混合编码器提取的特征融合，以增强像素级的显着特征。在解码器阶段，加权引导注意力被设计为选择性地将通道和空间注意力应用于融合特征，提高网络区分变化区域的能力。此外，我们提出了边缘引导损失来捕获变化区域的边缘信息。为了验证所提出的HE-LPNet的有效性，在三个高分辨率遥感CD数据集上进行了广泛的实验。实验结果表明，我们的方法优于其他最先进的CD方法。

索引术语-变化检测（CD）、边缘引导、混合编码器、拉普拉斯金字塔（LP）、遥感（RS）imag

1、引言

遥感变化检测的目的是识别同一地理区域在不同时间段[1]、[2]拍摄的两幅图像之间的变化，这一过程在火灾检测、环境监测[3]、灾害监测[4]、城市变化分析[5]和土地管理[6]等不同领域具有重要意义。然而，由于光照变化、配准错误、对象比例变化和类别不平衡等各种不利条件，处理这项任务是具有挑战性的。因此，已经提出了许多方法来缓解这些问题，包括使用先进的深度学习技术[7]。

近年来，卷积神经网络(CNN)在计算机视觉[8]、[9]、[10]以及遥感CD[11]、[12]、[13]、[14]、[15]、[16]、[17]等领域得到了广泛的应用。大多数CD方法依赖于联合国技术评估委员会[11]或其各种改编[13]、[15]、[18]。与传统方法相比，这些方法具有多种优势，例如更高的精确度、增强的降噪能力和更好的泛化能力[19]。同时，在自然语言处理领域，基于自我注意机制的转换器[20]也取得了显著的成功。视觉转换器(VIT)[21]代表了将变压器编码器应用于图像分类领域的第一次尝试，展示了与传统CNN方法相当的性能。该转换器具有远程信息交互和语义表示能力，已在CD中得到应用。双时相图像转换器(BIT)[22]代表了将该转换器应用于遥感CD的开创性工作，它使用双时相转换器来捕获时空上下文。随后，许多变压器架构，如SwinSUNet[23]、ChangeFormer[24]、TransUNetCD[25]和轻量级结构感知转换器(LSAT)[26]被提出以应对遥感CD的挑战，表现出稳健的性能。

近年来，视觉基础模型在计算机视觉领域引起了广泛的关注。一个值得注意的例子是任意分割模型(SAM)[27]，这是一个视觉基础模型，以其在图像分割中的卓越性能而闻名。SAM独特的设计使其能够在用户提供的提示指导下，准确地分割图像中任何特定的感兴趣对象，从而提供更高的灵活性和适应性。SAM独特的架构有助于跨不同场景进行更准确的细分，超越了专业模型的能力。虽然SAM在自然图像上表现出稳健的性能，但最近的研究表明，当应用于遥感图像时，其有效性有所下降[28]。这一下降是由于自然图像和遥感图像之间的数据域差距很大，导致遥感领域内不同数据集和模式的分割性能不一致。虽然在遥感领域已经提出了几种基于SAM的方法[28]，[29]，其在遥感CD背景下的充分探索仍然不完整。

现有的CD遥感方法具有一定的解决问题的能力，但仍存在一些不足之处，需要进一步探索。首先，如图1所示，高分辨率遥感图像中变化目标的大小差异很大，从汽车这样的微小变化到农田等更大的变化。然而，现有的大多数CD方法只使用基于CNN或转换器体系结构的特征提取，这带来了一些挑战。基于CNN的方法中卷积的局部化性质限制了它们捕获远程依赖关系的能力。由于其有限的空间范围，小的卷积核将网络的注意力引导到局部特征上，无意中将广泛的全局特征降级为次要位置。对于遥感CD，由于变化区域的大小变化很大，可靠的检测需要远距离的全球信息。虽然基于转换器的方法擅长对长期依赖关系进行建模，但它们往往通过将图像转换为一维符号来忽略空间信息。尽管在Transformers中包含了位置编码，但这些方法在实现稳健的局部特征学习方面仍然面临挑战，并且无法捕获多尺度通道特征依赖。因此，有必要探索CNN和Transform在特征提取中的结合，以发挥它们各自的优势。其次，尽管目前的遥感图像表现出足够的清晰度，但与自然图像相比，它们仍然存在不足。这一不足之处使准确划定变化区边界变得复杂。一些文献[30]、[31]、[32]使用多层特征融合来应对这一挑战。然而，如前所述，仅依靠CNN或变换作为特征提取工具是有缺点的，特别是在提取特征时没有充分考虑边缘信息。因此，这些方法不能提供全面的解决方案。

为了解决上述问题，在本文中，我们提出了一种具有混合编码器的拉普拉斯金字塔（LP）网络和边缘引导（HE-LPNet）。具体来说，我们首先提出了一种高效的混合编码器，它将CNN的强感应偏差与多尺度注意力（MSA）和Transform的标记化注意力相结合。这使得能够从不同方面聚合特征提取能力。为了利用VFM对于CD的能力，同时保留足够的可学习参数（Params）以促进域适配，我们采用MobileSAM[34]作为混合编码器中的transformer模块。MobileSAM是SAM的提炼版本。在特征提取之后，还对原始的双时间图像进行处理以获得LP[35]。 LP在不同层次上保留了图像的像素级显著特征。通过将显著特征与编码器提取的特征相结合，可以更好地恢复变化的细节。此外，加权引导注意力（WGA）被设计用于选择性地将通道和空间注意力应用于融合特征，进一步细化变化目标的定位。最后，采用边缘引导损失来约束变化区域的边界，从而使变化形状的过渡更加平滑，提高检测精度。本文的主要贡献如下。

1）我们提出了一种混合编码器，它结合了CNN的感应偏差和变压器的远程依赖性来增强特征表示。同时，混合编码器集成了MobileSAM以提高模型的泛化能力。

2）我们使用LP在双时间图像中获得像素级显着特征，这有助于补偿变化目标的详细信息。

3）在解码器阶段，WGAis设计基于不同目标的加权来实现注意力，使模型能够更准确地定位变化区域。

4）利用边缘引导损失来约束变化区域的边界，便于检索具有平滑边缘的变化建筑物的形状和细节

本文的其余部分组织如下。第二节提供了最相关研究的简明概述。第三节详细介绍了提议的HE-LPNet。第四节对实验结果、讨论和模型评估进行了全面分析。第五节对本文提出的方法进行了批判性探索。最后，第六节对本文进行了总结。

二、相关工作

A.基于深度学习的CD方法

为了解决不相关的变化和复杂的对象，最近研究的很大一部分旨在提高CNN的泛化能力。U形架构，尤其是编码器-解码器结构，因其有效的上下文建模能力而在遥感CD中很受欢迎。Daudt et al.[11]通过对双时态图像的输入法和跳过连接的探索，介绍了三种不同的基于U-net的模型，即FC-早期融合（EF）、FC-Siam-conc和FC-Siam-diff。在遥感CD中，确定不断变化的对象的大小具有挑战性。因此，使用不同大小的感受野进行变化识别至关重要。雷等人[30]引入了一个金字塔池模块，该模块巧妙地集成了来自多个卷积层的特征，有效地探索了图像上下文。该模块在更广泛的感受野和上下文的有效利用之间取得了平衡，从而提高了性能。侯等人[19]设计了一个动态初始模块，将时间数据合并到光盘中。Chen等人[31]设计了一个非局部特征金字塔网络，用于有效提取和融合多尺度特征。为了稳健地融合双时间特征，他们构建了一个基于密集连接的特征融合模块。雷等人[32]精心设计了一种解耦卷积方法，该方法巧妙地抓住了改变实体的多尺度特征，采用循环机制进行多尺度特征提取。黄等人提出了SEIFNet[36]，该方法为时空差异增强模块设计了一种双分支结构，以捕捉双时空图像的变化特征。通过自适应上下文融合模块，SEIFNet集成了层间特征，以更好地重建详细的对象信息。此外，探索并实施了许多策略来拓宽接受领域，包括采用更深层次的网络架构[37]，利用扩张卷积技术[38]，以及结合多样化的注意力机制[14]，[16]，[37]，[39]。

凭