基于YOLOv8的改进轻量化航空图像目标检测算法研究
技术说明:本文围绕《基于YOLOv8的改进轻量化航空图像目标检测算法研究》进行技术和设计过程整理,重点关注需求分析、系统架构、数据建模、功能实现和测试验证等内容。内容用于软件工程和信息系统设计复盘,不涉及商业推广或服务宣传。
摘 要
随着光学遥感技术的迅速发展,航空图像目标检测在国防军事、城市管理、灾害监测等领域逐渐呈现出关键的应用价值,不过由于面临复杂背景、目标尺度差异较大、小目标密集分布以及遥感平台算力有限等问题,传统检测算法在应用过程中存在诸多检测难点,针对这些问题,提出了一种基于YOLOv8的改进轻量化航空图像目标检测算法,旨在保证轻量化的同时提升复杂场景下的检测精度与效率,主要研究内容与创新工作如下:
针对小目标特征提取存在困难的问题,本文于YOLO8主干网络中引入并改进Non-local模块,Non-local模块可获取长距离依赖关系,提高模型捕获全局信息的能力,基于此,引入多尺度卷积后,模型在充分利用各种尺度特征时,可注意到更远范围的特征信息,使模型对复杂场景下不同类别和形状小目标的检测能力更具全面性。多尺度Non-local模块引入大尺寸卷积,致使模型复杂度高、参数量大,难以部署在算力有限的检测平台。为了实现模型轻量化并保证特征提取能力,在模型的主干网络采用以下两种改进:一是在多尺度Non-local模块内使用深度可分离卷积替代模块内标准卷积;二是在主干网络采用C2f-Faster模块替换C2f模块。
针对原始YOLOv8的颈部网络只是简单融合特征,部分干扰特征也被传递融合的问题,提出了多种优化策略。为了改善小尺寸目标信息稀少的问题,引入P2小目标检测层,增强模型对微小目标的检测能力。在此基础上,使用基于多级特征感知的BiFPN做特征融合,该模块通过跨尺度连接并引入可学习的权重参数,可以在特征融合的过程中根据特征重要性进行动态调整,提升模型对多尺度特征的融合能力。为了进一步实现模型轻量化并加强特征提取能力,本文还在C2f-Faster卷积的基础上嵌入EMA注意力机制,实现对关键区域的关注,强化卷积块对关键特征的提取能力,减少背景噪声干扰。
关键词:目标检测;YOLOv8;Non-local模块;轻量化模型;多尺度特征融合
ABSTRACT
With the rapid development of optical remote sensing technology, aerial image target detection gradually presents key application value in the fields of national defense and military, urban management, and disaster monitoring, etc. However, due to the problems of complex backgrounds, large differences in target scales, dense distribution of small targets, and limited arithmetic power of remote sensing platforms, the traditional detection algorithms have a number of detection difficulties in the process of application, and in response to these problems, an improved and lightweight aerial image target detection algorithm based on the YOLOv8 is proposed. Aiming at these problems, an improved lightweight aerial image target detection algorithm based on YOLOv8 is proposed, which aims to ensure lightweight while improving the detection accuracy and efficiency in complex scenes, and the main research contents and innovative work are as follows:
Aiming at the problem of the difficulty of small target feature extraction, this paper introduces and improves the Non-local module in the YOLO8 backbone network, the Non-local module can obtain the long distance dependency and improve the ability of the model to capture the global information, based on which, after the introduction of the multi-scale convolution, the model can notice the feature information of the farther range when making full use of the various scale features, so that the model can make full use of the features of different categories and shapes under the complex scenes. detection ability of different categories and shapes of small targets in complex scenes more comprehensive. The large size convolution introduced by the multi-scale non-local module results in high model complexity and large number of parameters, which makes it difficult to be deployed in detection platforms with limited computing power. In order to realize the lightweight model and ensure the feature extraction capability, the following two improvements are adopted in the backbone network of the model: first, the depth-separable convolution is used in the multiscale non-local module instead of the standard convolution in the module; second, the C2f module is replaced by the C2f-Faster module in the backbone network.
Various optimization strategies are proposed to address the problem that the neck network of the original YOLOv8 simply fuses the features and some interference features are also passed to be fused. In order to improve the problem of scarce information about small-sized targets, the P2 small-target detection layer is introduced to enhance the model's ability to detect tiny targets. On this basis, feature fusion is done using BiFPN based on multilevel feature perception, which can be dynamically adjusted according to the feature importance during the process of feature fusion by connecting across scales and introducing learnable weight parameters to enhance the model's fusion ability for multi-scale features. In order to further realize the model lightweight and strengthen the feature extraction ability, this paper also embeds the EMA attention mechanism on the basis of C2f-Faster convolution to realize the attention to the key region, strengthen the convolution block's ability to extract the key features, and reduce the background noise interference.
Translated with DeepL.com (free version)Keywords: Object detection; YOLOv8; Non-local module; Lightweight model; Multi-scale feature fusion
第1章 绪论1
1.1 课题研究目的及意义1
1.2 国内外研究现状2
1.2.1 传统遥感检测方法2
1.2.2 基于深度学习的目标检测技术发展现状3
1.3 论文主要研究内容与结构安排6
1.4 论文组织结构6
第2章 基于深度学习的遥感图像目标检测理论基础8
2.1 引言8
2.2 深度学习神经网络模型8
2.2.1 卷积层9
2.2.2 池化层9
2.2.3 激活层11
2.2.4 全连接层11
2.2.5 输出层12
2.3 YOLOv812
第3章 基于改进YOLOv8n的遥感图像目标检测14
3.1 引言14
3.2 主干网络嵌入改进的轻量化Non-local多尺度增强模块15
3.2.1 YOLOv8主干网络嵌入Non-local模块15
3.2.2 改进的Non-local多尺度增强模块17
3.2.3 轻量化Non-local多尺度增强模块与主干网络18
3.3 颈部网络替换为改进的BiFPN特征融合模块21
3.3.1 引入P2小目标层21
3.3.2 替换BiFPN特征网络22
3.3.3 C2f-Faster-EMA模块24
3.4 实验结果分析25
3.4.1 实验环境设置25
3.4.2 数据预处理26
3.4.3 MN-YOLO实验结果分析26
3.4.4 MN-YOLO颈部网络改进结果分析28
第4章 总结与展望31
4.1 总结31
4.2 展望31
参考文献32
致 谢35
附 录36
第1章 绪论
1.1 课题研究目的及意义
光学遥感图像凭借其高空间分辨率与信噪比的优势,能够提供清晰的地物观测数据,且不受电磁干扰影响[1]。针对遥感图像的目标检测技术是遥感图像处理的核心任务,目的是通过算法实现相关目标的检测与定位。随着遥感图像的精度不断变高,其目标检测技术在许多领域展现出重要应用价值[2]。比如,在精准农业方面,该技术通过检测遥感影像中的农作物生长状态、病虫害区域及灌溉设施分布,实现农田管理的数字话与精细化[3];在考古与遗产保护领域,通过高分辨率遥感影像检测地面遗迹轮廓与地下遗存痕迹,可以辅助考古遗址发现与保护[4];在海洋科学研究中,通过对海洋生物分布的实时检测可以服务于航道安全预警、非法捕捞监控,并为目标海域的渔业管理与水质安全提供预警支持[5]。
在遥感图像的目标检测领域,传统的目标检测方法始终存在一定的问题,在精度、效率及泛化性方面已经不能满足现有的光学遥感图像目标检测任务,同时也对图像信息的深度挖掘和运用存在一定的制约[6]。原因在于遥感图像中的目标往往分布、尺寸不一且背景复杂,而传统遥感图像目标检测方法依赖于人工先验特征,在提取特征时容易漏掉细节而且效率不高,仅仅适用于内容简单的图像。随着深度学习领域的快速发展,基于深度学习的目标检测技术也有了众多突破。深度学习的目标检测方法通过端到端的方式显示出了它的便捷性和适用性。但是其在光学遥感图像上的应用仍然有不小的差距,其原因在于,光学遥感图像中的背景复杂、尺度多样、图像质量不一、小目标密集等特点,使很多常用的目标检测方法在光学遥感方面无法取得很好的实际效果[7]。同时遥感图像的目标检测往往在嵌入式平台使用,需要模型保持良好的计算速度与较低的内存占用。因此,对遥感图像目标检测的研究十分具有意义。
1.2 国内外研究现状
光学遥感图像的目标检测问题主要涵盖传统检测算法和基于深度学习的检测算法两大类别[8]。传统检测方法需要人工选择和设计先验知识库,这种方式依赖于人工经验,因此具有鲁棒性不足,特征单一等局限性。随着深度学习领域的飞速发展,深度学习技术逐渐被应用于光学遥感图像的目标检测领域。相较于传统检测算法,基于深度学习的算法提供了更为简便的端到端处理流程,在模型内部经过多层非线性变换来自动提取和学习数据。深度学习算法的结构复杂,适用于处理高维、非结构化的模式识别和预测问题而且在大规模数据集上表现更好。深度学习中的目标检测主要分为一阶段(One-stage)和二阶段(Two-stage)目标检测方法。
1.2.1 传统遥感检测方法
传统目标检测算法使用滑动窗口(Sliding Window Detection,SWD)标定目标区域,进而从标定区域提取特征信息,最后利用分类器对目标识别和分类[8]。其基本流程如图1-1 所示。

图1-1 传统目标检测方法基本流程
基于先验知识的图像目标检测方法主要通过人工定义检测知识库来构建检测模型。研究人员首先建立包含形状、纹理等特征的知识库,随后通过模式匹配技术从图像中识别目标对象。例如,Paul Viola等人[9]提出基于Haar特征的级联分类器,该方法通过采用积分图加速特征计算过程,并使用多级分类器筛选机制确定候选区域,使检测效率得到显著提升。不过,该算法在应对目标形变和复杂背景时表现出明显局限性。Pedro F等人[10]提出的可变形部件模型(DPM)则通过动态调整部件组合方式,显著增强了模型对目标形变的鲁棒性。但由于该模型仍然依赖人工设计的部件模板进行特征提取,导致其在不同场景下的泛化性能受到制约。
基于模板匹配的检测策略利用预定义模板间匹配相似度识别图像中的目标,首先需建立通过提取典型目标(如飞机、舰船)的形状、尺寸及方向等关键特征构而成的标准化模板库。然后通过制定的规则评估待测图像和模板匹配区域的相似度,进而确定最准确的检测位置,例如邵大培[11]提出结合主成分分析(PCA)与改进Hausdorff距离的算法,先利用德尔塔度量进行初步筛选,再通过形状相似性分析实现精准定位。在匹配阶段检测系统通常采用滑窗扫描机制,通过调整窗口位置与尺度遍历图像,寻找与模板特征最吻合的区域。然而,此类方法在复杂场景下面临诸多缺陷,其主要缺陷体现在三个方面:首先依赖人工特征设计导致泛化能力受限,其次缺乏旋转不变性难以应对目标姿态变化,最后计算复杂度高影响处理效率。这些问题使得传统方法难以满足现代遥感任务对实时性和适应性的双重要求。针对多尺度目标检测难题,Pang等人[12]采用循环迭代机制,通过缩放因子实时调整模板尺寸,以当前帧最高匹配度模板为基准迭代优化,提升对多尺度目标的适应性。部分算法通过引入多方向Sobel算子改进模板匹配或结合空间金字塔池化(SPP)整合多层级特征,但这些改进方法仍面临参数冗余等亟待解决的问题。
基于特征工程的检测策略通过形状、颜色、角点、纹理等关键视觉特征进行目标识别和定位。该类方法通过数学建模提取目标的局部与全局特征。以Navneet Dalal[14]等人提出的HOG(方向梯度直方图)算法为例,该方法首先计算输入图像的每一个像素的梯度信息用来提取边缘信息,再统计图像中梯度各方向的出现次数并以此信息绘制梯度直方图,最终经归一化生成特征向量。该方法在行人检测等任务中表现出色,但对遥感图像中的小目标检测略显不足。David[15]团队开发的SIFT(尺度不变特征变换)算法通过构建DOG(高斯差分)金字塔识别和定位关键点。在特征提取阶段,系统通过采用严格的筛选机制剔除低对比度和不稳定的候选点,从而确保保留的关键点具备较高的稳定性。然而,SIFT需要筛选低对比度不稳定点以提升鲁棒性,导致计算复杂度显著增加,难以满足实时性需求。
1.2.2 基于深度学习的目标检测技术发展现状
传统的目标检测方式依靠人工搭建的特征库来开展目标识别工作,其检测能力大多时候因为人工经验的限制,而难以适应复杂的场景,与之形成对比的是,深度学习的检测技术提供了更为简洁且有效的流程,此方法构建端到端的检测流程,运用多层非线性变换自动提取并学习数据,可获取更多的特征信息,使目标定位的精度以及类别判断能力得到提升。当前深度学习里的目标检测依据是否对候选区域进行处理,主要可划分成一阶段和二阶段目标检测方法。
一阶段算法只需一次计算就能完成目标的检测以及分类工作,其速度比较快,不过在检测小目标时存在较大的误检概率[16]。在具体的操作过程当中,该算法一般先是借助水平框来获取遥感目标区域,接着在框内开展卷积操作以获取目标特征,最后经由回归和分类操作直接从原始图像里预测目标的类别与位置。2013年Sermanet等提出的OverFeat框架奠定了一阶段算法的理论基础。它利用滑动窗口在卷积特征图上进行多尺度预测,并将分类、定位与检测这三个任务统一。2015年Redmon[17]等提出的YOLO算法通过将输入图像分割成多个网格并在每个网格中预测,能直接从整幅输入图像中预测出物体的类别与置信度、边界框位置与尺寸等信息。YOLO算法首次实现真正意义上的实时检测,在检测速度以及精准度方面表现优异。2016年Liu[18]等提出的SSD算法使用了多个特征层来检测不同尺寸的目标,其主要思想是通过多个分支预测目标的边界框。虽然SSD 算法可执行多尺度检测任务,但实际应用中,在较深的特征图中一些小目标表示不明显,容易丢失些许细节,导致这些目标被忽略。面对复杂情况,SSD 面临一些挑战:困难样本处理效率较低、尺寸变化物体的适应能力有限、小型物体的识别能力较弱、难以稳定速度和精度之间关系。2017年Redmon[19]等通过YOLOv2引入批量归一化(Batch Normalization,BN)、高分辨率分类器与锚框机制,结合Darknet-19骨干网络,将mAP提升至76.8%的同时保持40 fps检测速度。2018年YOLOv3[20]进一步采用多标签分类策略与FPN结构,放弃YOLOv2 的Darknet-19,采用Darknet-53 优化了计算路径,在推理时快速处理图像。2020年提出的YOLOv4将CSPDarknet53骨干网络给予整合,同时采用PANet路径聚合与CIoU损失函数,并运用自适应训练策略。另外YOLOv4借助不同尺寸的特征图对大小各异的物体开展检测,经由这些策略,YOLOv4在检测精度以及速度方面有了较为突出的提升。从YOLOv4开始,大量研究者不仅关注目标检测的精确度和速度指标[21],而且开始留意提升模型的计算效率并维持模型轻量化,YOLOv5于2020年由Ultralytics公司推出,它在训练进程中可运用多种数据提高技术来提升模型的泛化能力与鲁棒性。相较于上一版本,因其灵活性和兼容性被着重部署于各个检测领域和可开发的应用[22]。通过主干网络和颈部网络分别使用EfficientRep和Rep-PAN,YOLOv6更多与工业应用结合[23]。而且为了效率的提升,使用了在算法模型中引入双向连接模块(Bi-directional Concatenation,BiC)和锚点辅助训练(Anchoraided training,AAT)等策略。YOLOv7[24]将重参数引入到网络架构,VoVNet解决了密集连接产生的内存过多占用和能耗问题。YOLOv8 无锚点架构[25],简化了模型的框架,并合智能梯度法,提升了对多尺度特征的提取能力。
二阶段算法延续了传统目标检测的思想,即经过生成候选框作为目标的初步筛选过程,此类方法分为特征提取和分类两个独立的步骤来执行。2014年Girshick等提出的RCNN框架首次将深度学习引入检测任务,该算法采用生成约候选区域时采用选择性搜索策略并通过预训练的CNN逐区域提取特征,最后使用SVM分类器进行分类[26]。
2015年Fast R-CNN算法做出了如下改进:一是引入RoI Pooling层,将不同大小的检测区域统一转为相同大小;二是采用多任务损失函数将分类与回归任务合并,实现两个任务的参数共享,从而提升检测速度[27]。然而,该算法仍然依赖选择搜索策略生成候选区域,并且不能使用GPU实现运算加速,在面对复杂任务仍然存在瓶颈。为此,Ren等提出的Faster R-CNN[28]革新了候选区域生成机制,它使用区域预测网络替代传统的选择搜索策略,通过滑动窗口在特征图上预测候选框,有效的提升了算法的运行速度。通过利用掩码区分前景和背景信息,He等提出的Mask R-CNN[29],提升了检测目标的定位精度。
2018年Cai等提出Cascade R-CNN[30],该算法构建了多阶段的级联网络,在每个阶段对候选框进行再次回归并并采用逐阶段更新的IoU阈值来细化框的位置和大小,有效缓解了单次回归的欠拟合问题。2021年,Peize Sun等提出Sparse R-CNN[31],该算法使用稀疏机制预定义一些数量的学习框,在训练中根据学习参数自动调整匹配目标。这种方法简化了目标检测的流程,显著地降低了计算冗余。
2023年,Wang 等人[32]将RegNet作为Faster R-CNN模型的主干网络,用来缓解信息丢失的问题。该模型使用深度、宽度、分辨率灯信息,通过神经网络自动寻找最优的网络采样路径。RegNetY-128GF在ImageNet上取得85.2%的top-1精度,应用于Faster R-CNN时,在COCO上实现49.3%的AP,较ResNeXt101-32x8d提升3.2个百分点。通过使用创新的网络结构设计来改进传统的深度学习模型并采用模块化设计支持从1GFLOPs到1000GFLOPs的灵活扩展,在多场景需求下获得适应的目标检测效果。
1.3 论文主要研究内容
本文借助YOLOv8算法,在保证检测速度的条件基础上,对该算法给予调整,以此提升检测能力与精度,并达成模型的轻量化,具体研究内容如下:
在主干网络中,本文引入Non-local模块并加以修改,先是于该模块里引入多尺度卷积核,以此提高模型在复杂场景下的多尺度特征提取能力。为了保证模型的轻量化,借助深度可分离卷积替换该模块内的普通卷积,减少参数量,达成模型的轻量化;将主干网络中的C2f模块中的Bottleneck替换成Fasterblock,形成卷积效率更高并且轻量的C2f – Faster模块。
在颈部网络,在原本已有的三个检测头基础之上,额外增添P2检测头,如此一来,便可生成高分辨率的特征图,为捕捉小目标提供更为丰富的细节空间信息。为了进一步优化特征融合,使用BIFPN模块替代原有结构;在C2f – Faster模块中嵌入EMA注意力机制,以此来减少背景噪声所产生的干扰,强化卷积的特征提取能力。
1.4 论文组织结构
第1章,绪论。第一步,展开说明复杂场景下遥感目标检测的研究背景和当前面临的问题,提出本文的主要研究内容以及整体的方法思路。接下来,详细介绍说明目标检测的相关内容。最后,整理文章框架以及各个章节内容概述。
第2章,相关理论。在这一章节首先对CNN的各个组成部分进行了说明,包括卷积层、池化层等。接下来详细介绍说明了本文的主要研究对象YOLOv8。
第3章,基于改进YOLOv8n的遥感图像目标检测。这一章节是本文的核心内容,主要对YOLOv8模型的主干网络和颈部网络进行了改进。第一步介绍针对主干网络的改进,包括:嵌入Non-local模块并对模块进行多尺度优化、将标准卷积替换为更高效的C2f-Faster卷积。接下来介绍针对颈部网络的改进,包括:引入P2小目标检测层、替换使用C2f-Faster-EMA卷积、使用BiFPN并做出相应适配,最后在DOTA 数据集上分析实验结果。
第4章,总结和展望。总结全文所有改进内容,指出改进模型仍需要优化的方面。
第2章 基于深度学习的遥感图像目标检测理论基础
2.1 引言
YOLOv8 网络作为深度学习中的优秀架构,在目标检测领域表现优越。本章主要对深度学习的目标检测基础理论和关键技术进行了介绍,并进一步介绍了YOLOv8模型。
2.2 深度学习神经网络模型
深度神经网络(Deep Neural Network,DNN)是一种由多层的人工神经元构成的学习模型[33]。它通过仿照人脑对信息的处理方法,构建了一个具有有很多隐藏层的神经网络,可以实现对复杂函数的逼近,从而使计算机能够完成复杂的任务。
卷积神经网络(Convolutional Neural Networks,CNN)是深度学习领域中的一个重要算法,在二十一世纪之后发展迅速[34]。CNN通过使用多层卷积逐层提取特征,使计算机能够更有效处理图像复杂信息。如图2-1,展示了CNN的基本架构。

图2-1 CNN基本架构
2.2.1 卷积层
借助运用不同尺寸的卷积核,卷积层可从输入数据里提取局部特征并且维持空间结构,让网络可以有效地获取输入图像里的关键信息[35]。其采用的参数共享的机制有效削减了模型的参数数量,保障了模型的训练效率以及泛化能力,促使网络可适应不同的图像数据。卷积操作属于一种线性运算,如图2-2是卷积操作的示意图。

图2-2 卷积操作过程
图2-2中,蓝色区域是白色区域的感受野。假设卷积核的尺寸为3×3,输入特征图的尺寸为5×5,在卷积过程中,卷积核会与特征图中相同大小的区域进行逐元素相乘并累加,从而生成一个输出值。接下来,卷积核会根据设定好的参数在特征图上滑动并在新的特征图区域上重复相乘累加的操作,直到卷积核遍历整个特征图。一次卷积操作结束即卷积核完成在特征图上的所有位置都进行了计算,从而提取出了输入特征图中的信息特征。
2.2.2 池化层
池化层通过对输入特征图进行下采样操作实现尺寸的缩减并以此减少模型的计算量[36]。该层主要采用两种操作模式:最大池化是指在局部区域内选取最大值作为进行输出。平均池化则是在局部区域内计算平均值并将平均值作为结果输出。过程如下图2-3、2-4所示

图2-3 最大池化

图2-4 平均池化
2.2.3 激活层
激活层作为神经网络里的一种非线性变换形式,可促使神经网络去学习以及表达复杂的功能关系[37]。在神经网络进行传输的进程中,各层所开展的简单线性运算,使得网络在表达更为复杂的空间方面存在问题,在引入激活函数后,网络就具有了更强的模拟能力。常见的激活函数有Sigmoid、Tanh、ReLU等。
通过将输入值映射到(0,1)之间,Sigmoid函数在二分类问题中有较高的适用性,其公式如下:
Tanh 函数将输入值映射到(−1,1)之间,适用于多分类问题。相比Sigmoid 函数,它能保持以0为中心的输出值,在权值更新时偏向性问题得到缓解,增强网络对复杂函数关系的学习和模拟能力。其公式如下:
ReLU属于一种简便且高效的激活函数,它的主要特点是当输入值大于零时直接传递,而输入为负时则输出零,ReLU激活函数可使网络在学习特征表示方面速度更快,同时还可以缓解梯度消失这一问题,其公式具体如下:
2.2.4 全连接层
全连接层是神经网络中用于特征整合的模块,用于输出最终向量。具体来说,前一层的多维特征图在这一层首先会通过Flatten操作进行转换,随后通过全连接权重矩阵进行点乘运算,其输出借助归一化函数转变成各个类别的概率,再依靠反向传播来学习以及调整权重矩阵与偏置向量,凭借此来优化模型的性能,提升网络的学习效率以及预测准确性。
2.2.5 输出层
作为神经网络架构的最终环节,输出层通过将中间层提取的深层次特征表示进行转化,生成具体的预测结果。针对不同任务场景,输出层使用不同的损失函数。具体而言,在回归任务则多采用均方误差损失来直接反映预测值与实际值之间的偏离程度。在分类任务中使用交叉熵损失函数评估模型输出的分类与真实标签之间的差别,从而优化对类别的判定。输出层通过这种针对不同任务的差异化设计,能够有效增强模型对特定问题的表现。
2.3 YOLOv8
YOLOv8 提供了五个大小的版本:YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。其模型结构如图2-5所示:

图2-5 YOLOv8架构图
相较于YOLOv5,YOLOv8 在以下几方面进行了改进:
首先,在特征提取网络,使用了全新的C2f模块替代C3模块。该模块增加并行分支并减少卷积层数量,实现了精度与速度的平衡
其次,YOLOv8还采用解耦头设计替代耦合头设计,解耦头设计通过分离检测任务和分类任务,减少了任务间的干扰,实现了模型精度上的提高的同时也加快了网络的收敛速度。
最后, YOLOv8还采用Anchor-free替代Anchor-Based。相较于Anchor-Based结构的直接预设边界框,Anchor-free通过直接预测目标的关键点位置再组合为边界框的方式既减少了锚框的数量又减少了调参成本, 更适合于小目标检测
总的来说,通过在YOLOv5上进行的一系列改进,YOLOv8在检测的效率与模型的拓展性上有了极大的提高。
第3章 基于改进YOLOv8n的遥感图像目标检测
3.1 引言
YOLOv8检测框架主要由三部分构成,分别为主干网络、颈部网络以及预测头,YOLO历经多次更新迭代,其检测性能持续得以提升,然而在目标检测进程当中,依旧面临诸多挑战,其一小目标的尺寸相对较小,在图像中所占像素比例较低,这使得图像里可供辨识的特征不够较大,导致中小目标在深层网络中容易丢失。其二遥感图像一般会包含较为复杂的背景,如此便增加了模型把背景噪声误判为目标的可能性,其三遥感检测平台大多时候对检测算法有着较高的轻量性与实时性要求。面对上述问题,本章对YOLOv8进行了改进,其网络结构如图3-1所示。

图3-1 改进YOLOv8的网络结构
先对YOLOv8的主干网络给予改进,改进后的模型命名为MN-YOLO,先是在原本Non-local[38]单尺度模块基础上,引入多个不同大小的输入卷积核,在非局部操作里加入了多尺度处理能力,让YOLOv8在特征提取时能更周全地剖析不同尺度目标的语义信息。针对多尺度Non-local模块中,大尺寸卷积于网络深层致使参数量过多的问题,在该模块中使用深度可分离卷积替换标准卷积;在主干网络中使用C2f-Faster模块,提升卷积层效率。
Multiscale Non-local模块检测算法虽留意到长距离的依赖关系,可在更大范围检测目标,然而针对目标位置排列密集、部分特征被遮挡或者处于图片边界的检测情形仍有提升余地。
YOLOv8的颈部网络采用的是优化后的PAN-FPN结构,此结构借助双向路径来融合不同特征层,有效的利用了浅层和深层的空间信息。不过该结构只是简单叠加输入特征,在处理不同尺度的特征中存在一定限制。本章运用改进的加权特征融合模块取代原先的PAN-FPN结构:引入P2小目标检测层,以此强化模型对小目标特征信息的捕捉;替换使用BIFPN[41],运用学习到的权重动态调整各个特征层间的贡献度,借助不同层级特征之间的互补性让网络可处理复杂的视觉场景;替换使用C2f-Faster-EMA模块,利用通道和空间信息使模型更聚焦于目标本身的特征。
最后在DOTA数据集之上对算法展开训练,运用准确率以及平均预测精度均值等评价指标去评估改进的有效性。
3.2 主干网络嵌入改进的轻量化Non-local多尺度增强模块
3.2.1 YOLOv8主干网络嵌入Non-local模块
遥感图像的目标分布稀疏且关联性强、具有复杂背景干扰和大范围遮挡。需要依赖全局信息推断完整目标。
传统卷积主要关注邻域特征的信息表达,卷积感受野有限,对于图像中长距离的范围关系以及处理多尺度的目标检测任务时存在一定的局限。同时,主干网络过深的卷积层也会使得主干网络的特征提取过程繁杂,导致某些重要特征提取不完整。特别是在经过多次下采样后,小目标的特征越来越少,使得这些特征更难被网络学习。
Non-local模块通过全局特征的交互直接捕捉远程依赖,可以帮助模型更全面理解整张图片的内容。通过关联检测目标与其他特征信息,Non-local模块相当于构造了一个极大的卷积,补充和增强卷积层的特征提取能力,使得算法不仅可以关注局部的细节特征,还融合了整幅图像的全局信息。其结构如图3-2所示。

图3-2 Non-local操作
Non-local模块的操作定义如式(3-1)所示。其中,x表示输入特征,y是和x大小相同的输出特征;xi和xj是分别表示在特征图上位置i和位置j处的特征向量;是归一化系数;N 是特征图中所有的位置数; 表示特征图中的两个任意位置xi和xj之间的关系函数; 是特征变换函数,计算特征在位置j 的表示。



关系函数共有四种形式:高斯函数、嵌入函数、点击函数和拼接函数。本章选择使用高斯函数,其定义为:

式(3-2)中的计算位置i和位置j的相似性函数,将位置i上的特征向量 映射到新的特征空间;的作用与类似,计算另一个向量的相似性;的内积衡量两个特征向量在新特征空间中的接近程度。嵌入高斯函数通过计算特征向量相似性捕捉复杂的特征关系。相较于其他的相关函数,嵌入高斯函数的线性变换层提供了一种自适应的表征方式,通过对特征进行线性变换,使得特征空间中相似的点更加接近,从而有效提升了特征的可区分性。







本文将Non-local模块的处理操作集合成Non-local模块,如式(3-3)所示。W 为待学习矩阵,输出是由非局部响应与输入特征的和运算,引入残差连接,帮助避免梯度消失问题,促进更深层网络的训练性能。



3.2.2 改进的Mulitiscale Non-local增强模块
原始的Non-local 模块仅利用同种尺度的信息进行融合,只含有单尺度的信息,导致对尺寸差异大的目标特征提取不全面,出现部分目标漏检问题。因此本节对Non-local 模块进行优化和改进。
改进的Mulitiscale Non-local增强模块包含更广泛的尺度信息,该模块在原本的同种输入卷积核的基础上增加至4种不同输入卷积提取操作,形成从全局语义到局部细节的多层次特征表达体系。这种分层结构通过提取图像中的不同尺寸特征,能够同时捕获整图级别的语义关联和局部区域的细节依赖,有效解决小目标检测中的特征淹没问题。
如图3-3所示,模块设计以多尺度特征提取为核心,采用并行卷积核(1×1、2×2、4×4、8×8)分别提取输入特征的局部细节与全局上下文信息,每个分辨率分支独立进行特征变换。θ分支通过1×1卷积生成全局查询向量,分支与分支则分别通2×2、4×4、8×8卷积核生成键和值特征。以模块基本结构为例,模型输入尺寸为H×W×C的特征图后,通过θ分支经过矩阵重塑变为HW×Ci,通过分支经过矩阵重塑变为H1W1×Ci。两个矩阵在点乘后通过归一化后获得注意力权重,进而与相乘,指导特征的加权聚合,完成信息聚合,得到聚合后的特征矩阵HWCi。





同样地,θ分支、分支和分支,θ分支、分支和分支分别生成获得大小为HWCi的特征矩阵。通过不同卷积操作获得的各尺度特征图经过concat后将尺寸还原,并将此加强的特征图与原始输入特征图通过残差连接融合,保留原始特征信息的同时避免梯度消失。





图3-3 Non-local操作
Non-local多尺度提高模块的关键思路是在Non-local模块里引入多尺度特征交互,在维持Non-local模块长距离依赖性的前提下,借助不同尺度卷积带来的丰富信息互补并强化特征表达。传统的单尺度特征容易遗失局部细节或者全局关联,而此模块借助多种尺度的卷积分支,可同时获取细粒度的局部特征以及大范围的全局特征。结合深度可分离卷积的轻量化设计,在保证参数效率的情况下,让模型可以动态聚合多尺度特征,当与YOLOv8的主干特征提取网络相结合时,提高了模型多尺度特征提取能力,提高了复杂场景下特征表征的鲁棒性。
3.2.3 轻量化Non-local多尺度增强模块与主干网络
Non-local多尺度提高模块在提高模型多尺度特征提取能力以及全局建模能力之时,会给模型带来数量庞大的参数量与计算量,这首先是由于该模块堆叠了多种尺寸各异的卷积核,然而标准卷积核的计算复杂度会随着通道数以及核尺寸的平方而增长,使得模型变得臃肿,还容易出现过拟合的情况。该模块嵌入于主干特征提取网络的深层,而网络深层的特征图一般有高通道数、低空间分辨率的特性,其计算量问题会加剧,为了使算法模型更加轻量化,本节采用深度可分离卷积[39]以及C2f-Faster模块,分别替换Non-local模块的原始卷积与主干网络的C2f模块,以此降低模型的参数量以及计算复杂度。

图3-4 depthwise卷积和pointwise卷积
深度可分离卷积的关键之处在于单通道空间滤波机制。从图3-4可看出,深度可分离卷积把标准卷积分解成depthwise卷积以及pointwise卷积这两个步骤,达成了更为高效的特征提取,对计算资源与性能之间的平衡做了优化,假设输入特征张量是 (空间维度H×W,通道数C),深度卷积层由C个二维卷积核构成。每个卷积核独立作用于对应的输入通道:其中,*表示二维空间卷积运算,为第i通道输出特征图。当采用等尺寸填充策略(Same Padding)时,输出维度保持H'=H, W'=W,形成的三维张量。
depthwise卷积操作通过对所有通道各自进行独立的卷积操作获得相同数量的中间特征图,相较于标准卷积多个通道同时卷积造成的较大计算需求,这种处理方式通过对输入通道的独立处理,在保证了特征提取的充分性的同时又减少了计算资源的消耗。depthwise卷积通过单通道模式有效的减少了计算量和参数量,但无法改变通道数也无法利用通道间的关联。通过pointwise卷积对深度卷积的输出通道进行调整与组合,可以有效的解决depthwise卷积的不足之处。两者的组合在实现标准卷积功能的同时有效的降低计算量和参数量,从而在实际应用中实现更高的性能和更低的资源消耗。
C2f属于对CSP结构所做的一项改进举措,借助更为有效的特征分支以及拼接策略,在维持计算效率的情况下,提升了网络的特征表达能力,它运用简单的通道分离策略,使一半的数据经历密集计算过程,而另一半数据维持原状,不进行任何操作,其结构如图3-5所示,这种设计有效避免了模型过拟合现象的出现,还维持了模型的高效性与简洁性。如此的拼接操作一般可获取更高维度的表示,然而在面对复杂数据时,其BottleNeck操作显得较为笨重且效率不高。

图3-5 C2f模块
如图3-6所示,改进的C2f-Faster卷积通过将C2f卷积的Bottleneck替换为FasterNet[40]的FasterBlock,在减少计算量的同时增强特征提取能力。

图3-6 C2f-Faster模块
FasterBlock借助融合部分卷积以及逐点卷积的方式达成高效的特征提取与信息聚合,此模块借助部分卷积把输入通道划分成多个组,有选择性地处理关键通道,消除冗余计算,保留核心特征,随后借助逐点卷积来调整通道数,相较于传统Bottleneck运用标准卷积的“降维 - 提取 - 升维”三步结构,这样的设计在维持特征表达能力之际削减参数量,强化跨通道信息交互。
如图3-7所示,若假设输入特征张量为,Pconv首先将输入通道C划分为两个子集与,分割后的输入表示为。应用卷积核后输出,其中是卷积核,*表示二维卷积运算。输出空间维度保持H' = H, W' = W。最后将特征拼接形成

图3-7 FasterBlock
3.3 颈部网络替换为改进的BiFPN特征融合模块
3.3.1 引入P2小目标层
小目标在图像中覆盖的像素区域极小,容易被复杂背景或相似物体干扰,因此,对于小目标的检测一直是目标检测所面临的一项富有挑战性的任务。其根本原因在于缺少丰富的语义信息和空间信息。在特征提取主干网络中,随着网络的前向传输,特征图的尺寸越来越小,能够提取到的特征信息也更加有限。为了获取相关特征信息,可以引入P2小目标检测层。P2层是网络的早期层,其特征图分辨率较高,保留了浅层特征的细节信息,能捕捉到图像中更细粒度的局部特征。YOLO默认使用的是P3、P4、P5三个检测头,在添加P2检测头后,假设输入特征图的尺寸为640640,相关检测头的尺寸如下表3-1所示。
表3-1 检测头尺寸
| P2 | P3 | P4 | P5 | |
|---|---|---|---|---|
| 特征图大小 | 160160 | 8080 | 4040 | 2020 |
| 目标大小 | ≥ 44 | ≥ 88 | ≥ 1616 | ≥ 3232 |
3.3.2 替换BiFPN特征网络
受PANet[42]的启发,YOLOv8在FPN的基础上增加了PAN,在颈部特征网络设计了PAN⁃FPN结构,构建了自顶向下和自底向上的双向通路网络。相较于原先仅有的自顶向下的上采样路径,PAN⁃FPN结构使用双向融合通道实现不同分辨率的特征图之间的特征融合,可以提升模型对小目标的检测能力。但是这种融合方式本质上仍是对相邻特征层的简单拼接融合,虽然关注到了浅层的空间信息并加以利用,但是并没有根据任务需求区分不同特征层的重要程度。而在遥感图像中被检测目标尺寸差异较大并且背景复杂,简单的特征拼接将对待会无法平衡不同尺度特征的贡献,小目标的信息被忽视的同时也会引入不必要的冗余参数。随着网络深度的增加,有用特征和无用特征完全按顺序依次融合会带来过度的信息混淆。相较于路径聚合网络,BiFPN通过双向跨尺度连接并引入可学习的权重参数,动态调整不同层级特征的重要性,避免简单相加或拼接带来的信息失衡,适应复杂场景下的目标检测需求。如图3-8所示,展示了上述两种特征网络的结构。

图3-8 PANet与BiFPN网络结构图
为了提高模型的特征融合能力并提升模型对复杂场景的理解能力,本研究中使用BiFPN替代的原始的PAN⁃FPN特征融合网络。原始BiFPN网络具有五层输入,为适配本文的主干网络,将融合结构优化为四层输入,结构如图3-9所示。

图3-9 融合P2层的BiFPN
中间层和输出层的计算公式如(3-3)和(3-4)。其中,和分别中间输出与最终输出。表示当前层特征图输入,、、分为融合权重,在学习过程中动态调整,用于针对不同特征图融合时的加权。Resize表示对特征图通道数的调整,用以匹配特征融合所需要的尺寸。Conv表示卷积操作。是一个极小值,防止分母为0。
在本文的模型中,我们在主干网络中提取P2_in、P3_in、P4_in、P5_in共四个目标检测层并送入颈部网络BiFPN中。在Neck层,首先通过自顶向下路径将语义特征P5_in上采样并与P4_in特征层融合,通过权重动态平衡语义和细节信息,获取特征层P4。接着,重复上述操作获得特征层P3、P2。再通过自底向上路径,将P2层下采样后于P3_in特征层和P3特征层进行融合获得送入检测头检测的特征层P3。并重复操作获得送入检测头检测的特征层P4,P5。通过这样的处理方式,我们不仅保留了原有特征金字塔结构在多尺度特征融合方面的优势,还通过针对性的微调进一步提升了其在本章节算法中的表现。
3.3.3 C2f-Faster-EMA卷积
在第三章中,我们通过替换C2f卷积的Bottleneck获得了C2f-Faster卷积,并将YOLOv8主干特征网络的C2f卷积替换为C2f-Faster卷积。这一节中,在C2f-Faster卷积的基础上,通过在残差块前嵌入EMA注意力机制[43],进行特征预筛选,对输入特征进行动态加权,可以增强关键信息,抑制无关背景,减少残差块的冗余计算。C2f-Faster-EMA卷积结构如图3-10所示。

图3-10 C2f-Faster-EMA结构
EMA注意力机制能提升卷积性能,原因在于其保留了空间和通道信息间的关联,还拥有更稳定的特征表示,展开来说,EMA模块把部分通道重塑成批量维度,并且将通道维度划分成多个子特征,以此让空间语义特征在每个特征组里均匀分布,随后针对每组子特征图运用多尺度并行子网络,借助指数移动平均机制,也就是EMA机制,对不同尺度子网络的输出开展动态加权融合,捕捉局部与全局的空间依赖关系。

图3-11 EMA注意力机制
本文所运用的EMA模块具体流程呈现于图3-11之中,输入的特征图其尺寸为H×W×C,被划分成g组,每组所有的通道数是C/g,随后每个组的特征图会进入到两条并行的路径之中:其中一条路径借助X方向以及Y方向的平均池化,分别去提取水平方向和垂直方向的空间信息,在拼接之后经由Sigmoid激活函数产生空间权重,并且凭借GroupNorm以及Softmax对权重分布给予优化,另外一条路径运用3×3卷积来捕获局部上下文,并且借助Softmax归一化权重以此突出关键区域。接着两条路径的输出被进行合并,经过Sigmoid激活之后与原始特征图相乘,通过动态加权融合完成对关键特征的强化以及对背景噪声的抑制。
3.4 实验结果分析
3.4.1 实验环境设置
(1)实验环境
本文研究的算法应用程序是由PyTorch 深度学习框架和Python3.8 编译器实现,编程软件是PyCharm,在Anachonda 下搭建实验开发环境,选择CUDA 10.0 版本,使用TensorBorad 监控模型的训练过程,部署MLflow 工具记录参数。计算机GPU使用NVIDIA GeForce RTX 3090显卡。
(2)网络参数设置与训练过程
优化器动量值设置为0.937 有助于在正确方向加速下降梯度向量并抑制震荡,模型平滑学习过程并且加快收敛速度。数值为0.0005 的权重衰减采用正则化策略,防止模型过拟合。模型训练为150轮。
在模型训练的过程中,算法对批量的数据进行处理以生成结果。将训练好的模型权重文件载入val.py 和detect.py 文件对模型进行评估和测试,并通过准确率、召回率等指标进行了全面检验。
表3-2 实验参数设置
| 实验参数 | 取值 | 解释 |
|---|---|---|
| Batch size | 16 | 每批处理的图像数量 |
| Ir0 | 0.01 | 初始学习率 |
| Img-size | 640640 | 输入图像大小 |
| Momentum | 0.937 | 优化器动量 |
| Weight-decay | 0.0005 | 优化器的权重衰减 |
| Anchor-t | 4.0 | 锚点倍数阈值 |
| Epoch | 150 | 迭代次数 |
(3)训练数据集
高分辨率的航拍图像可呈现出更为丰富的细节,这为算法开展目标检测实验提供了便利条件,DOTA 数据集在城市、农业、海上检测等诸多领域都有着广泛的应用,随着时间持续推进,航拍图像也处于不断更新的状态,以此来契合遥感目标检测的发展进程以及新的研究需求。
本次实验把DOTA数据集按照60%、20%、20%这样的比例分别划分成训练集、验证集以及测试集,该实验数据集涉及了“车辆目标”、“飞机”、“蓄水罐”、“水域目标”、“场地目标”这些内容,展开来说,水域类被分成一个小类,其中包含航船和海港,相似目标类别分成两类,像小型和大型汽车、网球场和棒球场等都属于此类。
3.4.2 数据预处理
在实验开始前需要先进行预处理,DOTA数据集使用Google Earth数据标签,并不适用于YOLO模型的训练,需要首先将其转化为YOLO标签格式。
DOTA数据集中的图片尺寸较大且精度较高,YOLOv8在处理该图片时会对显卡造成计算负担,还会引入大量的无关背景信息。因此对需要输入图片进行预分块处理,本算法实验中将每一张图像的尺寸调整至640×640再进行网络训练和测试。如图3-12是图片分块处理的效果。


图3-12 图像分块预处理
3.4.3 MN-YOLO实验结果分析
为了验证每个改进方法的性能对比,首先针对基于主干网络的改进进行比较。如表3-3所示。在YOLOv8的主干网络中嵌入Multiscale Non-local模块,相较于原算法mAP@0.5%提升了2.3%。本文还替换使用了C2f-Faster卷积,可以看到,该方法使得 mAP@0.5%参数提升了0.7%的同时,减少了模型的参数量和浮点运算次数。综合使用以上改进点,模型在略微提升参数量的同时,mAP@0.5%提升了2.6%,同比提高了3.5%。
表3-3 不同改进在DOTA数据集上的消融对比实验
| Multiscale Non-local | C2f-Faster | map@0.5% | map@0.5:0. 95% | 参数量/ M | 浮点运算次数/G |
|---|---|---|---|---|---|
| 74.1 | 53.8 | 3.01 | 8.2 | ||
| √ | 76.2 | 56.1 | 5.67 | 9.3 | |
| √ | 74.8 | 54.1 | 2.65 | 7.2 | |
| √ | √ | 76.7 | 56.5 | 5.31 | 8.2 |
表3-4展示了对YOLOv8n的主干网络改进后与其他YOLO算法的在DOTA数据集上的对比实验,虽然YOLOv8s的识别精度优于本章模型,但在参数量以及计算量上均远超于本章模型,可以看到本章算法在保证轻量化的同时在识别精度上实现了提升。
表3-4 不同算法在DOTA数据集上的对比实验
| 模型 | map@0.5% | map@0.5:0. 95% | 参数量/ M | 浮点运算次数/G |
|---|---|---|---|---|
| YOLOv8n | 74.1 | 53.8 | 3.01 | 8.2 |
| YOLOv5s | 74.3 | 56.1 | 7.23 | 16.4 |
| YOLOv7-tiny | 73.1 | 54.1 | 6.01 | 13.1 |
| YOLOv4-tiny | 69.3 | 50.6 | 6.41 | 12.3 |
| YOLOv8s | 79.4 | 60.2 | 11.14 | 28.7 |
| MN-YOLO | 76.7 | 56.5 | 5.31 | 8.2 |


a)YOLOv8n b)MN-YOLOv8n


c)YOLOv8n d)MN-YOLOv8n
图3-13 效果检测
为了更加直观验证改进方法的作用,本节随机在DOTA数据集中抽取图片进行检测对比。图3-13分别展示了不同的类别与尺寸的检测效果,使用的模型为YOLOv8n和MN-YOLOv8n。我们可以看到,YOLOv8n在不同尺寸的类别的目标检测中,漏检了多种小尺寸目标,对比MN-YOLOv8n则并少有目标漏检。这是因为图中小尺寸目标在特征图中像素更少,在检测中容易被大尺寸目标的特征干扰,而MN-YOLOv8通过强化多尺度特征提取能力,有效检测出了原始算法漏检的目标。不过MN-YOLOv8n模型也没有检测出图像右下角小尺寸目标,证明仍需优化特征提取能力。
3.4.4 MN-YOLO颈部网络改进结果分析
本章实验使用YOLOv8n模型作为基线,对MN-YOLOv8n模型的颈部网络进行消融实验并对结果进行分析。结果如表3-5所示:
表3-5 在DOTA数据集上的消融对比实验
| P2特征层 | BiFPN | C2f-Faster-EMA | map@0.5% | map@0.5:0. 95% | 参数量/ M | 浮点运算次数/G |
|---|---|---|---|---|---|---|
| 76.7 | 56.5 | 5.31 | 8.2 | |||
| √ | 77.2 | 57.1 | 5.23 | 12.4 | ||
| √ | 77.9 | 57.8 | 5.76 | 14.8 | ||
| √ | 77.3 | 57.1 | 4.97 | 7.6 | ||
| √ | √ | 78.4 | 58.5 | 5.63 | 19.1 | |
| √ | √ | 78.2 | 58.1 | 5.34 | 13.9 | |
| √ | √ | 77.8 | 57.6 | 4.87 | 11.4 | |
| √ | √ | √ | 79.1 | 58.8 | 5.26 | 18.1 |
可以看到在MN-YOLOv8的颈部网络使用P2检测层,相较于原算法mAP@0.5%提升了0.5%;替换使用BiFPN特征融合模块,mAP@0.5提升了1.2%;替换使用C2f-Faster-EMA模块,相较于原算法,mAP@0.5提升了0.6%。综合使用以上改进点,模型的mAP@0.5提升了2.4%,同比提高了3.1%。
表3-6展示了本章改进颈部网络后的MN-YOLO算法与其他YOLO算法的在DOTA数据集上的对比实验,虽然YOLOv8s的识别精度略优于本章模型,但在参数量以及计算量上均远超于本章模型。以YOLOv8n作为基准线,可以看到本章算法在保证轻量化的同时在识别精度上实现了提升。
表3-6 不同算法在DOTA数据集上的对比实验
| 模型 | map@0.5% | map@0.5:0. 95% | 参数量/ M | 浮点运算次数/G |
|---|---|---|---|---|
| YOLOv8n | 74.1 | 53.8 | 3.01 | 8.2 |
| YOLOv5s | 74.3 | 56.1 | 7.23 | 16.4 |
| YOLOv7-tiny | 73.1 | 54.1 | 6.01 | 13.1 |
| YOLOv4-tiny | 69.3 | 50.6 | 6.41 | 12.3 |
| YOLOv8s | 79.4 | 60.2 | 11.14 | 28.7 |
| MN-YOLO | 76.7 | 56.5 | 5.31 | 8.2 |
| 改进MN-YOLO | 79.1 | 58.8 | 5.26 | 18.1 |
为了更加直观验证改进方法的作用,本节还测验了不同场景的遥感图像下的模型检测对比。图3-14和3-15分别展示了不同场景下的目标检测效果,使用的模型为YOLOv8n、MN-YOLOv8以及本章算法。

a)YOLOv8n

b)MN-YOLOv8n

c)本章算法
图3-14 路地场景效果检测
从图3-14中我们可以看到,在复杂背景以及多尺度目标互相影响的情况下,上述算法的效果。YOLOv8n虽检测出大量目标,但存在许多漏检,包括图中角落的小目标对象以及在大尺寸目标附近的小目标对象。与YOLOv8n相比,MN-YOLO识别到了更多的小目标,但是仍存在漏检和错检的情况。本章算法在MN-YOLO的基础上进一步强化多尺度特征检测能力,不仅识别了更多的密集目标,而且识别精准度更好。

a)YOLOv8n

b)MN-YOLOv8n

c)本章算法
图3-15 海上场景效果检测
从图3-15中可以看到YOLOv8n不仅未检测出图像中的small-vehicle目标,还存在目标漏检。而MN-YOLO和本章算法的多尺度特征提取能力得到优化,成功识别出了不同尺度下的多种类别。
第4章 总结与展望
4.1 总结
针对航空遥感图像目标检测所面临的计算资源有限、多尺度特征目标互相干扰的问题,本文通过对YOLOv8n模型进行改进,在保证轻量化的基础上优化了特征检测能力,提出了较高效的航空图像目标检测算法。本文的研究内容主要如下:
在保留Non-local模块的长距离依赖关系的情况下,通过嵌入多尺度卷积分支加强模块对多尺度目标的处理能力,提升模型在复杂场景下的检测能力。同时,针对Multiscale Non-local参数量和计算量过大的问题,本文在模块中使用深度可分离卷积,有效的减少了大尺寸卷积带来的参数量并且保证模块的特征提取能力不受影响;使用Fasterblock替换C2f模块的Bottleneck部分并使用新的C2f-Faster模块替换主干网络的c2f模块,减少计算量和参数量的同时保证模型的检测能力。
本文还对模型的颈部网络进行了一系列研究以强化模型目标检测能力并保证轻量化。原先的颈部网络使用P3、P4、P5检测头完成特征融合,本文在此基础上增加了位于网络浅层P2检测头,该检测头可以通过高分辨率的特征图为模型提供更加丰富的空间信息,加强模型在复杂情况下对小尺寸目标的检测能力;采用BiFPN替换原颈部网络,凭借双向跨尺度连接并引入可学习权重参数,动态调整不同层级特征关键性,防止简单相加或拼接引发信息失衡,更契合复杂场景目标检测需求,在第三章C2f - faster卷积基础上嵌入EMA注意力机制,依靠保留空间与通道信息关联及更稳定特征表示,提升卷积性能。
4.2 展望
虽然模型对小目标特征提取进行了一系列优化,但由于小目标的可用信息稀少,导致仍然存在漏检以及错检的情况。同时在轻量化模型的过程中,虽然将参数量维持在了较低水平,但计算量略有提高,需要检测平台需要一定算力水平。未来的工作需要继续优化模型的特征提取能力并轻量化模型,改善模型对小目标的检测能力的同时保证模型适用于多少遥感检测平台。
参考文献
吴迪. 光学遥感图像典型目标检测方法研究[D]. 哈尔滨:哈尔滨工业大学, 2019.
刘翔宇. 基于深度卷积神经网络的光学遥感图像目标检测[D]. 南京:东南大学,2020.
邓志鹏. 基于深度卷积神经网络的遥感图像目标检测方法研究[D]. 长沙: 国防科技大学, 2019.
方梦梁. 基于深度学习的光学遥感图像目标检测研究与应用[D]. 南京:南京邮电大学, 2019.
董超. 可见光遥感图像海面舰船目标检测技术研究[D]. 长春:中国科学院大学(中国科学院长春光学精密机械与物理研究所), 2020.
杨康. 基于多尺度特征与模型压缩加速的光学遥感图像目标检测[D]. 陕西:西安电子科技大学, 2019.
陈立, 张帆, 郭威等. 面向遥感图像的多阶段特征融合目标检测方法[J]. 电子学报, 2023, 51(12): 3520-3528.
Bai T, Wang L, Yin D, et al. Deep learning for change detection in remote sensing: a review[J]. Geo-spatial Information Science, 2023, 26(3): 262-288.
A. Nancy, D. Jayapriya. Video frames text detection through bayesian classification and boundary growing method[C]. Proceedings of 2014 International Conference on Information Communication and Embedded Systems, 2014: 1-6.
P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple features[C]. Proceedings of 2001 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2001, 1: 1-3.
P. Felzenszwalb, D. McAllester, D. Ramanan. A discriminatively trained, multiscale, deformable part model[C]. Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008: 1-8.
邵大培, 张艳宁, 魏巍. 基于PCA 和图像匹配的飞机识别算法[J]. 中国体 视学与图像分析, 2009, 14(3): 261-265.
H. Pang, J. Su, R. Ma, et al. Multiple templates transformer for visual object tracking[J]. Knowledge-Based Systems, 2023, 280: 111-118.
N. Dalal, B. Triggs. Histograms of oriented gradients for human detection[C]. Proceedings of 2005 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2005, 1: 886-893.
Z. Wang, A. C. Bovik, H. R. Sheikh, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
L. Pei, G. Cheng, X. Sun, et al. Multi-scale bidirectional feature fusion for one-stage oriented object detection in aerial images[C]. Proceedings of 2021 IEEE International Geoscience and Remote Sensing Symposium, 2021: 2592-2595.
Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]. Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part I 14. Springer International Publishing, 2016: 21-37.
J. Redmon, A. Farhadi. YOLO9000: better, faster, stronger[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 7263-7271.
Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
C. Xiao, L. Chang. Facial mask detection system based on YOLOv4 algorithm[C]. Proceedings of 2022 IEEE International Conference on Artificial Intelligence and Computer Applications, 2022: 1032-1035.
X. Zhang, H. Fan, H. J. Zhu, et al. Improvement of YOLOv5 model based on the structure of multiscale domain adaptive network for crowdscape[C]. Proceedings of2021 IEEE Conference on Cloud Computing and Intelligent Systems (CCIS), 2021: 171-175.
R. Kaur, J. Singh. Local regression based real-time traffic sign detection using YOLOv6[C]. Proceedings of 2022 International Conference on Advances in Computing, Communication Control and Networking (ICACN), 2022: 522-526.
H. Zhang, A. Xiong, L. Lai, et al. Amme-yolov7: Improved yolov7 based on attention mechanism and multiscale expansion for electric vehicle driver and passenger helmet wearing detection[C]. Proceedings of 2023 IEEE Conference on Smart Internet of Things, 2023: 223-227.
S. Qiu, B. Cai, W. Wang, et al. Automated detection of railway defective fasteners based on YOLOv8-FAM and synthetic data using style transfer[J]. Automation in Construction, 2024, 162: 105-110.
R. Girshick, J. Donahue, T. Darrell, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014: 580-587.
N. Yildiz, E. Cesur, K. Kayaer, et al. Architecture of a fully pipelined real-time cellular neural network emulator[J]. IEEE Transactions on Circuits and Systems, 2014, 62(1): 130-138.
S. Ren, K. He, R. Girshick, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 1132-1140.
K. He, G. Gkioxari, P. Dollár, et al. Mask R-CNN[C]. Proceedings of 2017 IEEE Conference on Computer Vision, 2017: 2961-2969.
Z. Cai, N. Vasconcelos. Cascade R-CNN: Delving into high quality object detection[C]. Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 6154-6162.
P. Sun, R. Zhang, Y. Jiang, et al. Sparse R-CNN: End-to-end object detection with learnable proposals[C]. Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 14454-14463.
Z. Wang, Y. Cao, J. Li. A detection algorithm based on improved Faster R-CNN for spacecraft components[C]. Proceedings of 2023 IEEE Conference on Image Processing and Computer Applications (ICIPCA), 2023: 1-5.
A. Javanshir, T. T. Nguyen, M. A. P. Mahmud, et al. Advancements in algorithms and neuromorphic hardware for spiking neural networks[J]. Neural Computation, 2022, 34(6): 1289-1328.
吕慧超.人工智能在工业自动化中的应用[J].信息记录材料,2023,24(08):83-85.
L. Li, Y. Zhu, H. Zhang, et al. Multi-scale spin convolutional neural network for typhoon intensity prediction[C]. Proceedings of 2023 International Conference on Parallel and Distributed Systems (ICPADS), 2023: 1492-1499.
杨康. 基于多尺度特征与模型压缩加速的光学遥感图像目标检测[D]. 陕西:西安电子科技大学, 2019.
李衍君. 基于可见光遥感图像的自动目标识别系统设计与实现 [D]; 重庆大学, 2013.
Wang Xiaolong,Girshick R,Gupta A,et al. Non-lo⁃cal Neural Networks[C]. IEEE/CVF Conference onComputer Vision and Pattern Recognition,Salt LakeCity,UT,USA,2018
A G Howard, M Zhu, B Chen, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv: 1704.04861, 2017.
Chen J, Kao S H, He H,et al.Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).0[2025-04-02].DOI:10.1109/CVPR52729.2023.01157.
Guo Z, Liu C, Zhang X, et al. Beyond bounding-box: Convex-hull featureadaptation for oriented and densely packed object detection[C]//Proceedings ofthe IEEE/CVF conference on Computer Vision and Pattern Recognition. 2021:8792-8801.
F. Dadboud, V. Patel, V. Mehta, et al. Single-stage uav detection and classification with YOLOv5: Mosaic data augmentation and panet[C]. Proceedings of 2021 Advanced Video and Signal Based Surveillance, 2021: 1-8.
Ouyang D, He S, Zhang G, et al. Efficient Multi-Scale Attention Module with Cross-SpatialLearning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). IEEE, 2023: 1-5

5326

被折叠的 条评论
为什么被折叠?



