点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
Column of Computer Vision Institute
线夹和防震锤是高压输电线路的关键部件。在无人机电力巡检中检测到的线夹和防震锤存在尺寸小、边缘信息稀少以及识别精度低的问题。
PART/1
概述
为了解决这些问题,本文提出了一种基于YOLOv8n的小目标检测(SOD)模型,称为SOD-YOLO。首先,在YOLOv8中添加了一个额外的小目标检测层,这显著提高了小目标的检测精度。此外,为了提高模型的检测速度,引入了RepVGG/RepConvShuffleNet(RCS)以及RCS的一次性聚合(RCSOSA)模块,来替代模型主干网络和颈部浅层网络中的C2f模块。最后,为了解决在模型训练过程中过度关注低质量样本边界框的问题,我们引入了Wise-CIoU损失函数来替代CIoU损失函数,这提高了模型的检测精度。实验结果表明,SOD-YOLO的平均精度均值达到了90.1%,比YOLOv8n基线模型高出7.5%,同时模型参数数量保持在340万个;推理速度达到了每秒88.7帧,满足实时识别的要求。
PART/2
背景
电网是国家经济和社会发展的重要公共基础设施,高压输电线路的安全运行对于电力的稳定供应和使用至关重要。在输电线路的运行过程中,由于露天环境复杂多变,可能会出现各种异常情况,例如悬垂线夹、耐张线夹和防震锤等部件松动、断裂或脱落。这些异常情况不仅会影响输电线路的稳定运行,严重时甚至可能导致重大安全事故。这些部件属于小目标范畴,在图像中所占面积小,分辨率低,定位要求高,边缘信息稀少,并且存在严重的误检和漏检情况。因此,实时、准确地识别输电线路上的小目标具有重要意义。传统的检测方法主要依靠人工检查和简单的辅助工具,检测效率低且风险高,无法满足智能检测的要求。近年来,随着无人机技术在智能检测中的普及,检测效率得到了大幅提高。无人机拍摄获取的检测图像需要进一步进行目标检测。
总之,现有模型存在检测精度和速度无法同时兼顾的问题。一方面,两阶段目标检测方法无法充分捕捉具有浅层特征的小目标,其推理速度仍然面临挑战。另一方面,单阶段目标检测方法中多尺度融合的效果不佳,导致模型识别小目标的精度较低。此外,无人机检测图像中的小目标检测效果也常常受到复杂背景的影响。为了解决上述问题,我们引入了一种基于YOLOv8n的改进网络SOD-YOLO。
我们的主要贡献如下:
•为了增强模型对小目标的检测能力,在YOLOv8n中加入了小目标检测层(SODL),获取了不同尺度的特征图,并进行了多尺度特征提取和融合。在大尺度特征映射后设计了检测头,以优化对小目标的检测性能。
•通过将RCSOSA模块集成到SOD-YOLO模型的主干网络和颈部浅层中,这种方法显著提高了模型识别的精度和速度。
•为了在模型训练过程中平衡边界框回归的强度和对低质量数据的惩罚,我们设计了Wise交并比-完全交并比(WIoU-CIoU)损失作为边界框回归损失函数。它有效地减少了低质量样本的有害梯度,并在相同的推理速度和模型参数数量下提高了SOD-YOLO模型的检测精度。
PART/3
相关工作
将YOLOv8n作为改进的基线模型,其模型结构如下图所示。
YOLOv8模型主要由三个部分组成:主干网络、颈部网络和头部网络。主干网络主要负责从输入图像中提取关键特征。主干网络由多个卷积层(Conv)、跨阶段部分网络融合(C2f)模块以及快速空间金字塔池化(SPPF)模块构成。卷积(Conv)模块由二维卷积层(Conv2d)、批量归一化层(batchnormalization)和SiLU激活函数组成。YOLOv8借鉴了YOLOv3中的C3模块以及YOLOv7中的高效层聚合网络(ELAN)思想,采用了C2f结构,该结构使用了更多并行的梯度流,并在模型的特征提取性能方面添加了拆分(Split)操作;该模块的结构如下图所示。
一些轻量级模型,如MobileNetv3,使用深度可分离卷积和线性瓶颈结构来减少模型的计算量和参数数量。ShuffleNet通过通道混洗和分组卷积提高了模型的并行能力。尽管轻量级模型可以加快模型的推理速度,但小目标检测的精度却无法满足检测要求。为了解决上述问题,Kang等人综合考虑检测精度和推理速度,提出了RCSOSA模块。首先,受ShuffleNet的启发,作者们设计了一种基于通道混洗的结构化参数化卷积,称为RCS,该模块的框架如下图所示。
PART/4
新算法框架解析
为了提升无人机检测图像中微小目标的检测能力,我们引入了SOD-YOLO模型,其架构如下图所示。
首先,我们在SOD-YOLO模型中加入了一个小目标检测层。通过融合浅层和深层特征,并在浅层特征图之后添加一个检测头,增强了对小目标的敏感度,显著提高了模型的检测精度。其次,将RCSOSA模块添加到SOD-YOLO模型主干网络和颈部的浅层网络中,取代了原来的C2f模块,以提高模型的推理速度,并提升小目标识别的精度。此外,大多数研究没有考虑到训练数据集中的低质量样本问题。如果模型过度对低质量样本的边界框进行回归,就会降低模型的检测精度。为了解决这个问题,受Wise-IoU的启发,我们设计了Wise-CIoU边界框损失函数,以取代基线模型中使用的CIoU边界框损失函数。我们在YOLOv8的默认CIoU基础上添加了一种动态非单调聚焦方法。这种方法不使用传统的交并比(IoU),而是以“异常值”作为评估锚框质量的主要标准。它引入了一种梯度增益分配的策略性方法,旨在减轻表现最佳的锚框之间的竞争,同时尽量减少低质量样本对梯度的负面影响。在一定程度上,这种方法有助于最小化边界框回归损失,提高收敛速度,并最终提升模型的检测精度。
PART/5
实验及可视化
数据集本文的实验数据来自国网浙江省电力公司,通过无人机拍摄高压输电塔,共收集了3376张输电线路检测图像。使用图像标注软件labelimg对数据集进行标注,并按照7:2:1的比例将其随机划分为训练集、验证集和测试集。标签类别信息以及其中包含的目标数量见下表:
为了验证SOD-YOLO模型在精度和检测速度方面的优越性,我们在相同的数据集上将其与其他模型进行了比较,结果见上表。
很明显,SOD-YOLO模型表现出了优异的性能。就目标检测指标平均精度均值(mAP)而言,我们的SOD-YOLO模型有很大的提升。与模型参数数量为1.037亿的YOLOv3模型相比,SOD-YOLO的mAP提高了1.9%。与YOLOv3-tiny和YOLOv5n相比,SOD-YOLO的mAP分别提高了15.9%和9.8%。此外,与基线模型YOLOv8n和YOLOv8s相比,SOD-YOLO的mAP分别提高了7.5%和5.3%。此外,推理速度也是评估模型性能的一个重要指标。其中,虽然YOLOv3的检测精度较高,但其模型中大量复杂的参数导致其检测速度仅为每秒24.4帧,无法达到实时检测的要求。YOLOv3-tiny的每秒帧数(FPS)达到了120.1,推理速度最快,但其检测精度无法达到检测要求。SOD-YOLO的检测速度达到了每秒88.7帧,与YOLOv5n、YOLOv6n和YOLOv8s相比,分别提高了17帧、7.6帧和10.1帧。基线模型YOLOv8n的推理速度达到了每秒93.2帧,但与SOD-YOLO相比,其在检测精度方面存在很大的劣势。综合这两个评估指标,结果表明我们的SOD-YOLO模型具有优越的性能。
上图展示了原始图像以及经过YOLOv8和SOD-YOLO模型检测后的结果图,其中suspension_clamp、strain_clamp和shockproof_hammer分别表示悬垂线夹、耐张线夹和防震锤。从上图a和图b可以看出,原始图像中分别有12个和11个目标,且目标分布较为集中,这增加了检测的难度。YOLOv8n存在一个漏检目标(防震锤),而SOD-YOLO能够检测到所有目标。在上图8的原始图像中有6个目标,其中两个防震锤距离拍摄位置较远,像素信息较少,目标较为模糊。YOLOv8n检测到了5个目标,存在两个漏检目标和一个误检目标(防震锤),而SOD-YOLO能够检测到所有目标。此外,SOD-YOLO中检测到的目标的边界框更加完整,能够包含整个目标,并且目标的置信度也有了大幅提高。
有相关需求的你可以联系我们!
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗