基于深度残差U型网络的果园环境识别

时间:2023-08-14 18:45:01 公文范文 来源:网友投稿

商高高 朱 鹏 刘 刚

(江苏大学汽车与交通工程学院 江苏 镇江212001)

《中国制造2025》对我国农业装备提出新要求,需要不断提高农业机械智能化和精准作业的能力[1]。园艺拖拉机是工作在果园、林园等环境的重要农机产品,实现园艺拖拉机智能化作业的一项基本任务就是对工作环境的识别。随着科技的发展进步,环境识别的方法越来越多,例如采用激光雷达对周围环境进行扫描识别,但是由于激光雷达成本过高,难以应用于农业产品,而采用普通相机作为传感器,具有采集信息全面、价格低廉等优势[2]。基于视觉的环境识别,主要根据所需要识别的目标,制定出相关算法,实现快速准确的识别。

在环境识别研究中,Radcliffe等[3]开发了一种基于机器视觉的桃园小型自主导航车辆,机器视觉系统以多光谱相机为基础,用于捕获实时图像并且处理图像获得用于自主导航的行进轨迹线。Benson等[4]为农业收割机开发了机器视觉引导系统,引导算法将玉米与周围的背景分开,对裁剪进行参数化设置,并计算引导信号。Lyu等[5]使用朴素贝叶斯分类来检测果园果树躯干和地面之间的边界,并提出一种算法来确定果园道路的中心线,用于果园自主导航车辆的自动行驶。安秋[6]为了解决农业机器人在复杂的开放式非结构的农田环境下,提取出导航信息、光照变化使导航信息提取算法变得不稳定、阴影的存在严重干扰了图像的处理与分析等问题进行了研究,提出了将颜色恒常性理论用于解决机器视觉导航中的光照问题。Zhao等[7]提出基于视觉的农用车辆制导系统,根据Hough变换提取制导参数的方法,设计了一种基于中心线检测和侵蚀算法的路径识别方法。

上述文献的环境识别方法基本是为了解决在特定的环境下的识别问题,具有特定性。近年来,随着深度学习的迅速发展,其在场景识别[8]和目标检测[9]上表现出优异的性能,基于深度学习的环境识别算法具有强鲁棒性、高精确度等优点。基于深度学习的环境识别研究中,Oliveira等[10]使用卷积神经网络学习场景中的高阶特征进行道路场景分割,通过在图像数据集上的训练,生成训练标签;然后使用基于颜色层融合的新纹理来获取道路区域的最大一致性;最后将离线和在线信息结合起来对城市道路区域进行检测。Badrinarayanan等[11]提出的用于道路场景理解的Segnet网络,其网络架构是基于编码-解码网络,但是对道路边界细节的分割仍有待改进。He等[12]使用空间金字塔池(ASPP)提取遥感图像道路,利用结构相似性(SSIM)作为道路提取的损耗函数,可以删除提取结果中的模糊预测,并改进提取道路的图像质量。李云伍等[13]针对丘陵山区复杂的田间道路场景,构建了基于空洞卷积神经网络的田间道路场景图像语义分割模型。该模型包括前端模块和上下文模块,前端模块为VGG-16融合空洞卷积的改进结构,上下文模块为不同膨胀系数空洞卷积层的级联,采用两阶段训练方法进行训练,模型对阴影干扰有良好的适应性。王毅等[14]采用YOLOV3卷积神经网络提取果园道路图像上的特征点,并通过最小二乘法拟合生成导航线,并在多种不同自然环境下进行试验,导航线偏移偏差在3.5 cm左右。周继苗等[15]在Mobile Net V2的基础上提出了一种多层次特征融合的方法,使得网络可以在实时运行的同时保证精度满足实际应用的需求。

基于深度学习的环境识别算法在识别准确度上有较大提高,但是运用场景较为单一,而果园环境复杂多变,不同物体之间跨度较大,识别这些物体需要加深网络深度,但是会产生梯度消失、参数增多、难以训练等问题。因此本文将U型网络作为网络模型主体,发挥其参数少、识别精度高等优点,并在特征提取过程中加入残差块,加深网络深度,提高物体边缘信息的提取能力,最终构建基于深度残差U型网络的果园环境识别算法。对果园环境图像实现像素级的语义分割,获取果园环境中的各类信息,为后续园艺拖拉机的自主作业奠定基础。

1.1 数据集获取

根据园艺拖拉机在果园中的不同工作状态(作业工况和运输工况),可将果园环境分为作业环境和运输环境,如图1所示。作业环境的特点是园艺拖拉机工作在两行果树之间,环境变化较小,主要实施洒药、采摘等工作;运输环境特点是园艺拖拉机行走在非结构道路上,道路边界不明显且杂物较多。

(a) 运输环境 (b) 作业环境图1 果园环境划分

实现果园环境的像素级分割,其首要一步是获取真实的果园环境图像,本文采用GoPro4高清摄像机作为果园环境采集工具,其像素分辨率为4 000×3 000。为提高网络模型的鲁棒性,适合多种环境特征,根据天气和光线的变化,在多种条件下进行数据采集。采集的数据是以视频的形式进行保存,需要截取视频中的图片,利用Python编写脚本,按照30帧每秒的速度截取视频中的图片,为了降低计算机显卡内存的消耗,将图片像素调整为1 024×512,经过处理共获得2 054幅果园环境图像,并且将图像按照对应序号进行排列。

1.2 数据集预处理

语义分割需要将获取的图像数据进行预处理,基于深度残差U型网络的果园环境识别属于监督学习,在模型训练时,需要输入原始图片和标注图片,因此图像需要进行人工标注。根据果园环境特征和园艺拖拉机自主作业需求,将果园环境中的对象分为4种类别,分别为:背景、可行驶道路、桃树和杂物。本文采用语义分割标注工具labelme[16]对果园环境数据集进行人工标注,将不同的类别以不同的颜色标注出来,表1为果园环境类别标注信息。

表1 果园环境类别标注信息

为了解决训练数据规模不足的问题,本文采用数据增强[17]的方法扩充果园环境数据集。使用Albumentations库实现数据增强,该方法方便快捷且有效解决原始图片和标注图片增强方式不一致的问题。通过对图像的翻转、裁剪和缩放,将数据集扩充为原来的3倍。经过上述的处理后,将数据集进行划分,采用随机选取的方法将数据集按照7∶3的比例分为训练集和测试集,共有4 313幅训练图片和1 849幅测试图片,原始图片和标注图片的序号一一对应。

近年来,随着全卷积神经网络(FCN)的应用,使得卷积神经网络(CNN)在特征图的基础上生成任意大小的语义分割图,能够对图像进行像素级分割[18]。基于此方法,后续衍生出诸多算法,例如深度分割网络框架DeepLab系列[19-20]、使用金字塔池化模块的场景解析网络PSPNet[21]以及用于医学图像分割的U-Net网络[22]等。

U-Net网络在具有少样本的条件下,依然能取得较好的模型分割准确率,而且首次利用跳跃连接(skip connection)将编码特征加入到解码特征中,创建一条信息传播路径,从而允许信号以更容易的方式在低级和高级特征之间传播,这不仅有利于训练过程中的向后传播,还可以提高模型分割准确率。但是网络对于获取上下文信息的能力不足,特别是对复杂、类别尺度差异较大的场景数据表现不足,例如本文的桃园环境,类别的差异尺度较大。如何提高U-Net网络对图片样本上下文信息的获取,其中一个办法就是进行多尺度融合,增加网络的深度,使其对图片特征的表达更加准确,但是随着网络深度的增加,模型识别精度在达到饱和后会迅速下降,识别误差增大,根据这个问题,He等[23]提出深度残差网络,利用恒等映射(Identity Mapping)获取更多的上下文信息,误差不会随着网络深度的增加而增加,解决了训练退化的问题。

2.1 残差网络

残差网络由一系列堆叠的残差单元组成。每个残差单元可以用一般形式表示:

yi=F(xi,wi)+h(xi)

(1)

xi+1=f(yi)

(2)

式中:xi表示第i层残差单元的输入;xi+1表示第i层残差单元的输出;wi表示第i层残差单元的网络参数;F(·)表示残差函数;h(·)表示恒等映射函数;f(·)表示激活函数。

残差神经网络单元由两部分组成,即恒等映射部分和残差部分。恒等映射主要将输入与经过残差处理的输出进行维度上的统一,方便后续特征信息融合;残差部分一般由多个卷积神经网络、归一化层和激活函数组成。通过两部分的相加实现信息交互,弥补残差部分底层特征提取能力的不足。图2显示了普通神经网络单元与残差神经网络单元的差异,图2(a)为普通神经网络单元结构;图2(b)为残差神经网络单元结构。

(a) 普通神经网络单元 (b) 残差神经网络单元图2 普通神经网络单元与残差神经网络单元的差异

2.2 深度残差U型网络模型的构建

根据深度残差网络和U-NET网络的特点,本文提出深度残差U型网络模型(ResUnet),引入残差层加深U-NET网络结构,避免训练时间过长、训练参数过多以及过拟合现象的发生。在语义分割中,要获得更好的结果,使用低级细节信息非常重要,同时还需要保留高级语义信息,而深度残差U型网络模型能够很好地保留这两者的信息。深度残差U型网络模型具体有两方面的好处:(1) 对于复杂的环境识别,加入残差单元将会有助于网络的训练,提高识别精度;(2) 网络低层次信息和高层次信息的长连接以及残差单元的跳跃连接将有利于信息的传播,参数更新分布更均匀,网络模型能发挥更好的性能。

本文中,将深度残差U型网络模型的9级架构应用于桃园环境中目标的识别,本网络由三部分组成:编码层、瓶颈层和解码层。第一部分编码层是提取图像中的特征,形成一幅特征图(Feature Map);第二部分瓶颈层是连接编码层和解码层,相当于桥梁,获取图像中的低频信息;第三部分解码层是将特征图恢复为像素级分类,即语义分割。在编码层和瓶颈层加入残差单元,以获取上下文信息,网络中的卷积模块都包含一个卷积层、批量归一化层(BN)和激活函数(ReLU)。采用批量归一化层可以使数据在激活函数之前不会因为数据过大而导致网络性能的不稳定,有效解决梯度消失或梯度爆炸问题[24]。采用ReLU激活函数能有效减小计算量,增加神经网络各层之间的非线性关系[25]。恒等映射连接单元的输入与输出,由于输入图像在卷积时维度发生变化,所以在进行恒等映射时,输入图像也需要相应的改变维度,本文采用尺寸为1×1,步长为1的卷积核和批量归一化层作为恒等映射函数。

编码层中具有四个残差单元,每个单元中残差函数和恒等映射函数相加之后通过ReLU函数激活,然后通过最大池化层(Maxpool)将特征图尺寸缩小一半,最大池化层能有效减少参数,控制过拟合,提高模型性能,节约计算内存[26]。相应的在解码层包括4个基本单元,利用双线性插值上采样(BilinearUpsampling)和卷积模块进行解码,该方法相较于反卷积方法,在工程上更容易实现,不会涉及过多超参数的设置[27]。同时通过跳跃连接将编码层中的特征信息与解码层中的特征信息进行融合,充分利用语义信息,提高识别准确率。在最后一层解码层之后,使用1×1的卷积和softmax激活函数实现果园环境的多分类识别。本文中的网络模型共有25个卷积层和4个最大池化层,网络模型的结构图如图3所示。

图3 深度残差U型网络模型结构

2.3 损失函数

分割网络训练时,将需要训练的图像经过分割网络得到分割图像S(Xn),S(·)为分割网络模型,Xn为输入图像。分割图像S(Xn)与相对应的标签图Yn相比较,通过损失函数最小化使得输入图像通过分割网络得到的分割图像接近于原始标签图,保证分割网络能够产生精确的预测且具有较好的鲁棒性。本文中将采用标准交叉熵损失函数(Cross-Entropy Loss)作为损失函数,交叉熵损失函数的作用为检测两个分布,即分割图像S(Xn)和标签图Yn之间的区别,并且对于最后一层权重的梯度不再跟激活函数的导数相关,权重矩阵的更新会加快,收敛也更快[28]。交叉熵损失函数的表达式为:

(3)

式中:Lce表示交叉熵损失函数;Yn表示标签图(Ground Truth,GT);Xn表示输入图像;S(·)表示分割图像;h、w、c表示图像的高度、宽度和通道数。

3.1 实验实施细节

根据上文所提出的深度残差U型网络模型,使用深度学习框架PyTorch搭建果园环境识别分割模型。训练图像共有4 313幅,尺寸为1 024×512,这些训练图像是从原始数据集中随机选取,且在训练时打乱顺序,随机训练。实验的硬件环境为英特尔酷睿I7 9700K 8核处理器,显卡采用GeForce RTX 2070,显存容量为8 GB。

模型在训练过程中,根据损失函数最小化原则,不断动态调整网络模型参数,随着训练的深入,模型容易陷入局部最小值问题,为了解决这个问题,本文采用均方根反向传播优化算法(RMSProp)[29]。一般的随机梯度下降算法(SGD)对于模型的每一个参数都是用相同的学习率进行更新,而均方根反向传播优化算法则是引入衰减系数,对不同的参数采用动态调整的学习率,让目标函数更快地收敛,加快训练速度。均方根反向传播优化算法中的初始学习率设置为0.4,权重衰减系数为10-8。训练时,数据加载的批量大小为8,迭代次数为300,每次迭代记录损失函数数值。

3.2 评价指标

如何评价网络模型的好坏,需要评价标准来评判。语义分割的评价标准主要有三个,分别为执行时间、内存占用比和准确度。其中准确度是将人工标注图作为基本标准,将分割网络的预测图与之比较,通过计算预测图与真实标注图的像素误差进行评判。

假定一共有k+1类(k个目标类别和1个背景类),pij表示本属于i类却预测为j类的像素点总数。具体地,pii表示正确预测,pij和pji都表示错误预测。一般的评价指标有以下几种:

(1) 像素准确率(Pixel Accuracy,PA)。计算分类正确的像素点数和所有的像素点数的比例,公式为:

(4)

(2) 平均像素准确率(Mean Pixel Accuracy,MPA)。计算每一类分类正确的像素点数和该类的所有像素点数的比例然后求平均,公式为:

(5)

(6)

在以上的标准中,运用最多的是平均交并比,由于最具代表性,且简单易行,许多竞赛以及研究者使用该指标来报告其结果[30],本文采用像素准确率和平均交并比作为不同类别分割和整体网络模型的评价指标。

3.3 实验结果与分析

深度残差U型网络模型训练时,每迭代5次保存一次模型,在所有模型中选取平均交并比最高的模型作为测试模型。为了验证所提出的网络模型的优越性,将其和全卷积神经网络模型,U型网络模型进行比较。图4至图6为3种网络模型每次迭代训练的损失值和平均交并比,表2为类别分割最高像素准确率和最高平均交并比。

图4 全卷积神经网络迭代损失和平均交并比

图5 U型网络迭代损失和平均交并比

图6 深度残差U型网络迭代损失和平均交并比

表2 不同网络模型语义分割结果(%)

从图4至图6可以发现,三种网络在经过一定次数的迭代训练后损失值减小,平均交并比提高,这说明三种网络模型都是可实现语义分割,没有出现训练时梯度消失或爆炸。从训练效果来看,全卷积神经网络出现浮动幅度较大且频率较高,大约在迭代100次之后,损失值和平均交并比趋于稳定,但浮动区间较大。全卷积神经网络舍弃全连接层,采用反卷积实现语义分割,在识别果园这种复杂环境下,网络参数较多,对图像中的细节不敏感,结果模糊,训练时间长。图5的U型网络训练效果较全卷积神经网络有明显改善,在迭代60次左右,网络趋于稳定,U型网络中采用上采样的方式将特征图进行映射,大大减小网络参数;但前期训练过程中仍有波动,这是由于网络深度不足,在训练时对于图像中不同类别的边界区分能力不足。图6的深度残差U型网络训练效果明显优于前两种网络,在训练前期无明显波动,在迭代40次左右之后,损失值和平均交并比变化较小,整体训练时间短且稳定。深度残差U型网络采用U型网络结构,但在编码层中加入残差块,融合图像前后特征信息,更好地处理图像边界信息,在解码层加入跳跃连接,增加约束条件,减小网络参数。三种网络中,深度残差U型网络的损失值最低,平均交并比最高,训练效果最好。

从表2可知,在果园环境的类别分割中,三种语义分割网络模型对背景和可行驶道路的像素识别准确率较高,而对于果树和杂物的识别准确率都有所下降。本文提出的深度残差U型网络的平均交并比为83.3%,高于前两种网络模型,在果园环境识别中取得较好效果。

图7是三种网络模型在测试数据集中随机选取的语义分割预测效果图。全卷积神经网络模型生成的分割图相比其他两种网络模型存在以下不足:一是分割类别中有部分区域丢失,对于小物体,如细小的树枝不能识别;二是对于大面积区域的分割,边界细节信息处理能力不足,如图中可行驶道路边界分割不够清晰。产生这样的结果是由于全卷积神经网络模型在解码过程中使用反卷积,该方法虽然简单易行,但是会造成暴力池化,分割图像模糊,对图像中类别的边界细节不敏感,缺乏空间一致性。U型网络模型生成的分割图相比于全卷积神经网络模型,平均交并比有所提高,分割效果图更好。但是对于类别相交叉重叠部分,分割出的类别特征差异不明显,重叠部分的边界较粗糙,容易丢失交叉覆盖区域,例如果树与杂物交叉部分的细节信息。对于果园这种复杂环境,每种类别的差异较大,U型网络由于深度不足,每种类别的细节信息不能充分利用,在训练过程中产生过拟合。基于深度残差U型网络的果园环境识别模型,在分割结果图中可以看出,在大区域和小区域类别分割中,类别的边界信息都能更好体现,尤其是在每种类别的相交处和细小的树枝部分,边界细节的分割更优,整体的识别准确率比前两个分割网络模型更高。在保留U型网络模型基本结构的同时,加深网络深度,除了跳跃连接,发挥残差网络短连接的优势,将不同层次的语义特征信息进行融合,提高网络模型对不同类别边界细节信息的处理。

(a) 采集图 (b) 标注图 (c) 全神经网络分割图 (d) U型网络分割图 (e) 深度残差U型网络分割图图7 不同网络模型语义分割预测图

综上所述,本文提出的基于深度残差U型网络模型能有效地提高果园环境识别精度。对于复杂的果园环境,不同的类别能准确分割;对于天气光线的变化,分割模型能表现出较好的鲁棒性。因此,本文提出的深度残差U型网络模型能够作为果园环境识别的语义分割模型。

基于视觉的果园环境的识别,通过对果园环境信息的采集,构建深度残差U型网络,实现对果园环境的识别。本文主要工作包括以下几点:

(1) 通过对桃园环境的数据采集,制作语义分割数据集,并利用数据增强技术,扩大数据量,为分割模型提供必备的数据集;

(2) 分析残差网络和U型网络的特点,结合实际果园环境识别需求,构建深度残差U型网络分割模型;

(3) 将全卷积神经网络、U型网络和深度残差U型网络进行对比实验,从实验结果可知深度残差U型网络分割准确率优于其他两种网络。

基于深度残差U型网络的语义分割模型在实际果园环境识别中表现出较高的识别准确度和较强的鲁棒性,能够为园艺拖拉机在果园中的自主作业提供环境感知。同时该方法也存在不足,例如:制作数据集中,需要大量标注,耗时耗力;在训练过程中,消耗较多的显卡内存;预测分割图的后处理优化不足等。下一步工作将围绕这些不足展开,进一步提高模型识别精度。

猜你喜欢残差果园语义天、空、地一体化“未来果园”看一下今日农业(2022年16期)2022-09-22基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23秋天的果园快乐语文(2021年27期)2021-11-24基于残差学习的自适应无人机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14语言与语义开放教育研究(2020年2期)2020-03-31呼噜猪的大果园阅读(低年级)(2019年9期)2019-11-15基于递归残差网络的图像超分辨率重建自动化学报(2019年6期)2019-07-23我家果园丰收了小学生作文(低年级适用)(2017年9期)2017-10-13“上”与“下”语义的不对称性及其认知阐释现代语文(2016年21期)2016-05-25平稳自相关过程的残差累积和控制图河南科技(2015年8期)2015-03-11

推荐访问:果园 深度 识别