BP神经网络和随机森林预测土壤有机质模型研究

时间:2023-08-14 18:30:01 公文范文 来源:网友投稿

陈道坤 周海 华红梅 孙远 何涛 胡翩

摘要 为提高土壤有机质(SOM)含量预测精度和模型的适用性,提出了1种随机森林回归(RFR)和BP神经网络结果加权融合模型(BP-RFR),对土壤有机质含量进行预测。选取陕西安康盆地研究区40个样点数据,对比分析RFR、BP神经网络和BP-RFR模型预测效果,使用决定系数([R2])、平均绝对百分比误差(MAPE)和均方誤差(MSE)来评估模型性能。结果表明,BP-RFR、BP和RFR 模型三者预测值与实测值的决定系数([R2])分别为0.954 5、0.951 4、0.933 5,MAPE分别为0.037 7、0.045 1、0.091 8,MSE分别为1.837 7、1.961 1、2.686 8。综合分析可知,BP-RFR模型预测精度效果优于BP神经网络、随机森林回归(RFR)模型,因此结果加权融合模型(BP-RFR)能够用于土壤有机质含量的预测。

关键词 土壤有机质;
随机森林;
BP神经网络;
结果加权融合

中图分类号 S156.8   文献标识码 A

文章编号 1007-7731(2023)10-0124-05

BP neural network and random forest to predict the accuracy of soil organic matter

CHEN Daokun ZHOU Hai HUA Hongmei   SUN Yuan1   HE Tao HU Pian

(1School of Earth and Environment, Anhui University of Science & Technology,Huainan Anhui 232001;

2Xi"an Center of Mineral Resources Survey, China Geological Survery, Xi"an Shaanxi 710100;

3Civil-military Integration Center of Geological Survey, China Geological Survey, Chengdu Sichuan 610036)

Abstract To improve the accuracy of soil organic matter content (SOM) prediction and the applicability of the model in improving the accuracy of prediction, a multiple regression model was established to analyze soil organic matter to obtain better prediction accuracy. Data from 40 sample sites in the study area of the Ankang Basin were selected for comparative analysis of random forest regression (RFR), BP neural network and weighted fusion model (BP-RFR), and the performance of the model was evaluated using the coefficient of determination ([R2] mean absolute percentage error (MAPE) and mean square error (MSE). The results showed that the determination coefficients [R2]) of the predicted and measured values of BP-RFR, BP and RFR models were 0.954 5, 0.951 4 and 0.933 5, respectively, MAPE was 0.037 7, 0.045 1 and 0.091 8, MSE was 1.837 7, 1.961 1 and 2.686 8. Comprehensive analysis showed that the prediction accuracy of BP-RFR model was higher than that of BP neural network, followed by random forest regression (RFR) model. Therefore, the weighted fusion of results can improve the overall prediction accuracy of the model.

Keywords soil organic matter; random forest; BP neural network; results weighted fusion

近年来,随着人工智能技术的快速发展,国内外众多学者广泛使用机器学习方法与SOM含量预测相结合,如随机森林(RF)、BP神经网络、支持向量机(SVM)等方法来进行预测研究[1-2]。机器学习原理是对象及其相互关系的数学表示,其中随机森林(RF)是由决策树发展而来的一种自然的非线性建模工具,计算效率高具有对多元共线性不敏感易克服过度拟合等特点,能够准确刻画变量间的非线性关系[3]。杨煜岑等[4]运用RF对陕西省周至县农耕区进行土壤SOM进行预测,其预测结果相关系数为0.782。BP神经网络作为成熟有监督的机器学习算法具有操作简单、可塑性好的优点,但是BP神经网络是基于最速下降法或者拟牛顿法,因而会不可避免会导致陷入全局最优或者过度拟合等缺点[5]。杨文静等[6]使用BP神经网络对青藏高原土壤养进行评价得出模型R2效果较好。单一模型存在不同的缺陷,但也具有各自的优势,模型间不是相互间对立排斥,而是相互联系和补充的。因此,有学者通过适当的方式将单一的模型进行融合,充分利用各模型的优势来提高模型的预测精度和可靠性,如国佳欣等[7]采用PLSR-BP复合模型对红壤有机质含量进行反演,其结果表现优于单一模型精度。

本研究以陕西安康盆地土壤SOM含量为研究对象,基于实测样品化验数据,运用BP神经网络和随机森林并将其结果加权进行模型融合方法来对土壤有机质含量预测,根据模型预测结果对融合模型预测效果进行评价,为模型的可行性提供参考。

1 材料与方法

1.1 数据来源与预处理

样点布设依据DZ/T 0295—2016《土地质量地球化学评价规范》,按照1∶50 000布设采样点,共设计采样点位40个,采样深度为0~20 cm。并在每个采样点20~50 m附近进行“X”型多点等量混合采样组合成一件样品,样品采集后自然晾干,剔除树枝、根系、石块、虫体等杂质,过10~60目钢筛后采用四分法混合留取做好标记保存装入样品瓶。土壤pH值采用上海雷磁仪器厂PHS-3C酸度计测定;
全氮和铵态氮、硝态氮测定分别使用凯氏定氮法和比色法;
采用日本岛津制造ICPS-7500型电感耦合等离子体发射光谱仪测定土壤全磷、全钾;
使用日本岛津制造UV-2600紫外可见分光光度计测定土壤全硫、硫化物;
采用日本岛津制造AA-7000型原子吸收分光光度计测定土壤有机质和腐殖质。土壤各参数测定结果均符合相关标准方法的质量控制与要求。

为预防化验结果原始数据集具有一定的分布规律,将数据集随机打乱,使得训练集和测试集的每一部分数据比较有代表性,模型学习曲线平滑,数据集随机打乱可防止模型过拟合,提高模型的泛化能力。40个样品数据以8∶2的比例划分训练集和测试集,将pH、全氮、全磷、全钾、全硫、硫化物、铵态氮、硝态氮、腐殖质共9个参数作为模型的输入参数,有机质作为模型的输出参数。

归一化方法泛指把数据特征转换为相同尺度的方法,是一种无量纲处理手段,简化计算,缩小量值的有效办法。能够使训练误差达到最小,提高计算过程的收敛速度。对训练数据进行最大最小值归一化处理,处理后的变量取值范围为[0,1]之间,其计算公式如下:

1.2 模型建立

1.2.1 BP神经网络。BP神经网络是1种按照误差逆向传播算法训练的多层前馈神经网络,具有任意复杂的模式分类能力和优良的多维函数映射能力而被广泛运用。本研究以Python为编程软件,BP神经网络隐藏层过多会导致模型复杂化,出现过拟合问题。3层网络结构能很好地满足研究需求,所以本研究建立由输入层、隐藏层和输出层构成的3层BP神经网络结构。输入层节点数为9个,输出层系节点数为1。隐藏层节点数的过多或过少都会影响模型的预测效果,当神经网络选择合适的节点,可获得更优的预测效果。最佳隐藏层节点数计算公式如下:

1.2.2 机器学习模型构建。基于预处理的数据集通过构建支持向量回归机(SVR)、K近邻(KNN)、决策树(DT)、随机森林回归(RFR)、Lasso回归模型。运用训练数据集训练机器学习模型从中选择最优模型。

1.2.2.1 支持向量回归机(SVR)。支持向量回归机(SVR)是支持向量机(SVM)的重要应用分支,是一种在高维特征空间中构建线性决策函数的新型学习方法[8]。SVR回归是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。该模型是基于结构风险最小化的原理,能够快速处理小样本问题和非线性问题,能够使建立的模型与实际情况间的偏差和错误概率最小。

1.2.2.2 K近邻(KNN)。K近邻(KNN)核心算法思想为如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别[9]。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。使用KNN计算某个数据点的预测值时,模型会从训练数据集中选择离该数据点最近的k个数据点,并且把他们的y值取均值,把该均值作为新数据点的预测值。

1.2.2.3 决策树(DT)。决策树(DT)算法是使用逼近离散函数值的思想,决策树回归就是根据特征向量来决定对应的输出值[10]。该模型简单直观,生成的决策树很直观, 对于异常值的容错能力好,健壮性高等特点。

1.2.2.4 随机森林回归(RFR)。隨机森林回归(RFR)是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。它通过对原始数据的随机抽取多个样本形成子数据,每个子数据集进行决策树建模组合成多个决策树的预测模型,最后根据各个决策数模型的平均值来获得最终预测结果[11]。

1.2.2.5 Lasso回归。Lasso通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为0[12],因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso对于数据的要求是极其低的,具有很强的解释力。

1.2.3 模型融合。模型融合是将多个训练模型按照一定的方法进行集成,这种方式具有构成简单,易于理解,增强模型效果等特点。模型融合的集成方法分为平均法、投票法、学习法。本研究使用平均法进行融合,根据各个模型的结果表现分配不同的权重,来改变其对最终结果的影响大小。结果加权融合具有容易理解、简单高效和效果突出的特点,结果加权融合模型的预测能力强于单个模型。其计算公式如下:

1.3 模型效果评价指标

为了评估BP神经网络、随机森林(RF)以及结果加权融合模型(BP-RFR)的预测效果,本研究采用决定系数([R2]),平均绝对百分比误差(MAPE)和均方误差(MSE)来衡量实测值与预测的一致性[13]。

2 结果与分析

2.1 机器学习模型选择

通过样本数据集来构建5种机器学习算法,来测试机器学习模型效果。这5种机器学习模型如下:支持向量机(SVR)、K近邻(KNN)、决策树(DT)、随机森林回归(RFR)、Lasso回归。每个模型得到均方差结果如图2所示。

通过对比各模型均方误差,发现随机森林回归(RFR)模型表现出最佳MSE,这样有利于和BP神经网络进行模型融合,提高模型的预测性能。

2.2 模型效果对比

使用公式(3)将BP神经网络和随机森林(RFR)进行预测结果直接加权组成BP-RFR模型。通过对比BP、RFR和BP-RFR模型对土壤有机质进行预测,3种模型土壤有机质预测值与实际值的决定系数(R2)、平均绝对百分比误差(MAPE)和均方误差(MSE)进行误差分析判断模型预测能力如表2所示。

通过模型对比分析,BP-RFR模型要明显优于BP神经网络和随机森林回归(RFR)对土壤有机质预测。BP神经网络预测SOM结果与RFR模型相比的MAPE和MSE分别下降了0.046 7、0.725 7,决定系数(R2)提升了0.017 9。BP-RFR模型预测SOM结果与BP神经网络模型相比的MAPE和MSE分别下降了0.007 4、0.123 4,决定系数(R2)提升了0.003 1。3种模型预测结果表明,BP-RFR模型在预测误差、模型拟合度均优于BP神经网络和随机森林回归(RFR)模型,能够更好地捕捉自变量与SOM含量复杂的非线性关系。将各模型的预测结果进行反归一化处理,将预测值映射回原来的量纲中。从图3可以看出,BP神经网络模型个别点预测值能够较好接近实测值,但BP-RFR模型整体上的预测值更加接近实测值,强于BP神经网络提高了模型的整体预测性能。

3 结论

本文构建单一模型(RFR、BP)和结果加权融合模型(BP-RFR)预测SOM含量,比较分析各模型的预测精度,得出如下结论:BP-RFR模型预测精度最高,表现为决定系数([R2])为0.954 5,平均绝对百分比误差(MAPE)和均方误差(MSE)分别为0.037 7、1.837 7,均优于单一模型。因此,可采用结果加权融合模型(BP-RFR)來预测土壤有机质的含量。

4 致谢

感谢中国地质调查局西安矿产资源调查中心田辉对本研究的样品数据支撑,在此对“南水北调汉中流域陕西段水生态修复支撑调查”项目组成员一并致谢。

参考文献

[1] HUANG D Y,LIU H T,ZHU L,et al. Soil organic matter determination based on artificial olfactory system and PLSR-BPNN[J]. Measurement Science and Technology,2021,32(3):035801.

[2] 张鑫,杨超,刘洪斌,等. 基于机器学习的植烟区土壤有机质和全氮含量预测[J]. 烟草科技,2022,55(8):20-27.

[3] ZHANG H,WU P B,YIN A J,et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China:A comparison of multiple linear regressions and the random forest model[J]. Science of The Total Environment,2017,592:704-713.

[4] 杨煜岑,杨联安,任丽,等. 基于随机森林的农耕区土壤有机质空间分布预测[J]. 浙江农业学报,2018,30(7):1211-1217.

[5] 韩磊,李锐,朱会利. 基于BP神经网络的土壤养分综合评价模型[J]. 农业机械学报,2011,42(7):109-115.

[6] 杨文静,王一博,刘鑫,等. 基于BP神经网络的青藏高原土壤养分评价[J]. 冰川冻土,2019,41(1):215-226.

[7] 国佳欣,赵小敏,郭熙,等. 基于PLSR-BP复合模型的红壤有机质含量反演研究[J]. 土壤学报,2020,57(3):636-645.

[8] 陈思明,王宁,秦艳芳,等. 基于特征变量与支持向量机回归克里格(SVRK)法的湿地土壤有机质空间变异特征分析[J]. 土壤,2020,52(6):1298-1305.

[9] 毋雪雁,王水花,张煜东. K最近邻算法理论与应用综述[J]. 计算机工程与应用,2017,53(21):1-7.

[10] 杨学兵,张俊. 决策树算法及其核心技术[J]. 计算机技术与发展,2007,17(1):43-45.

[11] 方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.

[12] RANSTAM J,COOK J A. LASSO regression[J]. British Journal of Surgery,2018,105(10):1348.

[13] CHICCO D,WARRENS M J,JURMAN G. The coefficient of determination R-squared is more informative than SMAPE,MAE,MAPE,MSE and RMSE in regression analysis evaluation[J]. PeerJ. Computer Science,2021,7:e623.

(责编:张宏民)

猜你喜欢随机森林BP神经网络随机森林在棉蚜虫害等级预测中的应用安徽农学通报(2017年1期)2017-02-15基于二次随机森林的不平衡数据分类算法软件(2016年7期)2017-02-07拱坝变形监测预报的随机森林模型及应用南水北调与水利科技(2016年6期)2017-01-06就bp神经网络银行选址模型的相关研究现代经济信息(2016年27期)2016-12-16基于DEA—GA—BP的建设工程评标方法研究价值工程(2016年30期)2016-11-24复杂背景下的手势识别方法数字技术与应用(2016年9期)2016-11-09BP神经网络在软件质量评价中的应用研究 软件导刊(2016年9期)2016-11-07基于随机森林算法的飞机发动机故障诊断方法的研究电脑知识与技术(2016年23期)2016-11-02BP神经网络算法在数值预报产品释用中的应用科技视界(2016年20期)2016-09-29基于随机森林算法的B2B客户分级系统的设计现代电子技术(2015年15期)2015-08-14

推荐访问:神经网络 模型 随机