基于随机森林回归分析的岩体结构面粗糙度研究

时间:2023-06-13 18:20:04 公文范文 来源:网友投稿

李文斌,冯文凯,胡云鹏,周永健,陈 凯,刘 云

(1.地质灾害防治与地质环境保护国家重点实验室(成都理工大学), 四川 成都 610059;
2.河南新华五岳抽水蓄能发电有限公司, 河南 信阳 465450)

岩体是由岩石和结构面组成的复杂不连续介质,结构面的存在破坏了岩体的完整性,导致岩体结构变得复杂,控制着岩体的力学性质。岩体的变形破坏大多为沿结构面发生的剪切破坏,因此快速准确确定结构面抗剪强度在岩土工程领域具有重要的研究意义。Barton[1]1973年提出岩体结构面的表面形态极大程度上影响着岩体的强度,通过研究一系列表面形态不同的结构面,提出结构面粗糙度系数(joint roughness coefficient,JRC)的概念,推导出 JRC-JCS(joint compression strength,JCS)模型,给出结构面抗剪强度经验公式;
并于1977年在一系列直剪试验的基础上,选择出10条粗糙度位于0~20之间的曲线作为标准轮廓曲线,对比标准轮廓曲线可以评估结构面的粗糙度[2]。对比评估得到的结果用于JRC-JSC模型,可快速确定结构面的峰值抗剪强度,国际岩石力学学会收录并推广了这种方法[3]。

实际结构面轮廓曲线对比标准轮廓曲线得到的JRC,其结果受影响较多,极大程度上取决于实际结构面曲线量测精度以及对比者的经验,精度难以保障。JRC估算误差较大,对确定结构面峰值抗剪强度有很大的影响[4]。因此大量学者对JRC进行了许多研究,定量研究成果主要集中在统计参数法[5−12]、分形维数法[13−14]及直边图解法[14−15]。其中通过统计粗糙度参数确定结构面粗糙度的方法操作简洁,人为主观因素干扰最少。研究学者从统计结构面轮廓曲线粗糙度参数入手,取得大量研究成果,结构面轮廓曲线粗糙度描述参数主要包括起伏幅度、起伏角及迹长长度。Tse等[5]、Yang等[6]定量确定10条标准轮廓曲线的粗糙度描述参数,建立标准轮廓曲线坡度均方根、结构参数与JRC的关系公式;
Yu等[7]、孙辅庭等[8]采用不同间距统计标准轮廓曲线的粗糙度参数,建立不同采样间距下JRC与标准轮廓曲线坡度均方根、结构参数的关系式;
Zhang等[9]、吉锋[10]综合标准轮廓曲线标准轮廓曲线坡度均方根、结构参数、相对起伏度和伸长率等统计参数共同表征标准轮廓曲线JRC。然而由于结构面轮廓曲线天然发育的复杂性,单一参数或少量参数不能完全反映结构面粗糙度的全部特性,且各类参数在量化表征中的相互关系也比较复杂,采用传统线性回归方法,选取一个统计参数或少量统计参数进行回归分析,得到的结果具有一定的片面性。

近年兴起的机器学习,可以从数据中学习数据规律[16]。随机森林模型是一种基于决策树的学习模型[17−18],其核心算法是通过重复抽样的方法减少变量共线性带来的预测误差,且训练过程中能够生成变量重要性评分,对变量进行特征选择,确定影响结果的主要特征变量。随机森林模型具有计算速度快、结果准确等特点,在小运算量的情况下有着较高的预测精度,模型准确率相较于其他一般线性回归方法往往更高,在解决结构面JRC与统计参数之间的多元非线性问题上具有优势。但目前鲜有学者针对结构面轮廓曲线量化表征方法方面开展研究,也缺少相应的适用性验证。

本文选取已知JRC的结构面轮廓曲线,统计多项参数。选取结构面粗糙度量化表征中关键统计参数,建立随机森林模型,预测结构面轮廓曲线JRC,探索随机森林模型量化结构面轮廓曲线JRC的可行性,在量化表征结构面JRC研究上提供新的可行方法。

1.1 随机森林算法

随机森林算法是一种基于决策树的集成学习算法,集合特征随机选取思想及集成思想,以决策树为基础的组合分类器[19],采取自助法进行有放回抽样并生成训练子集,保证N次随机抽样生成N个大小一致的训练子集。

每个训练子集单独构建各自的决策树,决策树的构建包括节点分割以及随机特征变量的随机选取两个过程。节点分割基于分裂规则比较信息属性,选择最优比较结果的信息属性生成子树,实现决策树的生长。随机特征变量产生常用随机选择输入变量方法,随机选取信息属性进行节点分割。训练子集的随机选取以及节点属性的随机选取保证随机森林的随机性,避免模型陷入过拟合及局部过优的困境,最终选取N个决策树回归预测结果的平均值作为最终预测值。

1.2 粗糙度描述参数及数据预处理

1.2.1 描述参数

岩体结构面形态复杂多变。大量研究结果表明,岩体结构面剪切强度参数随结构面起伏角的增大而增大[20−21],若只选取结构面起伏角作为变量与粗糙度值建立回归关系,那么回归关系无法区分图1中具有相同起伏角的轮廓曲线1、2;
Zhang等[9]的研究指出仅考虑轮廓曲线起伏角无法解决这个问题,还需考虑结构面起伏度的影响;
仅考虑结构面起伏度影响,又无法区分轮廓曲线2、3。陈世江等[22]研究认为结构面起伏度、起伏角主要表征一阶起伏体的影响,结构面粗糙度的表征还需考虑二阶起伏体的影响,轮廓曲线迹线长度可表征结构面二阶起伏体的影响,同时考虑一阶、二阶起伏体的影响可更加全面表征结构面粗糙度。

图1 不同特征结构面轮廓曲线Fig.1 Profile curves of different feature structure faces

为定量表征结构面粗糙度值,基于结构面起伏角、起伏度及迹线长度3个方面选取8个结构面描述参数,相应计算公式如下:

(1)起伏角(iave)

式中:L——结构面轮廓曲线直线长度/m;

yi——结构面离散点纵坐标;

N——数据点个数。

(2)起伏角标准差(SDi)

式中:xi——结构面轮廓曲线离散点横坐标。

(3)坡度均方根(Z2)

式中:∆x——离散点间距/m。

(4)结构函数(SF)

(5)平均相对起伏度(Rave)

(6)起伏高度标准偏差(SDh)

式中:have——离散点yi的平均值。

(7)最大起伏度(Rmax)

式中:ymax——结构面轮廓曲线离散数据y坐标最大值;

ymin——结构面轮廓曲线离散数据y坐标最小值。

(8)粗糙度剖面指数(Rp)

1.2.2 数据来源

为进行结构面粗糙度量化表征,收集已知JRC的结构面轮廓曲线数据进行模型训练。文献[23]正文提供了102条已知粗糙度值的结构面轮廓曲线离散数据,离散数据采样间距为0.4 mm,并对Barton提出的10条标准轮廓曲线以0.4 mm采样间距数字化,共收集112条已知粗糙度值轮廓曲线。基于112条轮廓曲线离散数据,统计上文中提到的8个粗糙度描述参数值,建立随机森林模型数据库,进行下一步的模型训练和预测,样本轮廓曲线粗糙度见图2。

图2 样本轮廓曲线JRCFig.2 JRC value of the sample profile curve

1.2.3 数据预处理

不同粗糙度描述参数取值范围和量纲都不相同。为加快训练速度,采用归一化处理方式进行预处理,处理后可缩小每个参数之间的数量级差别,确保参数取值范围为[0,1],并可减小计算误差,提高模型训练速度。最大最小法是归一化处理中最实用的方法,因此本研究选用该方法:

式中:x"——归一化后数据;

x——原始数据;

max(x)——每个参数的最大值;

min(x)——每个参数的最小值。

采用最大最小法将粗糙度描述参数进行归一化,结果见图3。

图3 归一化后统计参数分布图Fig.3 Distribution of statistical parameters after normalization

2.1 描述参数重要性和特征结果选择

结构面粗糙度量化表征共选取8个统计参数,统计参数与粗糙度相互关系不明确,参数之间可能存在共线性,造成模型精度降低,误差变大。因此对输入变量进行重要程度刻画,采用交叉验证估计输入变量的重要性,通过打乱样本中某一特征的特征值顺序,计算特征对模型准确率的影响。特征重要程度越高对模型准确率影响越大,特征重要性由精度下降程度进行度量,以此得到表1各变量重要性评分。

表1 结构面粗糙度统计参数重要性评分Table 1 The importance score of the discontinuity roughness statistical parameters

由表1可看出8个统计参数重要性依次为Rmax、SDh、iave、SDi、Rave、Rp、SF及Z2。其中Rp、SF及Z2三个变量重要性均小于0.05,说明三者对模型预测影响程度极低,而Rmax、SDh、iave、SDi及Rave等变量重要性之和仅为0.888,未能在极大程度上解释结构面粗糙度。因此按照特征变量重要程度,依次选取不同数量特征变量,进行特征变量数目寻优,结果见图4。

图4 不同数量特征变量对拟合系数的影响Fig.4 Effect of different quantitative feature variables on the fitting coefficients

由图4可知,按特征变量重要程度,选取6个特征变量进行反演时,拟合系数趋于稳定。若选用7个变量参与模型回归,将增加模型运算量,降低模型运算速度。因此选择Rmax、SDh、iave、SDi、Rave、Rp作为模型回归的输入变量进行回归反演。

2.2 模型参数确定

原始数据集包含112条结构面轮廓曲线。轮廓曲线长度从72 mm至119.6 mm不等,为保证随机性,将原始数据集按照0.7∶0.3的比例随机分为训练数据集(80个)与预测数据集(32个)两部分,训练集用于训练回归模型,预测集用于模型精度验证。

机器学习超参数为模型外部变量设置。随机森林模型超参数包括构成森林的决策树数目(ntree)及参与节点分割的数目(mtry)。ntree值增加,随机森林模型误差随之减小,减小至固定值,但决策树数量过多,会耗费大量时间,浪费模型运行时间,因此进行决策树数目ntree的寻优。回归分析中mtry值通常默认为输入特征数目的1/3,因此本文研究中mtry值取2。基于python语言编程,建立随机森林模型,分别设定ntree值为50,100,200,400,分析得到不同ntree数量时拟合系数值R2。由图5可知,ntree值在200~300范围内,拟合系数R2仍有较大波动;
ntree在300~400范围时,拟合系数R2趋于稳定,无较大波动出现;
因此综合考虑设定模型ntree值为 400。

图5 不同ntree时值时拟合系数变化Fig.5 Changes in fitting coefficients with different ntree values

2.3 模型结果分析及精度对比

选取关键特征变量SDh、Rmax、iave、SDi、Rp、Rave作为输入变量。模型超参数ntree值设置为400,mtry值为2,随机森林模型预测结果如图6所示。

图6 随机森林模型预测结果Fig.6 Random forest model predictions

由图6预测结果可知,预测样本与实际值误差大多小于1,只有个别预测误差较大,误差值小于1的预测样本占比为93.75%。预测误差较大的2组样本分别为第12条和第64条轮廓曲线,其真实值分别为17,14.9。而在训练集中JRC大于14.9的样本仅占比10%,训练样本量较小,因此,随机森林模型预测结果发生较大误差。而在JRC小于14.9的预测集中,随机森林预测结果误差均小于1。

随机森林模型随机划分训练集和预测集,112条原始样本中JRC小于14.9的样本占比达90%。随机抽取的训练集中小JRC样本较多,大JRC样本较少。因此随机森林模型在JRC小于15的预测集中预测效果良好,在JRC大于15预测样本中效果较差。

为评价模型预测误差及精度,采用均方根误差(RMSE)、均方误差(MSE)及拟合优度(R2)对模型预测结果评价,三者计算定义如下:

式中:yi——数据测试集真实值;

为验证随机森林构建模型精度,对比传统线性回归方法所构建模型,选取Z2、SF、Rp等统计参数,参考Xu等[7]研究结果中线性回归方程对随机森林预测集进行回归反演,预测结果如图7所示。

图7 各模型预测结果Fig.7 Predictions for each model

对不同模型预测结果进行误差分析,结果见表2。从拟合优度来看,随机森林(RF)、SF、Rp及Z2精度呈现递减趋势,均方根误差、均方误差呈现递增趋势,表明随机森林模型预测精度远高于传统线性回归方程,更适用于结构面粗糙度预测。

表2 各模型预测精度Table 2 Predictive accuracy for each mode

从预测结果来看,Xu等[7]研究成果基于10条标准轮廓曲线,具有一定的局限性。应用于随机森林预测集选取的轮廓曲线时存在预测结果较差,个别预测结果超出JRC取值范围的问题,适用性较小,应用效果较差。

(1)从结构面起伏角、起伏度及迹线长度3个方面出发,共统计8种结构面轮廓曲线统计参数。基于随机森林模型对8种统计参数进行重要性评分,结合不同数量下特征变量拟合系数的变化规律,挑选出Rmax、SDh、iave、SDi、Rave和Rp等 6 个关键特征变量进行随机森林模型构建,提高模型计算精度及运算速度。

(2)采取交叉验证的方法,以拟合系数为评估标准。当随机森林模型ntree数值在300~400之间时,拟合系数趋于稳定,确定随机森林模型进行粗糙度值反演时,ntree可取400做为模型计算最优超参数。

(3)随机森林模型回归结果表明,进行特征变量选择,ntree数值为400时,模型最佳拟合优度可达0.981。进行特征变量选择后的随机森林回归模型对比传统线性回归模型,模型均方根误差、均方误差均有降低,拟合优度更高,随机森林算法更适用于结构面粗糙度预测,估算结构面峰值抗剪强度。

猜你喜欢轮廓粗糙度森林OPENCV轮廓识别研究与实践装备制造技术(2020年1期)2020-12-25基于无人机影像的岩体结构面粗糙度获取甘肃科技(2020年20期)2020-04-13基于实时轮廓误差估算的数控系统轮廓控制制造技术与机床(2019年11期)2019-12-04冷冲模磨削表面粗糙度的加工试验与应用模具制造(2019年4期)2019-06-24高速公路主动发光轮廓标应用方案设计探讨中国交通信息化(2017年4期)2017-06-06哈Q森林作文大王·笑话大王(2017年1期)2017-02-21基于BP神经网络的面齿轮齿面粗糙度研究制造技术与机床(2017年12期)2017-02-02钢材锈蚀率与表面三维粗糙度参数的关系材料科学与工程学报(2016年2期)2017-01-15哈Q森林作文大王·笑话大王(2016年10期)2016-10-18哈Q森林作文大王·笑话大王(2016年7期)2016-08-08

推荐访问:随机 回归 森林