基于网络爬虫技术的校园网入侵信息跟踪研究

时间:2023-06-15 19:10:03 公文范文 来源:网友投稿

◎张海霞

(广州华南商贸职业学院云智信息技术学院,广州 510000)

校园是学生学习的摇篮和场地,对于学生的教育和培养至关重要。随着现代信息技术的发展,传统校园模式逐渐向着智慧化校园方向转变,各种现代技术手段逐渐应用到校园教学当中[1]。在打造智慧化校园的进程中,校园网是重要的支撑与基石。校园网作为一种局域网,很多重要的软件平台或者信息系统需要依托校园网才能运行。在此背景下,保证校园网安全具有重要的现实意义。智慧校园供师、生、管理人员学习和工作的同时,也给很多不法分子可乘之机[2]。通过入侵校园网能够进入后台,窃取或篡改其中的信息,从而造成巨大的损失。面对这种情况,进行有效的校园网入侵检测与分析十分重要。

目前,关于网络入侵方面的研究有很多。例如,曾宏志,史洪松提出一种基于改进聚类算法的入侵检测方法,首先采集网络入侵数据并进行预处理,然后提取特征,最后基于最小二乘法支持向量机构建分类器并通过蚁群算法对其进行优化,利用优化后的分类器实现网络入侵检测[3]。郭志民,周劼英,王丹等人[4]针对KDD-CUP99 及NSL-KD 网络入侵数据集为对象,提取多维特征并进行特征降维,最后利用Transformer 神经网络模型实现入侵检测。王艺霏,莫爽,吴文睿等人[5]首先采集了网络中的流量数据,然后利用内部一维卷积神经网络提取其内部特征并计算特征之间的相似性,最后利用基于外部卷积神经网络构建的分类器实现入侵检测。

虽然前人所提出的检测方法都能达到入侵检测的目的,但是一旦入侵模式较为多样,检测方法就面临“手忙脚乱”情况,且无法形成入侵路径跟踪。面对这种情况,提出一种基于网络爬虫技术的校园网入侵信息跟踪技术。通过该研究以期提高校园网络安全,提高非法入侵防御能力。

校园网是智慧校园实现的基础和支撑。很多敏感信息都需要通过校园网进行交互与传播,因此一旦校园网被攻陷,被不法分子入侵成功,将极易造成信息窃取。面对这种情况,设计基于网络爬虫技术的校园网入侵信息跟踪方法[6]。该研究主要分为三部分,即校园网入侵信息采集、校园网入侵信息特征提取以及校园网入侵跟踪。下面针对这三个部分进行具体分析。

1.1 基于网络爬虫技术的校园网入侵信息采集

进行校园网入侵信息跟踪的前提是获取能够反映入侵迹象的基础数据,也可以说是入侵检测的信息源,这一点对于后续研究至关重要[7]。数据流信息源类型多样,其中操作系统的审计记录、网络数据包、应用程序日志、网络流量等四种最为常用。在本研究当中,利用网络爬虫技术采集校园网网络数据流,具体过程如下:

(1)确定待爬虫对象,也就是校园网;

(2)初始化URL 队列,将种子URL 分布到对象校园数据流后台网页上;

(3)爬取网页;

(4)将URL 对应的网页下载下来,获取网络数据流信息源文档;

(5)对网络数据流信息文档进行解析,得到网络数据流信息;

(6)由于是从不同网页上爬取的网络数据流信息,因此网络数据流类型不同,相应的在格式上存在差异。为方便同步利用,需要构建一个格式转换器,进行格式转换。转换器表达式如下:

式中,Ai代表第i 个网络数据流信息格式;
代表第i 个网络数据流信息的原格式;
B 代表网络数据流信息链接的数量;
a 代表网络数据流信息的阻尼系数;
t0、t1分别代表网络数据流信息爬取的开始时间和结束时间[8]。

(7)对抓取的网络数据流信息进行融合处理,融合公式如下:

式中,C 代表融合结果;
wi代表网络数据流信息i 的权利值;
m 代表网络数据流信息数量;
n代表融合次数。

(8)提取融合数据中重复信息,进行去重处理;

(9)网络数据流数据滤波处理。滤波公式如下:

(9)将融合网络数据流信息进行数据存储,得到数据信息样本。

经过上述流程,完成了基于网络爬虫技术的校园网入侵信息采集,为后续研究奠定了基础。

1.2 校园网入侵信息特征选择与提取

基于网络爬虫技术采集到的校园网网络数据流信息,本章节选取其中的特征因子并提取。之所以需要提取特征,是因为若是将爬取的所有校园网网络数据流信息作为输入,将会增加计算量[10]。为此,进行校园网入侵信息特征选择与提取。能够反映校园网入侵信息特征因子有很多,但并不是每一种都对最后的入侵跟踪有着重要影响。为此,需要进行重要特征因子选取[11]。基于特征因子与其他因子之间关联程度来进行选择。关联度公式如下:

式中,Sij代表特征因子i 与j 之间的关联度;
ci、cj分别代表特征因子 i 与 j 标准化值;
M 代表样本数量。

将Sij大于等于1.0 的特征因子入选为校园网入侵信息特征。基于此,选出3 个特征因子,分别是峰值因子、峭度因子以及波形因子[12]。这三个特征因子的提取公式如下:

λ 峰值因子:

式中,hi代表第i 个流量波动极值;
p 代表极值数量;
q 代表流量波动极值的均方根;
代表流量波动极值的平均值;
G1代表峰值因子;
G2代表峭度因子;
G3代表波形因子。

基于上述研究,完成校园网入侵信息特征选择与提取,为下一章节研究做准备。

1.3 校园网入侵信息检测与入侵路径生成

基于上述两个章节的研究,本章节进行校园网入侵信息跟踪研究。该章节研究分为两部分,即校园网入侵检测和校园网入侵追踪[13]。

(1)校园网入侵检测。校园网入侵检测是最后跟踪实现的前提。通过入侵检测确定下入侵类型并实现入侵定位。在这里利用深度置信网络构建入侵检测模型,然后以上述提取的三个特征因子(峰值因子、峭度因子以及波形因子)为输入,通过多层BDN 受限玻尔兹曼机层层运算处理后,在最后一层BP 神经网络层,得出入侵检测类别[14]。最后入侵类型输出表达式如下:

式中,wik、γk为隐含层与输出层连接权值和阈值;
ξk为人工网络输出层输出,也就是入侵类型对应的概率;
Φi代表隐含层计算输出;
m 代表输出层网络节点数。

根据隶属度最大原则,ξk最大值对应的类型就是检测出来的入侵类型。

在此基础上,网络检测器向着中央分析器发送报警信息Y,该报警信息组成如下:

式中,S 代表校园网入侵类型;
T 代表检测到存在入侵的时间点;
L1、L2分别代表入侵者和被入侵者的网络地址;
L3、L5分别代表 L1、L2地址对应的端口号
L5代表报文协议类型;
J 代表攻击指纹[15]。

(2)校园网入侵追踪。中央分析器根据上述报警信息Y,利用分布式概率包标记算法对入侵信息进行标记,然后重构入侵路径,完成校园网入侵信息跟踪,具体过程如下图1 所示[16]。

图1 校园网入侵追踪流程图

在图1 中入侵服务器网关路由器所标记网络流量数据的概率数计算公式如下:

式中,V 代表入侵服务器网关路由器所标记网络流量数据的概率数;
Q 代表路由器跳数;
U代表路由节点数量;
T 代表入侵时间。

经过上述三个部分,完成基于网络爬虫技术的校园网入侵信息跟踪研究。

2.1 应用测试环境

以某一高校的校园网作为基于网络爬虫技术的校园网入侵信息跟踪方法的应用测试平台,该测试平台上拥有四个局域网。每个局域网中所拥有的服务器及其对应的路由器数量分别如下:教学楼26 个、宿舍楼52 个;
食堂6 个以及图书馆4 个。以此为基础,对所研究方法、基于改进聚类算法的方法、基于Transformer 神经网络的方法、基于内外卷积网络的方法进行入侵测试。

2.2 网络流量信息样本

随机选取一个入侵服务器作为入侵切口,模拟三种入侵模式进行入侵,即DDOS 攻击、网络扫描,蠕虫病毒,然后利用网络爬虫技术采集攻击过程中网络流量数据,并组成数据样本。以其中一个样本为例,如下图2 所示。网络流量信息样本中DDOS 攻击样本数量为236 个,网络扫描样本数量为234 个,蠕虫病毒样本数量为230个。为更加贴近实际,从DARPA KDD CUP 99 数据集选取300 个正常网络流量样本,与上述入侵样本一起组成网络流量信息样本。

图2 网络流量信息样本示例图

2.3 特征提取结果

基于章节1.2 研究,从网络流量样本中提取峰值因子、峭度因子以及波形因子,其中部分结果如下表1 所示。

表1 特征提取结果表

2.4 方法性能测试结果与分析

方法性能测试主要分为两部分,一部分测试方法的入侵检测性能,一部分测试方法的入侵跟踪性能。前者性能评价指标为SROC 面积。后者评价指标为攻击路径长度。

(1)入侵检测性能。相同测试条件下,利用所研究方法、基于改进聚类算法的方法、基于Transformer 神经网络的方法、基于内外卷积网络的方法进行入侵检测,根据检测结果,计算SROC面积。SROC 数值越大,检测结果越准确。结果如图3 所示。从图3 中可以看出,与基于改进聚类算法的方法、基于Transformer 神经网络的方法、基于内外卷积网络的方法相比,所研究方法应用下,每一种入侵类型的SROC 面积数值更大,由此说明所研究方法的入侵检测准确性更高。

图3 入侵检测结果图

(2)入侵跟踪性能。模拟DDOS 攻击、网络扫描,蠕虫病毒等三种入侵模式,在完成入侵检测的基础上,进行入侵跟踪,得出入侵路径长度。结果如下图4 所示。从图4 中可以看出,所研究方法应用下,DDOS 攻击入侵路径长度为52.36m、网络扫描入侵路径长度为33.54m、蠕虫病毒入侵路径长度为40.32m。由此证明了所研究跟踪方法的有效性。

图4 入侵跟踪结果图

校园网是智慧校园建设的重要依仗,很多重要的信息都需要通过校园网进行传递。校园网供全校师生使用,具有很强的开放性。面对这种情况,很容易发生校园网入侵行为,一旦被入侵成功,很容易发生信息窃取、篡改。针对上述问题,提出一种基于网络爬虫技术的校园网入侵信息跟踪方法。该方法在通过网络爬虫技术采集网络流量数据的基础上,利用深度置信网络实现入侵类型检测,最后进行入侵跟踪,重构入侵路径。基于算例进行方法性能测试,明确了入侵检测性能和入侵跟踪性能,证明了方法的有效性。然而,本研究还存在很多技术上的难点,其中一点就是网络爬虫技术采集的基础数据具有单一性,所包含的入侵信息有限,在一定程度上会影响入侵检测和跟踪性能。针对这一点,需要在下一阶段的研究中进行深入分析和探讨。

猜你喜欢网络流量爬虫数据流利用网络爬虫技术验证房地产灰犀牛之说房地产导刊(2022年10期)2022-10-18基于多元高斯分布的网络流量异常识别方法淮阴师范学院学报(自然科学版)(2022年3期)2022-09-22基于Python的网络爬虫和反爬虫技术研究现代信息科技(2021年21期)2021-05-07基于神经网络的P2P流量识别方法微型电脑应用(2021年3期)2021-03-31汽车维修数据流基础(上)汽车维修与保养(2020年10期)2021-01-22汽车维修数据流基础(下)汽车维修与保养(2020年11期)2020-06-09AVB网络流量整形帧模型端到端延迟计算北京航空航天大学学报(2017年7期)2017-11-24大数据环境下基于python的网络爬虫技术电子制作(2017年9期)2017-04-17基于数据流聚类的多目标跟踪算法西北工业大学学报(2015年3期)2015-12-14基于Heritrix的主题爬虫在互联网舆情系统中应用电子设计工程(2015年6期)2015-02-27

推荐访问:爬虫 校园网 入侵