前言:寻找写作灵感?中文期刊网用心挑选的入侵检测知识对抗与迁移实验的设计,希望能为您的阅读和创作带来灵感,欢迎大家阅读并分享。
摘要:设计了基于对抗域适应迁移学习的入侵检测攻防两面性实验。实验基于课题组科研成果,针对对抗域适应迁移模型,提出通过增设迁移学习不同阶段的域对齐来提高迁移能力,以及利用增强域损失评判函数,实现入侵检测防御知识迁移的实验设计思路。实验中,组织学生利用对抗神经网络,分别实施网络攻击数据伪造和迁移学习入侵检测知识防御,仿真了“攻防”场景,有利于学生深入掌握对抗域适应和迁移学习的入侵检测前沿技术与发展趋势。
关键词:对抗神经网络;迁移学习;入侵检测;网络安全攻防;实验设计
如何使高校网络安全课程适应当前发展需求,是信息安全课程实践教学的重要改革方向[1]。当前社会亟需的信息安全人才,要具备丰富的理论知识、扎实的实践动手能力,可利用多种智能防御技术对网络信息进行保护。本文设计了一项在物联环境下实现网络攻防与知识迁移的教学实验,目的是融合物联网、深度学习、网络安全等方面知识,促进学生对信息安全理论的理解和融会贯通,培养解决实际信息安全“攻防”实际问题的能力。
1网络入侵对抗和迁移学习
1.1入侵检测系统
入侵检测系统(intrusiondetectionsystem,IDS)[2]是1980年由Anderson在《计算机安全威胁监控与监视》技术报告中提出的[3],它通过分析收集网络中各子网或网络节点的数据信息来过滤攻击异常,判断是否存在入侵。具体的入侵检测方法包括特征检测方法和异常检测方法[4]。近年来,网络监测运行环境和攻击数据结构不断变化,匹配特征的入侵检测模型(如传统的K-means模型[3])和模式特征提取IDS模型[5],由于缺乏动态调整辨识的策略和环境适应能力,不再能够应对复杂网络攻击的检测、响应和防御。于是,基于人工智能的入侵监测方法被提出并被广泛应用。
1.2对抗神经网络与迁移学习
对抗神经网络(GANs)[6]是由数据域生成器网络和判别器网络通过博弈组合形成的对抗学习神经网络。生成器用来捕获真实数据分布并输出模拟数据,判别器用来判断模拟生成的输出数据是真实的还是模拟的。生成器利用判别损失不断优化,以使判别器难以判断,而判别器则不断优化自身以求判断更准确。来源于教育心理学的迁移学习,是利用来自某一领域的学习结果解决另一领域中缺少标记数据学习的问题[7],对相似领域模型间的知识学习很有帮助。利用GANs网络可以让迁移目标中的数据与预训练数据高度相似,再从域适应角度使预学习的知识迁移到新的领域。
2对抗域适应迁移学习实验方案设计
2.1入侵对抗与迁移实验目标与结构设计
由于多样性现场与实验室训练的深度神经网络模型存在差异[8-9],本实验的目标是让学生利用所学知识,将实验室训练的入侵检测深度神经网络模型迁移至工作现场,实验环境使用了物联云环境及其数据集。为了使学生学习到更多的相关知识和深度学习模型,实验根据对抗域适用特点,采用可替换模块框架,设计成攻防“双面性”实验,如图1所示。实验背景为物联数据向云端传输,实施过程是利用数据监控和预训练数据集进行攻击特征知识提取。在攻击特征知识提取中,设计了攻防两面的竞争式实验,目的是使学生充分认识GANs网络的“双刃剑”特性。攻击过程利用GANs网络对物联数据进行对抗模拟,生成伪造数据,用来避开入侵检测,攻击网络。与之相对,防御过程则利用对抗网络迁移预训练模型,分析监测到的流量数据,辨析攻击。在上述框架中,使学生分别进行攻击和防御实验,理解GANs模型,掌握物联数据伪造原理;理解对抗域适用的迁移方法,掌握入侵检测知识迁移应用能力。
2.2入侵对抗与迁移实验模型设计
假设已标记的源域S数据集为{(,)}SjjjXY,其中1{}SSjijXx表示源域Sj的样本,对应标签为SjY1{}Sijy。目标域T的分布为,()Tpxy,其中不包含标签TY的数据为{}TTiXx。i表示源域中元素下标,j表示源域下标。如图2所示,实验迁移模型MDAN(multi-sourcedomainadaptionnetwork)来源于课题组科研最新研究成果[9]。MDAN由公共特征提取器、域特征提取器、域鉴别器和分类器组成。公共特征提取器f()将源域和目标域样本特征映射到一个公共特征空间。域特征提取器将源域和目标域映射到同一个特征空间。给定样本sx来自源域(,)ssXY,Tx来自目标域TX,公共特征提取器的结果()sFx和()TFx传递给域特征提取器H()。然后,使用最大平均差异(maximummeandiscrepancy,MMD)[10]方法,进行类别对齐。然后将每对源域和目标域进行域混淆,再输入到域鉴别器D中,计算对抗损失。分类器C采用softmax函数对数据分类,使用交叉熵J计算分类损失。J是交叉熵损失函数,F是将所有域映射到一个公共特征空间的特征提取器,C是分类器,H是特定域特征提取器,E表示期望,下标cls表示分类损失。图2中所标注的各个层次的卷积核,表明该层对应函数是如何通过卷积实现的。下面分别阐述入侵对抗中伪造和识别的利用方式。首先,利用MMD差异度量估计两域之间的分布差异[10]。为使其支持多源域情况,本文将其修改为平均形式。其中表示向量的内积;Ψ表示无偏估计,参数p=q当且仅当,0()Hpq。p、q是函数的参数,即式(2)中的两个H。域对抗是将源域和目标域中由域特征提取器提取的特征进行混淆,获得其中具有跨域不变性的特征,以使分类器分辨不出二者的区别。dmdrzPlnD(x,z)Pln(1D(x,z))(3)其中,rP表示判定为真实数据x的概率,zP表示判定为生成数据z的概率。这样,即可将生成的数据最大限度地接近于原始数据,即利用域混淆提高数据伪造效果。其次,在分类过程中,分类器将目标域样本的类别预测值差异作为损失函数。通过使分类损失函数最小化使目标域接近于源域,实现源域分类知识向目标域迁移。此外,其中所实现的1D卷积,前向传递计算可表示为:其中,l表示网络层数,i表示当前层的第i个数据,qk表示q层卷积核,b表示偏置,zl表示l层输入,al表示l层输出。将迁移模型中的激活函数改为GeLU函数[11],以便更好地描述事件发生的正态分布。
3教学实验实现
针对网络空间安全攻防特点,根据提供的实验条件和智能入侵检测的人才培养需求,实验内容围绕入侵检测对抗的伪造入侵数据[12]与入侵数据分类识别进行设计。
3.1对抗域迁移学习数据来源
Edge-IIoTset[13]是工业IoT特征和异构网络流量数据集。由10种IoT设备收集,包括5种攻击类型,分为14个与协议相关的攻击子类。将其按攻击时间分为3个域,分别用A、B、C表示。N-BaIoT[14]数据集收集了9个被Mirai和Bashlite真实攻击的IoT设备数据,含10种攻击类型。将其分为3个不同领域组合:Danmini_Doorbell、Ecobee_Thermostat、Philips_B120N10_Baby_Monitor,分别用U、V、W表示。实验中,轮流将两个域作为源域和目标域。例如,可将2个源域V、W向目标域U迁移学习攻击识别知识表示为V,W→U。在迁移学习中,将目标域数据集分为训练和测试两部分。MDAN使用SDG优化器和RevGrad[15]学习率退火策略进行优化,初始学习速率为0.01,权重衰减为5×10–4。其中,γ从0到1线性变化,η0=0.05,α=10,β=0.75。
3.2混淆对抗的伪造数据实验
混淆数据实验的目的是让学生理解和掌握针对智能入侵检测的攻击模式。实验实现过程如下:①先通过已有的VGG、ResNet等模型对Edge-IIoT数据进行攻击识别,获得识别结果。②将图2中的目标域作为攻击数据生成器,让学生随机生成初始化攻击数据,再利用混淆对抗方法,获得模拟攻击数据的输出。③用①的识别模型对②的输出数据进行识别,检验攻击是否成功。分别实验同一个域、相似域及多源域数据的对抗,提高学生对对抗效果的感性认识。实验共计4学时。通过上述实验设计可对所选择的深度学习算法获得较高正常数据模拟值,即数据伪造。让学生实现和观察对抗模拟产生的数据,理解数据伪造是利用原有检测方法对某些协议检测的脆弱性,如漏检、检测不全等而实现的。通过混淆对抗网络挖掘出对应的脆弱性,使伪造数据绕开深度学习模型的识别。表1为部分学生在攻击过程中产生的伪造数据通过各种入侵检测模型的比例(为学生实验10个最好结果的平均值)表1结果显示,在同一个域中,对抗生成的伪造数据效果较好,如果利用相似域进行对抗训练,生成的伪造数据效果下降明显,但利用多个相似域对抗,会对实际伪造数据质量有较大的提升。从平均值来看,对抗生成的伪造数据受到入侵检测模型复杂度的影响,模型复杂度越高,伪造越困难。
3.3基于对抗域适应迁移防御知识实验
为了在对抗实验基础上,使学生更好地理解攻防的两面性,设计了多源域对抗迁移MDAN实验。通过实验,学生能够理解和掌握一种新环境下迅速部署入侵检测防御体系的方法,理解迁移学习各种操作的作用。将实验结果与几种域自适应方法进行比较,包括DAN[16]、DANN[17]、DDC[15]、Deep-CORAL(D-COR)[18]、MFSAN[19],以便使学生掌握最新技术。实验共8学时,前4学时学习使用对比模型并获取结果,后4学时学习MDAN模型并进行结果对比分析。对新方法MDAN,采用预测准确度(Acc)评估网络性能。其中,f(x)是分类器预测结果,y(x)是真实标签,Ttest表示目标域中未标记的测试样本。为了对各种方法进行公平比较,引入如下三个标准:①SingleBest:最佳的单源迁移实验结果。②SourceCombine:合并多源域所有数据,作为单源域执行实验。③Multi-Source:多源域实验结果。在N-BaIoT数据集上,将MDAN与其他域自适应方法进行对比的实验结果如表2所示。其中,MDAN-cat(M-cat)模型未添加域对抗,MDAN-dc(M-dc)模型有域对抗但没有类别对齐。从数据对比发现:(1)MDAN多源域数据组合的实验结果优于单个最佳源域的迁移,在网络协议包的入侵识别上,多源域可以找出更多的异常类别。(2)只合并源域不做类别对齐的迁移方法,知识迁移对入侵的识别效果不能得到明显提升,说明类别对齐在不同IoT监测设备下,入侵的网络报文格式存在细微差别。(3)MDAN在对抗学习之后,域对齐和分类对齐操作对网络协议报文识别迁移很重要,因为域体现了协议报文属性值范围,类别体现了具体攻击的细微差别。在Multi-Source的实验中,将MDAN模型和MFSAN模型的目标域测试样本进行预测结果可视化,验证MDAN模型迁移的准确性。将结果处理成2维,如图3所示。图3子图中有2个源域和1个目标域。其中,“o”表示源域1数据,“#”表示源域2数据,“*”表示目标域数据。图3(a)—(c)是MFSAN在多源迁移任务的可视化预测结果;图3(d)—(f)是MDAN方法的可视化预测结果。图3结果显示出对抗域数据与目标域数据混淆较好,MDAN方法比MFSAN方法分类错误更少,且域适应后的目标域数据更接近源域,显示出MDAN具有更好的效果。通过该实验可使学生理解对抗识别的域对齐、对抗操作、分类对齐等各种操作在入侵检测中的作用,并了解域适应迁移学习模型的修改方法。还可进一步设计竞争实验,将两个实验分别由两组学生竞争对抗,提升学生的对抗能力。
4结语
本实验紧扣“新工科”背景下网络空间安全专业培养需求,利用最新科研成果设计的MDAN模型进行了网络空间安全入侵检测实验设计。实验利用深度学习中的对抗神经网络与入侵检测的数据分析基本原理,基于对抗混淆方法,分别设计了伪造攻击和迁移防御知识实验内容,在一定程度上实现了人工智能的攻防两面性。在实验实施过程中,学生在实验教师指导下完成了对GAN网络模型的修改,独立完成了实验结果的对比分析与模型改进,更好掌握了入侵检测原理与技术,了解了深度学习在信息安全中的应用,理解了在信息安全中神经网络利用的两面性,提升了知识的综合运用能力。
参考文献
[1]李冲,毛伟伟,孙晶.新工业革命与工科课程改革:基于知识生产模式转型的新工科课程建设路径研究[J].中国大学教学,2022(7):88–96.
[2]ZARPELAOBB,MIANIRS,etal.Asurveyofintrusiondetectionininternetofthings[J].JournalofNetworkandComputerApplications,2017,84(4):25–37.
[3]ANDERSONJP.Computersecuritythreatmonitoringandsurveillance[R].JamesP.AndersonCo.,FortWashington,1980.
[4]TSCHOFENIGH,BACCELLIE.Cyberphysicalsecurityforthemassesasurveyoftheinternetprotocolsuiteforinternetofthingssecurity[J].IEEESecurity&Privacy,2019,17(5):47–57.
[5]张雪芹,顾春华.一种网络入侵检测特征提取方法[J].华南理工大学学报(自然科学版),2010,38(1):81–86.
[6]GOODFELLOWIJ,POUGET-ABADIEJ,MIRZAM,etal.Generativeadversarialnetworks[J].CommunicationsoftheACM,2020,63(11):139–144.
[7]ZHUANGF,QIZ,DUANK,etal.Acomprehensivesurveyontransferlearning[J].ProceedingsoftheIEEE,2020(99):1–34.
[8]HASSANMM,GUMAEIA,ALSANADA,etal.Ahybriddeeplearningmodelforefficientintrusiondetectioninbigdataenvironment[J].InformationSciences,2020,513(C):386–396.
[9]WANGY,LIZ,etal.Internetofthingsintrusiondetectionsystembasedontransferlearning[C].2022ICETCI,2022:25–30.
[10]DZIUGAITEGK,ROYDM,GHAHRAMANIZ.Traininggenerativeneuralnetworksviamaximummeandiscrepancyoptimization[J].arXivpreprintarXiv:1505.03906,2015.
[11]KOVACSG,TOTHL,COMPERNOLLEDV,etal.IncreasingtherobustnessofCNNacousticmodelsusingautoregressivemovingaveragespectrogramfeaturesandchanneldropout[J].PatternRecognitionLetters,2017,100(12):44–50.
[12]KORONIOTISN,MOUSTAFAN,SITNIKOVAE,etal.Towardsthedevelopmentofrealisticbotnetdatasetintheinternetofthingsfornetworkforensicanalytics:Bot-IoTdataset[J].FutureGenerationComputerSystems.2019,100(C):779–796.
[13]FERRAGMA,FRIHAO,HAMOUDAD,etal.Edge-IIoTset:AnewcomprehensiverealisticcybersecuritydatasetofIoTandIIoTapplicationsforcentralizedandfederatedlearning[J].IEEEAccess,2022(10):40281–40306.
[14]MEIDANY,BOHADANAM,MATHOVY,etal.N-BaIoT-network-baseddetectionofiotbotnetattacksusingdeepautoencoders[J].IEEEPervasiveComputing,2018,17(3):12–22.
[15]TZENGE,HOFFMANJ,ZHANGN,etal.Deepdomainconfusion:Maximizingfordomaininvariance[J].arXivprints:1412.3474,2014.
[16]VENKATESWARAH,EUSEBIOJ,CHAKRABORTYS,etal.Deephashingnetworkforunsuperviseddomainadaptation:2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR)[C].IEEEXplore,2017:5385–5394.
[17]GANINY,USTINOVAE,AJAKANH,etal.Domain-adversarialtrainingofneuralnetworks[J].arXiv:1505.07818,2015.
[18]SUNB,FENGJ,SAENKOK.Returnoffrustratinglyeasydomainadaptation[J].arXiv:1511.05547v2,2015.
[19]ZHUY,ZHUANGF,WANGD.Aligningdomain-specificdistributionandclassifierforcross-domainclassificationfrommultiplesources[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019,33(1):5989–5996.
作者:鲍宇 赵亮 韩丽霞 张艳群 王玉涛 单位:中国矿业大学计算机科学与技术学院 中国矿业大学科学技术研究院