本發(fā)明屬于網(wǎng)絡(luò)安全攻防的,具體涉及一種云環(huán)境下基于生成對(duì)抗模仿學(xué)習(xí)的自動(dòng)化滲透方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)今數(shù)字化時(shí)代,全球網(wǎng)絡(luò)安全局勢(shì)正面臨前所未有的復(fù)雜性和挑戰(zhàn)。隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)空間已經(jīng)成為國(guó)家經(jīng)濟(jì)、社會(huì)運(yùn)行和公民生活的重要組成部分。然而,隨之而來(lái)的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)也在急劇上升,對(duì)個(gè)人隱私、企業(yè)運(yùn)營(yíng)乃至國(guó)家安全構(gòu)成了嚴(yán)重威脅。
2、現(xiàn)如今,企業(yè)應(yīng)對(duì)網(wǎng)絡(luò)攻擊,主要側(cè)重利用防火墻、waf等應(yīng)對(duì)攻擊中與攻擊后的應(yīng)用場(chǎng)景,對(duì)于攻擊前的預(yù)測(cè)和防范,企業(yè)一般是采用人工滲透測(cè)試和漏洞掃描工具來(lái)對(duì)網(wǎng)絡(luò)漏洞進(jìn)行檢測(cè)和評(píng)估。而滲透測(cè)試是通過(guò)模擬惡意黑客的攻擊方法,來(lái)評(píng)估計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)安全的一種評(píng)估方法。從安全漏洞發(fā)現(xiàn)到修復(fù)的成本,可達(dá)數(shù)百萬(wàn)金額。滲透測(cè)試可以有效地在這些安全漏洞被利用之前,主動(dòng)識(shí)別并修復(fù),避免黑客利用安全漏洞的攻擊。
3、但隨著業(yè)務(wù)變得越來(lái)越全球化和復(fù)雜化。人工滲透測(cè)試的局限性益發(fā)明顯。例如實(shí)施難度大,對(duì)業(yè)務(wù)系統(tǒng)影響大,有時(shí)候需要停止系統(tǒng)測(cè)試,測(cè)試代價(jià)太大;缺乏與企業(yè)業(yè)務(wù)的融合,難以適應(yīng)業(yè)務(wù)云端化、虛擬化;難以實(shí)時(shí)預(yù)測(cè)關(guān)鍵資產(chǎn)風(fēng)險(xiǎn)。每年實(shí)施一次且需要停機(jī)的人力滲透測(cè)試,提供的是不充足且過(guò)時(shí)的測(cè)試報(bào)告。企業(yè)對(duì)能提供連續(xù)性、自動(dòng)化、智能化的滲透測(cè)試需求日益迫切。
4、目前,自動(dòng)化滲透有著以下幾種方案:第一,基于規(guī)則匹配的方法,這種方法是傳統(tǒng)的自動(dòng)化滲透測(cè)試技術(shù),依賴于預(yù)定義的規(guī)則和簽名來(lái)檢測(cè)和利用漏洞,但是囿于通常依賴于已知的漏洞簽名和攻擊模式以及規(guī)則庫(kù)的更新,受限于已知規(guī)則的覆蓋范圍,缺乏適應(yīng)性和靈活性;第二,基于機(jī)器學(xué)習(xí)的方法,這是近年來(lái)的研究熱點(diǎn),利用智能算法來(lái)自動(dòng)化識(shí)別和利用漏洞,可是其受限于數(shù)據(jù)質(zhì)量和模型的解釋性;第三,基于強(qiáng)化學(xué)習(xí)的自動(dòng)化滲透方法,這種方法面臨探索與利用的權(quán)衡、訓(xùn)練時(shí)間和環(huán)境穩(wěn)定性的挑戰(zhàn)。
5、因此,人工滲透測(cè)試的高成本、耗時(shí)、缺乏自動(dòng)化和智能化的問(wèn)題,以及現(xiàn)有自動(dòng)化滲透技術(shù)在新漏洞識(shí)別、環(huán)境適應(yīng)性和策略泛化能力上的不足是目前亟待解決的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種云環(huán)境下基于生成對(duì)抗模仿學(xué)習(xí)的自動(dòng)化滲透方法及系統(tǒng),在云環(huán)境中進(jìn)行模仿學(xué)習(xí),能夠高效利用資源,同時(shí)通過(guò)增強(qiáng)gail網(wǎng)絡(luò)和滲透測(cè)試工具容器化,能夠自動(dòng)調(diào)整容器資源分配,從而提高整體性能并優(yōu)化資源使用和響應(yīng)時(shí)間。
2、為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種云環(huán)境下基于生成對(duì)抗模仿學(xué)習(xí)的自動(dòng)化滲透方法,包括下述步驟:
4、收集專家知識(shí)數(shù)據(jù),構(gòu)建專家知識(shí)庫(kù),利用自然語(yǔ)言處理算法增強(qiáng)專家知識(shí)數(shù)據(jù),利用開(kāi)源安全情報(bào)定期更新專家知識(shí)庫(kù);所述專家知識(shí)數(shù)據(jù)包括安全專家在成功滲透測(cè)試中的專家狀態(tài)動(dòng)作對(duì);
5、設(shè)置異步多環(huán)境,令預(yù)訓(xùn)練的智能體在多沙盒環(huán)境中進(jìn)行并行生成式模仿學(xué)習(xí);
6、將智能體在訓(xùn)練過(guò)程中當(dāng)前觀察到的狀態(tài)在線生成預(yù)測(cè)狀態(tài)動(dòng)作對(duì),利用預(yù)測(cè)狀態(tài)動(dòng)作對(duì)對(duì)增強(qiáng)gail網(wǎng)絡(luò)中的鑒別器進(jìn)行訓(xùn)練,鑒別器通過(guò)自適應(yīng)學(xué)習(xí)率和多層感知機(jī)制動(dòng)態(tài)調(diào)整狀態(tài),獲取高質(zhì)量的狀態(tài)動(dòng)作對(duì);所述增強(qiáng)gail網(wǎng)絡(luò)包括策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和鑒別器;
7、計(jì)算高質(zhì)量的狀態(tài)動(dòng)作對(duì)的折扣獎(jiǎng)勵(lì),將折扣獎(jiǎng)勵(lì)作為策略網(wǎng)絡(luò)的反饋優(yōu)化策略網(wǎng)絡(luò);利用安全事件對(duì)策略網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),并對(duì)策略網(wǎng)絡(luò)實(shí)時(shí)安全反饋;經(jīng)過(guò)多輪訓(xùn)練后,完成策略網(wǎng)絡(luò)的訓(xùn)練;
8、將滲透測(cè)試工具容器化,并使用k8s進(jìn)行編排,利用高質(zhì)量的狀態(tài)動(dòng)作對(duì)對(duì)完成訓(xùn)練的策略網(wǎng)絡(luò)進(jìn)行滲透測(cè)試,對(duì)特定靶機(jī)進(jìn)行重復(fù)實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果調(diào)整策略網(wǎng)絡(luò);持續(xù)評(píng)估智能體性能,記錄并反饋調(diào)整增強(qiáng)gail網(wǎng)絡(luò)的參數(shù),生成監(jiān)控日志。
9、作為優(yōu)選的技術(shù)方案,所述利用自然語(yǔ)言處理算法增強(qiáng)專家知識(shí)數(shù)據(jù),包括:
10、自動(dòng)化采集專家報(bào)告,利用自然語(yǔ)言處理算法分析專家報(bào)告內(nèi)容,對(duì)專家知識(shí)數(shù)據(jù)進(jìn)行打標(biāo),將標(biāo)記的專家知識(shí)數(shù)據(jù)加入專家知識(shí)庫(kù)。
11、作為優(yōu)選的技術(shù)方案,所述設(shè)置異步多環(huán)境,令預(yù)訓(xùn)練的智能體在多沙盒環(huán)境中進(jìn)行并行生成式模仿學(xué)習(xí),包括:
12、s21、在多沙盒環(huán)境中對(duì)智能體使用大批次進(jìn)行梯度積累,通過(guò)多個(gè)小批次專家知識(shí)數(shù)據(jù)進(jìn)行梯度更新;
13、s22、使用參數(shù)服務(wù)器架構(gòu)協(xié)調(diào)多個(gè)計(jì)算節(jié)點(diǎn),并行更新計(jì)算節(jié)點(diǎn)參數(shù);
14、s23、利用同步sgd獲取各個(gè)計(jì)算節(jié)點(diǎn)的分布式平均梯度,將分布式平均梯度廣播到各計(jì)算節(jié)點(diǎn);
15、s24、對(duì)智能體進(jìn)行混合精度訓(xùn)練,對(duì)損失和計(jì)算節(jié)點(diǎn)的梯度進(jìn)行尺度變換,所述混合精度訓(xùn)練包括低精度浮點(diǎn)運(yùn)算和高精度運(yùn)算。
16、作為優(yōu)選的技術(shù)方案,所述梯度更新,如下式:
17、
18、其中,n是累積的批次數(shù),是損失函數(shù),表示相對(duì)于參數(shù)θ的梯度。
19、作為優(yōu)選的技術(shù)方案,所述并行更新計(jì)算節(jié)點(diǎn)參數(shù)θt,如下式:
20、
21、其中,k是并行計(jì)算節(jié)點(diǎn)數(shù),gk是節(jié)點(diǎn)k計(jì)算的梯度,η是學(xué)習(xí)率。
22、作為優(yōu)選的技術(shù)方案,所述步驟s24,具體為:
23、對(duì)智能體進(jìn)行低精度浮點(diǎn)運(yùn)算,在反向傳播計(jì)算梯度時(shí),采用縮放因子放大損失并增大梯度,如下式:
24、scaled_loss=loss×scale
25、其中,scaled_loss表示放大后的損失,loss表示損失,scale表示縮放因子;
26、反向傳播時(shí)計(jì)算梯度,如下式:
27、
28、其中,scaled_gradients表示梯度;
29、縮放回原來(lái)的梯度,如下式:
30、
31、其中,gradient表示縮放后的梯度;
32、利用尺度因子更新參數(shù),如下式:
33、
34、其中,η為尺度因子。
35、第二方面,本發(fā)明提供了一種云環(huán)境下基于生成對(duì)抗模仿學(xué)習(xí)的自動(dòng)化滲透系統(tǒng),應(yīng)用于所述的云環(huán)境下基于生成對(duì)抗模仿學(xué)習(xí)的自動(dòng)化滲透方法,包括:知識(shí)庫(kù)構(gòu)建與管理模塊、模仿學(xué)習(xí)訓(xùn)練模塊、對(duì)抗訓(xùn)練模塊、評(píng)估調(diào)整模塊和滲透測(cè)試模塊;
36、知識(shí)庫(kù)構(gòu)建與管理模塊,用于收集專家知識(shí)數(shù)據(jù),構(gòu)建專家知識(shí)庫(kù),利用自然語(yǔ)言處理算法增強(qiáng)專家知識(shí)數(shù)據(jù),利用開(kāi)源安全情報(bào)定期更新專家知識(shí)庫(kù);所述專家知識(shí)數(shù)據(jù)包括安全專家在成功滲透測(cè)試中的專家狀態(tài)動(dòng)作對(duì);
37、模仿學(xué)習(xí)訓(xùn)練模塊,用于設(shè)置異步多環(huán)境,令預(yù)訓(xùn)練的智能體在多沙盒環(huán)境中進(jìn)行并行生成式模仿學(xué)習(xí);
38、對(duì)抗訓(xùn)練模塊,用于將智能體在訓(xùn)練過(guò)程中當(dāng)前觀察到的狀態(tài)在線生成預(yù)測(cè)狀態(tài)動(dòng)作對(duì),利用預(yù)測(cè)狀態(tài)動(dòng)作對(duì)對(duì)增強(qiáng)gail網(wǎng)絡(luò)中的鑒別器進(jìn)行訓(xùn)練,鑒別器通過(guò)自適應(yīng)學(xué)習(xí)率和多層感知機(jī)制動(dòng)態(tài)調(diào)整狀態(tài),獲取高質(zhì)量的狀態(tài)動(dòng)作對(duì);所述增強(qiáng)gail網(wǎng)絡(luò)包括策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和鑒別器;
39、評(píng)估調(diào)整模塊,用于計(jì)算高質(zhì)量的狀態(tài)動(dòng)作對(duì)的折扣獎(jiǎng)勵(lì),將折扣獎(jiǎng)勵(lì)作為策略網(wǎng)絡(luò)的反饋優(yōu)化策略網(wǎng)絡(luò);利用安全事件對(duì)策略網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),并對(duì)策略網(wǎng)絡(luò)實(shí)時(shí)安全反饋;經(jīng)過(guò)多輪訓(xùn)練后,完成策略網(wǎng)絡(luò)的訓(xùn)練;
40、滲透測(cè)試模塊,用于將滲透測(cè)試工具容器化,并使用k8s進(jìn)行編排,利用高質(zhì)量的狀態(tài)動(dòng)作對(duì)對(duì)完成訓(xùn)練的策略網(wǎng)絡(luò)進(jìn)行滲透測(cè)試,對(duì)特定靶機(jī)進(jìn)行重復(fù)實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果調(diào)整策略網(wǎng)絡(luò);持續(xù)評(píng)估智能體性能,記錄并反饋調(diào)整增強(qiáng)gail網(wǎng)絡(luò)的參數(shù),生成監(jiān)控日志。
41、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
42、(1)本發(fā)明通過(guò)令預(yù)訓(xùn)練的智能體在多沙盒環(huán)境中進(jìn)行并行生成式模仿學(xué)習(xí),一方面能夠提升訓(xùn)練效率和模型泛化能力,另一方面,經(jīng)過(guò)混合精度訓(xùn)練,能夠降低計(jì)算成本,保證模型訓(xùn)練質(zhì)量,提高模型訓(xùn)練速度,從而高效利用資源。
43、(2)本發(fā)明通過(guò)增強(qiáng)gail網(wǎng)絡(luò)引入自適應(yīng)學(xué)習(xí)率和多層感知機(jī)制,一則能夠優(yōu)化策略生成和價(jià)值評(píng)估的準(zhǔn)確性,再則能夠動(dòng)態(tài)調(diào)整狀態(tài)表示,提高狀態(tài)-動(dòng)作對(duì)的生成質(zhì)量,同時(shí)通過(guò)滲透測(cè)試工具容器化,能夠自動(dòng)調(diào)整容器資源分配,從而提高整體性能并優(yōu)化資源使用和響應(yīng)時(shí)間。
44、(3)本發(fā)明將自動(dòng)化滲透框架進(jìn)行優(yōu)化并部署到云環(huán)境中,能夠快速適應(yīng)云環(huán)境的動(dòng)態(tài)變化,如資源的彈性伸縮和配置的即時(shí)更新,這一點(diǎn)與本地部署的滲透測(cè)試工具相比,更加靈活和響應(yīng)迅速。