本發(fā)明屬于網(wǎng)絡(luò)空間安全,涉及一種基于流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi)方法。
背景技術(shù):
1、由于智能手機(jī)更加經(jīng)濟(jì)實(shí)惠、服務(wù)更加豐富,再加上安裝了大量不同的應(yīng)用程序,智能手機(jī)的使用率急劇上升。加密流量的移動(dòng)應(yīng)用分類(lèi)已成為一項(xiàng)重要技術(shù),使第三方被動(dòng)觀察者能夠從加密流量中準(zhǔn)確識(shí)別應(yīng)用程序類(lèi)別。從加密網(wǎng)絡(luò)流量中識(shí)別移動(dòng)應(yīng)用程序的類(lèi)型這一技術(shù),對(duì)于網(wǎng)絡(luò)管理和安全、用戶(hù)隱私和服務(wù)質(zhì)量(qos)至關(guān)重要。
2、然而,隨著網(wǎng)絡(luò)中流量加密化的快速普及,報(bào)文負(fù)載信息被隨機(jī)化,使得直接從明文角度區(qū)分各個(gè)移動(dòng)應(yīng)用的類(lèi)型變得不再可行。除此之外,移動(dòng)應(yīng)用所使用的新型加密協(xié)議不斷更新,比如公開(kāi)的加密協(xié)議tls和quic,以及上層承載專(zhuān)門(mén)設(shè)計(jì)的私有協(xié)議格式的tcp協(xié)議流量。由此,加密流量中混雜提供相似服務(wù)并使用相同協(xié)議的多種移動(dòng)應(yīng)用程序,這會(huì)大大降低加密流量分類(lèi)的性能。
3、為了實(shí)現(xiàn)精準(zhǔn)高效的加密流量應(yīng)用分類(lèi),國(guó)內(nèi)外研究者通常會(huì)采用多種技術(shù)手段,一般可大致分為基于傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。但是,傳統(tǒng)方法依賴(lài)人工提取多種高階特征,在消耗大量計(jì)算資源的同時(shí),容易造成方法中模型的過(guò)擬合現(xiàn)象。另一方面,大多數(shù)深度學(xué)習(xí)方法直接輸入流量的序列特征,過(guò)分依賴(lài)神經(jīng)網(wǎng)絡(luò)的計(jì)算性能,忽略了流量在網(wǎng)絡(luò)傳輸過(guò)程中的顯著特性,導(dǎo)致模型針對(duì)具體協(xié)議下相似流量的分類(lèi)效果降低。本質(zhì)而言,這些方法都缺乏對(duì)具體加密流量傳輸模式中報(bào)文間關(guān)聯(lián)關(guān)系的特征挖掘。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)已有的移動(dòng)端加密流量應(yīng)用分類(lèi)技術(shù)存在忽視流量傳輸模式中報(bào)文間消息關(guān)聯(lián)關(guān)系,未能從本質(zhì)上刻畫(huà)流量序列的行為特征,以及缺乏強(qiáng)大的模型來(lái)挖掘這些行為特征等問(wèn)題,本發(fā)明提出一種基于流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi)方案。相對(duì)已有的移動(dòng)端加密流量應(yīng)用分類(lèi)方法,該方案將綜合考慮流量傳輸模式下報(bào)文間消息的關(guān)聯(lián)關(guān)系,旨在獲取更全局、本質(zhì)、準(zhǔn)確的加密流量信息,進(jìn)而適用于真實(shí)網(wǎng)絡(luò)的復(fù)雜流量和易混淆流量環(huán)境。本發(fā)明實(shí)現(xiàn)移動(dòng)端加密流量采集——流量序列的行為特征構(gòu)建——加密流量應(yīng)用分類(lèi)模型訓(xùn)練的端到端解決方案,保障應(yīng)用分類(lèi)模型運(yùn)行的準(zhǔn)確性和魯棒性。更進(jìn)一步,本方法擅長(zhǎng)于區(qū)分那些使用協(xié)議相同且提供相似服務(wù),但來(lái)自不同移動(dòng)應(yīng)用的混合流量,本方案能夠做到對(duì)這些分類(lèi)難的混合流量的準(zhǔn)確分類(lèi)和識(shí)別。
2、為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi)方法,所述方法包括以下步驟:
4、(1)利用移動(dòng)端的ui控件實(shí)現(xiàn)對(duì)各種加密協(xié)議下加密流量的捕獲與采集,同時(shí)依據(jù)流量的傳輸層協(xié)議進(jìn)行組流,構(gòu)建各協(xié)議下的報(bào)文長(zhǎng)度序列樣本集;
5、(2)對(duì)步驟(1)中捕獲的tcp、quic協(xié)議下移動(dòng)加密應(yīng)用流量進(jìn)行序列特征提取,算法拼接每條流內(nèi)同方向的連續(xù)長(zhǎng)度為mss的報(bào)文,組合成表征通信行為內(nèi)在關(guān)聯(lián)的報(bào)文長(zhǎng)度序列特征;進(jìn)而使用mcformer這一針對(duì)加密流量應(yīng)用分類(lèi)的transformer架構(gòu)的分類(lèi)器,對(duì)于tcp、quic協(xié)議棧下的13、8種應(yīng)用的主營(yíng)服務(wù),輸入本步驟(2)特征提取后的報(bào)文長(zhǎng)度序列以訓(xùn)練模型,用于對(duì)移動(dòng)端的加密應(yīng)用流量進(jìn)行分類(lèi)和識(shí)別。
6、(3)面向tls協(xié)議的tcp報(bào)文拼接特性,借鑒步驟(2),提出在報(bào)文時(shí)間間隔相近的時(shí)序區(qū)間內(nèi),累加連續(xù)的tls報(bào)文長(zhǎng)度以構(gòu)建tls的報(bào)文長(zhǎng)度序列特征。進(jìn)而使用mcformer這一針對(duì)加密流量應(yīng)用分類(lèi)的transformer架構(gòu)的分類(lèi)器,對(duì)于tls協(xié)議棧下的11種應(yīng)用的主營(yíng)服務(wù),輸入本步驟(3)特征提取后的報(bào)文長(zhǎng)度序列以訓(xùn)練模型,用于對(duì)移動(dòng)端的加密應(yīng)用流量進(jìn)行分類(lèi)和識(shí)別。
7、進(jìn)一步地,所述步驟(1)具體包括如下子步驟:
8、(1.1)利用手機(jī)終端上的ui控件監(jiān)控所運(yùn)行的應(yīng)用軟件,捕獲和采集軟件所對(duì)應(yīng)的pcap形式流量;
9、(1.2)通過(guò)dpkt工具庫(kù)讀取pcap形式的流量,區(qū)分流量所對(duì)應(yīng)的傳輸層協(xié)議(tcp、tls和quic);
10、(1.2.1)使用python語(yǔ)法下的dpkt工具讀取流的五元組標(biāo)識(shí)(源ip,宿ip,源端口,宿端口,傳輸層協(xié)議),表示為key=(src_ip,dst_ip,src_port,dst_port,prot),以此來(lái)對(duì)該pcap下對(duì)應(yīng)應(yīng)用標(biāo)簽的流量進(jìn)行組流。
11、(1.2.2)使用python語(yǔ)法下的dpkt工具讀取每個(gè)報(bào)文packet的負(fù)載長(zhǎng)度pkt_len,和時(shí)間戳timestamp,按照時(shí)間戳timestamp的順序排列流的時(shí)序報(bào)文長(zhǎng)度和時(shí)間戳信息的二元組特征報(bào)文序列。
12、(1.3)針對(duì)各協(xié)議下的流量樣本,對(duì)于每條流(五元組標(biāo)簽),按照時(shí)序排列捕獲每個(gè)報(bào)文的長(zhǎng)度pkt_len,得到tcp層上的報(bào)文長(zhǎng)度的流量時(shí)序序列;
13、(1.4)針對(duì)tls協(xié)議的tcp報(bào)文拼接特性,使用上述(1.3)中tcp傳輸層報(bào)文序列拼接同一個(gè)record內(nèi)的tcp段,生成tls的報(bào)文長(zhǎng)度序列。
14、(1.4.1)針對(duì)tls協(xié)議的tcp報(bào)文段拼接特性,首先去除每個(gè)tcp報(bào)文段的頭部header所占5個(gè)字節(jié)bytes,得到每個(gè)tcp報(bào)文段segment負(fù)載的長(zhǎng)度部分;
15、(1.4.2)拼接隸屬于同一tls報(bào)文的tcp報(bào)文段segments,使得tcp報(bào)文段segments的長(zhǎng)度累加和等于tls的長(zhǎng)度record,從而得到tls的records報(bào)文長(zhǎng)度序列。
16、進(jìn)一步地,所述步驟(2)具體包括如下子步驟:
17、(2.1)基于移動(dòng)終端所捕獲的tcp、quic協(xié)議下的移動(dòng)端加密應(yīng)用流量,基于其協(xié)議棧的通信傳輸模式進(jìn)行報(bào)文序列特征提??;
18、(2.1.1)現(xiàn)有的報(bào)文序列特征多關(guān)注于連續(xù)的同方向報(bào)文packets,將其拼接為一個(gè)消息message特征稱(chēng)為burst,用時(shí)序的burst單元組成流量的特征序列。
19、(2.1.2)然而該種特征僅將一次單向通信過(guò)程作為一個(gè)整體,沒(méi)有考慮到其中仍然有報(bào)文間的消息關(guān)聯(lián)關(guān)系,忽視了單向通信過(guò)程內(nèi)部的行為特征。
20、(2.2)基于tcp傳輸層中,流量受到網(wǎng)絡(luò)最大傳輸單元mss的限制會(huì)發(fā)生截?cái)嗟耐ㄐ拍J?。?dāng)一次消息message傳輸達(dá)到mss長(zhǎng)度時(shí),tcp流量會(huì)被截?cái)?,?dǎo)致一次消息message在傳輸過(guò)程中會(huì)被截?cái)酁槎鄠€(gè)小于等于mss的報(bào)文序列片段;
21、(2.3)針對(duì)上述(2.2)中消息message被截?cái)嗟奶匦裕悦織l流為單位,重構(gòu)一個(gè)消息message中所切分出的連續(xù)同方向mss單元,合成一個(gè)acm單元,作為tcp、quic協(xié)議下的流量序列行為特征單元;
22、(2.4)基于上述(2.3)所合成的tcp、quic協(xié)議下acm序列,使用mcformer這一針對(duì)加密流量應(yīng)用分類(lèi)的transformer架構(gòu)的分類(lèi)器,輸入該序列的訓(xùn)練樣本以供處理序列輸入的transformer學(xué)習(xí)其流量表征,以實(shí)現(xiàn)基于tcp、quic協(xié)議下流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi)。
23、(2.5)上述(2.3)和(2.4)分別從流量序列的行為特征構(gòu)建和針對(duì)流量序列輸入的深度學(xué)習(xí)模型展開(kāi),從而實(shí)現(xiàn)自動(dòng)特征提取和端到端的移動(dòng)端加密應(yīng)用分類(lèi)方法,在實(shí)驗(yàn)效果上達(dá)到更好的性能效果。
24、進(jìn)一步地,所述步驟(3)具體包括如下子步驟:
25、(3.1)基于移動(dòng)終端所捕獲的tls協(xié)議下的移動(dòng)端加密應(yīng)用流量,基于其協(xié)議棧的通信傳輸模式進(jìn)行報(bào)文序列特征提??;
26、(3.1.1)tls協(xié)議下,每個(gè)報(bào)文的長(zhǎng)度會(huì)被隨機(jī)化,所以單純拼接多個(gè)報(bào)文長(zhǎng)度以表征消息message的方式并不準(zhǔn)確。但是客戶(hù)端-服務(wù)器的通信中,單次通信所對(duì)應(yīng)的message即將連續(xù)的同方向報(bào)文packets拼接為一個(gè)消息message特征burst的方法依然適用。
27、(3.1.2)參照(2.3)中,生成tcp、quic協(xié)議下acm流量序列行為特征的方法,我們借鑒報(bào)文序列的時(shí)序特征,對(duì)每個(gè)消息message特征burst再進(jìn)行分割,找到其中隱含的報(bào)文間行為特征。
28、(3.2)基于tls協(xié)議依據(jù)tls?record對(duì)傳輸層分段tcp?segments的截?cái)喾椒?,設(shè)計(jì)還原tls?record的方法,對(duì)齊每個(gè)record所寫(xiě)長(zhǎng)度和后續(xù)多個(gè)tcp?segments的長(zhǎng)度總和,從而還原出tls層的報(bào)文長(zhǎng)度序列,以代替tcp層報(bào)文數(shù)據(jù),從tls通信模式角度表征tls層流量的行為特征;
29、(3.3)參照(2.3)中,生成tcp、quic協(xié)議下acm流量序列行為特征的方法,針對(duì)每條tls流,聚合在時(shí)間間隔上相近的同方向連續(xù)報(bào)文長(zhǎng)度形成一個(gè)tls的acm單元,表征tls層上通信傳輸?shù)囊粋€(gè)消息message,作為tls層的acm流量序列行為特征。
30、(3.4)針對(duì)(3.3)中tls協(xié)議下聚合tls的acm單元的方式,設(shè)計(jì)tls報(bào)文之間的時(shí)間間隔相似程度,能夠被聚合成一個(gè)acm單元的多個(gè)tls報(bào)文之間的時(shí)間間隔差異不能大于15%,從而保證這些被聚合成acm單位特征的報(bào)文都隸屬于同一個(gè)tls消息message;按照時(shí)間順序排列這些tls的acm單元,形成tls協(xié)議下acm報(bào)文長(zhǎng)度序列。
31、(3.5)基于上述(3.3)和(3.4)所合成的tls協(xié)議下acm報(bào)文長(zhǎng)度序列,使用mcformer這一針對(duì)加密流量應(yīng)用分類(lèi)的transformer架構(gòu)的分類(lèi)器,輸入該序列的訓(xùn)練樣本以供處理序列輸入的transformer學(xué)習(xí)其流量表征,以實(shí)現(xiàn)基于tls協(xié)議下流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi)。
32、(3.6)上述(3.4)和(3.5)分別從流量序列的行為特征構(gòu)建和針對(duì)流量序列輸入的深度學(xué)習(xí)模型展開(kāi),從而實(shí)現(xiàn)自動(dòng)特征提取和端到端的移動(dòng)端加密應(yīng)用分類(lèi)方法,在實(shí)驗(yàn)效果上達(dá)到更好的性能效果。
33、(3.6.1)對(duì)于tcp協(xié)議下的13個(gè)移動(dòng)端應(yīng)用的主營(yíng)服務(wù),基于(2.3)中的特征構(gòu)建和(2.4)中的模型方法,實(shí)現(xiàn)基于tcp流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi),生成相應(yīng)分類(lèi)結(jié)果混淆矩陣。
34、(3.6.2)對(duì)于quic協(xié)議下的8個(gè)移動(dòng)端應(yīng)用的主營(yíng)服務(wù),基于(2.3)中的特征構(gòu)建和(2.4)中的模型方法,實(shí)現(xiàn)基于quic流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi),生成相應(yīng)分類(lèi)結(jié)果混淆矩陣。
35、(3.6.3)對(duì)于tls協(xié)議下的11個(gè)移動(dòng)端應(yīng)用的主營(yíng)服務(wù),基于(3.3)、(3.4)中的特征構(gòu)建和(3.5)中的模型方法,實(shí)現(xiàn)基于tls流量序列行為特征的移動(dòng)端加密應(yīng)用分類(lèi),生成相應(yīng)分類(lèi)結(jié)果混淆矩陣。
36、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和有益效果:
37、(1)考慮多種當(dāng)下網(wǎng)絡(luò)流行的加密協(xié)議中客戶(hù)端和服務(wù)器通信內(nèi),加密流量的報(bào)文間消息關(guān)聯(lián)模式機(jī)制,分別設(shè)計(jì)tcp、quic和tls兩種協(xié)議模式下基于流量序列報(bào)文間關(guān)聯(lián)的行為特征構(gòu)建方式,該種特征工程可適用真實(shí)網(wǎng)絡(luò)和復(fù)雜環(huán)境。
38、(2)使用transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)處理加密流量的高維特征數(shù)據(jù),模型支持并行計(jì)算,易于適用并發(fā)和高速網(wǎng)絡(luò)環(huán)境,模型收斂快、針對(duì)加密流量的應(yīng)用分類(lèi)效果好,科學(xué)解決相似功能的應(yīng)用分類(lèi)難的問(wèn)題。
39、(3)挖掘加密流量的網(wǎng)絡(luò)通信過(guò)程,深層次捕捉客戶(hù)端和服務(wù)器單次通信內(nèi)的加密流量報(bào)文間行為特征關(guān)聯(lián),不僅實(shí)現(xiàn)精準(zhǔn)識(shí)別易混淆的相同協(xié)議相同服務(wù)的不同應(yīng)用,也增強(qiáng)了加密流量序列行為特征的可解釋性。
40、總體而言,本發(fā)明通過(guò)融合網(wǎng)絡(luò)通信過(guò)程模式特性、多種加密協(xié)議分析、基于transformer模型的神經(jīng)網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)對(duì)加密流量序列行為特征的深層挖掘,能夠達(dá)到高精度的移動(dòng)端加密應(yīng)用分類(lèi)與識(shí)別,對(duì)于加強(qiáng)網(wǎng)絡(luò)服務(wù)監(jiān)管、保障用戶(hù)隱私具有重要意義。