專利名稱:應(yīng)用識(shí)別方法、數(shù)據(jù)挖掘方法、裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種應(yīng)用識(shí)別方法、數(shù)據(jù)挖掘方法、裝置及系統(tǒng)。
背景技術(shù):
隨著寬帶業(yè)務(wù)快速發(fā)展,給運(yùn)營(yíng)商帶來(lái)機(jī)遇的同時(shí)也帶來(lái)挑戰(zhàn),隨著P2P、網(wǎng)絡(luò)游戲、Web TV、VoIP、網(wǎng)上銀行類、網(wǎng)絡(luò)磁盤等應(yīng)用的普及,帶來(lái)了帶寬管理、內(nèi)容計(jì)費(fèi)、信息安全處理等一系列問(wèn)題。
深度包檢測(cè)(Deep Packet Inspection, DPI)技術(shù)被認(rèn)為是應(yīng)對(duì)網(wǎng)絡(luò)中多個(gè)業(yè)務(wù)運(yùn)行所帶來(lái)的管理問(wèn)題的方法,即利用DPI技術(shù)能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行快速的解析,從而能使得運(yùn)營(yíng)商網(wǎng)絡(luò)能支撐基于應(yīng)用的業(yè)務(wù),例如郵件類資費(fèi)包、視頻類資費(fèi)包、游戲類資費(fèi)包、特定下載軟件的阻斷等。
如圖1A所示,為協(xié)議層次關(guān)系圖,從傳輸層來(lái)看網(wǎng)絡(luò)應(yīng)用多承載于TCP和UDP之上,從七層承載來(lái)看,主要的承載協(xié)議包括HTTP/HTTPS、SSL、RTP、SIP、S0CKS5、S0CKS4等。 而應(yīng)用承載方式一般包括流承載(僅前幾包出現(xiàn)承載協(xié)議,后續(xù)包為純應(yīng)用數(shù)據(jù),如圖1B 所示的);包承載(每個(gè)包擁有承載協(xié)議和應(yīng)用數(shù)據(jù),如圖1C所示);
對(duì)于承載類協(xié)議的應(yīng)用識(shí)別,目前DPI采用7層協(xié)議掃描的方式進(jìn)行協(xié)議匹配,換句話即從下到上依次進(jìn)行特征串匹配來(lái)識(shí)別,以HTTP協(xié)議為例,首先通過(guò)HTTP首行的HTTP 請(qǐng)求方法及URI格式識(shí)別出HTTP協(xié)議,然后通過(guò)頭域(例如HOST、REFERER、USER-AGENT 等)內(nèi)容的特征串匹配識(shí)別出應(yīng)用,最后期待第二包進(jìn)行內(nèi)容校驗(yàn)(此步驟可選)。
此外,由于互聯(lián)網(wǎng)應(yīng)用更新速度遠(yuǎn)快于DPI的特征庫(kù)的更新,且很多應(yīng)用處于安全考慮越來(lái)越多的采用了 SSL、HTTPS等加密方式進(jìn)行數(shù)據(jù)傳輸,從而導(dǎo)致DPI識(shí)別性能的低下,而對(duì)于加密協(xié)議的應(yīng)用識(shí)別,也僅僅只能識(shí)別到L7協(xié)議信息,L7上的運(yùn)行的應(yīng)用仍然無(wú)法識(shí)別;例如HTTPS等加密數(shù)據(jù)無(wú)法識(shí)別到應(yīng)用,從而導(dǎo)致DPI識(shí)別失效。發(fā)明內(nèi)容
本發(fā)明實(shí)施例在于提供一種應(yīng)用識(shí)別方法、數(shù)據(jù)挖掘方法、裝置及系統(tǒng),以提升的 DPI識(shí)別性能和應(yīng)用識(shí)別率。
第一方面,本發(fā)明實(shí)施例提供一種UBA數(shù)據(jù)挖掘方法,包括
獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口;
對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的 聚類結(jié)果;
根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;
向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
結(jié)合第一方面,在第一種實(shí)現(xiàn)方式下,所述獲得待處理數(shù)據(jù)包括
針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP 地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;
根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息。
結(jié)合第一方面,在第二種實(shí)現(xiàn)方式下,所述獲得待處理數(shù)據(jù)包括
獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;
根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息。
結(jié)合第一方面,在第三種實(shí)現(xiàn)方式下,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
所述獲得待處理數(shù)據(jù)包括
接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;
針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP 地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;
根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累 加值。
結(jié)合第一方面,在第四種實(shí)現(xiàn)方式下,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
所述獲得待處理數(shù)據(jù)包括
接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;
獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;
根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
結(jié)合第一方面或第一方面的第一種實(shí)現(xiàn)方式或第一方面的第二種實(shí)現(xiàn)方式,在第五種實(shí)現(xiàn)方式下,所述對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果,包括
對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;
所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括
根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;
或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值。
結(jié)合第一方面的第三種實(shí)現(xiàn)方式或第一方面的第四種實(shí)現(xiàn)方式,在第六種實(shí)現(xiàn)方式下,所述對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果,包括
對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;
所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括
根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;
或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值。
結(jié)合第一方面或第一方面的第一種、第二種、第三種、第四種實(shí)現(xiàn)方式,在第六種實(shí)現(xiàn)方式下,所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括
根據(jù)所述服務(wù)負(fù)載量的大小與第一閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的大小大于或等于第一閾值;
或,根據(jù)所述服務(wù)負(fù)載量的比重與第二閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的比重大于或等于第二閾值。
第二方面,本發(fā)明實(shí)施例提供一種應(yīng)用識(shí)別方法,包括
接收第二網(wǎng)絡(luò)數(shù)據(jù)和UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息,其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ;
根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中,所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的。
結(jié)合第二方面,在第一種實(shí)現(xiàn)方式下,所述的方法,進(jìn)一步包括
對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,或者,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。
結(jié)合第二方面或第二方面的第一種實(shí)現(xiàn)方式,在第二種實(shí)現(xiàn)方式下,當(dāng)查找失敗時(shí),所述方法進(jìn)一步包括
對(duì)所述第二網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行七層L7層特征的匹配,得到第二協(xié)議識(shí)別結(jié)果,并向所述UBA子系統(tǒng)輸出所述第二協(xié)議識(shí)別結(jié)果,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和應(yīng)用信息,或成對(duì)應(yīng)關(guān)系的五元組信息和應(yīng)用信息;或者,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和七層L7協(xié)議信息,或成對(duì)應(yīng)關(guān)系的五元組信息和七層L7協(xié)議彳η息。
結(jié)合第二方面或第二方面的第一種實(shí)現(xiàn)方式或第二方面的第二種實(shí)現(xiàn)方式,在第三種實(shí)現(xiàn)方式下,所述方法進(jìn)一步包括
根據(jù)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息建立或更新DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,并存儲(chǔ)所述建立或 更新的應(yīng)用信息和遠(yuǎn)端三元組信息之間的對(duì)應(yīng)關(guān)系;
或者,存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
第三方面,本發(fā)明實(shí)施例提供一種UBA數(shù)據(jù)挖掘裝置,包括
內(nèi)容獲取模塊,用于獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ;
聚類模塊,與所述內(nèi)容獲取模塊相連,用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;
收斂模塊,與所述聚類模塊相連,用于根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;
同步模塊,與所述收斂模塊相連,用于向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
結(jié)合第三方面,在第一種實(shí)現(xiàn)方式下,所述內(nèi)容獲取模塊具體用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息;
或者,所述內(nèi)容獲取模塊具體用于獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用/[目息和遠(yuǎn)端二兀組彳目息。
結(jié)合第三方面或第三方面的第一種實(shí)現(xiàn)方式,在第二種實(shí)現(xiàn)方式下,所述聚類模塊具體用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;
所述收斂模塊具體用于根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值。
結(jié)合第三方面,在第三種實(shí)現(xiàn)方式下,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
所述內(nèi)容獲取模塊具`體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;
或者,所述內(nèi)容獲取模塊具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
結(jié)合第三方面的第三種實(shí)現(xiàn)方式,在第四種實(shí)現(xiàn)方式下,所述聚類模塊具體用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;
所述收斂模塊具體用于根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果, 從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值。
結(jié)合第三方面或第三方面的第一種實(shí)現(xiàn)方式或第三方面的第三種實(shí)現(xiàn)方式,在第五種實(shí)現(xiàn)方式下,所述收斂模塊具體用于根據(jù)所述服務(wù)負(fù)載量的大小與第一閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的大小大于或等于第一閾值;或,根據(jù)所述服務(wù)負(fù)載量的比重與第二閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的比重大于或等于第二閾值。
第四方面,本發(fā)明實(shí)施例提供一種應(yīng)用識(shí)別裝置,包括
通信接口模 塊,用于接收第二網(wǎng)絡(luò)數(shù)據(jù)和UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息,其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ;
快速識(shí)別模塊,與所述通信接口模塊連接,用于根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從應(yīng)用識(shí)別裝置維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中,所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的。
結(jié)合第四方面,在第一種實(shí)現(xiàn)方式下,所述通信接口模塊還用于接收第一網(wǎng)絡(luò)數(shù)據(jù);
所述快速識(shí)別模塊還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA 子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,或者, 所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。
結(jié)合第四方面或第四方面的第一種實(shí)現(xiàn)方式,在第二種實(shí)現(xiàn)方式下,所述的應(yīng)用識(shí)別裝置,進(jìn)一步包括深度識(shí)別模塊,
所述快速識(shí)別模塊還用于當(dāng)查找不到與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息時(shí),將所述第二網(wǎng)絡(luò)數(shù)據(jù)傳遞給所述深度識(shí)別模塊;
所述深度識(shí)別模塊用于對(duì)所述第二網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行七層L7層特征的匹配,得到第二協(xié)議識(shí)別結(jié)果,并向所述UBA子系統(tǒng)輸出所述第二協(xié)議識(shí)別結(jié)果,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和應(yīng)用信息,或成對(duì)應(yīng)關(guān)系的五元組信息和應(yīng)用信息;或者,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和七層L7協(xié)議信息, 或成對(duì)應(yīng)關(guān)系的五元組信息和七層L7協(xié)議信息。
結(jié)合第四方面或第四方面的第一種實(shí)現(xiàn)方式或第四方面的第二種實(shí)現(xiàn)方式,在第三種實(shí)現(xiàn)方式下,所述的應(yīng)用識(shí)別裝置進(jìn)一步包括
應(yīng)用特征關(guān)系管理模塊,用于根據(jù)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息建立或更新應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系;
存儲(chǔ)模塊,用于存儲(chǔ)所述建立或更新應(yīng)用信息和遠(yuǎn)端三元組信息之間的對(duì)應(yīng)關(guān)系;或者,用于存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
第五方面,本發(fā)明實(shí)施例提供一種UBA服務(wù)器,所述UBA服務(wù)器包括用于執(zhí)行用戶行為分析或用戶興趣分析的UBA內(nèi)容解析引擎,以及,與所述UBA內(nèi)容解析引擎耦合的 UBA數(shù)據(jù)挖掘引擎,所述UBA數(shù)據(jù)挖掘引擎為結(jié)合第三方面或者結(jié)合第三方面與基于第三方面所形成的第I至第五個(gè)可能的實(shí)施方式中的任意一種或者多種實(shí)施方式,在第六種可能的實(shí)施方式中的UBA數(shù)據(jù)挖掘裝置。
第六方面,本發(fā)明實(shí)施例提供一種DPI服務(wù)器,所述DPI服務(wù)器包括用于接收網(wǎng)絡(luò)數(shù)據(jù)或網(wǎng)絡(luò)數(shù)據(jù)的鏡像的接收器,與所述接收器耦合的深度包檢測(cè)DPI引擎,以及用于發(fā)送所述網(wǎng)絡(luò)數(shù)據(jù)或所述DPI引擎輸出的應(yīng)用信息的發(fā)送器,所述DPI引擎為結(jié)合第四方面或者結(jié)合第四方面與基于第四方面所形成的第一至第三個(gè)可能的實(shí)施方式中的任意一種或者多種實(shí)施方式,在第四種可能的實(shí)施 方式中的應(yīng)用識(shí)別裝置。
第七方面,本發(fā)明實(shí)施例提供一種通信設(shè)備,包括收發(fā)信機(jī)和與所述收發(fā)信機(jī)耦合的用于進(jìn)行網(wǎng)絡(luò)通信的處理器,所述通信設(shè)備還包括與所述收發(fā)信機(jī)耦合的深度包檢測(cè)DPI引擎,所述DPI引擎為結(jié)合第四方面或者結(jié)合第四方面與基于第四方面所形成的第一至第三個(gè)可能的實(shí)施方式中的任意一種或者多種實(shí)施方式,在第四種可能的實(shí)施方式中的應(yīng)用識(shí)別裝置。
第八方面,本發(fā)明實(shí)施例提供一種通信系統(tǒng),包括DPI子系統(tǒng)和UBA子系統(tǒng),其中所述UBA子系統(tǒng)用于獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息,向所述DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息;所述遠(yuǎn)端三元組信息包括服務(wù)器端IP地址、服務(wù)器端端口和傳輸協(xié)議;
所述DPI子系統(tǒng)用于當(dāng)收到第二網(wǎng)絡(luò)數(shù)據(jù)時(shí),根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息建立或更新的。
結(jié)合第八方面,在第一種實(shí)現(xiàn)方式下,所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;
所述UBA子系統(tǒng)具體用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)·的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
結(jié)合第八方面,在第二種實(shí)現(xiàn)方式下,所述的系統(tǒng)進(jìn)一步包括爬取系統(tǒng),用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;
所述UBA子系統(tǒng)具體用于獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
結(jié)合第八方面,在第三種實(shí)現(xiàn)方式下,所述的系統(tǒng)中,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、 客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;
所述UBA子系統(tǒng)具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待 處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP 地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信肩、O
結(jié)合第八方面,在第四種實(shí)現(xiàn)方式下,所述的系統(tǒng)中,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、 客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
所述系統(tǒng)進(jìn)一步包括爬取系統(tǒng),用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;
所述UBA子系統(tǒng)具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果和所述爬取子系統(tǒng)輸出的爬取結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括 成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
結(jié)合第八方面或第八方面的第一種、第二種、第三種或第四種實(shí)現(xiàn)方式,在第五種實(shí)現(xiàn)方式下,所述系統(tǒng)還包括業(yè)務(wù)控制子系統(tǒng),
所述DPI子系統(tǒng)還用于將所述應(yīng)用信息提供給所述業(yè)務(wù)控制子系統(tǒng);
所述業(yè)務(wù)控制子系統(tǒng)用于根據(jù)所述DPI子系統(tǒng)提供的應(yīng)用信息,提供基于應(yīng)用的業(yè)務(wù),所述業(yè)務(wù)包括計(jì)費(fèi)、阻斷、限流、重定向或服務(wù)優(yōu)化。
可見,本發(fā)明實(shí)施例中,UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;并根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;從而實(shí)現(xiàn)了 UBA子系統(tǒng)的數(shù)據(jù)挖掘分析結(jié)果同步作用于DPI子系統(tǒng),換言之,實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng),即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn) 端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的應(yīng)用信息和遠(yuǎn)端三元組信息所建立或更新的;從而在接收到第二網(wǎng)絡(luò)數(shù)據(jù)后,DPI子系統(tǒng)能快速的根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從前述的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息,從而較大程度的提升了 DPI識(shí)別性能和應(yīng)用識(shí)別率,尤其是大幅提升加密協(xié)議的應(yīng)用識(shí)別率,大幅提升承載類協(xié)議的應(yīng)用識(shí)別率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1A為傳統(tǒng)的協(xié)議層次關(guān)系圖的結(jié)構(gòu)示意圖1B為傳統(tǒng)的流承載的原理不意圖1C為傳統(tǒng)的包承載的原理示意圖2為本發(fā)明實(shí)施例的一種通信系統(tǒng)的邏輯結(jié)構(gòu)示意圖3為本發(fā)明實(shí)施例的另一種通信系統(tǒng)的邏輯結(jié)構(gòu)示意圖4為本發(fā)明實(shí)施例的另一種通信系統(tǒng)的邏輯結(jié)構(gòu)示意圖5為本發(fā)明實(shí)施例的一種通信系統(tǒng)的物理部署示意圖6A為本發(fā)明實(shí)施例提供一種UBA數(shù)據(jù)挖掘方法的流程示意圖6B為本發(fā)明實(shí)施例提供另一種UBA數(shù)據(jù)挖掘方法的流程示意圖
圖6C為本發(fā)明實(shí)施例提供另一種UBA數(shù)據(jù)挖掘方法的流程示意圖
圖6D為本發(fā)明實(shí)施例提供再一種UBA數(shù)據(jù)挖掘方法的流程示意圖
圖6E為本發(fā)明實(shí)施例提供又一種UBA數(shù)據(jù)挖掘方法的流程示意圖
圖7為本發(fā)明實(shí)施例提供一種應(yīng)用識(shí)別方法的流程示意圖8為本發(fā)明實(shí)施例提供另一種應(yīng)用識(shí)別方法的流程示意圖9為本發(fā)明實(shí)施例的另一種UBA數(shù)據(jù)挖掘方法的流程示意圖
圖10為本發(fā)明實(shí)施例提供的一種UBA數(shù)據(jù)挖掘裝置1000的結(jié)構(gòu)示意圖
圖11為本發(fā)明實(shí)施例提供的一種UBA服務(wù)器1100的結(jié)構(gòu)示意圖12A為本發(fā)明實(shí)施例提供的一種應(yīng)用識(shí)別裝1200的結(jié)構(gòu)示意圖12B為本發(fā)明實(shí)施例提供的另一種應(yīng)用識(shí)別裝1200的結(jié)構(gòu)示意圖13為本發(fā)明實(shí)施例提供的一種通信設(shè)備1300的結(jié)構(gòu)示意圖14為本發(fā)明實(shí)施例提供的一種DPI服務(wù)器1400的結(jié)構(gòu)示意圖
圖15為本發(fā)明實(shí) 施例提供的另一種通信設(shè)備1500的結(jié)構(gòu)示意圖
圖16為本發(fā)明實(shí)施例提供的一種計(jì)算機(jī)系統(tǒng)1600的結(jié)構(gòu)示意圖
圖17為本發(fā)明實(shí)施例提供的一種計(jì)算機(jī)系統(tǒng)1700的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為了方便理解本發(fā)明實(shí)施例,首先在此介紹本發(fā)明實(shí)施例描述中會(huì)引入的幾個(gè)要素。
五元組信息源IP地址、源端口、目的IP地址、目的端口和傳輸協(xié)議;需要說(shuō)明的是,本發(fā)明實(shí)施例應(yīng)用于客戶端/服務(wù)器C/S的組網(wǎng)模式下,因此在本發(fā)明實(shí)施例中,源IP 地址和源端口應(yīng)分別理解為客戶端IP地址和客戶端端口;目的IP地址和目的端口應(yīng)分別理解為服務(wù)器端IP地址和服務(wù)器端端口 ;為了方便后文描述,在此先統(tǒng)一概念,本端為客戶端,遠(yuǎn)端為服務(wù)器端,遠(yuǎn)端三元組信息被用于表示服務(wù)器端IP地址、服務(wù)器端端口和傳輸協(xié)議;
遠(yuǎn)端三元組信息服務(wù)器端IP地址、服務(wù)器端端口和傳輸協(xié)議;需要說(shuō)明的是,如果網(wǎng)絡(luò)數(shù)據(jù)是從客戶端發(fā)送給服務(wù)器端,則遠(yuǎn)端三元組信息亦可用于表示目的IP、目的端口和傳輸協(xié)議,本發(fā)明實(shí)施例主要以這種場(chǎng)景下舉例來(lái)進(jìn)行本發(fā)明方案的介紹。
應(yīng)用信息即用于表示應(yīng)用的信息,比如應(yīng)用名稱或應(yīng)用標(biāo)識(shí)或應(yīng)用類型。例如, SNS (social network service)、E_mail、GMAIL_SSL、Skype、KuGoo、PPLive 參見圖 la 所不。
請(qǐng)參閱圖2,為本發(fā)明實(shí)施例的一種通信系統(tǒng)的邏輯結(jié)構(gòu)示意圖,如圖2所示,本發(fā)明實(shí)施例的通信系統(tǒng),包括深度包檢測(cè)(De印Packet Inspection,DPI)子系統(tǒng)10和用戶行為分析(User Behavior Analysis, UBA)子系統(tǒng)20,其中
UBA子系統(tǒng)20用于獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息,向所述DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息;所述遠(yuǎn)端三元組信息包括服務(wù)器端IP地址、服務(wù)器端端口和傳輸協(xié)議;
DPI子系統(tǒng)10用于當(dāng)收到第二網(wǎng)絡(luò)數(shù)據(jù)時(shí),根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息建立或更新的。應(yīng)當(dāng)理解的是, 在確定了應(yīng)用信息后,可以支持基于應(yīng)用的業(yè)務(wù),例如郵件類資費(fèi)包、視頻類資費(fèi)包、游戲類資費(fèi)包、特定下載軟件的阻斷等。
本發(fā)明實(shí)施例中提到的服務(wù)負(fù)載量包括但不限于流量匯總值或者連接數(shù)等;
針對(duì)服務(wù)負(fù)載量為流量匯總值的情況,在一種實(shí)現(xiàn)方式下,本發(fā)明實(shí)施例的通信系統(tǒng)中,DPI子系統(tǒng)10還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng) 20輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息。較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層(L7)協(xié)議信息;
相應(yīng)的,UBA子系統(tǒng)2`0具體用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP 地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)10輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,并向所述DPI子系統(tǒng)10發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
需要說(shuō)明的是,這里的DPI子系統(tǒng)10向UBA子系統(tǒng)20輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果可以是=DPI子系統(tǒng)10向UBA子系統(tǒng)20直接輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,也可以是 DPI子系統(tǒng)10向UBA子系統(tǒng)20間接輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,例如,DPI子系統(tǒng)10將第一協(xié)議識(shí)別結(jié)果發(fā)送給數(shù)據(jù)庫(kù)存儲(chǔ)起來(lái),以便于UBA子系統(tǒng)20實(shí)時(shí)或定時(shí)的從數(shù)據(jù)庫(kù)中獲取第一協(xié)議識(shí)別結(jié)果。
在另一種實(shí)現(xiàn)方式下,如圖3所示,本發(fā)明實(shí)施例的系統(tǒng)進(jìn)一步包括爬取系統(tǒng) 30,用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;這里的爬取結(jié)果可以是直接或間接的傳遞給UBA子系統(tǒng)20 ;對(duì)于后者的情況,例如爬取系統(tǒng)30將爬取結(jié)果存儲(chǔ)入數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)與UBA子系統(tǒng)20和爬取系統(tǒng)30均具有通信連接。
DPI子系統(tǒng)10還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層L7協(xié)議信息;
相應(yīng)的,UBA子系統(tǒng)20具體用于獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
針對(duì)服務(wù)負(fù)載量為連接數(shù)的情況,在一種實(shí)現(xiàn)方式下,本發(fā)明實(shí)施例的通信系統(tǒng)中,所述待處理數(shù)據(jù)中的每條記錄還包括客戶端IP地址和 客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息,
DPI子系統(tǒng)10還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)20輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層(L7)協(xié)議信息;
相應(yīng)的,UBA子系統(tǒng)20具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、 域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)10輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)10發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
在另一種實(shí)現(xiàn)方式下,如圖3所示,本發(fā)明實(shí)施例的系統(tǒng)進(jìn)一步包括爬取系統(tǒng) 30,用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;這里的爬取結(jié)果可以是直接或間接的傳遞給UBA子系統(tǒng)20 ;對(duì)于后者的情況,例如爬取系統(tǒng)30將爬取結(jié)果存儲(chǔ)入數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)與UBA子系統(tǒng)20和·爬取系統(tǒng)30均具有通信連接。
DPI子系統(tǒng)10還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層L7協(xié)議信息;
相應(yīng)的,UBA子系統(tǒng)20具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果和所述爬取子系統(tǒng)輸出的爬取結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
需要說(shuō)明的是,UBA子系統(tǒng)20關(guān)聯(lián)生成所述待處理數(shù)據(jù)的條件或數(shù)據(jù)源,可以是從具有通信連接的數(shù)據(jù)庫(kù)中獲得的所述第一網(wǎng)絡(luò)數(shù)據(jù)、所述第一協(xié)議識(shí)別結(jié)果以及所述爬取結(jié)果,也可以是接收的網(wǎng)元設(shè)備(例如路由器)發(fā)來(lái)的第一網(wǎng)絡(luò)數(shù)據(jù),DPI子系統(tǒng)10發(fā)來(lái)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)30發(fā)來(lái)的爬取結(jié)果。
需要說(shuō)明的是,本發(fā)明實(shí)施例的通信系統(tǒng)中的UBA子系統(tǒng)20可以是以離線狀態(tài), 當(dāng)工作觸發(fā)條件滿足時(shí),轉(zhuǎn)換為在線狀態(tài),進(jìn)行數(shù)據(jù)挖掘,并將數(shù)據(jù)挖掘分析結(jié)果(即成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息)反哺給DPI子系統(tǒng)10。
在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例的通信系統(tǒng)中的UBA子系統(tǒng)20可以是UBA服務(wù)器。
在實(shí)際應(yīng)用中,在一種實(shí)現(xiàn)方式下,本發(fā)明實(shí)施例的通信系統(tǒng)中的DPI子系統(tǒng)10 可以為獨(dú)立的DPI服務(wù)器,例如,DPI服務(wù)器為外掛的部署方式,或者,DPI服務(wù)器串聯(lián)在網(wǎng)絡(luò)架構(gòu)中,在移動(dòng)網(wǎng)絡(luò)中,例如DPI服務(wù)器串聯(lián)在RNC和GGSN之間,或者,DPI服務(wù)器串聯(lián)在GGSN和業(yè)務(wù)控制網(wǎng)關(guān)之間;在固網(wǎng)中,例如DPI服務(wù)器串聯(lián)在寬帶接入服務(wù)器和業(yè)務(wù)控制網(wǎng)關(guān)之間;在另一種實(shí)現(xiàn)方式下,DPI子系統(tǒng)10也可以是具有DPI功能的網(wǎng)元設(shè)備,其產(chǎn)品形態(tài)可以是路由器,網(wǎng)關(guān)設(shè)備,RNC、GGSN、SCG或I3DSN等等;應(yīng)當(dāng)理解的是,DPI子系統(tǒng)支持獨(dú)立外置,DPI子系統(tǒng)能與現(xiàn)有設(shè)備進(jìn)行對(duì)接,也可以內(nèi)置于現(xiàn)網(wǎng)的網(wǎng)元設(shè)備上,例如通過(guò)插卡或軟件集成方式。
在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例的通信系統(tǒng)中的爬取子系統(tǒng)30可以是一個(gè)或多個(gè)爬取服務(wù)器(即爬取服務(wù)器組),例如,DNS服務(wù)器、網(wǎng)頁(yè)服務(wù)器、郵件服務(wù)器和/或游戲服務(wù)器等。
應(yīng)當(dāng)理解的是,本發(fā)明實(shí)施例提到的DPI子系統(tǒng)和UBA子系統(tǒng)均部署在單個(gè)物理節(jié)點(diǎn)上的。
本發(fā)明實(shí)施例的技術(shù)方案可以應(yīng)用于各種通信系統(tǒng),例如全球移動(dòng)通訊 (Global System of Mobile communication,簡(jiǎn)稱為 “GSM”)系統(tǒng)、碼分多址(Code Division Multiple Access,簡(jiǎn)稱為 “CDMA”)系統(tǒng)、寬帶碼分多址(Wideband Code Division Multiple Access,簡(jiǎn)稱為 “WCDMA”)系統(tǒng)、通用分組無(wú)線業(yè)務(wù)(General Packet Radio Service,簡(jiǎn)稱為 “GPRS”)、長(zhǎng)期演進(jìn)(Long Term Evolution,簡(jiǎn)稱為 “LTE”)系統(tǒng)、LTE 頻分雙工(FrequencyDivisio n Duplex,簡(jiǎn)稱為 “FDD”)系統(tǒng)、LTE 時(shí)分雙工(Time Division Duplex,簡(jiǎn)稱為“TDD”)、通用移動(dòng)通信系統(tǒng)(Universal Mobile TeIecommunicationSystem,簡(jiǎn)稱為 “UMTS”)、全球互聯(lián)微波接入(WorldwideInteroperabilityfor Microwave Access,簡(jiǎn)稱為 “WiMAX”)通信系統(tǒng)等。
可見,本發(fā)明實(shí)施例中,UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;并根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;從而實(shí)現(xiàn)了 UBA子系統(tǒng)的數(shù)據(jù)挖掘分析結(jié)果同步作用于DPI子系統(tǒng),換言之,實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng),即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的應(yīng)用信息和遠(yuǎn)端三元組信息所建立或更新的;從而在接收到第二網(wǎng)絡(luò)數(shù)據(jù)后,DPI子系統(tǒng)能快速的根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從前述的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息,從而較大程度的提升了 DPI識(shí)別性能和應(yīng)用識(shí)別率,尤其是大幅提升加密協(xié)議的應(yīng)用識(shí)別率,大幅提升承載類協(xié)議的應(yīng)用識(shí)別率;
進(jìn)一步的,DPI子系統(tǒng)對(duì)接收的前續(xù)第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向UBA子系統(tǒng)直接或間接的輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄至少包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息,其中所述待處理數(shù)據(jù)是根據(jù)至少包括所述第一協(xié)議識(shí)別結(jié)果的數(shù)據(jù)源生成的;從而實(shí)現(xiàn)DPI 子系統(tǒng)的輸入或輸出與UBA子系統(tǒng)的輸入或輸出在一定程度上是可以互相轉(zhuǎn)化的;
以及,通過(guò)本發(fā)明實(shí)施例提供的通信系統(tǒng)由于實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng), 即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的,從而解決了現(xiàn)有技術(shù)中固定配置帶來(lái)維護(hù)成本與不適應(yīng)變化的問(wèn)題,從而實(shí)現(xiàn)了自適應(yīng)更新或維護(hù)應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,進(jìn)而減輕維護(hù)工作。
請(qǐng)參閱圖4,為本發(fā)明實(shí)施例的另一種通信系統(tǒng)的邏輯結(jié)構(gòu)示意圖,如圖4所示, 本發(fā)明實(shí)施例的通信系統(tǒng),包括DPI子系統(tǒng)10、UBA子系統(tǒng)20和業(yè)務(wù)控制子系統(tǒng)40,其中 DPI子系統(tǒng)10,UBA子系統(tǒng)20的功能參考前述通信系統(tǒng)的實(shí)施例描述。
DPI子系統(tǒng)10還用于將所述應(yīng)用信息提供給業(yè)務(wù)控制子系統(tǒng)40 ;
業(yè)務(wù)控制子系統(tǒng)40用于根據(jù)DPI子系統(tǒng)10提供的應(yīng)用信息,提供基于應(yīng)用的業(yè)務(wù),所述業(yè)務(wù)包括計(jì)費(fèi)、阻斷、限流、重定向或服務(wù)優(yōu)化。
本發(fā)明實(shí)施例的基于應(yīng)用的業(yè)務(wù)提供網(wǎng)絡(luò),能提供基于應(yīng)用的業(yè)務(wù),這里的服務(wù)包括但不限于計(jì)費(fèi)、阻斷、限流、重定向或服務(wù)優(yōu)化等。換言之,即識(shí)別并分析網(wǎng)絡(luò)的各種應(yīng)用層協(xié)議,對(duì)其實(shí)施各種策略,例如計(jì)費(fèi)、阻斷、限流、重定向或服務(wù)優(yōu)化等等。例如郵件類資費(fèi)包、視頻類資費(fèi)包、游戲類資費(fèi)包、特定下載軟件的阻斷等。
可見,本發(fā)明實(shí)施例中,UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;并根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;從而實(shí)現(xiàn)了 UBA子系統(tǒng)的數(shù)據(jù)挖掘分析結(jié)果同步作用于DPI子系統(tǒng),換言之,實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng),即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的應(yīng)用信息和遠(yuǎn)端三元組信息所建立或更新的;從而在接收到第二網(wǎng)絡(luò)數(shù)據(jù)后,DPI子系統(tǒng)能快速的根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從前述的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息,從而較大程度的提升了 DPI識(shí)別性能和應(yīng)用識(shí)別率,尤其是大幅提升加密協(xié)議的應(yīng)用識(shí)別率,大幅提升承載類協(xié)議的應(yīng)用識(shí)別率,進(jìn)而實(shí)現(xiàn)了支撐基于應(yīng)用的業(yè)務(wù);
進(jìn)一步的,DPI子系統(tǒng)對(duì)接收的前續(xù)第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向UBA子系統(tǒng)直接或間接的輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄至少包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息,其中所述待處理數(shù)據(jù)是根據(jù)至少包括所述第一協(xié)議識(shí)別結(jié)果的數(shù)據(jù)源生成的;從而實(shí)現(xiàn)DPI 子系統(tǒng)的輸入或輸出與UBA子系統(tǒng)的輸入或輸出在一定程度上是可以互相轉(zhuǎn)化的;
以及,通過(guò)本發(fā)明實(shí)施例提供的通信系統(tǒng)由于實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng), 即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的,從而解決了現(xiàn)有技術(shù)中固定配置帶來(lái)維護(hù)成本與不適應(yīng)變化的問(wèn)題,從而實(shí)現(xiàn)了自適應(yīng)更新或維護(hù)應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,進(jìn)而減輕維護(hù)工作。
本發(fā)明實(shí)施例主要應(yīng)用于客戶端/服務(wù)器C/S的組網(wǎng)模式下,請(qǐng)參閱圖5,為本發(fā)明實(shí)施例的一種通信系統(tǒng)的物理部署示意圖,以向運(yùn)營(yíng)商網(wǎng)絡(luò)提供計(jì)費(fèi)服務(wù)。如圖5所示, 包括用戶終端50a_50b、基站51、無(wú)線網(wǎng)絡(luò)控制器52 (Radio Network Controller, RNC)、 通用分組無(wú)線業(yè)務(wù)網(wǎng)關(guān)支持節(jié)點(diǎn)53 (Gateway GPRS Support Node, GGSN)、業(yè)務(wù)控制網(wǎng)關(guān) 54 (Service ControIGateway,SCG)、UBA 服務(wù)器 55、策略服務(wù)器 PCRF56、計(jì)費(fèi)服務(wù)器 57、用戶套餐信息SPR庫(kù)58以及爬取服務(wù)器組(游戲服務(wù)器60、網(wǎng)頁(yè)服務(wù)器61、郵件服務(wù)器62 和DNS服務(wù)器63)。其中,業(yè)務(wù)控制網(wǎng)關(guān)54連接因特網(wǎng)Internet。
請(qǐng)參閱圖6A,為本發(fā)明實(shí)施例提供一種UBA數(shù)據(jù)挖掘方法的流程示意圖,該方法可以應(yīng)用于如圖2或3所示的UBA子系統(tǒng)(即UBA服務(wù)器),如圖6A所示,該方法可以包括如下步驟
S601、獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端 IP地址和服務(wù)器端端口 ;
較優(yōu)的,每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息;這里的五元組信息包括客戶端IP地址和客戶端端口、傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端 端口。
S602、對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果。
其中,本發(fā)明實(shí)施例中的服務(wù)負(fù)載量包括但不限于流量匯總值,連接數(shù)中的任一個(gè)或組合。這里的流量匯總值表示每個(gè)連接下傳輸?shù)木W(wǎng)絡(luò)數(shù)據(jù)的流量的匯總值,換言之,五元組信息能唯一的標(biāo)識(shí)一條連接。而本發(fā)明這里的連接數(shù)表示五元組信息中具有相同遠(yuǎn)端三元組信息的連接的個(gè)數(shù)。
S603、根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;
應(yīng)當(dāng)理解的是,S602步驟中聚類的結(jié)果中存在不真實(shí)的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,比如,當(dāng)前網(wǎng)絡(luò)環(huán)境中存在越來(lái)越多的代理服務(wù)器,通過(guò)步驟S603對(duì)S602 中得到的聚類結(jié)果進(jìn)行收斂處理,去掉不真實(shí)的應(yīng)用特征;
在一種實(shí)現(xiàn)方式下,所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,可以包括
根據(jù)所述服務(wù)負(fù)載量的大小與第一閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的大小大于或等于第一閾值;
或,根據(jù)所述服務(wù)負(fù)載量的比重與第二閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的比重大于或等于第二閾值。
需要說(shuō)明的是,這里的第一閾值和第二閥值是可以根據(jù)實(shí)際應(yīng)用或經(jīng)驗(yàn)值靈活設(shè)置,本發(fā)明實(shí)施例對(duì)此不作限定。
S604、向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
可見,本發(fā)明實(shí)施例提供的UBA數(shù)據(jù)挖掘方法中,UBA子系統(tǒng)(UBA服務(wù)器)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、 遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;并根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;從而實(shí)現(xiàn)了 UBA子系統(tǒng)的數(shù)據(jù)挖掘分析結(jié)果同步作用于 DPI子系統(tǒng),換言之,實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng),即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的應(yīng)用信息和遠(yuǎn)端三元組信息所建立或更新的;從而在接收到第二網(wǎng)絡(luò)數(shù)據(jù)后,DPI子系統(tǒng)能快速的根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從前述的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息,從而較大程度的提升了 DPI識(shí)別性能和應(yīng)用識(shí)別率,尤其是大幅提升加密協(xié)議的應(yīng)用識(shí)別率,大幅提升承載類協(xié)議的應(yīng)用識(shí)別率。
進(jìn)一步的,DPI子系統(tǒng)對(duì)接收的前續(xù)第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向UBA子系統(tǒng)直接或間接的輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄至少包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息,其中所述待處理數(shù)據(jù)是根據(jù)至少包括所述第一協(xié)議識(shí)別結(jié)果的數(shù)據(jù)源生成的;從而實(shí)現(xiàn)DPI 子系統(tǒng)的輸入或輸出與UBA子系統(tǒng)的輸入或輸出在一定程度上是可以互相轉(zhuǎn)化的;
以及,通過(guò)本發(fā)明實(shí)施例提供的通信系統(tǒng)由于實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng), 即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的,從而解決了現(xiàn)有技術(shù)中固定配置帶來(lái)維護(hù)成本與不適應(yīng)變化的問(wèn)題,從而實(shí)現(xiàn)了自適應(yīng)更新或維護(hù)應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,進(jìn)而減輕維護(hù)工作。
請(qǐng)參閱圖6B,為本發(fā)明實(shí)施例提供另一種UBA數(shù)據(jù)挖掘方法的流程示意圖,該方法可以應(yīng)用于如圖2或3所示的UBA子系統(tǒng)(即UBA服務(wù)器),如圖6B所示,該方法可以包括如下步驟
S6011、針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
其中,爬取技術(shù)屬于現(xiàn)有技術(shù),在此不再贅述。
S6012、獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;
較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層(L7)協(xié)議信息;
需要說(shuō)明的是,S6011和S6012之間沒(méi)有執(zhí)行順序之分。
S6013、根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄至少包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息;
較優(yōu)的,每條記錄包括成對(duì)應(yīng)關(guān)系的流標(biāo)識(shí)、五元組信息和應(yīng)用信息。
S6014、對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;
應(yīng)當(dāng)理解的是,如果S6012中獲得的包括五元組信息的第一協(xié)議識(shí)別結(jié)果,相應(yīng)的,S6014具體為對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果。
S6015、根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第 二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值。
需要說(shuō)明的是,這里的第一連接數(shù)閾值和第二連接數(shù)占有比例閾值是可以根據(jù)實(shí)際應(yīng)用或經(jīng)驗(yàn)值靈活設(shè)置,例如第一連接數(shù)閾值可以是根據(jù)網(wǎng)絡(luò)的規(guī)模來(lái)決定,這里不對(duì)其數(shù)值進(jìn)行限定。第二連接數(shù)占有比例閾值,例如可以為90%或者為85%-90%的范圍,在某些應(yīng)用場(chǎng)景下,第二連接數(shù)占有比例閾值也可以設(shè)置為30 %以上。
S6016、向DPI子系統(tǒng)發(fā)送所述選取的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
請(qǐng)參閱圖6C,為本發(fā)明實(shí)施例提供另一種UBA數(shù)據(jù)挖掘方法的流程示意圖,該方法可以應(yīng)用于如圖2或3所示的UBA子系統(tǒng)(即UBA服務(wù)器),如圖6C所示,本實(shí)施例與圖 6B所示的實(shí)施例的區(qū)別在于
用S6010 替代 S6011 和 S6012,其中
S6010、獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;由于其他步驟相同,故本實(shí)施例對(duì)此不再贅述。
需要說(shuō)明的是,這里的第一協(xié)議識(shí)別結(jié)果和爬取結(jié)果可以分別是所述DPI子系統(tǒng)和所述爬取系統(tǒng)保存于數(shù)據(jù)庫(kù)中的,也可以分別是所述DPI子系統(tǒng)和所述爬取系統(tǒng)直接發(fā)送給UBA子系統(tǒng)(即UBA服務(wù)器)的。換言之即,DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果可以是直接或間接的傳遞到UBA子系統(tǒng),間接的方式即在一種實(shí)現(xiàn)方式下,DPI子系統(tǒng)向數(shù)據(jù)庫(kù)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;同樣的,爬取子系統(tǒng)輸出的爬取結(jié)果可以是直接或間接的傳遞到UBA子系統(tǒng),間接的方式即在一種實(shí)現(xiàn)方式下,爬取子系統(tǒng)向數(shù)據(jù)庫(kù)輸出爬取結(jié)果。
請(qǐng)參閱圖6D,為本發(fā)明實(shí)施例提供再一種UBA數(shù)據(jù)挖掘方法的流程示意圖,該方法可以應(yīng)用于如圖2或3所示的UBA子系統(tǒng)(即UBA服務(wù)器),如圖6D所示,該方法可以包括如下步驟
S6021、接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;
S6022、針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;
其中,爬取技術(shù)屬于現(xiàn)有技術(shù),在此不再贅述。
S6023、獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果, 所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;
較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層(L7)協(xié)議信息;
需要說(shuō)明的是,S6021、S6022和S6023之間沒(méi)有執(zhí)行順序之分。
S6024、根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和`流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
較優(yōu)的,每條記錄包括成對(duì)應(yīng)關(guān)系的流標(biāo)識(shí)、五元組信息、應(yīng)用信息和流量。
S6025、對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;
S6026、根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值。
需要說(shuō)明的是,這里的第一流量閾值和第二流量占有比例閾值是可以根據(jù)實(shí)際應(yīng)用或經(jīng)驗(yàn)值靈活設(shè)置,例如第一流量閾值可以是根據(jù)應(yīng)用的類型來(lái)確定,不同的應(yīng)用對(duì)應(yīng)不同的第一流量閾值,如網(wǎng)絡(luò)視頻類對(duì)應(yīng)的第一流量閾值上G,郵件類對(duì)應(yīng)的第一流量閾值為幾百兆,如300M,或者300M-500M的范圍。第二流量占有比例閾值,例如可以為90%或者為80%-90%的范圍。本發(fā)明對(duì)此不作限定。
S6027、向DPI子系統(tǒng)發(fā)送所述選取的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
請(qǐng)參閱圖6E,為本發(fā)明實(shí)施例提供又一種UBA數(shù)據(jù)挖掘方法的流程示意圖,該方法可以應(yīng)用于如圖2或3所示的UBA子系統(tǒng)(即UBA服務(wù)器),如圖6E所示,本實(shí)施例與圖 6D所示的實(shí)施例的區(qū)別在于
用S6023'替代 S6022 和 S6023,其中
SS6023'、獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;由于其他步驟相同,故本實(shí)施例對(duì)此不再贅述。
需要說(shuō)明的是,這里的第一協(xié)議識(shí)別結(jié)果和爬取結(jié)果可以分別是所述DPI子系統(tǒng)和所述爬取系統(tǒng)保存于數(shù)據(jù)庫(kù)中的,也可以分別是所述DPI子系統(tǒng)和所述爬取系統(tǒng)直接發(fā)送給UBA子系統(tǒng)(即UBA服務(wù)器)的。換言之即,DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果可以是直接或間接的傳遞到UBA子系統(tǒng),間接的方式即在一種實(shí)現(xiàn)方式下,DPI子系統(tǒng)向數(shù)據(jù)庫(kù)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;同樣的,爬取子系統(tǒng)輸出的爬取結(jié)果可以是直接或間接的傳遞到UBA子系統(tǒng),間接的方式即在一種實(shí)現(xiàn)方式下,爬取子系統(tǒng)向數(shù)據(jù)庫(kù)輸出爬取結(jié)果。
請(qǐng)參閱圖7,為本發(fā)明實(shí)施例提供一種應(yīng)用識(shí)別方法的流程示意圖,需要說(shuō)明的是,該方法可以應(yīng)用于如圖2或3所示的DPI子系統(tǒng)。在實(shí)際應(yīng)用中,在一種實(shí)現(xiàn)方式下, 本發(fā)明實(shí)施例的DPI子系統(tǒng)10可以為獨(dú)立的DPI服務(wù)器;在另一種實(shí)現(xiàn)方式下,DPI子系統(tǒng)10也可以是具有DPI功能的網(wǎng)元設(shè)備,其產(chǎn)品形態(tài)可以是路由器,網(wǎng)關(guān)設(shè)備,RNC、GGSN、 SCG或PDSN等等;應(yīng)當(dāng)理解的是,DPI子系統(tǒng)支持獨(dú)立外置,DPI子系統(tǒng)能與現(xiàn)有設(shè)備進(jìn)行對(duì)接,也可以內(nèi)置于現(xiàn)網(wǎng)的網(wǎng)元設(shè)備上,例如通過(guò)插卡或軟件集成方式。如圖7所示,該方法可以包括如下步驟
S701、接收第二網(wǎng)絡(luò)數(shù)據(jù)和UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息,其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ;
S702、根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中,所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的。
請(qǐng)參閱圖8,較優(yōu)的,在S701之前,本發(fā)明實(shí)施例的方法進(jìn)一步包括
S700、對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,使得UBA子系統(tǒng)根據(jù)至少包括第一協(xié)議識(shí)別結(jié)果的數(shù)據(jù)源所述向所述 DPI子系統(tǒng)發(fā)送成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,或者,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。
較優(yōu)的,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息、七層L7協(xié)議信息;應(yīng)當(dāng)理解的是,這里的協(xié)議識(shí)別處理包括2層特征、3層特征以及簡(jiǎn)單的7層特征匹配(例如IP地址、 端口、傳輸協(xié)議、TCP幀頭、固定位置的短子串等)。
需要說(shuō)明的是,DPI子系統(tǒng)可以將網(wǎng)絡(luò)數(shù)據(jù)的協(xié)議識(shí)別結(jié)果直接或者間接的傳遞給UBA子系統(tǒng),UBA子系統(tǒng)通過(guò)數(shù)據(jù)挖掘、聚類和收斂等方法獲得符合條件的應(yīng)用特征集, 并同步到DPI子系統(tǒng)。應(yīng)當(dāng)理解的是,這是一個(gè)不斷循環(huán)的過(guò)程。即,前續(xù)網(wǎng)絡(luò)數(shù)據(jù)的協(xié)議識(shí)別結(jié)果(尤其是沒(méi)有識(shí)別出應(yīng)用信息的協(xié)議識(shí)別結(jié)果)觸發(fā)了 UBA子系統(tǒng)反哺應(yīng)用特征集,而該應(yīng)用特征集能被DPI子系統(tǒng)用于快速識(shí)別后續(xù)網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用信息。
需要說(shuō)明的是,這里的第一網(wǎng)絡(luò)數(shù)據(jù)和第二網(wǎng)絡(luò)數(shù)據(jù)可以是同一個(gè)網(wǎng)絡(luò)應(yīng)用下的不同的網(wǎng)絡(luò)數(shù)據(jù)包,也可以是不同網(wǎng)絡(luò)應(yīng)用下的不同的網(wǎng)絡(luò)數(shù)據(jù)包。
以及,當(dāng)S702中查找失敗時(shí),本發(fā)明實(shí)施例的方法進(jìn)一步包括
S703、對(duì)所述第二網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行七層L7層特征的匹配,得到第二協(xié)議識(shí)別結(jié)果, 并向所述UBA子系統(tǒng)輸出所述第二協(xié)議識(shí)別結(jié)果,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和應(yīng)用信息,或成對(duì)應(yīng)關(guān)系的五元組信息和應(yīng)用信息;或者,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和七層L7協(xié)議信息,或成對(duì)應(yīng)關(guān)系的五元組信息和七層L7協(xié)議信息。
較優(yōu)的,在S701之后,本發(fā)明實(shí)施例的方法進(jìn)一步包括
根據(jù)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息建立或更新DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,并存儲(chǔ)所述建立或更新的應(yīng)用信息和遠(yuǎn)端三元組信息之間的對(duì)應(yīng)關(guān)系;或者,
存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
應(yīng)當(dāng)理解的是,對(duì)于“或者”之后的后者情況,通常是DPI子系統(tǒng)維護(hù)的特征庫(kù)為空時(shí),在收到UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息或,直接存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
可見,本發(fā)明實(shí)施例提供的應(yīng)用識(shí)別方法中,在UBA子系統(tǒng)向所述DPI子系統(tǒng)發(fā)送 /同步成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息后,實(shí)現(xiàn)了 UBA子系統(tǒng)的數(shù)據(jù)挖掘分析結(jié)果同步作用于DPI子系統(tǒng),換言之,實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng),即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的;從而在接收到第二網(wǎng)絡(luò)數(shù)據(jù)后,DPI子系統(tǒng)能快速的根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從前述的應(yīng)用信息和遠(yuǎn)端三元組信 息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息,從而較大程度的提升了 DPI識(shí)別性能和應(yīng)用識(shí)別率,尤其是大幅提升加密協(xié)議的應(yīng)用識(shí)別率,大幅提升承載類協(xié)議的應(yīng)用識(shí)別率;
進(jìn)一步的,DPI子系統(tǒng)對(duì)接收的前續(xù)第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向UBA子系統(tǒng)直接或間接的輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果;UBA子系統(tǒng)獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄至少包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息,其中所述待處理數(shù)據(jù)是根據(jù)至少包括所述第一協(xié)議識(shí)別結(jié)果的數(shù)據(jù)源生成的;從而實(shí)現(xiàn)DPI 子系統(tǒng)的輸入或輸出與UBA子系統(tǒng)的輸入或輸出在一定程度上是可以互相轉(zhuǎn)化的;
以及,通過(guò)本發(fā)明實(shí)施例提供的通信系統(tǒng)由于實(shí)現(xiàn)了 UBA子系統(tǒng)反哺DPI子系統(tǒng), 即所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的,從而解決了現(xiàn)有技術(shù)中固定配置帶來(lái)維護(hù)成本與不適應(yīng)變化的問(wèn)題,從而實(shí)現(xiàn)了自適應(yīng)更新或維護(hù)應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,進(jìn)而減輕維護(hù)工作。
下面結(jié)合實(shí)際應(yīng)用即用戶通過(guò)用戶終端使用瀏覽器訪問(wèn)某在線視頻服務(wù)商網(wǎng)站觀看視頻短片,來(lái)詳細(xì)介紹下通過(guò)本發(fā)明實(shí)施例的方法來(lái)實(shí)現(xiàn)運(yùn)營(yíng)商對(duì)視頻流量進(jìn)行計(jì)費(fèi)。下面針對(duì)此場(chǎng)景進(jìn)行描述
請(qǐng)參閱圖9,為本發(fā)明實(shí)施例的另一種UBA數(shù)據(jù)挖掘方法的流程示意圖,應(yīng)用于如圖5所示的網(wǎng)絡(luò)環(huán)境下,如圖9所示,該方法包括
S900、初始狀態(tài)下,業(yè)務(wù)控制網(wǎng)關(guān)54維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系(簡(jiǎn)稱為DPI應(yīng)用關(guān)聯(lián)表)為空,配置目標(biāo)域名列表(如mail, google. com、t. sina. com 等),這里的業(yè)務(wù)控制網(wǎng)關(guān)54部署有本發(fā)明的DPI子系統(tǒng);
S901a_S901b、當(dāng)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)入業(yè)務(wù)控制網(wǎng)關(guān)54 (業(yè)務(wù)控制網(wǎng)關(guān)54上部署有DPI 子系統(tǒng))后,業(yè)務(wù)控制網(wǎng)關(guān)54對(duì)該網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向UBA服務(wù)器55輸出相應(yīng)的協(xié)議識(shí)別結(jié)果。本實(shí)施例中,這里的協(xié)議識(shí)別結(jié)果如表A所示,協(xié)議識(shí)別結(jié)果包括流I D、 五元組信息和七層L7協(xié)議信息。
權(quán)利要求
1.一種用戶行為分析UBA數(shù)據(jù)挖掘方法,其特征在于,包括 獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口; 對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果; 根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息; 向深度包檢測(cè)DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲得待處理數(shù)據(jù)包括 針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果; 獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息; 根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息。
3.如權(quán)利要求1所述的方法,其特征在于,所述獲得待處理數(shù)據(jù)包括 獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息; 根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息。
4.如權(quán)利要求1或2或3所述的方法,其特征在于, 所述對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果,包括 對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果; 所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括 根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值; 或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值。
5.如權(quán)利要求1所述的方法,其特征在于,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息, 所述獲得待處理數(shù)據(jù)包括 接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包; 針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果; 獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息; 根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
6.如權(quán)利要求1所述的方法,其特征在于,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息, 所述獲得待處理數(shù)據(jù)包括 接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包; 獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息; 根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
7.如權(quán)利要求5或6所述的方法,其特征在于, 所述對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果,包括 對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果; 所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括 根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值; 或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值。
8.如權(quán)利要求1或2或3或5或6所述的方法,其特征在于,所述根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,包括 根據(jù)所述服務(wù)負(fù)載量的大小與第一閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的大小大于或等于第一閾值; 或,根據(jù)所述服務(wù)負(fù)載量的比重與第二閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的比重大于或等于第二閾值。
9.一種應(yīng)用識(shí)別方法,其特征在于,包括 接收第二網(wǎng)絡(luò)數(shù)據(jù)和用戶行為分析UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息,其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ; 根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從深度包檢測(cè)DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中,所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的。
10.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括 對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,或者,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。
11.如權(quán)利要求9或10或所述的方法,其特征在于,當(dāng)查找失敗時(shí),所述方法進(jìn)一步包括 對(duì)所述第二網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行七層L7層特征的匹配,得到第二協(xié)議識(shí)別結(jié)果,并向所述UBA子系統(tǒng)輸出所述第二協(xié)議識(shí)別結(jié)果,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和應(yīng)用信息,或成對(duì)應(yīng)關(guān)系的五元組信息和應(yīng)用信息;或者,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和七層L7協(xié)議信息,或成對(duì)應(yīng)關(guān)系的五元組信息和七層L7協(xié)議信息。
12.如權(quán)利要求9至11任一項(xiàng)所述的方法,其特征在于,所述方法進(jìn)一步包括 根據(jù)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息建立或更新DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系,并存儲(chǔ)所述建立或更新的應(yīng)用信息和遠(yuǎn)端三元組信息之間的對(duì)應(yīng)關(guān)系; 或者,存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
13.—種UBA數(shù)據(jù)挖掘裝置,其特征在于,包括 內(nèi)容獲取模塊,用于獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口 ; 聚類模塊,與所述內(nèi)容獲取模塊相連,用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果; 收斂模塊,與所述聚類模塊相連,用于根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息; 同步模塊,與所述收斂模塊相連,用于向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
14.如權(quán)利要求13所述的UBA數(shù)據(jù)挖掘裝置,其特征在于,所述內(nèi)容獲取模塊具體用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息; 或者,所述內(nèi)容獲取模塊具體用于獲得所述DPI子系統(tǒng)輸出的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息。
15.如權(quán)利要求13或14所述的UBA數(shù)據(jù)挖掘裝置,其特征在于, 所述聚類模塊具體用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果; 所述收斂模塊具體用于根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值。
16.如權(quán)利要求13所述的UBA數(shù)據(jù)挖掘裝置,其特征在于,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息, 所述內(nèi)容獲取模塊具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值; 或者,所述內(nèi)容獲取模塊具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;獲得所述DPI子系統(tǒng)輸出的針對(duì)所述第一網(wǎng)絡(luò)數(shù)據(jù)的第一協(xié)議識(shí)別結(jié)果和爬取子系統(tǒng)輸出的爬取結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息,所述爬取結(jié)果包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值。
17.如權(quán)利要求16所述的UBA數(shù)據(jù)挖掘裝置,其特征在于, 所述聚類模塊具體用于對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果; 所述收斂模塊具體用于根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值。
18.如權(quán)利要求13、14或16所述的UBA數(shù)據(jù)挖掘裝置,其特征在于, 所述收斂模塊具體用于根據(jù)所述服務(wù)負(fù)載量的大小與第一閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的大小大于或等于第一閾值;或者,根據(jù)所述服務(wù)負(fù)載量的比重與第二閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的服務(wù)負(fù)載量的比重大于或等于第二閾值。
19.一種應(yīng)用識(shí)別裝置,其特征在于,包括 通信接口模塊,用于接收第二網(wǎng)絡(luò)數(shù)據(jù)和用戶行為分析UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息,其中,所述遠(yuǎn)端三元組信息包括傳輸協(xié)議、服務(wù)器端IP地址和服務(wù)器端端口; 快速識(shí)別模塊,與所述通信接口模塊連接,用于根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從所述應(yīng)用識(shí)別裝置維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中,所述深度包檢測(cè)DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息建立或更新的。
20.如權(quán)利要求19所述的應(yīng)用識(shí)別裝置,其特征在于,所述通信接口模塊還用于接收第一網(wǎng)絡(luò)數(shù)據(jù); 所述快速識(shí)別模塊還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息,或者,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息。
21.如權(quán)利要求19或20所述的應(yīng)用識(shí)別裝置,其特征在于,進(jìn)一步包括深度識(shí)別模塊, 所述快速識(shí)別模塊還用于當(dāng)查找不到與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息時(shí),將所述第二網(wǎng)絡(luò)數(shù)據(jù)傳遞給所述深度識(shí)別模塊; 所述深度識(shí)別模塊用于對(duì)所述第二網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行七層L7層特征的匹配,得到第二協(xié)議識(shí)別結(jié)果,并向所述UBA子系統(tǒng)輸出所述第二協(xié)議識(shí)別結(jié)果,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和應(yīng)用信息,或成對(duì)應(yīng)關(guān)系的五元組信息和應(yīng)用信息;或者,所述第二協(xié)議識(shí)別結(jié)果包括成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息和七層L7協(xié)議信息,或成對(duì)應(yīng)關(guān)系的五元組信息和七層L7協(xié)議信息。
22.如權(quán)利要求19-21任一項(xiàng)所述的應(yīng)用識(shí)別裝置,其特征在于,進(jìn)一步包括 應(yīng)用特征關(guān)系管理模塊,用于根據(jù)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息建立或更新應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系; 存儲(chǔ)模塊,用于存儲(chǔ)所述建立或更新應(yīng)用信息和遠(yuǎn)端三元組信息之間的對(duì)應(yīng)關(guān)系;或者,用于存儲(chǔ)所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息。
23.一種用戶行為分析UBA服務(wù)器,其特征在于,所述UBA服務(wù)器包括用于執(zhí)行用戶行為分析或用戶興趣分析的UBA內(nèi)容解析引擎,以及,與所述UBA內(nèi)容解析引擎耦合的UBA數(shù)據(jù)挖掘引擎,所述UBA數(shù)據(jù)挖掘引擎為如權(quán)利要求13至18任一項(xiàng)所述的UBA數(shù)據(jù)挖掘>j-U ρ α裝直。
24.一種深度包檢測(cè)DPI服務(wù)器,其特征在于,所述DPI服務(wù)器包括用于接收網(wǎng)絡(luò)數(shù)據(jù)或網(wǎng)絡(luò)數(shù)據(jù)的鏡像的接收器,與所述接收器耦合的深度包檢測(cè)DPI引擎,以及用于發(fā)送所述網(wǎng)絡(luò)數(shù)據(jù)或所述DPI引擎輸出的應(yīng)用信息的發(fā)送器,所述DPI引擎為如權(quán)利要求19至22任一項(xiàng)所述的應(yīng)用識(shí)別裝置。
25.—種通信設(shè)備,包括收發(fā)信機(jī)和與所述收發(fā)信機(jī)耦合的用于進(jìn)行網(wǎng)絡(luò)通信的處理器,其特征在于,所述通信設(shè)備還包括與所述收發(fā)信機(jī)耦合的深度包檢測(cè)DPI引擎,所述DPI引擎為如權(quán)利要求19至22任一項(xiàng)所述的應(yīng)用識(shí)別裝置。
26.—種通信系統(tǒng),其特征在于,包括深度包檢測(cè)DPI子系統(tǒng)和用戶行為分析UBA子系統(tǒng),其中 所述UBA子系統(tǒng)用于獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的、成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息,向所述DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息與應(yīng)用信息;所述遠(yuǎn)端三元組信息包括服務(wù)器端IP地址、服務(wù)器端端口和傳輸協(xié)議; 所述DPI子系統(tǒng)用于當(dāng)收到第二網(wǎng)絡(luò)數(shù)據(jù)時(shí),根據(jù)所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息,從所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系中,查找與所述第二網(wǎng)絡(luò)數(shù)據(jù)中包含的遠(yuǎn)端三元組信息匹配的應(yīng)用信息以識(shí)別出所述第二網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用類型,其中所述DPI子系統(tǒng)維護(hù)的應(yīng)用信息和遠(yuǎn)端三元組信息的對(duì)應(yīng)關(guān)系是基于所述UBA子系統(tǒng)發(fā)送的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息建立或更新的。
27.如權(quán)利要求26所述的系統(tǒng),其特征在于,所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息; 所述UBA子系統(tǒng)具體用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
28.如權(quán)利要求26所述的系統(tǒng),其特征在于,進(jìn)一步包括爬取系統(tǒng),用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果; 所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括遠(yuǎn)端三元組信息; 所述UBA子系統(tǒng)具體用于獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果和所述第一協(xié)議識(shí)別結(jié)果,以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息和遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄的個(gè)數(shù)作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的連接數(shù),得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及連接數(shù)的聚類結(jié)果;根據(jù)所述連接數(shù)的大小與第一連接數(shù)閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)的大小大于或等于第一連接數(shù)閾值;或,根據(jù)所述連接數(shù)占所有連接數(shù)的比重與第二連接數(shù)占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的連接數(shù)占所有連接數(shù)的比重大于或等于第二連接數(shù)占有比例閾值,向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
29.如權(quán)利要求26所述的系統(tǒng),其特征在于,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息, 所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息; 所述UBA子系統(tǒng)具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
30.如權(quán)利要求26所述的系統(tǒng),其特征在于,所述每條記錄還包括客戶端IP地址和客戶端端口,以及對(duì)應(yīng)于應(yīng)用信息和五元組信息的流量,其中客戶端IP地址、客戶端端口和遠(yuǎn)端三元組信息構(gòu)成所述五元組信息, 所述系統(tǒng)進(jìn)一步包括爬取系統(tǒng),用于針對(duì)每一種應(yīng)用,根據(jù)所述應(yīng)用對(duì)應(yīng)的域名信息爬取與所述域名信息對(duì)應(yīng)的IP地址信息,得到包含成對(duì)應(yīng)關(guān)系的應(yīng)用信息、域名信息和IP地址信息的爬取結(jié)果; 所述DPI子系統(tǒng)還用于對(duì)接收的第一網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議識(shí)別處理,向所述UBA子系統(tǒng)輸出相應(yīng)的第一協(xié)議識(shí)別結(jié)果,所述第一協(xié)議識(shí)別結(jié)果包括五元組信息; 所述UBA子系統(tǒng)具體用于接收第一網(wǎng)絡(luò)數(shù)據(jù),所述第一網(wǎng)絡(luò)數(shù)據(jù)包括一個(gè)或多個(gè)數(shù)據(jù)流,所述每個(gè)數(shù)據(jù)流包括一個(gè)或多個(gè)數(shù)據(jù)包;獲得所述DPI子系統(tǒng)輸出的所述第一協(xié)議識(shí)別結(jié)果和所述爬取子系統(tǒng)輸出的爬取結(jié)果;根據(jù)所述爬取結(jié)果、所述第一協(xié)議識(shí)別結(jié)果以及所述第一網(wǎng)絡(luò)數(shù)據(jù),以所述爬取結(jié)果和第一協(xié)議識(shí)別結(jié)果中相同的IP地址作為關(guān)聯(lián)條件,關(guān)聯(lián)生成所述待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、五元組信息和流量,其中所述對(duì)應(yīng)于所述五元組信息的流量為第一網(wǎng)絡(luò)數(shù)據(jù)中包含所述五元組信息的一個(gè)或多個(gè)數(shù)據(jù)包的負(fù)載長(zhǎng)度的累加值;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同且客戶端IP地址和客戶端端口不同的記錄進(jìn)行聚類處理,并累加所述待處理數(shù)據(jù)中的遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄中的流量作為對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的流量匯總值,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及流量匯總值的聚類結(jié)果;根據(jù)所述流量匯總值的大小與第一流量閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值的大小大于或等于第一流量閾值;或,根據(jù)所述流量匯總值占所有流量的比重與第二流量占有比例閾值的比較結(jié)果,從所述聚類結(jié)果中選取成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,其中對(duì)應(yīng)于所述選取的遠(yuǎn)端三元組與應(yīng)用信息的流量匯總值占所有流量的比重大于或等于第二流量占有比例閾值,并向所述DPI子系統(tǒng)發(fā)送所述選取的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息。
31.如權(quán)利要求26至30任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括業(yè)務(wù)控制子系統(tǒng), 所述DPI子系統(tǒng)還用于將所述應(yīng)用信息提供給所述業(yè)務(wù)控制子系統(tǒng); 所述業(yè)務(wù)控制子系統(tǒng)用于根據(jù)所述DPI子系統(tǒng)提供的應(yīng)用信息,提供基于應(yīng)用的業(yè)務(wù),所述業(yè)務(wù)包括計(jì)費(fèi)、阻斷、限流、重定向或服務(wù)優(yōu)化。
全文摘要
本發(fā)明實(shí)施例公開了一種數(shù)據(jù)挖掘方法、裝置及系統(tǒng),該UBA數(shù)據(jù)挖掘方法包括獲得待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括多條記錄,其中每條記錄包括成對(duì)應(yīng)關(guān)系的應(yīng)用信息、遠(yuǎn)端三元組信息;對(duì)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄進(jìn)行聚類處理,并根據(jù)所述待處理數(shù)據(jù)中遠(yuǎn)端三元組信息及應(yīng)用信息相同的記錄計(jì)算對(duì)應(yīng)于所述遠(yuǎn)端三元組信息及應(yīng)用信息的服務(wù)負(fù)載量,得到包含成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組信息、應(yīng)用信息及服務(wù)負(fù)載量的聚類結(jié)果;根據(jù)所述服務(wù)負(fù)載量的大小或比重從所述聚類結(jié)果中選取可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息;向DPI子系統(tǒng)發(fā)送所述可信度高的成對(duì)應(yīng)關(guān)系的遠(yuǎn)端三元組與應(yīng)用信息,從而提升DPI識(shí)別性能和應(yīng)用識(shí)別率。
文檔編號(hào)H04L29/08GK103051725SQ20121059220
公開日2013年4月17日 申請(qǐng)日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者周韡, 唐東, 張洪丁 申請(qǐng)人:華為技術(shù)有限公司