欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng)的制作方法

文檔序號:6385289閱讀:315來源:國知局
專利名稱:數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明實施例涉及通信技術(shù),尤其涉及一種數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng)。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,計算機和網(wǎng)絡(luò)已成為日常辦公、通訊交流和協(xié)作互動的必備工具和途徑,在提高各公司的工作效率的同時也會使信息系統(tǒng)中的內(nèi)部數(shù)據(jù)遭到泄露,讓公司受到知識產(chǎn)權(quán)、安全和隱私等多方面的威脅,因此,需要采用數(shù)據(jù)泄露防護(DataLoss Prevention,簡稱為DLP)技術(shù)來解決這一問題,而DLP技術(shù)的核心是數(shù)據(jù)內(nèi)容感知技術(shù),數(shù)據(jù)內(nèi)容感知技術(shù)包括數(shù)據(jù)預(yù)處理技術(shù)和指紋提取技術(shù)?,F(xiàn)有技術(shù)中,數(shù)據(jù)預(yù)處理過程為將文本數(shù)據(jù)作為字節(jié)序列,采用定長步距的滑動窗口在字節(jié)序列上滑動,得到K-Gram集合;指紋提取過程為將各K-Gram進行歸一化處理,計算各K-Gram的哈希值,得到K-Gram哈希值集合,即候選指紋集合,若K-Gram在文本數(shù)據(jù)中出現(xiàn)的頻率高,則從候選指紋集合中選擇K-Gram對應(yīng)的K-Gram哈希值,得到K-Gram指紋,以進行指紋匹配來判斷文本數(shù)據(jù)是否包括機密數(shù)據(jù)。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中的數(shù)據(jù)預(yù)處理過程將文本數(shù)據(jù)作為字節(jié)序列,忽略了自然語言的語法和語義信息,無法去除語義區(qū)分度不高的字符,從而使得提取出的指紋用于DLP技術(shù)時,造成數(shù)據(jù)泄露檢測精度低。

發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng),用于提高數(shù)據(jù)泄密檢測精度。第一方面,本發(fā)明實施例提供一種數(shù)據(jù)預(yù)處理方法,包括根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,包括確定當前單元滑動窗口,所述當前單元滑動窗口的起始點和終止點均指向所述文本數(shù)據(jù)中的同一個字符; 將所述終止點向所述文本數(shù)據(jù)中的后續(xù)字符滑動,直至所述當前單元滑動窗口內(nèi)的字符個數(shù)等于所述單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述文本數(shù)據(jù)的最后一個字符時,停止滑動;根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。
結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式中,所述根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,還包括若所述當前單元滑動窗口內(nèi)最后一個字符不是所述文本數(shù)據(jù)的最后一個字符,則將所述當前單元滑動窗口的起始點和終止點均指向所述當前單元滑動窗口內(nèi)最后一個字符在所述文本數(shù)據(jù)中的下一個字符。結(jié)合第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的實現(xiàn)方式,在第一方面的第三種可能的實現(xiàn)方式中,所述根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元,包括若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元;若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄所述當前單元滑動窗口內(nèi)的所有字符。結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,包括將所述至少一個數(shù)據(jù)單元按在所述文本數(shù)據(jù)中的順序依次排列;將當前塊滑動窗口的左沿和右沿均指向所述至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元;若當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動;根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。結(jié)合第一方面的第四種可能的實現(xiàn)方式,在第一方面的第五種可能實現(xiàn)的方式中,所述根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊之后,還包括將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元;若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動;根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。結(jié)合第一方面的第五種可能實現(xiàn)的方式,在第一方面的第六種可能實現(xiàn)的方式中,所述將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,還包括若所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊;若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,則將所述右沿前向滑動一個數(shù)據(jù)單元,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
第二方面,本發(fā)明實施例提供一種數(shù)據(jù)預(yù)處理裝置,包括分割模塊,用于根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;組合模塊,用于將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。結(jié)合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,所述分割模塊包括確定子模塊,用于確定當前單元滑動窗口,所述當前單元滑動窗口的起始點和終止點均指向所述文本數(shù)據(jù)中的同一個字符;第一滑動子模塊,用于將所述終止點向所述文本數(shù)據(jù)中的后續(xù)字符滑動,直至所述當前單元滑動窗口內(nèi)的字符個數(shù)等于所述單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述文本數(shù)據(jù)的最后一個字符時,停止滑動;第一獲得子模塊,用于根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二方面的第二種可能的實現(xiàn)方式中,所述第一滑動子模塊還用于,在所述第一獲得子單元根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,若所述當前單元滑動窗口內(nèi)最后一個字符不是所述文本數(shù)據(jù)的最后一個字符,則將所述當前單元滑動窗口的起始點和終止點均指向所述當前單元滑動窗口內(nèi)最后一個字符在所述文本數(shù)據(jù)中的下一個字符。結(jié)合第二方面的第一種可能的實現(xiàn)方式或第二方面的第二種可能的實現(xiàn)方式,在第二方面的第三種可能的實現(xiàn)方式中,所述第一獲得子模塊具體用于,若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元;若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄所述當前單元滑動窗口內(nèi)的所有字符。結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述組合模塊包括排列子模塊,用于將所述至少一個數(shù)據(jù)單元按在所述文本數(shù)據(jù)中的順序依次排列;指向子模塊,用于將當前塊滑動窗口的左沿和右沿均指向所述至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元;第二滑動子模塊,用于若當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動;
第二獲得子模塊,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。結(jié)合第二方面的第四種可能的實現(xiàn)方式,在第二方面的第五種可能實現(xiàn)的方式中,所述第二滑動子模塊,用于所述第二獲得子模塊根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元得到一個數(shù)據(jù)塊之后,將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元;若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動;所述第二獲得子模塊,用于根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。結(jié)合第二方面的第五種可能的實現(xiàn)方式,在第二方面的第六種可能的實現(xiàn)方式中,所述第二獲得子模塊,還用于在所述第二滑動子模塊將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊;所述第二滑動子模塊,還用于將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,則將所述右沿前向滑動一個數(shù)據(jù)單元;所述第二獲得子模塊,還用于若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,在所述第二滑動子模塊將所述右沿前向滑動一個數(shù)據(jù)單元之后,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。第三方面,本發(fā)明實施例提供一種數(shù)據(jù)內(nèi)容感知系統(tǒng),包括指紋提取裝置,如上所述的數(shù)據(jù)預(yù)處理裝置;所述指紋提取裝置,用于根據(jù)預(yù)設(shè)的指紋選擇算法,對所述數(shù)據(jù)預(yù)處理裝置得到的至少一個數(shù)據(jù)塊進行指紋提取,得到至少一個指紋。本發(fā)明實施例提供的數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng),通過根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。由于采用錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,得到數(shù)據(jù)單元,并將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提聞提取指紋的效益。


為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例一的流程示意圖;圖2為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例二的流程示意圖;圖3為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例三的流程示意圖;圖4為本發(fā)明數(shù)據(jù)預(yù)處理方法的原理示意圖;圖5為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例四的流程示意圖;圖6為本發(fā)明數(shù)據(jù)預(yù)處理裝置實施例一的結(jié)構(gòu)示意圖;圖7為本發(fā)明數(shù)據(jù)預(yù)處理裝置實施例二的結(jié)構(gòu)示意圖;圖8為包括本發(fā)明數(shù)據(jù)預(yù)處理裝置的數(shù)據(jù)內(nèi)容感知系統(tǒng)實施例一的結(jié)構(gòu)示意圖;圖9為基于本發(fā)明數(shù)據(jù)預(yù)處理方法的DLP系統(tǒng)實施例一的結(jié)構(gòu)示意圖;圖10為包括本發(fā)明數(shù)據(jù)預(yù)處理裝置的服務(wù)器實施例一的結(jié)構(gòu)示意圖;圖11為基于本發(fā)明數(shù)據(jù)預(yù)處理方法的DLP系統(tǒng)實施例二的結(jié)構(gòu)示意圖;圖12為圖11中DLP掃描代理裝置56的一種結(jié)構(gòu)示意圖;圖13為本發(fā)明提供的計算節(jié)點實施例一的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例一的流程示意圖,如圖1所示,本實施例能夠采用數(shù)據(jù)預(yù)處理裝置來實現(xiàn),該數(shù)據(jù)預(yù)處理裝置可以采用軟件來實現(xiàn),并且這個裝置可以集成在網(wǎng)關(guān)設(shè)備或服務(wù)器或工作站上來實現(xiàn)本實施例的方法,本實施例的方法可以包括步驟101、根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值。在本實施例中,需要保護的機密文本數(shù)據(jù)和待檢測的文本數(shù)據(jù)均可以采用本發(fā)實施例提供的數(shù)據(jù)預(yù)處理方法進行預(yù)處理,首先預(yù)設(shè)一個錨字符集合,該錨字符集合包括至少一個錨字符,錨字符是指沒有實質(zhì)語義信息的字符,比如空格符、回車換行符、標點符號、介詞和副詞等,本領(lǐng)域普通技術(shù)人員可以理解,上述的錨字符與現(xiàn)有技術(shù)中一致,本發(fā)明在此不做限制。本實施例中的文本數(shù)據(jù)是由至少一個字符根據(jù)自然語法規(guī)則形成的文本數(shù)據(jù),步驟101可以包括從頭開始遍歷文本數(shù)據(jù)的字符,當遍歷到文本數(shù)據(jù)中預(yù)設(shè)錨字符集合中的錨字符時,以錨字符為界,將文本數(shù)據(jù)分割成數(shù)據(jù)單元,具體地,錨字符之前的部分為一個數(shù)據(jù)單元,錨字符之后的部分為另一個數(shù)據(jù)單元。若文本數(shù)據(jù)中不包括錨字符集合中的錨字符或者文本數(shù)據(jù)中的第一個字符為錨字符或者文本數(shù)據(jù)中的最后一個字符為錨字符,則將文本數(shù)據(jù)分割成一個數(shù)據(jù)單元;否則可以將文本數(shù)據(jù)分割成兩個以上的數(shù)據(jù)單元。需要說明的是,每個數(shù)據(jù)單元均不包括錨字符,而且為了提高數(shù)據(jù)泄密的檢測精度,每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值,具體地,若以錨字符分割形成的數(shù)據(jù)單元的字符個數(shù)超過預(yù)設(shè)的單元字符上限值,則可以根據(jù)預(yù)設(shè)的單元字符上限值將數(shù)據(jù)單元再分割成更小的數(shù)據(jù)單元,以使最終得到的各數(shù)據(jù)單元的字符個數(shù)超過預(yù)設(shè)的單元字符上限值。其中,該預(yù)設(shè)的單元字符上限值由實際的應(yīng)用場景來確定的,例如預(yù)設(shè)的單元字符上限值可以為512,本發(fā)明在此不做限制。本實施例中得到的數(shù)據(jù)單元是泄密數(shù)據(jù)的最小對齊單元。步驟102、將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對至少一個數(shù)據(jù)塊進行指紋提取處理。在本實施例中,根據(jù)預(yù)設(shè)的塊字符閾值將步驟101所得的至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,若所述至少一個數(shù)據(jù)單元所包括的字符個數(shù)小于或等于預(yù)設(shè)的塊字符閾值,則將所述至少一個數(shù)據(jù)單元組合成一個數(shù)據(jù)塊;否則將所述至少一個數(shù)據(jù)單元組合成至少兩個數(shù)據(jù)塊。需要說明的是,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,其中,預(yù)設(shè)的塊字符閾值主要根據(jù)數(shù)據(jù)泄密檢測粒度來確定,該數(shù)據(jù)泄露檢測粒度為用戶可以文本數(shù)據(jù)泄露所能容忍的程度,本發(fā)明在此不做限制。需要說明的是,步驟101中的預(yù)設(shè)的單元字符上限值不大于預(yù)設(shè)的塊字符閾值。本實施例中得到的數(shù)據(jù)塊是泄露數(shù)據(jù)的最小檢測單元,便于以數(shù)據(jù)塊為單位檢測泄露數(shù)據(jù)。在數(shù)據(jù)預(yù)處理裝置獲得至少一個數(shù)據(jù)塊后,將所獲得的至少一個數(shù)據(jù)塊發(fā)送給指紋提取裝置,由指紋提取裝置對該至少一個數(shù)據(jù)塊進行指紋提取處理,其中,指紋提取裝置可以采用隨機選擇法、求模選擇法、滑動窗口選擇法等進行指紋提取,其中,隨機選擇就是隨機選擇數(shù)據(jù)塊中的若干數(shù)據(jù)塊,對選定的數(shù)據(jù)塊進行歸一化處理,將這些塊的哈希值作為指紋。求模選擇法是對各數(shù)據(jù)塊的哈希值求余,余數(shù)在一定范圍內(nèi)的塊哈希值選擇指紋?;瑒哟翱谶x擇法同樣對數(shù)據(jù)塊進行哈希計算,得到歸一化的哈希值序列,然后利用塊窗口在塊序列上滑動,每個窗口內(nèi)選擇一個塊哈希值作為指紋。本領(lǐng)域普通技術(shù)人員可以理解,指紋提取方法可以與現(xiàn)有技術(shù)中一致,本發(fā)明在此不做詳細介紹。本發(fā)明實施例一提供的數(shù)據(jù)預(yù)處理方法,通過根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。由于采用錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,得到數(shù)據(jù)單元,并將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提聞提取指紋的效益。圖2為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例二的流程示意圖,如圖2所示,本實施例能夠采用數(shù)據(jù)預(yù)處理裝置來實現(xiàn),該數(shù)據(jù)預(yù)處理裝置可以采用軟件來實現(xiàn),并且這個裝置可以集成在網(wǎng)關(guān)設(shè)備或服務(wù)器或工作站上來實現(xiàn)本實施例的方法,在圖1所示實施例一的基礎(chǔ)上,實施例二中的步驟101可以包括步驟201、確定當前單元滑動窗口,當前單元滑動窗口的起始點和終止點均指向文本數(shù)據(jù)中的同一個字符。在本實施例中,利用單元滑動窗口從文本數(shù)據(jù)中分割數(shù)據(jù)單元。具體地,在剛開始對文本數(shù)據(jù)進行預(yù)處理時,將當前單元滑動窗口的起始點和終止點均指向文本數(shù)據(jù)中的第
一個字符。步驟202、將終止點向文本數(shù)據(jù)中的后續(xù)字符滑動,直至當前單元滑動窗口內(nèi)的字符個數(shù)等于單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且終止點指向的字符為文本數(shù)據(jù)的最后一個字符時停止滑動。在本實施例中,當當前單元滑動窗口的起始點與終止點均指向文本數(shù)據(jù)中的同一個字符時,起始點不動,將終止點從該同一個字符開始向文本數(shù)據(jù)中的后續(xù)字符滑動,若所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且終止點指向的字符為預(yù)設(shè)錨字符集合的錨字符時,則終止點停止滑動;若當單元滑動窗口內(nèi)的字符個數(shù)等于預(yù)設(shè)的單元字符上限值時,則終止點停止滑動,同時意味著當前滑動窗口內(nèi)的字符可能不包括預(yù)設(shè)錨字符集合的錨字符;若所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且終止點指向的字符為文本數(shù)據(jù)的最后一個字符時,則終止點停止滑動,同時意味著當前滑動窗口內(nèi)的字符可能不包括預(yù)設(shè)錨字符集合的錨字符。其中,該預(yù)設(shè)的單元字符上限值由實際的應(yīng)用場景來確定的,例如預(yù)設(shè)的單元字符上限值可以為512,本發(fā)明在此不做限制。需要說明的是,在終止點向后滑動的過程中,只要滿足步驟202中停止滑動的三個條件中的任何一個,終止點就停止滑動。步驟203、根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的字符,得到一個數(shù)據(jù)單元。在本實施例中,若終止點指向的字符為錨字符時停止滑動,則從當前單元滑動窗口內(nèi)的字符中丟棄該錨字符,并且將當前單元滑動窗口內(nèi)的除錨字符之外的字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元。若當前單元滑動窗口內(nèi)的字符個數(shù)等于預(yù)設(shè)的單元字符上限值,則確定當前單元滑動窗口內(nèi)的字符,進一步需要判斷終止點指向的字符是否為預(yù)設(shè)錨字符集合中的錨字符,若判斷出終止點指向的字符為預(yù)設(shè)錨字符集合中的錨字符,則丟棄終止點指向的該字符并將當前滑動窗口內(nèi)的除終止點指向的該字符外的所有字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元;若終止點指向的該字符不是預(yù)設(shè)錨字符集合中的錨字符,則將當前單元滑動窗口內(nèi)的所有字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元。若終止點指向的字符為文本數(shù)據(jù)的最后一個字符時停止滑動,則確定當前滑動窗口內(nèi)的字符,進一步需要判斷該最后一個字符是否為預(yù)設(shè)錨字符集合中的錨字符,若判斷出該最后一個字符為預(yù)設(shè)錨字符集合中的錨字符,則丟棄該最后一個字符并將當前滑動窗口內(nèi)的除最后一個字符外的字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元;若該最后一個字符不是預(yù)設(shè)錨字符集合中的錨字符,則將當前滑動窗口內(nèi)的所有字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元。本實施例中得到的數(shù)據(jù)單元是泄密數(shù)據(jù)的最小對齊單元。優(yōu)選地,若終止點指向的字符為錨字符或者為文本數(shù)據(jù)的最后一個字符時停止滑動,還需要進一步判斷當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)是否小于預(yù)設(shè)的單元字符下限值,若當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則將當前單元滑動窗口內(nèi)除錨字符之外的所有字符作為一個數(shù)據(jù)單元;若當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄當前單元滑動窗口內(nèi)的所有字符。這是為了使本發(fā)明實施例獲得的數(shù)據(jù)塊生成的指紋用于DLP技術(shù)時,能提高數(shù)據(jù)泄露檢測精度,預(yù)設(shè)數(shù)據(jù)單元的字符個數(shù)的下限值,即單元字符下限值,當數(shù)據(jù)單元的字符個數(shù)小于單元字符下限值,認為該數(shù)據(jù)單元內(nèi)的字符為干擾字符,并丟棄,其中,本領(lǐng)域普通技術(shù)人員可以理解,干擾字符是指對語義信息貢獻程度低的字符,本發(fā)明在此不做限制。需要說明的是,該預(yù)設(shè)的單元字符上限值由實際的應(yīng)用場景來確定的,例如預(yù)設(shè)的單元字符上限值可以為3,本發(fā)明在此不做限制。步驟204、判斷當前單元滑動窗口內(nèi)最后一個字符是否是文本數(shù)據(jù)的最后一個字符,若否則執(zhí)行步驟205,否則執(zhí)行步驟102。步驟205、將當前單元滑動窗口的起始點和終止點均指向當前單元滑動窗口內(nèi)最后一個字符在文本數(shù)據(jù)中的下一個字符,返回執(zhí)行步驟201。在本實施例中,若當前單元滑動窗口內(nèi)最后一個字符不是文本數(shù)據(jù)的最后一個字符,則需要繼續(xù)將當前單元滑動窗口遍歷文本數(shù)據(jù),因此可以將當前單元滑動窗口的起始點和終止點均指向當前單元滑動窗口內(nèi)最后一個字符在文本數(shù)據(jù)中的下一個字符。本發(fā)明實施例二提供的數(shù)據(jù)預(yù)處理方法,通過錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,同時還根據(jù)單元字符上限值對文本數(shù)據(jù)進行分割,得到數(shù)據(jù)單元,然后通過不定長的當前塊滑動窗口將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提高提取指紋的效益。圖3為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例三的流程示意圖,如圖3所示,本實施例能夠采用數(shù)據(jù)預(yù)處理裝置來實現(xiàn),該數(shù)據(jù)預(yù)處理裝置可以采用軟件來實現(xiàn),并且這個裝置可以集成在網(wǎng)關(guān)設(shè)備或服務(wù)器或工作站上來實現(xiàn)本實施例的方法,在圖1所示實施例一或圖2所示實施例二的基礎(chǔ)上,本實施例三中的步驟102可以包括步驟206、將所述至少一個數(shù)據(jù)單元按在文本數(shù)據(jù)中的順序依次排列。在本實施例中,將步驟101或步驟20廣步驟205中所得到的至少一個數(shù)據(jù)單元按照文本數(shù)據(jù)中的順序,也就是得到各數(shù)據(jù)單元的先后順序,進行依次排列。步驟207、將當前塊滑動窗口的左沿和右沿均指向至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元。在本實施例中,利用塊滑動窗口將數(shù)據(jù)單元組合成數(shù)據(jù)塊。具體地,確定當前塊滑動窗口,并且將當前塊滑動窗口的左沿和右沿均指向已進行順序依次排列的至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元。步驟208、若當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,則將右沿向后續(xù)數(shù)據(jù)單元滑動,直至當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值時將右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動。在本實施例中,當當前塊滑動窗口的左沿和右沿均指向第一個數(shù)據(jù)單元時,左沿不動,將右沿從該第一個數(shù)據(jù)單元開始向后續(xù)數(shù)據(jù)單元滑動,當右沿每向后滑動一個數(shù)據(jù)單元,就判斷當前塊滑動窗口內(nèi)的字符個數(shù)與塊字符閾值之間的關(guān)系,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,則將右沿繼續(xù)向后續(xù)數(shù)據(jù)單元滑動,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值,為了保證得到的數(shù)據(jù)塊的字符不超過塊字符閾值,則將右沿前向滑動一個數(shù)據(jù)單元,以使當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值??蛇x地,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)等于塊字符閾值,則停止滑動。需要說明的是,在右沿向后滑動的過程中,只要滿足步驟208中停止滑動的兩個條件中的任何一個,右沿就停止滑動。另外,若預(yù)設(shè)的單元字符閾值等于預(yù)設(shè)的塊字符閾值,則可能出現(xiàn)步驟207中的當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值的情況,對應(yīng)地,在這種場景下,作為替代的,步驟208包括若當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則直接執(zhí)行步驟 209。步驟209、根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。在本實施例中,若步驟208中,當右沿前向滑動一個數(shù)據(jù)單元,使當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,右沿停止滑動,對應(yīng)地步驟209中將當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元作為一個數(shù)據(jù)塊,從而得到一個數(shù)據(jù)塊;可選地,若步驟208中當前塊滑動窗口內(nèi)的字符個數(shù)等于塊字符閾值時停止滑動,對應(yīng)地步驟209中將當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元作為一個數(shù)據(jù)塊,從而得到一個數(shù)據(jù)塊。步驟210、將當前塊滑動窗口的左沿和右沿均向后移一個數(shù)據(jù)單元。在本實施例中,在得到一個數(shù)據(jù)塊之后,將該數(shù)據(jù)塊的數(shù)據(jù)單元所對應(yīng)的當前塊滑動窗口的左沿和右沿均向后移一個數(shù)據(jù)單元。在當前塊滑動窗口中包括至少兩個數(shù)據(jù)單元的場景下,左沿和右沿均后移后的當前塊滑動窗口與未移動前的當前塊滑動窗口內(nèi)有部分數(shù)據(jù)單元相同。步驟211、若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將右沿向后續(xù)數(shù)據(jù)單元滑動,直至當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值時將右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動。在本實施例中,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,則將右沿向后續(xù)數(shù)據(jù)單元滑動,當右沿每向后滑動一個數(shù)據(jù)單元,就判斷當前塊滑動窗口內(nèi)的字符個數(shù)與塊字符閾值之間的關(guān)系,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,則將右沿繼續(xù)向后續(xù)數(shù)據(jù)單元滑動,若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值,為了保證得到的數(shù)據(jù)塊的字符不超過塊字符閾值,則將右沿前向滑動一個數(shù)據(jù)單元,以使當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值。若判斷出當前塊滑動窗口內(nèi)的字符個數(shù)等于塊字符閾值,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元,則停止滑動。需要說明的是,在右沿向后滑動的過程中,只要滿足步驟211中停止滑動的三個條件中的任何一個,右沿就停止滑動。步驟212、根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。在本實施例中,若步驟211中,當當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將右沿前向滑動一個數(shù)據(jù)單元,使當前塊滑動窗口內(nèi)的字符個數(shù)小于塊字符閾值,右沿停止滑動,對應(yīng)地步驟212中將當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元作為一個數(shù)據(jù)塊,從而得到一個數(shù)據(jù)塊。若步驟211中,所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值或所述右沿指向最后一個數(shù)據(jù)單元時停止滑動,對應(yīng)地步驟212中將當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元作為一個數(shù)據(jù)塊,從而得到一個數(shù)據(jù)塊。需要說明的是,步驟212執(zhí)行完之后,判斷當前塊滑動窗口的右沿是否指向最后一個數(shù)據(jù)單元,若否則可以再返回執(zhí)行步驟210,直至當前塊滑動窗口的右沿指向最后一個數(shù)據(jù)單元時,得到最后一個數(shù)據(jù)塊,即結(jié)束。在數(shù)據(jù)預(yù)處理裝置獲得數(shù)據(jù)塊后,將所獲得的數(shù)據(jù)塊發(fā)送給指紋提取裝置,由指紋提取裝置對該數(shù)據(jù)塊進行指紋提取處理,其中,指紋提取裝置可以采用隨機選擇法、求模選擇法、滑動窗口選擇法等進行指紋提取,其中,隨機選擇就是隨機選擇數(shù)據(jù)塊中的若干數(shù)據(jù)塊,對選定的數(shù)據(jù)塊進行歸一化處理,將這些塊的哈希值作為指紋。求模選擇法是對各數(shù)據(jù)塊的哈希值求余,余數(shù)在一定范圍內(nèi)的塊哈希值選擇指紋?;瑒哟翱谶x擇法同樣對數(shù)據(jù)塊進行哈希計算,得到歸一化的哈希值序列,然后利用塊窗口在塊序列上滑動,每個窗口內(nèi)選擇一個塊哈希值作為指紋。本領(lǐng)域普通技術(shù)人員可以理解,指紋提取方法可以與現(xiàn)有技術(shù)中一致,本發(fā)明在此不做詳細介紹。本發(fā)明實施例三提供的數(shù)據(jù)預(yù)處理方法,通過錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,同時還根據(jù)單元字符上限值對文本數(shù)據(jù)進行分割,得到數(shù)據(jù)單元,然后通過不定長的當前塊滑動窗口將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提高提取指紋的效益,并且相鄰數(shù)據(jù)塊之間的首尾部分數(shù)據(jù)單元相同,保留了文本數(shù)據(jù)的主要信息,保證了機密數(shù)據(jù)中局部文本數(shù)據(jù)泄密的檢測能力,進一步,還可以通過設(shè)置塊字符閾值來減少指紋尺寸,提高數(shù)據(jù)泄露的檢測效率。圖4為本發(fā)明數(shù)據(jù)預(yù)處理方法的原理示意圖,如圖4所示,首先通過預(yù)設(shè)的錨字符集合中的錨字符分割文本數(shù)據(jù),篩選掉太短的數(shù)據(jù)單元,然后將所得到的數(shù)據(jù)單元按照文本數(shù)據(jù)中的順序依次排列從而得到候選數(shù)據(jù)單元序列,該數(shù)據(jù)單元序列中包括數(shù)據(jù)單元A、數(shù)據(jù)單元B、數(shù)據(jù)單元C、數(shù)據(jù)單元D、數(shù)據(jù)單元E、數(shù)據(jù)單元F等,在候選數(shù)據(jù)單元序列上采用變長的塊滑動窗口劃分出數(shù)據(jù)塊,將所得到的數(shù)據(jù)塊計入塊序列,該塊序列包括由數(shù)據(jù)單元A、B、C組成的數(shù)據(jù)塊,由數(shù)據(jù)單元B、C、D組成的數(shù)據(jù)塊,由數(shù)據(jù)單元C、D、E組成的數(shù)據(jù)塊,由數(shù)據(jù)單元D、E組成的數(shù)據(jù)塊,由數(shù)據(jù)單元E、F組成的數(shù)據(jù)塊等。另外,塊滑動窗口滑動步距為一個數(shù)據(jù)單元,因此相鄰塊滑動窗口的首尾單元是重疊的。數(shù)據(jù)單元是機密文本泄漏檢測的最小對齊單位,即能夠檢測到的泄露必然以數(shù)據(jù)單元開始,并以數(shù)據(jù)單元結(jié)束,這種劃分方法能夠有效地減少指紋尺寸,并確保足夠的檢測能力。圖5為本發(fā)明數(shù)據(jù)預(yù)處理方法實施例四的流程示意圖,如圖4和圖5所示,本實施例能夠采用數(shù)據(jù)預(yù)處理裝置來實現(xiàn),該數(shù)據(jù)預(yù)處理裝置可以采用軟件來實現(xiàn),并且這個裝置可以集成在網(wǎng)關(guān)設(shè)備或服務(wù)器或工作站上來實現(xiàn)本實施例的方法,本實施例的方法可以包括步驟301、當前單元滑動窗口的起始點和終止點均指向文本數(shù)據(jù)的第一個字符。
在本實施例中,在獲得文本數(shù)據(jù)之后,初始化當前單元滑動窗口,將當前單元滑動窗口的起始點和終止點均指向文本數(shù)據(jù)的第一個字符。步驟302、將終止點向文本數(shù)據(jù)中的后一個字符滑動。在本實施例中,將終止點以一個字符的步長向文本數(shù)據(jù)中的后續(xù)字符滑動,終止點每向后續(xù)字符滑動一個字符,就確定終止點指向的當前字符,執(zhí)行步驟303。步驟303、判斷當前字符是否為文本數(shù)據(jù)中的最后一個字符,若否,則執(zhí)行步驟304,若是,則執(zhí)行步驟310。具體地,本實施例中的當前字符是指終止點當前指向的字符。步驟304、判斷當前單元滑動窗口內(nèi)的字符個數(shù)是否等于單元字符上限值,若是,則執(zhí)行步驟305,否則執(zhí)行步驟307。步驟305、終止點停止滑動,根據(jù)當前單元滑動窗口內(nèi)的字符,得到一個數(shù)據(jù)單元。在本實施例中,若判斷出當前單元滑動窗口內(nèi)的字符等于單元字符上限值時,終止點停止滑動,確定當前單元滑動窗口,將當前單元滑動窗口內(nèi)的所有字符作為一個數(shù)據(jù)單元,從而得到一個數(shù)據(jù)單元,這是因為每個數(shù)據(jù)單元的字符個數(shù)不超過單元字符上限值。具體地,若當前單元滑動窗口內(nèi)包含錨字符,則將當前單元滑動窗口內(nèi)除錨字符之外的所有字符作為一個數(shù)據(jù)單元。步驟306、將當前單元滑動窗口的起始點和終止點均指向當前滑動窗口內(nèi)最后一個字符在文本數(shù)據(jù)中的下一個字符,執(zhí)行步驟302。步驟307、判斷當前字符是否為錨字符,若是,則執(zhí)行步驟308,否則執(zhí)行步驟302。步驟308、判斷當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)是否小于單元字符下限值,若否,則執(zhí)行步驟305,否則執(zhí)行步驟309。步驟309、丟棄當前單元滑動窗口內(nèi)的所有字符,執(zhí)行步驟306。步驟310、終止點停止滑動,判斷當前單元滑動窗口內(nèi)的字符個數(shù)是否小于單元字符下限值,若是則丟棄當前單元滑動窗口內(nèi)的所有字符,若否則根據(jù)當前單元滑動窗口內(nèi)的字符,得到一個數(shù)據(jù)單元。在本實施例中,當判斷出終止點所指向的當前字符為文本數(shù)據(jù)中的最后一個字符時,終止點停止滑動,根據(jù)當前單元滑動窗口內(nèi)的字符,得到一個數(shù)據(jù)單元,具體地,還可以判斷該最后一個字符是否為錨字符,若是,則將當前單元滑動窗口內(nèi)的除最后一個字符之外的所有字符作為一個數(shù)據(jù)單元,否則將當前單元滑動窗口內(nèi)的所有字符作為一個數(shù)據(jù)單
J Li ο步驟311、將數(shù)據(jù)單元計入數(shù)據(jù)單元序列。本實施例中,將步驟305和步驟310所得的數(shù)據(jù)單元,例如數(shù)據(jù)單元A、B、C、D、E、F按照在文本數(shù)據(jù)中的順序依次排列,形成數(shù)據(jù)單元序列。步驟312、將當前塊滑動窗口的左沿和右沿均指向數(shù)據(jù)單元序列中的第一個數(shù)據(jù)單元。在本實施例中,在將文本數(shù)據(jù)分割成數(shù)據(jù)單元,并且將數(shù)據(jù)單元按照在文本數(shù)據(jù)中的順序依次排列形成數(shù)據(jù)單元序列后,將當前塊滑動窗口的左沿和右沿均指向數(shù)據(jù)單元序列的第一個數(shù)據(jù)單元。步驟313、判斷當前塊滑動窗口內(nèi)的字符個數(shù)是否大于預(yù)設(shè)的塊字符閾值,若否則執(zhí)行步驟314,否則執(zhí)行步驟317。在本實施例中,塊字符閾值主要由數(shù)據(jù)泄露檢測粒度來確定,因此為了滿足數(shù)據(jù)泄露檢測粒度,即每個數(shù)據(jù)塊的字符個數(shù)可以不超過塊字符閾值,需要判斷當前塊滑動窗口內(nèi)的字符個數(shù)是否大于塊字符閾值。在步驟312后執(zhí)行步驟313時,當前塊滑動窗口內(nèi)的字符個數(shù)通常小于或等于預(yù)設(shè)的塊字符閾值。在步驟316或步驟320后執(zhí)行步驟313時,當前塊滑動窗口內(nèi)的字符個數(shù)通常小于或等于或大于預(yù)設(shè)的塊字符閾值。步驟314、判斷當前塊滑動窗口內(nèi)的字符個數(shù)是否等于所述塊字符閾值,若是則執(zhí)行步驟318,否則執(zhí)行步驟315。步驟315、判斷當前塊滑動窗口的右沿是否指向數(shù)據(jù)單元序列中的最后一個數(shù)據(jù)單元,若是執(zhí)行步驟318,若否執(zhí)行步驟316。在步驟314之后執(zhí)行步驟315時,當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值。步驟316、將右沿向后一個數(shù)據(jù)單元滑動,執(zhí)行步驟313。具體地,將右沿從右沿當前所指向的數(shù)據(jù)單元向后滑動一個數(shù)據(jù)單元。步驟317、將右沿向前一個數(shù)據(jù)單元滑動,執(zhí)行步驟318。在本實施例中,當判斷出當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值,則應(yīng)該減少當前塊滑動窗口內(nèi)的字符個數(shù),所以可以將右沿向前移動一個數(shù)據(jù)單元。具體地,將右沿從右沿當前所指向的數(shù)據(jù)單元向前滑動一個數(shù)據(jù)單元。步驟318、根據(jù)當前塊滑動窗口內(nèi)的數(shù)據(jù)單元,得到一個數(shù)據(jù)塊,執(zhí)行步驟319。由于當前塊滑動窗口是以一個數(shù)據(jù)單元為步長進行滑動,因此,當前塊滑動窗口通常包括至少一個數(shù)據(jù)單元。另外,在步驟314之后執(zhí)行步驟318時,當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,但當前塊滑動窗口的右沿指向數(shù)據(jù)單元序列中的最后一個數(shù)據(jù)單元,此時,將當前塊滑動窗口內(nèi)的所有數(shù)據(jù)單元作為一個數(shù)據(jù)塊,從而得到最后一個數(shù)據(jù)塊。步驟319、判斷當前塊滑動窗口的右沿是否指向數(shù)據(jù)單元序列中的最后一個數(shù)據(jù)單元,若是,則結(jié)束,若否則執(zhí)行步驟320。步驟320、將當前塊滑動窗口的左沿和右沿均向后移一個數(shù)據(jù)單元,執(zhí)行步驟313。具體地,將右沿從右沿當前所指向的數(shù)據(jù)單元向后移動一個數(shù)據(jù)單元,將左沿從左沿當前所指向的數(shù)據(jù)單元向后移動一個數(shù)據(jù)單元。在本實施例中,在得到一個數(shù)據(jù)塊之后,還需要繼續(xù)遍歷數(shù)據(jù)單元序列中的后續(xù)數(shù)據(jù)單元,因此,將當前塊滑動窗口的左沿和右沿均向后移一個數(shù)據(jù)單元,然后再執(zhí)行步驟313,例如得到一個數(shù)據(jù)塊之后,并且該數(shù)據(jù)塊中包括三個數(shù)據(jù)單元,則說明當前塊滑動窗口覆蓋三個數(shù)據(jù)單元,然后,將當前塊滑動窗口的左沿向后移一個數(shù)據(jù)單元,將當前塊滑動窗口的右沿向后移一個數(shù)據(jù)單元,移動后的當前塊滑動窗口也覆蓋三個數(shù)據(jù)單元。在本實施例中,還可以將步驟318所得到的數(shù)據(jù)塊按得到的前后順序依次排列成塊序列,即結(jié)束。在數(shù)據(jù)預(yù)處理裝置獲得數(shù)據(jù)塊后,將所獲得的數(shù)據(jù)塊發(fā)送給指紋提取裝置,由指紋提取裝置對該數(shù)據(jù)塊進行指紋提取處理,其中,指紋提取裝置可以采用隨機選擇法、求模選擇法、滑動窗口選擇法等進行指紋提取,其中,隨機選擇就是隨機選擇數(shù)據(jù)塊中的若干數(shù)據(jù)塊,對選定的數(shù)據(jù)塊進行歸一化處理,將這些塊的哈希值作為指紋。求模選擇法是對各數(shù)據(jù)塊的哈希值求余,余數(shù)在一定范圍內(nèi)的塊哈希值選擇指紋?;瑒哟翱谶x擇法同樣對數(shù)據(jù)塊進行哈希計算,得到歸一化的哈希值序列,然后利用塊窗口在塊序列上滑動,每個窗口內(nèi)選擇一個塊哈希值作為指紋。本領(lǐng)域普通技術(shù)人員可以理解,指紋提取方法可以與現(xiàn)有技術(shù)中一致,本發(fā)明在此不做詳細介紹。本發(fā)明實施例四提供的數(shù)據(jù)預(yù)處理方法,通過錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,同時還根據(jù)單元字符上限值對文本數(shù)據(jù)進行分割,得到數(shù)據(jù)單元,然后通過不定長的當前塊滑動窗口將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提高提取指紋的效益,并且相鄰數(shù)據(jù)塊之間的首尾部分數(shù)據(jù)單元相同,保留了文本數(shù)據(jù)的主要信息,保證了機密數(shù)據(jù)中局部文本數(shù)據(jù)泄密的檢測能力,進一步,還可以通過設(shè)置塊字符閾值來減少指紋尺寸,提高數(shù)據(jù)泄露的檢測效率。文本數(shù)據(jù)內(nèi)容的深度識別技術(shù)(即文本數(shù)據(jù)內(nèi)容感知技術(shù))是DLP的關(guān)鍵技術(shù),現(xiàn)有技術(shù)中的主要困難在于需要能夠辨別不同格式的文檔,能夠準確識別出標點、段落次序及少量字詞不同的兩段文本數(shù)據(jù)間的相似性。采用本發(fā)明上述實施例提供的文本數(shù)據(jù)預(yù)處理方法,首先提取出不同文檔中的文本信息,然后采用錨字符集合,對文本數(shù)據(jù)劃分成數(shù)據(jù)單元,隨后采用變長的塊滑動窗口在數(shù)據(jù)單元序列上劃分數(shù)據(jù)塊,形成塊-單元的兩級數(shù)據(jù)結(jié)構(gòu)。其中劃分數(shù)據(jù)單元的目的是定義泄漏文本的最小對齊單位,便于檢測以單元為起點和終點的泄露文本數(shù)據(jù);劃分數(shù)據(jù)塊的目的是定義泄漏文本的最小檢測單位,便于檢測以塊為單位的泄露文本數(shù)據(jù)。塊-單元兩級數(shù)據(jù)結(jié)構(gòu)劃分方法高效地提取出文本數(shù)據(jù)中主要信息,解決了不同格式文本、高度相似文本的識別問題,為文本指紋選取和匹配提供了充足的信息?,F(xiàn)有技術(shù)中DLP指紋技術(shù)的另一個問題是需要量化控制泄露文本數(shù)據(jù)的檢測能力,采用本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法將文本數(shù)據(jù)劃分為塊-單元的兩級數(shù)據(jù)結(jié)構(gòu),嚴格控制了數(shù)據(jù)單元與數(shù)據(jù)塊涵蓋的文本長度,使得以數(shù)據(jù)塊序列為基礎(chǔ)提取的指紋能夠準確跟蹤泄漏文本數(shù)據(jù)的長度。本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法應(yīng)用于DLP系統(tǒng)中,提高了 DLP系統(tǒng)的機密數(shù)據(jù)鑒別能力。并且包括本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法的數(shù)據(jù)內(nèi)容感知技術(shù)也可以用于文本查重、模糊搜索等領(lǐng)域。例如,在論文防剽竊應(yīng)用中,可以先對已有的論文集合建立文本指紋庫,對待測的新論文提取指紋,通過檢索論文庫查重,能夠非常精確地查找出可能的剽竊信息。對于模糊搜索,可以先對一段感興趣的文本建立指紋,然后對大量文本進行指紋匹配,能夠精確搜索出相關(guān)度非常高的信息。圖6為本發(fā)明數(shù)據(jù)預(yù)處理裝置實施例一的結(jié)構(gòu)示意圖,如圖6所示,本實施例的裝置可以包括分割模塊11和組合模塊12,其中,分割模塊11用于根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值。組合模塊12用于將至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對至少一個數(shù)據(jù)塊進行指紋提取處理。上述各模塊之間的交互流程具體可以參考方法實施例中的描述,此處不再贅述。本實施例的裝置,可以用于執(zhí)行圖1所示方法實施例的技術(shù)方案,其實現(xiàn)原理類似,詳細可以參見上述實施例中的記載,此處不再贅述。本發(fā)明實施例一提供的數(shù)據(jù)預(yù)處理裝置,通過分割模塊根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;組合模塊將至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對至少一個數(shù)據(jù)塊進行指紋提取處理。圖7為本發(fā)明數(shù)據(jù)預(yù)處理裝置實施例二的結(jié)構(gòu)示意圖,如圖7所示,本實施例的裝置在圖6所示裝置結(jié)構(gòu)的基礎(chǔ)上,進一步地,分割模塊11還可以包括確定子模塊111、第一滑動子模塊112和第一獲得子模塊113,其中,確定子模塊111用于確定當前單元滑動窗口,當前單元滑動窗口的起始點和終止點均指向文本數(shù)據(jù)中的同一個字符;第一滑動子模塊112用于將終止點向文本數(shù)據(jù)中的后續(xù)字符滑動,直至當前單元滑動窗口內(nèi)的字符個數(shù)等于單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且終止點指向的字符為文本數(shù)據(jù)的最后一個字符時,停止滑動;第一獲得子模塊113用于根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。第一滑動子模塊112還用于在第一獲得子模塊113根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,若當前單元滑動窗口內(nèi)最后一個字符不是文本數(shù)據(jù)的最后一個字符,則將當前單元滑動窗口的起始點和終止點均指向當前單元滑動窗口內(nèi)最后一個字符在文本數(shù)據(jù)中的下一個字符。優(yōu)先地,第一獲得子模塊113具體用于若當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元;若當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄當前單元滑動窗口內(nèi)的所有字符。更進一步地,本實施例的裝置在圖6所示裝置結(jié)構(gòu)的基礎(chǔ)上,上述的組合模塊12可以包括排列子模塊121、指向子模塊122、第二滑動子模塊123和第二獲得子模塊124,其中,排列子模塊121用于將至少一個數(shù)據(jù)單元按在文本數(shù)據(jù)中的順序依次排列;指向子模塊122用于將當前塊滑動窗口的左沿和右沿均指向至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元;第二滑動子模塊123用于若當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將右沿向后續(xù)數(shù)據(jù)單元滑動,直至當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值時將右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動;第二獲得子模塊124根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。第二滑動子模塊123還用于第二獲得子模塊124根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元得到一個數(shù)據(jù)塊之后,將當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元;若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將右沿向后續(xù)數(shù)據(jù)單元滑動,直至當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值時將右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動。第二獲得子模塊124還用于根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。優(yōu)選地,第二獲得子模塊124,還用于在第二滑動子模塊123將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。第二滑動子模塊123,還用于將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,則將所述右沿前向滑動一個數(shù)據(jù)單元。第二獲得子模塊124,還用于若當前塊滑動窗口內(nèi)的字符個數(shù)大于塊字符閾值,在第二滑動子模塊123將右沿前向滑動一個數(shù)據(jù)單元之后,根據(jù)當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。上述各模塊之間的交互流程具體可以參考方法實施例中的描述,此處不再贅述。本實施例的裝置,可以用于執(zhí)行圖2或圖3或圖5所示方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。本發(fā)明實施例二提供的數(shù)據(jù)預(yù)處理裝置,通過錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,同時還根據(jù)單元字符上限值對文本數(shù)據(jù)進行分割,得到數(shù)據(jù)單元,然后通過不定長的當前塊滑動窗口將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,同時,數(shù)據(jù)塊為數(shù)據(jù)單元一塊的兩級結(jié)構(gòu)數(shù)據(jù),每個數(shù)據(jù)塊的字符的個數(shù)基本保持一致,可以提高提取指紋的效益,并且相鄰數(shù)據(jù)塊之間的首尾部分數(shù)據(jù)單元相同,保留了文本數(shù)據(jù)的主要信息,保證了機密數(shù)據(jù)中局部文本數(shù)據(jù)泄密的檢測能力,進一步,還可以通過設(shè)置塊字符閾值來減少指紋尺寸,提高數(shù)據(jù)泄露的檢測效率。圖8為包括本發(fā)明數(shù)據(jù)預(yù)處理裝置的數(shù)據(jù)內(nèi)容感知系統(tǒng)實施例一的結(jié)構(gòu)示意圖,如圖8所示,本實施例的數(shù)據(jù)內(nèi)容感知裝置可以包括數(shù)據(jù)預(yù)處理裝置22和指紋提取裝置24。本發(fā)明實施例中的數(shù)據(jù)預(yù)處理裝置可以采用圖6或圖7任一裝置實施例的結(jié)構(gòu),其對應(yīng)地,可以執(zhí)行圖f圖3或圖5中任一方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。本發(fā)明實施例中的指紋提取裝置24,用于根據(jù)預(yù)設(shè)的指紋選擇算法,對數(shù)據(jù)預(yù)處理裝置22得到的至少一個數(shù)據(jù)塊進行指紋提取,得到至少一個指紋。需要說明的是,指紋選擇算法可以為隨機選擇法、求模選擇法、滑動窗口選擇法等,本領(lǐng)域普通技術(shù)人員可以理解,指紋選算法與現(xiàn)有技術(shù)中一致,此處不再贅述。即本發(fā)明實施例中的數(shù)據(jù)預(yù)處理裝置22采用獨特的塊-單元兩級文本數(shù)據(jù)分割方法輸出數(shù)據(jù)塊序列。進一步地,數(shù)據(jù)內(nèi)容感知系統(tǒng)還可以包括解析裝置21和數(shù)據(jù)檢查裝置23,解析裝置21用于對訓(xùn)練文檔集合進行解析,數(shù)據(jù)檢查裝置23用于對待測文檔進行檢查。其中,訓(xùn)練文檔集合包含所有需要保護的機密文檔數(shù)據(jù),待測文檔是需要進行涉密信息過濾的文本數(shù)據(jù)。具體地,訓(xùn)練文檔集合中的文檔首先進入解析裝置21,由解析裝置21進行文檔類型識別,如果是壓縮類型的文檔,則解析裝置21會進行解壓,然后解析出機密文本數(shù)據(jù),隨后輸入數(shù)據(jù)預(yù)處理裝置22。待測文檔可能是一個文檔,也可能是從網(wǎng)絡(luò)上截獲的數(shù)據(jù)包,因此待測文檔需要首先經(jīng)過數(shù)據(jù)檢查裝置23進行數(shù)據(jù)還原,還原出文檔,然后輸入解析裝置21,進行文檔類型識別、解壓及解析等處理,得到文本數(shù)據(jù)。數(shù)據(jù)預(yù)處理裝置22會對文本數(shù)據(jù)進行預(yù)處理,然后交由指紋提取裝置24生成指紋。圖9為基于本發(fā)明數(shù)據(jù)預(yù)處理方法的DLP系統(tǒng)實施例一的結(jié)構(gòu)示意圖,如圖9所示,本實施例的DLP系統(tǒng)包括內(nèi)網(wǎng)用戶31、電子郵件服務(wù)器32、Web代理服務(wù)器33、電子郵件DLP網(wǎng)關(guān)34、Web DLP網(wǎng)關(guān)35、網(wǎng)絡(luò)DLP監(jiān)視服務(wù)器36、交換機37、DLP管理服務(wù)器38和互聯(lián)網(wǎng)39。電子郵件DLP網(wǎng)關(guān)34、Web DLP網(wǎng)關(guān)35和網(wǎng)絡(luò)DLP監(jiān)視服務(wù)器36中均可以集成有本發(fā)明圖8所示的數(shù)據(jù)預(yù)處理裝置22和指紋提取裝置24。其中,內(nèi)網(wǎng)用戶31通過電子郵件服務(wù)器32發(fā)送電子郵件,或通過Web代理服務(wù)器33上網(wǎng)時,會產(chǎn)生發(fā)送到外網(wǎng)的數(shù)據(jù)流。電子郵件DLP網(wǎng)關(guān)34作為郵件鏈路上的節(jié)點,通過解析簡單郵件傳輸(Simple Mail TransferProtocol,簡稱為 SMTP)/擴展 SMTP (ExtendedSMTP,簡稱為ESMTP)協(xié)議還原郵件正文及附件等信息,進行包括本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法的涉密信息過濾;互聯(lián)網(wǎng)(Web) DLP網(wǎng)關(guān)35通過互聯(lián)網(wǎng)內(nèi)容改編協(xié)議(Internet Content Adaptation Protocol,簡稱為 ICAP)等協(xié)議與 Web 代理服務(wù)器 33 通信,Web代理服務(wù)器33將超文本傳送協(xié)議(hypertext transportprotocol,簡稱為HTTP)數(shù)據(jù)報文引流到Web DLP網(wǎng)關(guān)35,Web DLP網(wǎng)關(guān)35從報文中還原出上傳文件及表單數(shù)據(jù),進行包括本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法的涉密信息過濾;網(wǎng)絡(luò)DLP監(jiān)視服務(wù)器36通過端口鏡像等方式從交換機37獲取到流出內(nèi)網(wǎng)的數(shù)據(jù)報文,進行協(xié)議分析,還原出承載于各類應(yīng)用層協(xié)議的數(shù)據(jù),進行包括本發(fā)明上述實施例提供的數(shù)據(jù)預(yù)處理方法的涉密信息過濾。DLP管理服務(wù)器38負責創(chuàng)建涉密信息過濾策略,并分發(fā)到電子郵件DLP網(wǎng)關(guān)34、Web DLP網(wǎng)關(guān)35及網(wǎng)絡(luò)DLP監(jiān)視服務(wù)器36等DLP設(shè)備。另外,提取指紋等功能也可以在DLP管理服務(wù)器38上實現(xiàn)。圖10為包括本發(fā)明數(shù)據(jù)預(yù)處理裝置的服務(wù)器實施例一的結(jié)構(gòu)示意圖,如圖10所示,本實施例的服務(wù)器可以為圖9所示的網(wǎng)絡(luò)DLP監(jiān)視服務(wù)器36也可以為專用的指紋采集服務(wù)器,本實施例的服務(wù)器可以包括訓(xùn)練數(shù)據(jù)接收裝置41,解析裝置42、數(shù)據(jù)預(yù)處理裝置43、指紋提取裝置44,指紋索引裝置45、DLP策略產(chǎn)生裝置46,DLP策略分發(fā)裝置47等。本發(fā)明實施例中的數(shù)據(jù)預(yù)處理裝置43可以采用圖8所示的數(shù)據(jù)預(yù)處理裝置22。本發(fā)明實施例中的指紋提取裝置44可以采用圖8所示的指紋提取裝置24。其中,指紋索引裝置45用來為指紋庫建立索引,以加速指紋匹配。其中,訓(xùn)練數(shù)據(jù)接收裝置41接收用于指紋訓(xùn)練的文檔數(shù)據(jù),例如機密文檔數(shù)據(jù)集合(包括所有需要保護的機密文檔數(shù)據(jù))等。訓(xùn)練數(shù)據(jù)接收裝置41將收到的用于指紋訓(xùn)練的文檔數(shù)據(jù)輸入解析裝置42,由解析裝置42負責文檔的識別、解壓、文本提取等操作,最終形成文本數(shù)據(jù)輸入到數(shù)據(jù)預(yù)處理裝置43。指紋提取裝置44及指紋索引裝置45分別將產(chǎn)生的指紋庫以及指紋索引輸入DLP策略產(chǎn)生裝置46,DLP策略產(chǎn)生裝置46用于創(chuàng)建DLP指紋相關(guān)的策略,最終DLP策略由DLP策略分發(fā)裝置47發(fā)送給如圖9所示的電子郵件DLP網(wǎng)關(guān)34等DLP過濾設(shè)備。圖11為基于本發(fā)明數(shù)據(jù)預(yù)處理方法的DLP系統(tǒng)實施例二的結(jié)構(gòu)示意圖,圖12為圖11中DLP掃描代理裝置56的一種結(jié)構(gòu)示意圖,如圖11和12所示,本實施例的DLP系統(tǒng)可以包括DLP管理服務(wù)器51、DLP掃描服務(wù)器52、工作站53、文件服務(wù)器54和數(shù)據(jù)庫服務(wù)器55等設(shè)備,工作站53、文件服務(wù)器54和數(shù)據(jù)庫服務(wù)器55中均安裝有DLP掃描代理裝置56。本實施例的DLP掃描代理裝置56包括掃描策略接收裝置561、本地掃描裝置562、解析裝置563、數(shù)據(jù)預(yù)處理裝置564、指紋提取裝置565和指紋發(fā)送裝置566。本發(fā)明實施例中的數(shù)據(jù)預(yù)處理裝置564可以采用圖8所示的數(shù)據(jù)預(yù)處理裝置22,本發(fā)明實施例中的指紋提取裝置565可以采用圖8所示的指紋提取裝置24。DLP管理服務(wù)器51將DLP數(shù)據(jù)掃描的策略組下發(fā)至DLP掃描服務(wù)器52,其中,數(shù)據(jù)掃描的策略組包括工作站53的數(shù)據(jù)掃描策略、文件服務(wù)器54的數(shù)據(jù)掃描策略和數(shù)據(jù)庫服務(wù)器55的數(shù)據(jù)掃描策略等。DLP掃描服務(wù)器52對數(shù)據(jù)掃描的策略組進行分解,將分解得到的工作站53的數(shù)據(jù)掃描策略發(fā)送給需要掃描的工作站53,將分解得到的文件服務(wù)器54的數(shù)據(jù)掃描策略發(fā)送給需要掃描的文件服務(wù)器54以及將分解得到的數(shù)據(jù)庫服務(wù)器55的數(shù)據(jù)掃描策略發(fā)送給需要掃描的數(shù)據(jù)庫服務(wù)器55等設(shè)備,這些設(shè)備都安裝了 DLP掃描代理裝置56,然后由DLP掃描代理裝置56根據(jù)掃描策略進行本地數(shù)據(jù)掃描。本地掃描的基本原理是遍歷本地文件系統(tǒng)等存放數(shù)據(jù)的邏輯實體,對得到的文檔進行解析、文本數(shù)據(jù)預(yù)處理、提取指紋等操作,然后將文本指紋直接發(fā)送至DLP掃描服務(wù)器52,由DLP掃描服務(wù)器52來檢查文本指紋中是否包含機密信息。DLP掃描代理裝置56的具體處理過程為掃描策略接收裝置561接收來自DLP掃描服務(wù)器52的掃描策略,然后通知本地掃描裝置562進行本地數(shù)據(jù)掃描,解析裝置563對掃描到的數(shù)據(jù)進行識別、解壓及解析得到文本數(shù)據(jù),輸入數(shù)據(jù)預(yù)處理裝置564,進行預(yù)處理后輸入指紋提取裝置565生成文本指紋,最后由指紋發(fā)送裝置566將指紋發(fā)送給DLP掃描服務(wù)器52,由DLP掃描服務(wù)器52判斷是否包含機密數(shù)據(jù)。圖13為本發(fā)明提供的計算節(jié)點實施例一的結(jié)構(gòu)示意圖,如圖13所示,本實施例提供的計算節(jié)點700可以是包含計算能力的主機服務(wù)器,或者是個人計算機(PersonalComputer ;以下簡稱PC),或者是可攜帶的便攜式計算機或終端等,本發(fā)明在此不做限制,本發(fā)明具體實施例并不對計算節(jié)點700的具體實現(xiàn)做限定。計算節(jié)點700可以包括處理器(Processor) 710、通信接口(Communications Interface) 720、存儲器(memory) 730、通信總線740,其中,處理器710、通信接口 720和存儲器730通過通信總線740完成各設(shè)備之間的通信。存儲器730用于存儲執(zhí)行本發(fā)明方案的程序代碼。存儲器730可以包含高速隨機存儲器(Random Access Memory,簡稱為RAM),也可以還包括非易失性存儲器(Non-volatile Memory),例如為至少一個磁盤存儲器。處理器710用于執(zhí)行存儲在存儲器730中的程序代碼,具體地,程序代碼包括計算機操作指令。其中,處理器710可以是一個中央處理器(CentralProcessing Unit,簡稱為 CPU),或者是特定集成電路 ASIC (Application SpecificIntegrated Circuit ;簡稱為ASIC),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。在一些實施方式中,存儲器730存儲了如下的元素,可執(zhí)行模塊或者數(shù)據(jù)結(jié)構(gòu),或者他們的子集,或者他們的擴展集操作系統(tǒng)731,包含各種系統(tǒng)程序,用于實現(xiàn)各種基礎(chǔ)業(yè)務(wù)以及處理基于硬件的任務(wù);應(yīng)用模塊732,包含各種應(yīng)用程序,用于實現(xiàn)各種應(yīng)用業(yè)務(wù)。應(yīng)用模塊732中包括但不限于分割模塊733和組合模塊734。應(yīng)用模塊732中各模塊的具體實現(xiàn)參見本發(fā)明數(shù)據(jù)預(yù)處理裝置實施例一或二中的相應(yīng)模塊,在此不贅述。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。最后應(yīng)說明的是以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。
權(quán)利要求
1.一種數(shù)據(jù)預(yù)處理方法,其特征在于,包括: 根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值; 將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,包括: 確定當前單元滑動窗口,所述當前單元滑動窗口的起始點和終止點均指向所述文本數(shù)據(jù)中的同一個字符; 將所述終止點向所述文本數(shù)據(jù)中的后續(xù)字符滑動,直至所述當前單元滑動窗口內(nèi)的字符個數(shù)等于所述單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述文本數(shù)據(jù)的最后一個字符時,停止滑動; 根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,還包括: 若所述當前單元滑動窗口內(nèi)最后一個字符不是所述文本數(shù)據(jù)的最后一個字符,則將所述當前單元滑動窗口的起始點和終止點均指向所述當前單元滑動窗口內(nèi)最后一個字符在所述文本數(shù)據(jù)中的下一個字符。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元,包括: 若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元; 若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄所述當前單元滑動窗口內(nèi)的所有字符。
5.根據(jù)權(quán)利要求Γ4任意一項所述的方法,其特征在于,所述將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,包括: 將所述至少一個數(shù)據(jù)單元按在所述文本數(shù)據(jù)中的順序依次排列; 將當前塊滑動窗口的左沿和右沿均指向所述至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元; 若當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動; 根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊之后,還包括:將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元; 若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動; 根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,還包括: 若所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊; 若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,則將所述右沿前向滑動一個數(shù)據(jù)單元,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
8.一種數(shù)據(jù)預(yù)處理裝置,其特征在于,包括: 分割模塊,用于根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值; 組合模塊,用于將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述分割模塊包括: 確定子模塊,用于確定當前單元滑動窗口,所述當前單元滑動窗口的起始點和終止點均指向所述文本數(shù)據(jù)中的同一個字符; 第一滑動子模塊,用于將所述終止點向所述文本數(shù)據(jù)中的后續(xù)字符滑動,直至所述當前單元滑動窗口內(nèi)的字符個數(shù)等于所述單元字符上限值時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述錨字符時,或,所述當前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點指向的字符為所述文本數(shù)據(jù)的最后一個字符時,停止滑動; 第一獲得子模塊,用于根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一滑動子模塊還用于,在所述第一獲得子模塊根據(jù)當前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,若所述當前單元滑動窗口內(nèi)最后一個字符不是所述文本數(shù)據(jù)的最后一個字符,則將所述當前單元滑動窗口的起始點和終止點均指向所述當前單元滑動窗口內(nèi)最后一個字符在所述文本數(shù)據(jù)中的下一個字符。
11.根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,所述第一獲得子模塊具體用于,若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)所述當前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元; 若所述當前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄所述當前單元滑動窗口內(nèi)的所有字符。
12.根據(jù)權(quán)利要求8 11任意一項所述的裝置,其特征在于,所述組合模塊包括: 排列子模塊,用于將所述至少一個數(shù)據(jù)單元按在所述文本數(shù)據(jù)中的順序依次排列; 指向子模塊,用于將當前塊滑動窗口的左沿和右沿均指向所述至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元; 第二滑動子模塊,用于若當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動; 第二獲得子模塊,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于, 所述第二滑動子模塊,還用于所述第二獲得子模塊根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元得到一個數(shù)據(jù)塊之后,將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元;若所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或,直至所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時停止滑動,或,所述當前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值且所述右沿指向最后一個數(shù)據(jù)單元時停止滑動; 所述第二獲得子模塊,還用于根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于, 所述第二獲得子模塊,還用于在所述第二滑動子模塊將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值,則根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊; 所述第二滑動子模塊,還用于將所述當前數(shù)據(jù)單元窗口的左沿和右沿均向后移一個數(shù)據(jù)單元之后,若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,則將所述右沿前向滑動一個數(shù)據(jù)單元; 所述第二獲得子模塊,還用于若所述當前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值,在所述第二滑動子模塊將所述右沿前向滑動一個數(shù)據(jù)單元之后,根據(jù)所述當前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
15.一種數(shù)據(jù)內(nèi)容感知系統(tǒng),其特征在于,包括:指紋提取裝置,如權(quán)利要求8 14中任一項所述的數(shù)據(jù)預(yù)處理裝置; 所述指紋提取裝置,用于根據(jù)預(yù)設(shè)的指紋選擇算法,對所述數(shù)據(jù)預(yù)處理裝置得到的至少一個數(shù)據(jù)塊進行指紋提取,得到至少一個指紋。
全文摘要
本發(fā)明實施例提供一種數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng),該方法包括根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進行指紋提取處理。由于采用錨字符即根據(jù)自然語言的語法和語義信息對文本數(shù)據(jù)進行分割,去除語義區(qū)分度不高的字符,得到數(shù)據(jù)單元,并將數(shù)據(jù)單元組合成數(shù)據(jù)塊,從而使得提取出的指紋用于DLP技術(shù)時,提高了數(shù)據(jù)泄密檢測精度,還可以提高提取指紋的效益。
文檔編號G06F21/32GK103077163SQ201210567880
公開日2013年5月1日 申請日期2012年12月24日 優(yōu)先權(quán)日2012年12月24日
發(fā)明者王曉鋒 申請人:華為技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
衡阳县| 兖州市| 池州市| 西乡县| 军事| 麻阳| 睢宁县| 盘山县| 原阳县| 稷山县| 高尔夫| 永定县| 孝感市| 遂川县| 宁陕县| 玉田县| 葫芦岛市| 富顺县| 湖南省| 弥勒县| 石台县| 福安市| 尉犁县| 临夏市| 永登县| 班戈县| 美姑县| 高邑县| 大港区| 叙永县| 浪卡子县| 武平县| 佛学| 库车县| 镶黄旗| 德清县| 长治县| 竹山县| 沐川县| 郑州市| 象山县|