一種文件安全處理方法
【技術領域】
[0001]本發(fā)明涉及計算機數(shù)據(jù)安全,特別涉及一種文件安全處理方法。
【背景技術】
[0002]隨著Internet的不斷發(fā)展與普及,各種網(wǎng)絡安全事件層出不窮,整個移動互聯(lián)網(wǎng)的環(huán)境受到了嚴重的威脅,給社會帶來了巨大的損失。網(wǎng)絡安全事件多是黑客入侵行為引起,而內(nèi)在原因是軟件或文檔自身的安全漏洞。入侵者利用了該漏洞,對移動設備中的頁面文件進行篡改或偽裝,使普通用戶無法識別,借機執(zhí)行或分發(fā)非法程序?,F(xiàn)有的頁面文件檢測包括靜態(tài)檢測和動態(tài)檢測,但均涉及監(jiān)控文件運行時觸發(fā)的函數(shù)和事件,而沒有考慮入侵者使用的模糊處理技術,因而惡意腳本代碼識別率很低,并且現(xiàn)有的檢測模型使用了仿真技術,使移動設備端的計算資源消耗過大。
【發(fā)明內(nèi)容】
[0003]為解決上述現(xiàn)有技術所存在的問題,本發(fā)明提出了一種文件安全處理方法,包括:
[0004]判斷頁面文件的入侵方式,根據(jù)入侵方式確定相應的特征提取和分類過程,通過特征提取和分類過程對移動終端頁面文件進行安全檢測。
[0005]優(yōu)選地,所述方法還包括:在所述特征提取前,首先確定腳本代碼在頁面文件中的位置,從頁面文件中將腳本代碼提取出來,如果該腳本代碼經(jīng)過編碼、壓縮和模糊等理,則還原原始的腳本代碼,最后根據(jù)特征提取算法提取特征向量集;
[0006]所述根據(jù)入侵方式確定相應的特征提取和分類過程,進一步包括,對于基于腳本代碼入侵的頁面文件,提取特征是基本單位為詞;對于基于非腳本代碼入侵方式實現(xiàn)的頁面文件,提取特征時,將頁面文件進行劃分,然后進行特征提??;根據(jù)兩種不同的特征提取方式,分別基于Bayes分類過程和判定樹分類過程,建立兩個不同的分類模型,然后采用并聯(lián)的方式,將兩個分類過程進行組合。
[0007]優(yōu)選地,對于基于非腳本代碼入侵方式實現(xiàn)的頁面文件,提取訓練樣本集的特征向量,所述訓練樣本集分為兩類,基于非腳本代碼入侵的惡意文件樣本集和不含腳本代碼的安全文件樣本集;在特征提取時,分別提取兩個不同樣本集的特征向量集,根據(jù)預定的特征選擇算法,將兩個特征向量集進行處理,以得到學習算法需要的特征向量集;然后根據(jù)學習算法和提取的特征向量集,采用判定樹分類過程建立識別模型;最后對未知頁面文件進行識別;在對頁面文件進行識別時,提取未知頁面文件的特征向量集,利用該特征向量集代替頁面文件進行識別,然后將特征向量集作為識別器的輸入,識別器根據(jù)己建立的識別,對特征向量集進行識別分類;最后得出未知頁面文件的分類結果。
[0008]優(yōu)選地,在進行非腳本代碼入侵特征向量提取時,所述分別提取兩個不同樣本集的特征向量集進一步包括以下過程:
[0009]1.提取惡意樣本集特征向量集Tm,并計算其中每個特征向量的詞頻tfm, i;
[0010]2.提取安全樣本集特征向量集Tn并計算其中每個特征向量的詞頻tf η,
[0011]3.計算Tm中每個特征向量在所述安全樣本集中的反向文件頻率idf m,i;
[0012]4.計算Tn中每個特征向量在所述惡意樣本集中的反向文件頻率idf n,.j;
[0013]5.分別選擇不同樣本集的特征向量集,然后合并得到非腳本代碼入侵的特征向量集。
[0014]本發(fā)明相比現(xiàn)有技術,具有以下優(yōu)點:
[0015]本發(fā)明提出了一種文件檢測識別方法,對不同入侵方式利用不同的分類方式進行檢測,引入模糊處理防止惡意代碼的偽裝,提高了檢測成功率。
【附圖說明】
[0016]圖1是根據(jù)本發(fā)明實施例的文件安全處理方法的流程圖。
【具體實施方式】
[0017]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描述。結合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中的或者所有細節(jié)也可以根據(jù)權利要求書實現(xiàn)本發(fā)明。
[0018]本發(fā)明的一方面提供了一種文件安全處理方法。圖1是根據(jù)本發(fā)明實施例的文件安全處理方法流程圖。
[0019]本發(fā)明針對兩種不同的入侵方式針對性作出檢測,采用兩種不同的特征提取和分類方法建立識別模塊,然后對識別模塊進行并聯(lián),對頁面文件中的腳本代碼進行完整的反模糊預處理,保證基于腳本代碼攻擊的特征向量集的有效性。基于多級分類過程,對不同入侵方式利用不同的分類過程進行檢測,提高了檢測成功率。
[0020]本發(fā)明的頁面文件檢測方法主要有三大模塊:數(shù)據(jù)預處理、特征提取和頁面文件識別。
[0021](1)數(shù)據(jù)預處理:針對基于腳本代碼入侵方式的文本集進行預處理。根據(jù)對基于腳本代碼入侵方式和頁面文件結構的分析,首先對頁面文件中可執(zhí)行腳本代碼進行定位,判斷腳本代碼存在于哪個對象中,根據(jù)對象之間的引用關系,將對象中的腳本代碼提取出來,存儲在新的文本文件中;然后根據(jù)腳本代碼的編碼方式,對經(jīng)過編碼的腳本代碼進行解碼,以還原原始的腳本代碼;最后,對腳本代碼進行反模糊處理,去掉腳本代碼中的冗余信息,最后得到原始腳本代碼。
[0022](2)特征提取:本發(fā)明提出了兩種不同的特征提取方式,對于基于腳本代碼入侵的頁面文件,提取特征是基本單位為詞,減少了提取所需時間;對于基于非腳本代碼入侵方式實現(xiàn)的頁面文件,提取特征時,將頁面文件進行劃分,然后依然采用與現(xiàn)有特征提取相同的方法,在特征提取結束之后,通過特征選擇算法,有效降低特征的維度即選擇辨識度較高的特征。
[0023](3)頁面文件識別:根據(jù)兩種不同的特征提取方式,基于Bayes分類過程和判定樹分類過程,建立兩個不同的分類模型,然后采用并聯(lián)的方式,將兩個分類過程進行組合,提高了模型的檢測率。
[0024]在特征向量提取前,首先需要確定腳本代碼在頁面文件中的位置,從頁面文件中將腳本代碼提取出來,如果該腳本代碼是經(jīng)過編碼、壓縮和模糊等處理,則需要還原最原始的腳本代碼,最后根據(jù)特征提取算法提取特征向量集。
[0025]在對未知頁面文件檢測時,首先需要從未知頁面文件中提取可執(zhí)行腳本代碼,并且對腳本代碼進行解碼和去模糊化處理,得到原始的腳本代碼。然后根據(jù)字符串匹配算法,進行特征向量匹配,判斷腳本代碼中存在哪些特征向量。最后根據(jù)Bayes算法及由訓練樣本得到的數(shù)據(jù),判斷該未知頁面文件的類別。
[0026]針對基于非腳本代碼入侵的頁面文件檢測可以采用通用的檢測:首先提取訓練樣本集的特征向量。訓練樣本集分為兩類:基于非腳本代碼入侵的惡意文件樣本集和不含腳本代碼的安全文件樣本集。在特征提取時,需要分別提取兩個不同樣本集的特征向量集,根據(jù)一定的特征選擇算法,將兩個特征向量集進行處理,以得到學習算法需要的特征向量集。然后根據(jù)學習算法和提取的特征向量集,建立識別模型。本發(fā)明采用判定樹分類過程建立識別模型。最后對未知頁面文件進行識別。
[0027]在對未知頁面文件進行識別時,首先需要提取未知頁面文件的特征向量集,該特征向量集可以有效的表明該未知頁面文件,可以利用該特征向量集代替頁面文件進行識另IJ。然后將特征向量集作為識別器的輸入,識別器根據(jù)己建立的識別,對特征向量集進行識別分類。最后得出未知頁面文件的分類結果。
[0028]本發(fā)明提出的特征提取模塊,根據(jù)現(xiàn)有的頁面文件入侵方式,采用兩種不同的特征提取方式提取特征向量。針對基于腳本代碼入侵方式的特征向量提取,首先將腳本代碼從頁面文件中提取出來,對該腳本代碼進行反模糊等處理,得到原始的腳本代碼。然后以詞為單位,進行特征提取。最后對提取到的特征向量進行特征選擇處理,并增加關鍵特征向量的權重,保證最后得到的特征向量集具有較高的有效性。針對基于非腳本代碼入侵方式的特征向量集提取,采用將頁面文件分塊,分別提取特征向量,然后進行特征選擇處理,得出最后的特征向量。
[0029]在對基于腳本代碼入侵方式的特征向量提取之前,對頁面文件的預處理分為兩個步驟,第一步對頁面文件中的可執(zhí)行腳本代碼進行定位并提取,第二步將提取出來的腳本代碼進行解碼和反模糊等處理,最終得到原始的腳本代碼。
[0030]在頁面文件中,腳本代碼通常在字典中存在。字典包含的若干組條目,每組條目都由鍵和值組成,其中鍵必須是名字對象,并且一個字典內(nèi)的鍵是唯一的;值可以是任何的合法對象。腳本代碼有兩種嵌入方式:一種為直接以十六進制或者文本方式的字符串,另一種存儲在另一個對象中,通過指針間接調(diào)用。在后一種情況下,它通常存儲在一個經(jīng)過加密的流。
[0031]為了可靠地提取腳本代碼,需要對文中在語義層次上進行處理。在一般頁面文件中,可以根據(jù)關鍵字定位腳本代碼的入口位置。腳本代碼除了直接嵌入到頁面文件中以外,還可以駐留在本地主機的其他頁面文件中,甚至有可能駐留在遠程主機上。腳本代碼支持動態(tài)調(diào)用。
[0032]下面對腳本代碼的提取進行描述
[0033]1.打開頁面文件;
[0034]2.初始化內(nèi)部數(shù)據(jù)結構;
[0035]3.進行目錄字典檢索,尋找活動字典入口地址;
[0036]4.對上述可能含有腳本代碼的候選位置進行搜索,并檢測字典條目的數(shù)據(jù)類型;
[0037]5.如果其數(shù)據(jù)類型為預定義關鍵字集合中的元素,則此字典中便含有腳本代碼,對腳本代碼進行提取;
[0038]6.對腳本代碼進行解壓。
[0039]在間接引用對象中,該對象中通常為一個經(jīng)過編碼的流,對經(jīng)過編碼后的腳本代碼解碼:判斷流中的字符是否經(jīng)過編碼,即判斷流的頭部中是否含有編碼方式字段,如果有,調(diào)用解碼函數(shù)進