一種輕量級安卓惡意軟件快速判斷方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及軟件檢測、網(wǎng)絡(luò)安全技術(shù)等多種領(lǐng)域,特別是一種安卓平臺下的快速 的惡意軟件判斷方法。
【背景技術(shù)】
[0002] 智能手機(jī)是移動(dòng)互聯(lián)網(wǎng)的重要載體,隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,智能手機(jī)市場 規(guī)模也不斷增長.Android系統(tǒng)由于其開源性,任何組織或個(gè)人編寫的軟件都可以上傳到 "應(yīng)用商店"中,供用戶下載并安裝使用,因此已經(jīng)占據(jù)全球智能手機(jī)出貨量的75%。但是, 智能手機(jī)市場的迅速發(fā)展也帶來了與用戶密切相關(guān)的惡意軟件問題。
[0003] 目前國際上對于智能手機(jī)惡意軟件檢測的研宄所使用的方法主要可分為兩類:基 于規(guī)則的檢測方法和基于異常的檢測方法。其中,1)基于規(guī)則的檢測方法將權(quán)限組合、行為 足跡、作者信息等作為判定的規(guī)則,定義各種潛在的危險(xiǎn)權(quán)限組合作為規(guī)則,通過檢查特定 的危險(xiǎn)權(quán)限組合來中止?jié)撛诓话踩珣?yīng)用的安裝。2)基于異常的檢測方法選取了權(quán)限、系統(tǒng) 調(diào)用和功耗等作為學(xué)習(xí)的特征,并利用聚類和分類算法來區(qū)分正常和惡意的應(yīng)用。兩種方 法中都應(yīng)用了一些不同的機(jī)器學(xué)習(xí)算法,如Logistic回歸分析(Logisticregression)和 貝葉斯網(wǎng)絡(luò)(Bayesiannetworks)來對應(yīng)用程序分類。
【發(fā)明內(nèi)容】
[0004] 基于上述技術(shù)問題,本發(fā)明提出了一種輕量級安卓惡意軟件快速判斷方法,從而 實(shí)現(xiàn)安卓操作系統(tǒng)下的惡意軟件的有效檢測。
[0005] 本發(fā)明一種輕量級安卓惡意軟件快速判斷方法,該方法包括以下步驟:
[0006] 步驟1、從不同來源收集軟件樣本,分別組成惡意程序庫和良性程序庫這兩個(gè)樣本 庫;
[0007] 步驟2、對上述兩個(gè)樣本庫中所有的Android程序的安裝文件用逆向工程工具進(jìn) 行反編譯,獲取配置文件;
[0008] 步驟3、對上述配置文件進(jìn)行解碼,掃描源碼并提取其中的權(quán)限向量,得到每個(gè)程 序?qū)?yīng)的權(quán)限集;
[0009] 步驟4、對樣本庫中所有的程序進(jìn)行特征提取得到46個(gè)權(quán)限作為特征,分別計(jì)算 出兩個(gè)樣本庫當(dāng)中上述46個(gè)權(quán)限的使用頻度,篩選出頻度差值高的前10位權(quán)限,作為本發(fā) 明采用的10維特征,將10個(gè)權(quán)限中未使用的置〇,使用到的置1,這樣每個(gè)樣本生成一個(gè)與 之對應(yīng)的10維的二進(jìn)制特征向量;
[0010] 步驟5、根據(jù)每個(gè)樣本的來源,標(biāo)定其良性或惡性的類別;
[0011] 步驟6、對上述10個(gè)特征向量的集合訓(xùn)練出分類模型;
[0012] 步驟7、獲取待測程序的安裝文件,如步驟2所述,生成待測程序?qū)?yīng)的特征向量;
[0013] 步驟8、根據(jù)步驟6生成的分類模型,以步驟7生成的特征向量為輸入,對待測程序 進(jìn)行分類,得到待測軟件是惡意程序還是良性程序的檢測結(jié)果。
[0014] 與現(xiàn)有技術(shù)相比,本發(fā)明具有快速、簡單的特點(diǎn),沒有如動(dòng)態(tài)檢測技術(shù)中應(yīng)用的繁 雜的算法和較大的能耗,在維持一定的準(zhǔn)確率的基礎(chǔ)上提高了檢測的速度??梢宰鳛閭€(gè)人 客戶端查毒的基礎(chǔ)判斷方法,同時(shí)也可以作為各個(gè)安卓應(yīng)用市場的初步審核工具。
【附圖說明】
[0015] 圖1為本發(fā)明的惡意軟件快速檢測方法流程圖。
【具體實(shí)施方式】
[0016] 以下結(jié)合附圖及【具體實(shí)施方式】,進(jìn)一步詳述本發(fā)明的技術(shù)方案。
[0017] 本發(fā)明的整體思路是采用基于軟件權(quán)限信息的靜態(tài)檢測方法,首先通過大量樣本 進(jìn)行訓(xùn)練,得出較好的分類模型,然后對待檢測的程序提取權(quán)限信息,輸入分類模型后得出 檢測結(jié)果。
[0018] 以一個(gè)具體實(shí)施例描述本發(fā)明流程,包括以下步驟:
[0019] 第一階段:
[0020] 第一步,從Genome項(xiàng)目(一種本技術(shù)領(lǐng)域中有關(guān)打擊基于Android的設(shè)備惡意軟 件為目的的"基因組計(jì)劃")中獲取已經(jīng)標(biāo)定的惡意程序集A,從Google電子市場采集正常 程序集B,從中各選取150個(gè)樣本,組成本發(fā)明的樣本庫;
[0021] 第二步,用AndroidKiller工具軟件,配合Windows下的批處理程序,對樣本庫中 所有APK安裝軟件進(jìn)行反編譯,獲得每個(gè)樣本對應(yīng)的配置文件AndroidManifest.xml,并將 其轉(zhuǎn)存為txt格式,便于后期處理;
[0022] 第三步,通過java程序,根據(jù)配置文件中聲明權(quán)限的字段〈uses-permission>,將 每個(gè)樣本的對應(yīng)的權(quán)限集提取出來;
[0023] 第四步,分別統(tǒng)計(jì)惡意集A和正常集B使用頻率最高的前30個(gè)權(quán)限,共計(jì)60個(gè)為 初步特征,隨后將這兩個(gè)集合中相同的權(quán)限排除,使得每個(gè)特征都對所屬的類別有著更高 的代表性,最終得到46個(gè)權(quán)限,這些選取的權(quán)限如表1所示。
[0024] 第五步,在上述46個(gè)權(quán)限中篩選出頻度差別較高的10個(gè)權(quán)限,10個(gè)權(quán)限的標(biāo)簽如 下:
[0025] WRITE_EXTERNAL_ST0RAGE
[0026] ACCESS_WIFI_STATE
[0027] VIBRATE
[0028] WAKE_L0CK
[0029] ACCESS_C0ARSE_L0CATION
[0030] RECEIVE_B00T_C0MPLETED
[0031] WRITE_APN_SETTINGS
[0032] READ_C0NTACTS
[0033] READ_SMS
[0034] RECEIVE_SMS
[0035]第六步,基于上述步驟獲得的樣本特征向量集,使用分類算法進(jìn)行訓(xùn)練,得到最佳 的分類模型,在實(shí)施例中,分別采用樸素貝葉斯(NaYveBayes)、決策樹(C4. 5)、支持向量機(jī) (SVM)、臨近算法(kNN)等算法,比較結(jié)果最終選取kNN為最佳算法。在本方案的選取的300 個(gè)樣本庫中,使用該分類模型的準(zhǔn)確率為96. 07 % ;
[0036] 第七步,對于待測軟件,采用第二步、第三步和第五步對其進(jìn)行特征提取,生成其 特征向量。
[0037] 第八步,將待測軟件的特征向量,作為第六步生成訓(xùn)練模型的輸入,得到最終的分 類結(jié)果,即對該軟件是否為惡意軟件做出判斷。
[0038] 在具體檢測時(shí),對待測軟件執(zhí)行的上述第七步和第八步的處理參見如圖1所示的 流程,其包括以下步驟:
[0039] 步驟101、提取配置文件的權(quán)限信息;此步驟采用上述的第二步、第三步和第五步 對其進(jìn)行特征提取,生成其特征向量;;
[0040] 步驟102、順序讀10維特征向量,取權(quán)限集中的一個(gè)元素;
[0041] 步驟103、判斷該元素是否與待測權(quán)限匹配成功?
[0042] 步驟104、如果成功,則對應(yīng)的特征向量標(biāo)為1 ;
[0043] 步驟105、如果不成功,則對應(yīng)的特征向量標(biāo)為0 ;
[0044] 步驟106、判斷讀取的權(quán)限信息是否為最后一個(gè)元素;如果否,則繼續(xù)讀取權(quán)限集 中的下一元素,直至讀完;
[0045] 步驟107、如果是,貝1」獲得特征向量;
[0046] 步驟108、作為上述的第六步生成訓(xùn)練模型的輸入分類模型;
[0047] 步驟109、得到判別結(jié)果,即對該軟件是否為惡意軟件做出判斷。
[0048] 本發(fā)明具有快速、簡單的特點(diǎn),沒有如動(dòng)態(tài)檢測技術(shù)中應(yīng)用的繁雜的算法和較大 的能耗,在維持一定的準(zhǔn)確率的基礎(chǔ)上提高了檢測的速度??梢宰鳛閭€(gè)人客戶端查毒的基 礎(chǔ)判斷方法,同時(shí)也可以作為各個(gè)安卓應(yīng)用市場的初步審核工具。
[0049] 表1、本發(fā)明實(shí)施例的特征權(quán)限列表
【主權(quán)項(xiàng)】
1. 一種輕量級安卓惡意軟件快速判斷方法,其特征在于,該方法包括以下步驟: 步驟(1)、從不同來源收集軟件樣本,分別組成惡意程序庫和良性程序庫這兩個(gè)樣本 庫; 步驟(2)、對上述兩個(gè)樣本庫中所有的Android程序的安裝文件用逆向工程工具進(jìn)行 反編譯,獲取配置文件; 步驟(3)、對上述配置文件進(jìn)行解碼,掃描源碼并提取其中的權(quán)限向量,得到每個(gè)程序 對應(yīng)的權(quán)限集; 步驟(4)、對樣本庫中所有的程序進(jìn)行特征提取得到46個(gè)權(quán)限作為特征,分別計(jì)算出 兩個(gè)樣本庫當(dāng)中上述46個(gè)權(quán)限的使用頻度,篩選出頻度差值高的前10位權(quán)限,作為本發(fā)明 采用的10維特征,將10個(gè)權(quán)限中未使用的置0,使用到的置1,這樣每個(gè)樣本生成一個(gè)與之 對應(yīng)的10維的二進(jìn)制特征向量; 步驟(5)、根據(jù)每個(gè)樣本的來源,標(biāo)定其良性或惡性的類別; 步驟(6)、對上述10個(gè)特征向量的集合訓(xùn)練出分類模型; 步驟(7)、獲取待測程序的安裝文件,如步驟(2)所述,生成待測程序?qū)?yīng)的特征向量; 步驟(8)、根據(jù)步驟(6)生成的分類模型,以步驟(7)生成的特征向量為輸入,對待測程 序進(jìn)行分類,得到待測軟件是惡意程序還是良性程序的檢測結(jié)果。
2. 如權(quán)利要求1所述的一種輕量級安卓惡意軟件快速判斷方法,其特征在于,所述步 驟(4)的對樣本庫中所有的程序進(jìn)行特征提取得到46個(gè)權(quán)限作為特征,該處理的具體流程 為:分別統(tǒng)計(jì)惡意集A和正常集B使用頻率最高的前30個(gè)權(quán)限,共計(jì)60個(gè)為初步特征,隨 后將這兩個(gè)集合中相同的權(quán)限排除,使得每個(gè)特征都對所屬的類別有著更高的代表性,最 終得到46個(gè)權(quán)限。
【專利摘要】本發(fā)明公開了一種輕量級安卓惡意軟件快速判斷方法,從不同來源收集軟件樣本,分別組成惡意軟件庫和良性軟件庫這兩個(gè)樣本庫;獲取兩個(gè)樣本庫中的Android程序安裝文件的配置文件;對配置文件進(jìn)行解碼,提取權(quán)限向量,得到每個(gè)程序的權(quán)限集;對樣本庫進(jìn)行特征提取得到46個(gè)權(quán)限,每個(gè)樣本生成一個(gè)與之對應(yīng)的46維的二進(jìn)制特征向量;計(jì)算出與軟件性質(zhì)相關(guān)度最高的10個(gè)特征向量,并對每個(gè)樣本特征標(biāo)定類別;對10個(gè)特征向量的集合訓(xùn)練出分類模型;獲取待測軟件的安裝文件,生成待測程序?qū)?yīng)的特征向量;根據(jù)分類模型,以特征向量為輸入,對待測軟件進(jìn)行分類,得到待測軟件檢測結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明具有快速、簡單的特點(diǎn),可以作為各個(gè)安卓應(yīng)用市場的初步審核工具。
【IPC分類】G06F21-56
【公開號】CN104809395
【申請?zhí)枴緾N201510196453
【發(fā)明人】劉昱, 張亦弛, 李海賓, 李圣龍, 王映雪, 方誠
【申請人】天津大學(xué)
【公開日】2015年7月29日
【申請日】2015年4月23日