本發(fā)明涉及android平臺上惡意代碼檢測研究領(lǐng)域,為了能夠更好地保護android平臺用戶信息的安全性,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的android惡意代碼樣本分類檢測方法,該方法能夠準(zhǔn)確識別惡意軟件所屬類別,從而有效地實現(xiàn)對惡意軟件的檢測。
背景技術(shù):
近幾年,惡意軟件已經(jīng)成為威脅網(wǎng)絡(luò)和信息安全的關(guān)鍵因素之一。據(jù)symantec的2016年度互聯(lián)網(wǎng)安全威脅報告透露,2015年新增惡意軟件數(shù)量達(dá)4.3億個,其中涉及隱私竊取或者泄漏的個人信息超過5億條。由于惡意代碼檢測技術(shù)的局限性,有大量惡意代碼無法有效查殺。特別是進行代碼混淆的惡意代碼及其變種的不斷出現(xiàn),是惡意代碼檢測形勢日益嚴(yán)峻的根本原因。android平臺是當(dāng)前主流的兩大移動終端平臺之一,android移動終端惡意代碼家族逐年不斷增長,同時,惡意代碼的變種數(shù)目也急劇增長,這表明惡意代碼開發(fā)人員更多的是對原型惡意代碼做稍微修改或重新打包進而衍生出新的變種進行傳播。因此需要能快速有效地檢測出變種病毒的檢測方法。
惡意代碼檢測技術(shù)可以分為兩類,分別為靜態(tài)惡意代碼檢測和動態(tài)惡意代碼檢測。靜態(tài)惡意代碼檢測是在不運行代碼的情況下,利用反編譯技術(shù),采用控制流分析、數(shù)據(jù)流分析和語義分析等方法來識別應(yīng)用程序的行為特征。這種方法具有快速、高效等優(yōu)點,但是難以對抗代碼混淆等保護技術(shù)。動態(tài)惡意代碼檢測則是關(guān)注于應(yīng)用程序?qū)嶋H運行的行為,通過在一個可執(zhí)行的環(huán)境中運行待檢測應(yīng)用程序并實時監(jiān)控其系統(tǒng)調(diào)用、網(wǎng)絡(luò)訪問、文件操作和內(nèi)存修改等行為,來判斷該應(yīng)用程序是否具有惡意行為。與靜態(tài)惡意代碼檢測方法相比,動態(tài)惡意代碼檢測方法無法有效地對所有代碼進行審計,因為有些代碼需要在特殊條件下才會被觸發(fā)。在惡意代碼檢測領(lǐng)域中,國內(nèi)外許多學(xué)者已經(jīng)進行了大量的研究工作。王蕊和馮登國(wangrui,fengdeng-guo,yangyi,supu-rui.anmalwaredetectionmethodbasedonthesemanticoffeatureextraction[j].journalofsoftware,2012,2:378-393)提出一種基于語義分析的靜態(tài)惡意代碼行為特征提取的檢測方法??椎鹿夂妥T小彬等(kongde-guang,tanxiao-bin,xihong-sheng,gongtao,shuaijian-mei.liftingmultidimensionalcharacteristicstestingconfusemaliciouscode[j].journalofsoftware,2011,3:522-533)提出從統(tǒng)計特性出發(fā)并結(jié)合代碼中函數(shù)調(diào)用以及系統(tǒng)調(diào)用流程圖,對家族惡意代碼進行檢測,這些靜態(tài)檢測方法有較高的檢測效率,但是對使用代碼混淆技術(shù)的惡意代碼抵抗力不強。美國佐治亞理工學(xué)院的dinaburg提出(dinaburga,royalp,sharifm,etal.ether:malwareanalysisviahardwarevirtualizationextensions[c],proceedingsofthe15thacmconferenceoncomputerandcommunicationssecurity.acm,2008:51-62)通過建立一個虛擬的應(yīng)用程序執(zhí)行環(huán)境來監(jiān)聽待檢測應(yīng)用程序運行時的內(nèi)存操作、涉及的特權(quán)層級、系統(tǒng)調(diào)用等事件,針對這些事件來識別應(yīng)用程序的惡意行為。西班牙德烏斯托大學(xué)的santos提出(santosi,brezof,nievesj,etal.idea:opcode-sequence-basedmalwaredetection[c],internationalsymposiumonengineeringsecuresoftwareandsystems.springerberlinheidelberg,2010:35-43)利用信息論中方法來計算應(yīng)用程序中各類特征間的關(guān)聯(lián)程度,通過計算待檢測應(yīng)用程序與已知的惡意軟件之間的聯(lián)系來確定其是否具有惡意行為。西班牙蒙特拉貢大學(xué)的burguera(burguerai,zurutuzau,nadjm-tehranis.crowdroid:behavior-basedmalwaredetectionsystemforandroid[c]//proceedingsofthe1stacmworkshoponsecurityandprivacyinsmartphonesandmobiledevices.acm,2011:15-26)提出一種直接將收集器和檢測器嵌入到android操作系統(tǒng)的方法來收集廣大用戶手機中應(yīng)用程序的行為信息,在云端進行檢測并將檢測的結(jié)果及時通知用戶。盧森堡大學(xué)的kevin(allixk,bissyandétf,jéromeq,etal.empiricalassessmentofmachinelearning-basedmalwaredetectorsforandroid[j].empiricalsoftwareengineering,2016,21(1):183-211)利用機器學(xué)習(xí)的方法來提取android應(yīng)用程序中所使用權(quán)限的特征,并用于惡意代碼檢測。臺灣科技大學(xué)的dong-jiewu學(xué)者(wudj,maoch,weite,etal.droidmat:androidmalwaredetectionthroughmanifestandapicallstracing[c],informationsecurity(asiajcis),2012seventhasiajointconferenceon.ieee,2012:62-69)則以大量的樣本數(shù)據(jù)為基礎(chǔ),從中提取與已知惡意軟件的特征,并利用這些特征來用于對新樣本的檢測。這些方法都是通過提取惡意軟件的特征來對未知軟件進行識別,由于實際應(yīng)用中軟件的多樣性,容易出現(xiàn)誤檢的情況。本發(fā)明提出通過從惡意軟件的變種出發(fā),利用深度學(xué)習(xí)的思想來檢測出同種類的惡意軟件。
技術(shù)實現(xiàn)要素:
本發(fā)明針對當(dāng)前android平臺上惡意軟件樣本基數(shù)大、變種數(shù)多的現(xiàn)狀,提出一種能夠快速高效地檢測出android平臺中同種類型惡意軟件的方法,框架圖如同1所示。該方法結(jié)合卷積神經(jīng)網(wǎng)絡(luò),通過深度學(xué)習(xí)來實現(xiàn)對惡意軟件樣本的自動分類,具有良好分類識別效果。
本發(fā)明是在擁有大量樣本數(shù)據(jù)的基礎(chǔ)上,提取出每個apk應(yīng)用程序包中dex文件,并利用simhash以及djb2這兩種哈希算法來生成各個apk包所對應(yīng)的圖像數(shù)據(jù)。再將這些已經(jīng)預(yù)先分好類別的圖像數(shù)據(jù)作為輸入值,且以n×1的向量作為輸出,利用大量已知類別樣本數(shù)據(jù)來對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。在經(jīng)過多輪迭代訓(xùn)練后將得到一個可用于對新惡意軟件進行分類識別的分類器,記為cn。對于每一個新的未知軟件,利用上面相同的方法生成對應(yīng)的圖像數(shù)據(jù),記為x。再將該圖像數(shù)據(jù)作為已訓(xùn)練好的分類cn的輸入值,計算對應(yīng)的輸出值y=cn(x),其中y為1×n的向量,利用歐氏距離計算該向量與已知向量之間的距離,當(dāng)該向量與某一類別之間的歐式距離小于閾值ε時,則表示新樣本屬于該類別,也表明檢測到了已知類別的惡意軟件。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點:
本方法利用深度學(xué)習(xí)的思想,對惡意軟件進行分類,根據(jù)分類再識別,與其他檢測方法相比,具有操作簡單,識別準(zhǔn)確率高且檢測速度快的特點。該方法只需要將大量的惡意軟件樣本作為訓(xùn)練集合,經(jīng)過多代迭代訓(xùn)練即可得到良好的分類器。在對新惡意軟件進行識別時,直接用這一已訓(xùn)練的分類器就可計算得出。
附圖說明
圖1惡意軟件分類識別系統(tǒng)框架圖。先利用已知類別的android惡意軟件樣本庫來訓(xùn)練,圖中編號1所示;再用訓(xùn)練得到的惡意軟件分類器來對未知軟件進行檢測,圖中編號2所示。
圖2apk文件轉(zhuǎn)化為圖像數(shù)據(jù)流程圖。
圖3卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步詳細(xì)的描述,但本發(fā)明的實施方式不限于此。
參見圖2,首先需要將apk包轉(zhuǎn)化為圖像數(shù)據(jù),具體步驟如下:
利用反編譯技術(shù),提取出apk包中的dex文件,并將其劃分為n組,每一組大小為m/n,其中m表示dex文件的長度,n為分組的數(shù)量。由每一個數(shù)據(jù)組來長生一個像素點。
計算像素點所在位置,記為(x,y)。通過利用simhash算法來產(chǎn)生16bit的哈希值,并將前8bit作為x值,后8bit作為y值。
計算每一個點的rgb顏色,記為(r,g,b)。通過利用djb2算法來產(chǎn)生32bit的哈希值,并將24~17bit作為r值,16~9bit作為g值,8~1bit作為b值。
利用2,3步驟來循環(huán)計算每一分組,即可將每一個dex文件分別轉(zhuǎn)化為256×256的rgb圖像數(shù)據(jù)。
在得到圖像數(shù)據(jù)后,將大量的已知類別的樣本數(shù)據(jù)來對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,如圖3所示。
在訓(xùn)練的過程中使其滿足同一種類的apk之間輸出值的歐式距離盡可能小,不同種類的apk之間輸出值的歐式距離盡可能大。目標(biāo)函數(shù)設(shè)置為:
其中,g表示卷積神經(jīng)網(wǎng)絡(luò)中相同種類apk輸出值的集合,g’表示卷積神經(jīng)網(wǎng)絡(luò)中不同種類apk輸出值的集合,dis()表示兩向量歐式距離。β為各部分權(quán)重值,通過實際測試結(jié)果進行調(diào)節(jié)。
最后,利用訓(xùn)練好的分類器cn來對未知軟件進行檢測,并計算該未知軟件在經(jīng)過分類器計算后的輸出向量與各已知類別惡意軟件之間的最小距離,式子如下:
其中cn表示已經(jīng)訓(xùn)練好的分類器,p表示未知軟件轉(zhuǎn)化成的圖像數(shù)據(jù),
當(dāng)e小于閾值ε時,則表示新樣本屬于該類別,則表示檢測到已知類別的惡意軟件。
以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。