專利名稱::獲取可信文件數(shù)字簽名的方法和裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機安全
技術(shù)領(lǐng)域:
,具體涉及一種獲取可信文件數(shù)字簽名的方法和裝置及系統(tǒng)。
背景技術(shù):
:隨著計算機技術(shù)在社會生活中各個領(lǐng)域的廣泛運用,惡意程序(是指任何故意創(chuàng)建用來執(zhí)行未經(jīng)授權(quán)并通常是有害行為的軟件程序)也如同其附屬品一樣接踵而來。由于這些惡意程序所具有的感染性、復(fù)制性及破壞性,其已成為困擾計算機使用的一個重大問題。因此,在網(wǎng)絡(luò)威脅飆升的今天,更新病毒特征碼成為企業(yè)及網(wǎng)民每天必備的工作,從每周一次到每天一次,直至時刻更新。而傳統(tǒng)殺毒軟件是將病毒庫放在本地客戶端,在客戶端進行文件的分析工作,在掃描過程中會反復(fù)在本地病毒庫中進行比對,占用大量系統(tǒng)資源,并且隨著病毒庫的不斷升級,病毒庫的容量越來越大,分析文件時所耗費的時間也越來越長,讓客戶端計算機越用越慢,因此,反病毒行業(yè)必須尋找新的技術(shù)突破。“云安全(CloudSecurity)”計劃即是網(wǎng)絡(luò)時代信息安全的最新體現(xiàn),它融合了并行處理、網(wǎng)格計算、未知病毒行為判斷等新興技術(shù)概念,將“云計算”的理念應(yīng)用到了安全領(lǐng)域?!霸瓢踩庇媱澋膶崿F(xiàn)是與其樣本數(shù)據(jù)庫的構(gòu)建息息相關(guān)的,因此,如何有效的組織并維護樣本數(shù)據(jù)庫,成為業(yè)界亟待解決的問題。對于安全公司來說,收集可信任的可執(zhí)行文件樣本是一個非常重要的工作?,F(xiàn)有技術(shù)是通過樣本的數(shù)字簽名來確定樣本是否為可信任的樣本,如果某一可執(zhí)行文件樣本的數(shù)字簽名為可信文件數(shù)字簽名,那么就確定該可執(zhí)行文件樣本為可信任的。因此,如何從大量的數(shù)字簽名中獲取可信文件數(shù)字簽名就成為完成上述工作的一個非常重要的步驟?,F(xiàn)有技術(shù)獲取可信文件數(shù)字簽名的方法主要有以下兩種(一)人工審核方法;這種方法的優(yōu)點是準確率高,但是審核速度慢、成本很高,召回率難以保證。尤其是當數(shù)字簽名庫越來越大的時候,人工審核變得越發(fā)的難以操作。(二)通過編輯距離算法計算得到字符串相似度,與已知可信文件數(shù)字簽名的字符串相似度較高的數(shù)字簽名可以確定為可信文件數(shù)字簽名。這種方法很好的解決了當數(shù)字簽名庫很大時,人工操作難的問題。但是仍然存在這樣的問題對于同一公司或機構(gòu)的數(shù)字簽名,通過編輯距離算法計算的字符串相似度往往很低,例如,“PoweriseDigitalTechnologiesCo.Ltd/PoweriseDigitalTechnologiesCo.Ltd.”和“Powerise”屬于同一公司或機構(gòu)的數(shù)字簽名,通過編輯距離算法得到的字符串相似度就很低,盡管已知“PoweriseDigitalTechnologiesCo.Ltd/PoweriseDigitalTechnologiesCo.Ltd.”為可信文件數(shù)字簽名,也不能確定“Powerise”也是可信文件數(shù)字簽名。在這種情況下,獲取可信文件數(shù)字簽名的準確率會降低。
發(fā)明內(nèi)容4鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的獲取可信文件數(shù)字簽名的方法和相應(yīng)的獲取可信文件數(shù)字簽名的裝置以及系統(tǒng)。根據(jù)本發(fā)明的一個方面,提供了一種獲取可信文件數(shù)字簽名的方法,包括獲取可執(zhí)行文件樣本的數(shù)字簽名;將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,數(shù)字簽名集合包含至少一個單詞;統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻;根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度;根據(jù)數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定數(shù)字簽名是否為可信文件數(shù)字簽名。根據(jù)本發(fā)明的另一方面,提供了一種獲取可信文件數(shù)字簽名的裝置,包括簽名獲取模塊,用于獲取可執(zhí)行文件樣本的數(shù)字簽名;分詞處理模塊,用于將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,數(shù)字簽名集合包含至少一個單詞;詞頻統(tǒng)計模塊,用于統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻;相似度獲取模塊,用于根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度;可信文件數(shù)字簽名獲取模塊,用于根據(jù)數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定數(shù)字簽名是否為可信文件數(shù)字簽名。根據(jù)本發(fā)明的再一方面,提供了獲取可信文件數(shù)字簽名的系統(tǒng),其包括上面提及的任一種獲取可信文件數(shù)字簽名的裝置。根據(jù)本發(fā)明的提供的獲取可信文件數(shù)字簽名的方法和裝置及系統(tǒng),將數(shù)字簽名進行分詞操作處理得到數(shù)字簽名集合,根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取兩個集合之間字符串相似度,根據(jù)字符串相似度來確定數(shù)字簽名是否為可信文件數(shù)字簽名。本發(fā)明提供的方案在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,與現(xiàn)有技術(shù)中單純依賴編輯距離算法計算字符串相似度相比,利用本發(fā)明計算得到的兩個集合的字符串相似度更能反映兩個集合的相關(guān)程度,由此提高了獲取可信文件數(shù)字簽名的準確率。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖圖;以及圖意圖。圖4示出了根據(jù)本發(fā)明另一個實施例的獲取可信文件數(shù)字簽名的裝置的結(jié)構(gòu)示具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。PE(PortableExecute,可移植的執(zhí)行體)文件是微軟Windows操作系統(tǒng)上的程序文件,它是是可執(zhí)行文件的一種,常見的后綴為EXE、DLL、OCX、SYS、COM的文件都是PE文件。在以下實施例中,以PE文件作為例子,詳細介紹可信文件數(shù)字簽名的獲取方法。但需要注意的是,本發(fā)明中可執(zhí)行文件不僅限于是PE文件。圖I示出了根據(jù)本發(fā)明一個實施例的可信文件數(shù)字簽名的獲取方法100的流程圖。如圖I所示,方法100始于步驟S101,其中收集多個PE文件樣本的數(shù)字簽名。根據(jù)系統(tǒng)處理能力,盡可能多的收集PE文件樣本的數(shù)字簽名,如收集3萬多數(shù)字簽名,其中有一部分數(shù)字簽名為已知可信文件數(shù)字簽名。所謂已知可信文件數(shù)字簽名是指已經(jīng)獲知為可信任PE文件簽名的數(shù)字簽名。隨后,方法100進入步驟S102,在步驟SlOl中收集到多個數(shù)字簽名之后,在步驟S102中將多個數(shù)字簽名分別進行分詞操作處理,得到多個數(shù)字簽名集合,其中每個數(shù)字簽名集合包含至少一個單詞。可選地,對于其中一個數(shù)字簽名,首先去除該數(shù)字簽名中的字符和標點符號;其次將數(shù)字簽名的格式進行統(tǒng)一處理,例如將全半角的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為半角,將大小寫混合的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為小寫或大寫;將多個空格制表符按一個來處理;對于中文,進行繁簡體統(tǒng)一轉(zhuǎn)換或編碼統(tǒng)一轉(zhuǎn)換等操作;最后,對于英文數(shù)字簽名,以空格為分隔進行分詞處理,對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。舉例來說,“成都夢工廠公司”可分為“成都”、“夢工廠”和“公司”,這三個單詞組成一個數(shù)字簽名集合{成都,夢工廠,公司}TEKTRONIX,Inc.”可分為“tektronix”和“inc”,這兩個單詞組成一個數(shù)字簽名集合{tektronix,inc}”;TektronixUKLtd.”可分為“tektronix”、“uk”和“l(fā)td”,這三個單詞組成一個數(shù)字簽名集合{tektronix,uk,ltd}。隨后方法100進入步驟S103,其中根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸一化處理,這里是對步驟SIOI收集的3萬多數(shù)字簽名對應(yīng)的數(shù)字簽名集合中的單詞統(tǒng)一進行歸一化處理。該同義詞對應(yīng)表通過人工標注預(yù)先獲得的。在數(shù)字簽名中,存在一些固定的簡寫規(guī)則,例如corp和co.都是corporation的簡寫,ltd是limited的簡寫。需要將這些具有相同意義的單詞之前的對應(yīng)關(guān)系建立起來,這里使用人工標注或者機器標注的方法,預(yù)先建立同義詞對應(yīng)表,該同義詞對應(yīng)表中記錄了同義單詞之間的對應(yīng)關(guān)系以及同義單詞中哪個單詞為歸一化的單詞。根據(jù)同義詞對應(yīng)表,將步驟S102中得到的每個數(shù)字簽名集合中的單詞做歸一化處理。例如,數(shù)字簽名集合{tektronix,uk,ltd}經(jīng)過歸一化處理后成為{tektronix,uk,limited}。應(yīng)當注意的是,步驟S103是本方法的可選步驟。隨后方法100進入步驟S104,在步驟S104中統(tǒng)計每個數(shù)字簽名集合中每個單詞的詞頻。所謂詞頻是指單詞在所有數(shù)字簽名集合中出現(xiàn)的頻次。明顯地,單詞“l(fā)imited”在所有數(shù)字簽名集合中出現(xiàn)的頻次會遠高于單詞“tektronix”。隨后方法100進入獲取多個數(shù)字簽名集合兩兩之間的字符串相似度的步驟,該步驟包括如下步驟S105、步驟S106和步驟S107。在步驟S105中,對于多個數(shù)字簽名集合中任意兩個數(shù)字簽名集合A和B,獲取A和B的交集C。設(shè)A=Ia1,a2,···,aj,B=Od1,b2,···,bj,A與B的交集C=Ic1,c2,···,cj。例如,若A={tektronix,inc},B={tektronix,uk,limited},則A與B的交集C={tektronix}。在步驟S106中,根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子。設(shè)A中的單詞%的詞頻為Freq(),字符串長度為Length(Bi),B中的單詞匕的詞頻為Freq,字符串長度為Length(印,那么A的長度因子為mlacior_1.,englh(A)=^Lcnglitiai)^(I/))(I)/二IB的長度因子為ηlacior_Lengih(B)=I,eng!h{h)*(I/l:req(b))(2Ji二I應(yīng)當注意的是,步驟S105和S106之間沒有前后順序關(guān)系,兩個步驟可以同時執(zhí)行、先執(zhí)行步驟S106然后再執(zhí)行步驟S105等,所有這些都在本發(fā)明的保護范圍之內(nèi)。在步驟S107中,根據(jù)A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。設(shè)C中的單詞Ci的詞頻為Freq(Ci),字符串長度為Length(Ci),那么A和B的字符串相似度為SimAB=(V人。類)+少—二人以類))Z2⑴I'actor—IAiiiglh、A),:1'actor—LenglhiB)',其中,F(xiàn)actor_Length(Ci)=Length(Ci)*(1/Freq(Ci))(4)由上述公式(I)-(4)可以看出,集合A和B中每個單詞對SimAB的權(quán)重影響取決于該單詞的詞頻和字符串長度。單詞的詞頻越低,字符串長度越高,該單詞對SimAB的權(quán)重影響越大;單詞的詞頻越高,字符串長度越低,該單詞對SimAB的權(quán)重影響越小。如果A和B的交集C中包含對SimAB權(quán)重影響越大的單詞,那么最終計算得到的SimAB就越高。以單詞“l(fā)imited”和“tektronix”為例,“l(fā)imited”的詞頻高于“tektronix”,但“l(fā)imited”的字符串長度低于“tektronix”,那么“tektronix”對SimAB的權(quán)重影響高于“l(fā)imited”。如果A和B的交集C中包含“tektronix”,則計算得到的SimAB就較高;如果A和B的交集C中包含“l(fā)imited”而不包含“tektronix”,則計算得到的SimAB就較低。在步驟S107中計算得到多個數(shù)字簽名集合兩兩之間的字符串相似度之后,方法100進入步驟S108,其中將字符串相似度高于設(shè)定閾值的數(shù)字簽名集合聚為一類。設(shè)定閾值是人工確定的,可選地,設(shè)定閾值可以為0.85,如果A和B的字符串相似度高于0.85,那么A和B可聚為一類。隨后方法100進入步驟S109,其中根據(jù)同一類中已知可信文件數(shù)字簽名的數(shù)量,確定該類中所有數(shù)字簽名是否為可信文件數(shù)字簽名。由于在步驟SlOl中收集的數(shù)字簽名中有一部分為已知可信文件數(shù)字簽名,所以在每個聚類中都有可能存在一定數(shù)量的已知可信文件數(shù)字簽名,如果某一類中已知可信文件數(shù)字簽名的數(shù)量比較多,例如已知可信文件數(shù)字簽名的數(shù)量過半,則可認為這一類的數(shù)字簽名均為可信文件數(shù)字簽名??蛇x地,預(yù)先設(shè)定已知可信文件數(shù)字簽名占所有數(shù)字簽名的比例閾值,如果在某一聚類中,已知可信文件數(shù)字簽名占所有數(shù)字簽名的比例高于該比例閾值,則確定這個聚類中所有的數(shù)字簽名都為可信文件數(shù)字簽名。本實施例提供了一種在收集到多個數(shù)字簽名且已知其中一部分數(shù)字簽名為可信文件數(shù)字簽名的情況下,如何確定剩余另一部分數(shù)字簽名是否為可信文件數(shù)字簽名,從而建立可信文件數(shù)字簽名數(shù)據(jù)庫的方法。具體地,首先對多個數(shù)字簽名分別進行分詞操作處理,得到多個數(shù)字簽名集合;根據(jù)單詞的詞頻和字符串長度計算兩兩集合之間的字符串相似度。其中,兩個集合中每個單詞對最終計算得到的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。將字符串相似度高于設(shè)定閾值的數(shù)字簽名集合聚為一類,根據(jù)同一類中已知可信文件數(shù)字簽名的數(shù)量,確定該類中所有數(shù)字簽名是否為可信文件數(shù)字簽名。由此可見,本方法在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,與現(xiàn)有技術(shù)中單純依賴編輯距離算法計算字符串相似度相比,利用本方法計算得到的兩個集合的字符串相似度更能反映兩個集合的相關(guān)程度,由此提高了聚類的準確率,進一步提高了獲取可信文件數(shù)字簽名的準確率。以同一公司或機構(gòu)的兩個數(shù)字簽名為例,公司名稱對兩個集合的字符串相似度的權(quán)重影響較大,顯然同一公司或機構(gòu)的兩個數(shù)字簽名集合的交集都會包含公司名稱,那么利用本方法同一公司或機構(gòu)的兩個數(shù)字簽名會被聚為一類。圖2示出了根據(jù)本發(fā)明另一個實施例的獲取可信文件數(shù)字簽名的方法200的流程圖。如圖2所示,方法200始于步驟S201,其中獲取某一PE文件樣本的數(shù)字簽名,該數(shù)字簽名為待確認的數(shù)字簽名。隨后,方法200進入步驟S202,在步驟S201中獲取待確認的數(shù)字簽名之后,在步驟S202中將該數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,其中該數(shù)字簽名集合包含至少一個單詞。可選地,首先去除該數(shù)字簽名中的字符和標點符號;其次將數(shù)字簽名的格式進行統(tǒng)一處理,例如將全半角的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為半角,將大小寫混合的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為小寫或大寫;將多個空格制表符按一個來處理;對于中文,進行繁簡體統(tǒng)一轉(zhuǎn)換或編碼統(tǒng)一轉(zhuǎn)換等操作;最后,對于英文數(shù)字簽名,以空格為分隔進行分詞處理,對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。舉例來說,“成都夢工廠公司”可分為“成都”、“夢工廠”和“公司”,這三個單詞組成一個數(shù)字簽名集合{成都,夢工廠,公司}TEKTRONIX,Inc.”可分為“tektronix”和“inc”,這兩個單詞組成一個數(shù)字簽名集合{tektronix,inc}”;TektronixUKLtd.”可分為“tektronix”、“uk”和“l(fā)td”,這三個單詞組成一個數(shù)字簽名集合{tektronix,uk,ltd}。隨后方法200進入步驟S203,其中根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸一化處理,這里是對步驟S201獲取的待確認的數(shù)字簽名對應(yīng)的數(shù)字簽名集合中的單詞進行歸一化處理。該同義詞對應(yīng)表通過人工標注或者機器標注預(yù)先獲得的。在數(shù)字簽名中,存在一些固定的簡寫規(guī)則,例如corp和co.都是corporation的簡寫,ltd是limited的簡寫。需要將這些具有相同意義的單詞之前的對應(yīng)關(guān)系建立起來,這里使用人工標注的方法,預(yù)先建立同義詞對應(yīng)表,該同義詞對應(yīng)表中記錄了同義單詞之間的對應(yīng)關(guān)系以及同義單詞中哪個單詞為歸一化的單詞。根據(jù)同義詞對應(yīng)表,將步驟S202中得到的數(shù)字簽名集合中的單詞做歸一化處理。例如,數(shù)字簽名集合{tektronix,uk,ltd}經(jīng)過歸一化處理后成為{tektronix,uk,limited}。應(yīng)當注意的是,步驟S203是本方法的可選步驟。隨后方法200進入步驟S204,在步驟S204中統(tǒng)計數(shù)字簽名集合中每個單詞的詞8頻。所謂詞頻是指單詞在所有已知的可信文件數(shù)字簽名集合中出現(xiàn)的頻次。隨后方法200進入獲取數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度的步驟,該步驟包括如下步驟S205、步驟S206和步驟S207。在步驟S205中,對于數(shù)字簽名集合A和已知的可信文件數(shù)字簽名集合B,獲取A和B的交集C。設(shè)A=Ia1,a2,···,aj,B=Od1,b2,···,bj,A與B的交集C=Ic1,c2,···,cj。例如,若A={tektronix,inc},B={tektronix,uk,limited},則A與B的交集C={tektronix}。在步驟S206中,根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子。設(shè)A中的單詞%的詞頻為Freq(),字符串長度為Length(Bi),B中的單詞匕的詞頻為Freq,字符串長度為Length(印,那么A的長度因子為mIrOCfOr_Lcngih(A)=[LefI^lh(a,)*(/!^reqiai))(5)/=1B的長度因子為ηFactor_Leng!h(B)=^l.ength(h)*{]/J-'recf{b.))(6)I=I應(yīng)當注意的是,步驟S205和S206之間沒有前后順序關(guān)系,兩個步驟可以同時執(zhí)行、先執(zhí)行步驟S206然后再執(zhí)行步驟S205等,所有這些都在本發(fā)明的保護范圍之內(nèi)。在步驟S207中,根據(jù)A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。設(shè)C中的單詞Ci的詞頻為Freq(Ci),字符串長度為Length(Ci),那么A和B的字符串相似度為■仙辦⑷+幺抑伽―1)k(7)/=1Factor—Length(A)f=1Factor一Length(B)/其中,F(xiàn)actor_Length(Ci)=Length(Ci)*(1/Freq(Ci))(8)由上述公式(5)-(8)可以看出,集合A和B中每個單詞對SimAB的權(quán)重影響取決于該單詞的詞頻和字符串長度。單詞的詞頻越低,字符串長度越高,該單詞對SimAB的權(quán)重影響越大;單詞的詞頻越高,字符串長度越低,該單詞對SimAB的權(quán)重影響越小。如果A和B的交集C中包含對SimAB權(quán)重影響越大的單詞,那么最終計算得到的SimAB就越高。以單詞“l(fā)imited”和“tektronix”為例,“l(fā)imited”的詞頻高于“tektronix”,但“l(fā)imited”的字符串長度低于“tektronix”,那么“tektronix”對SimAB的權(quán)重影響高于“l(fā)imited”。如果A和B的交集C中包含“tektronix”,則計算得到的SimAB就較高;如果A和B的交集C中包含“l(fā)imited”而不包含“tektronix”,則計算得到的SimAB就較低。在步驟S207中計算得到數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合之間的字符串相似度之后,方法200進入步驟S208,其中根據(jù)數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定數(shù)字簽名是否為可信文件數(shù)字簽名。如果A和B的字符串相似度SimAB高于設(shè)定閾值,那么則可以確定數(shù)字簽名是可信文件數(shù)字簽名。本實施例提供了一種在已知一些數(shù)字簽名為可信文件數(shù)字簽名的情況下,即已經(jīng)構(gòu)建了可信文件數(shù)字簽名數(shù)據(jù)庫的情況下,如何確定新收集的某個數(shù)字簽名是否為可信文件數(shù)字簽名的方法。具體地,首先對待確認的數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合;根據(jù)單詞的詞頻和字符串長度計算數(shù)字簽名集合和已知的可信文件數(shù)字簽名集合之間的字符串相似度。其中,兩個集合中每個單詞對最終計算得到的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。如果字符串相似度高于設(shè)定閾值,那么確定該數(shù)字簽名為可信文件數(shù)字簽名。由此可見,本方法在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,與現(xiàn)有技術(shù)中單純依賴編輯距離算法計算字符串相似度相比,利用本方法計算得到的兩個集合的字符串相似度更能反映兩個集合的相關(guān)程度,由此提高了獲取可信文件數(shù)字簽名的準確率。以同一公司或機構(gòu)的兩個數(shù)字簽名為例,公司名稱對兩個集合的字符串相似度的權(quán)重影響較大,顯然同一公司或機構(gòu)的兩個數(shù)字簽名集合的交集都會包含公司名稱,因此如果已知其中一個數(shù)字簽名為可信文件數(shù)字簽名,那么利用本方法可以準確地獲知另一個數(shù)字簽名也是可信文件數(shù)字簽名。圖3示出了根據(jù)本發(fā)明一個實施例的可信文件數(shù)字簽名的獲取裝置的結(jié)構(gòu)示意圖。如圖3所示,該可信文件數(shù)字簽名獲取裝置300包括收集模塊310、分詞處理模塊320、詞頻統(tǒng)計模塊330、相似度獲取模塊340、聚類模塊350和可信文件數(shù)字簽名獲取模塊360。其中,收集模塊310用于收集多個可執(zhí)行文件樣本的數(shù)字簽名。根據(jù)系統(tǒng)處理能力,收集模塊210盡可能多的收集可執(zhí)行文件樣本的數(shù)字簽名,如收集3萬多數(shù)字簽名,其中有一部分數(shù)字簽名為已知可信文件數(shù)字簽名。所謂已知可信文件數(shù)字簽名是指已經(jīng)獲知為可信任的可執(zhí)行文件的數(shù)字簽名。分詞處理模塊320用于將多個數(shù)字簽名分別進行分詞操作處理,得到多個數(shù)字簽名集合,其中每個數(shù)字簽名集合包含至少一個單詞??蛇x地,分詞處理模塊320包括去除單元321、格式處理單元322和分詞處理單元323,其中,去除單元321用于去除數(shù)字簽名中的字符和標點符號;格式處理單元322用于將數(shù)字簽名的格式進行統(tǒng)一處理,例如將全半角的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為半角,將大小寫混合的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為小寫或大寫;將多個空格制表符按一個來處理;對于中文,進行繁簡體統(tǒng)一轉(zhuǎn)換或編碼統(tǒng)一轉(zhuǎn)換等操作;分詞處理單元323用于對于英文數(shù)字簽名,以空格為分隔進行分詞處理;對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。詞頻統(tǒng)計模塊330用于統(tǒng)計每個數(shù)字簽名集合中每個單詞的詞頻。所謂詞頻是指單詞在所有數(shù)字簽名集合中出現(xiàn)的頻次。相似度獲取模塊340用于根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取多個數(shù)字簽名集合兩兩之間的字符串相似度。多個數(shù)字簽名集合中任意兩個數(shù)字簽名集合中每個單詞對這兩個數(shù)字簽名集合的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度??蛇x地,相似度獲取模塊340包括第一獲取單元341、第二獲取單元342和第三獲取單元343。其中,第一獲取單元341用于對于多個數(shù)字簽名集合中任意兩個數(shù)字簽名集合A和B,獲取A和B的交集C;第二獲取單元342,用于根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子;第三獲取單元343,用于根據(jù)A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。第一獲取單元341、第二獲取單元342和第三獲取單元343的功能可以參見方法100實施例的相應(yīng)描述,在此不再贅述。聚類模塊350用于將字符串相似度高于設(shè)定閾值的數(shù)字簽名集合聚為一類??尚盼募?shù)字簽名獲取模塊360用于根據(jù)同一類中已知可信文件數(shù)字簽名的數(shù)量,確定該類中所有的數(shù)字簽名是否為可信文件數(shù)字簽名。由于收集模塊310收集的數(shù)字簽名中有一部分為已知可信文件數(shù)字簽名,所以在每個聚類中都有可能存在一定數(shù)量的已知可信文件數(shù)字簽名,如果某一類中已知可信文件數(shù)字簽名的數(shù)量比較多,例如已知可信文件數(shù)字簽名的數(shù)量過半,則可認為這一類的數(shù)字簽名均為可信文件數(shù)字簽名??蛇x地,預(yù)先設(shè)定已知可信文件數(shù)字簽名占所有數(shù)字簽名的比例閾值,如果在某一聚類中,已知可信文件數(shù)字簽名占所有數(shù)字簽名的比例高于該比例閾值,則確定這個聚類中所有的數(shù)字簽名都為可信文件數(shù)字簽名??蛇x地,可信文件數(shù)字簽名獲取裝置300還可以包括歸一化處理模塊370,用于根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸一化處理。該同義詞對應(yīng)表通過人工標注預(yù)先獲得的。在數(shù)字簽名中,存在一些固定的簡寫規(guī)則,例如corp和co.都是corporation的簡寫,ltd是limited的簡寫。需要將這些具有相同意義的單詞之前的對應(yīng)關(guān)系建立起來,這里使用人工標注或機器標注的方法,預(yù)先建立同義詞對應(yīng)表,該同義詞對應(yīng)表中記錄了同義單詞之間的對應(yīng)關(guān)系以及同義單詞中哪個單詞為歸一化的單詞。根據(jù)同義詞對應(yīng)表,將分詞處理模塊320得到的每個數(shù)字簽名集合中的單詞做歸一化處理。本實施例提供了一種在收集到多個數(shù)字簽名且已知其中一部分數(shù)字簽名為可信文件數(shù)字簽名的情況下,如何確定剩余另一部分數(shù)字簽名是否為可信文件數(shù)字簽名的裝置。具體地,首先對多個數(shù)字簽名分別進行分詞操作處理,得到多個數(shù)字簽名集合;根據(jù)單詞的詞頻和字符串長度計算兩兩集合之間的字符串相似度。其中,兩個集合中每個單詞對最終計算得到的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。將字符串相似度高于設(shè)定閾值的數(shù)字簽名集合聚為一類,根據(jù)同一類中已知可信文件數(shù)字簽名的數(shù)量,確定該類中所有數(shù)字簽名是否為可信文件數(shù)字簽名。由此可見,本裝置在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,與現(xiàn)有技術(shù)中單純依賴編輯距離算法計算字符串相似度相比,利用本裝置計算得到的兩個集合的字符串相似度更能反映兩個集合的相關(guān)程度,由此提高了聚類的準確率,進一步提高了獲取可信文件數(shù)字簽名的準確率。以同一公司或機構(gòu)的兩個數(shù)字簽名為例,公司名稱對兩個集合的字符串相似度的權(quán)重影響較大,顯然同一公司或機構(gòu)的兩個數(shù)字簽名集合的交集都會包含公司名稱,那么利用本裝置同一公司或機構(gòu)的兩個數(shù)字簽名會被聚為一類。本發(fā)明還提供了一種服務(wù)端設(shè)備,包括上述一個實施例提供的可信文件數(shù)字簽名的獲取裝置。該服務(wù)端設(shè)備主要運行在后臺系統(tǒng)中,用于建立可信文件數(shù)字簽名數(shù)據(jù)庫。圖4示出了根據(jù)本發(fā)明另一個實施例的獲取可信文件數(shù)字簽名的裝置的結(jié)構(gòu)示意圖。如圖4所示,該可信文件數(shù)字簽名獲取裝置400包括簽名獲取模塊410、分詞處理模塊420、詞頻統(tǒng)計模塊430、相似度獲取模塊440和可信文件數(shù)字簽名獲取模塊450。其中,簽名獲取模塊410用于獲取可執(zhí)行文件樣本的數(shù)字簽名,該數(shù)字簽名為待確認的數(shù)字簽名。分詞處理模塊420用于將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,數(shù)字簽名集合包含至少一個單詞??蛇x地,分詞處理模塊420可以包括去除單元421、格式處理單元422和分詞處理單元423。其中,去除單元421用于去除數(shù)字簽名中的字符和標點符號;格式處理單元422用于將數(shù)字簽名的格式進行統(tǒng)一處理,例如將全半角的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為半角,將大小寫混合的數(shù)字簽名統(tǒng)一轉(zhuǎn)化為小寫或大寫;將多個空格制表符按一個來處理;對于中文,進行繁簡體統(tǒng)一轉(zhuǎn)換或編碼統(tǒng)一轉(zhuǎn)換等操作;分詞處理單元423用于對于英文數(shù)字簽名,以空格為分隔進行分詞處理;對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。詞頻統(tǒng)計模塊430用于統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻。所謂詞頻是指單詞在所有已知的可信文件數(shù)字簽名集合中出現(xiàn)的頻次。相似度獲取模塊440用于根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度。數(shù)字簽名集合和已知的可信文件數(shù)字簽名集合中每個單詞對這兩個集合的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度??蛇x地,相似度獲取模塊440包括第一獲取單元441、第二獲取單元442和第三獲取單元443。其中,第一獲取單元441用于獲取數(shù)字簽名集合A和已知的可信文件數(shù)字簽名集合B的交集C;第二獲取單元442用于根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子;第三獲取單元443用于根據(jù)A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。第一獲取單元441、第二獲取單元442和第三獲取單元443的功能可以參見方法200實施例的相關(guān)描述,在此不再贅述??尚盼募?shù)字簽名獲取模塊450用于根據(jù)數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定數(shù)字簽名是否為可信文件數(shù)字簽名。如果數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度高于設(shè)定閾值,那么則可以確定數(shù)字簽名是可信文件數(shù)字簽名??蛇x地,該可信文件數(shù)字簽名獲取裝置400還可以包括歸一化處理模塊460,用于根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸一化處理。該同義詞對應(yīng)表通過人工標注預(yù)先獲得的。在數(shù)字簽名中,存在一些固定的簡寫規(guī)則,例如corp和co.都是corporation的簡寫,ltd是limited的簡寫。需要將這些具有相同意義的單詞之前的對應(yīng)關(guān)系建立起來,這里使用人工標注的方法,預(yù)先建立同義詞對應(yīng)表,該同義詞對應(yīng)表中記錄了同義單詞之間的對應(yīng)關(guān)系以及同義單詞中哪個單詞為歸一化的單詞。根據(jù)同義詞對應(yīng)表,將分詞處理模塊420得到的數(shù)字簽名集合中的單詞做歸一化處理。本實施例提供了一種在已知一些數(shù)字簽名為可信文件數(shù)字簽名的情況下,如何確定某個數(shù)字簽名是否為可信文件數(shù)字簽名的裝置。具體地,首先對待確認的數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合;根據(jù)單詞的詞頻和字符串長度計算數(shù)字簽名集合和已知的可信文件數(shù)字簽名集合之間的字符串相似度。其中,兩個集合中每個單詞對最終計算得到的字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。如果字符串相似度高于設(shè)定閾值,那么確定該數(shù)字簽名為可信文件數(shù)字簽名。由此可見,本裝置在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,與現(xiàn)有技術(shù)中單純依賴編輯距離算法計算字符串相似度相比,利用本裝置計算得到的兩個集合的字符串相似度更能反映兩個集合的相關(guān)程度,由此提高了獲取可信文件數(shù)字簽名的準確率。以同一公司或機構(gòu)的兩個數(shù)字簽名為例,公司名稱對兩個集合的字符串相似度的權(quán)重影響較大,顯然同一公司或機構(gòu)的兩個數(shù)字簽名集合的交集都會包含公司名稱,因此如果已知其中一個數(shù)字簽名為可信文件數(shù)字簽名,那么利用本裝置可以準確地獲知另一個數(shù)字簽名也是可信文件數(shù)字簽名。本發(fā)明還提供了一種服務(wù)端設(shè)備,包括上述另一個實施例提供的可信文件數(shù)字簽名的獲取裝置。該服務(wù)端設(shè)備主要運行在后臺系統(tǒng)中,用于對已構(gòu)建的可信文件數(shù)字簽名數(shù)據(jù)庫自動增加可信文件數(shù)字簽名。在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的可信文件數(shù)字簽名的獲取裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。權(quán)利要求1.一種獲取可信文件數(shù)字簽名的方法,包括獲取可執(zhí)行文件樣本的數(shù)字簽名;將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,所述數(shù)字簽名集合包含至少ー個單詞;統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻;根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度;根據(jù)所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定所述數(shù)字簽名是否為可信文件數(shù)字簽名。2.根據(jù)權(quán)利要求I所述的方法,所述單詞的詞頻是該單詞在所有已知的可信文件數(shù)字簽名集合中出現(xiàn)的頻次。3.根據(jù)權(quán)利要求I或8所述的方法,所述數(shù)字簽名集合和已知的可信文件數(shù)字簽名集合中每個單詞對這兩個集合的所述字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。4.根據(jù)權(quán)利要求I至3任一項所述的方法,所述獲取所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度包括獲取所述數(shù)字簽名集合A和已知的可信文件數(shù)字簽名集合B的交集C;根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子;根據(jù)所述A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。5.根據(jù)權(quán)利要求I至4任一項所述的方法,在所述統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻之前還包括根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸ー化處理。6.根據(jù)權(quán)利要求I至5任一項所述的方法,所述將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合包括去除數(shù)字簽名中的字符和標點符號;將數(shù)字簽名的格式進行統(tǒng)ー處理;對于英文數(shù)字簽名,以空格為分隔進行分詞處理;對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。7.一種獲取可信文件數(shù)字簽名的裝置,包括簽名獲取模塊,用于獲取可執(zhí)行文件樣本的數(shù)字簽名;分詞處理模塊,用于將數(shù)字簽名進行分詞操作處理,得到數(shù)字簽名集合,所述數(shù)字簽名集合包含至少ー個單詞;詞頻統(tǒng)計模塊,用于統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻;相似度獲取模塊,用于根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度;可信文件數(shù)字簽名獲取模塊,用于根據(jù)所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定所述數(shù)字簽名是否為可信文件數(shù)字簽名。8.根據(jù)權(quán)利要求7所述的裝置,所述單詞的詞頻是該單詞在所有已知的可信文件數(shù)字簽名集合中出現(xiàn)的頻次。9.根據(jù)權(quán)利要求7或8所述的裝置,所述數(shù)字簽名集合和已知的可信文件數(shù)字簽名集合中每個單詞對這兩個集合的所述字符串相似度的權(quán)重影響取決于該單詞的詞頻和字符串長度。10.根據(jù)權(quán)利要求7至9任一項所述的裝置,所述相似度獲取模塊包括第一獲取單元,用于獲取所述數(shù)字簽名集合A和已知的可信文件數(shù)字簽名集合B的交集C;第二獲取單元,用于根據(jù)A中每個單詞的詞頻和字符串長度以及B中每個單詞的詞頻和字符串長度,分別獲取A的長度因子和B的長度因子;第三獲取單元,用于根據(jù)所述A的長度因子、B的長度因子以及C中每個單詞的詞頻和字符串長度,獲取A和B的字符串相似度。11.根據(jù)權(quán)利要求7至10任一項所述的裝置,還包括歸ー化處理模塊,用于根據(jù)同義詞對應(yīng)表,將以不同形式出現(xiàn)的同義單詞做歸ー化處理。12.根據(jù)權(quán)利要求7至11任一項所述的裝置,所述分詞處理模塊包括去除単元,用于去除數(shù)字簽名中的字符和標點符號;格式處理單元,用于將數(shù)字簽名的格式進行統(tǒng)ー處理;分詞處理単元,用于對于英文數(shù)字簽名,以空格為分隔進行分詞處理;對于中文數(shù)字簽名,以單詞為分隔進行分詞處理。13.—種包括上述權(quán)利要求7至12任一項所述的獲取可信文件數(shù)字簽名的裝置的系統(tǒng)。全文摘要本發(fā)明公開了一種獲取可信文件數(shù)字簽名的方法和裝置及系統(tǒng)。其中所述裝置包括簽名獲取模塊;分詞處理模塊;詞頻統(tǒng)計模塊,用于統(tǒng)計數(shù)字簽名集合中每個單詞的詞頻;相似度獲取模塊,用于根據(jù)數(shù)字簽名集合中單詞的詞頻和字符串長度,獲取所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度;可信文件數(shù)字簽名獲取模塊,用于根據(jù)所述數(shù)字簽名集合與已知的可信文件數(shù)字簽名集合的字符串相似度,確定所述數(shù)字簽名是否為可信文件數(shù)字簽名。本發(fā)明提供的方案在計算兩個集合的字符串相似度的時候考慮到單詞的詞頻和字符串長度的影響,因此更能反映兩個集合的相關(guān)程度,由此提高了獲取可信文件數(shù)字簽名的準確率。文檔編號G06F21/64GK102982292SQ20121043633公開日2013年3月20日申請日期2012年11月5日優(yōu)先權(quán)日2012年11月5日發(fā)明者張超旭,于春功申請人:北京奇虎科技有限公司,奇智軟件(北京)有限公司