專利名稱:機密信息的檢測的制作方法
技術領域:
本申請涉及機密信息的檢測。
背景技術:
在一些數(shù)據(jù)處理環(huán)境中,機密信息有可能出現(xiàn)在沒有被充分保護的數(shù)據(jù)存儲設備中存儲的電子文件中。在不安全文件中存在這種機密信息可能危及其所關聯(lián)的個體的安全性和私密性,并使操作該不安全數(shù)據(jù)存儲系統(tǒng)的實體負有責任。機密信息可以包括敏感的財務數(shù)據(jù)或者可用于識別具體個體并且將他們與文件的內容相關的任何信息。機密信息的一些例子包括姓名、地址、電話號碼、社保號碼以及信用卡號碼。
發(fā)明內容
在一個一般方面,一種用于讀取存儲的數(shù)據(jù)的方法包括識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預定子集中的值; 對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié), 其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。在另一個一般方面,一種用于檢測機密信息的系統(tǒng)包括數(shù)據(jù)存儲設備;以及連接到所述數(shù)據(jù)存儲設備的運行時環(huán)境。該運行時環(huán)境被配置為從所述數(shù)據(jù)存儲設備讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試和匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。在又一個一般方面,一種計算機可讀介質存儲用于檢測機密信息的計算機程序。 該計算機程序包括導致計算機執(zhí)行以下步驟的指令讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配, 利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。這些方面可以包括一個或多個下列特征所述機密信息可以是信用卡號碼。當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號碼的標準格式中的數(shù)字數(shù)目時,確定出現(xiàn)格式匹配。與信用卡號碼關聯(lián)的規(guī)則可以包括有效發(fā)行商識別號碼的列表的規(guī)范。與信用卡號碼關聯(lián)的規(guī)則可以包括校驗和算法的規(guī)范。所述機密信息可以是社保號碼。當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時,確定出現(xiàn)格式匹配。與社保號碼關聯(lián)的規(guī)則可以包括對于由社保號碼的前五個數(shù)字表示的號碼的值的有效子集的規(guī)范。所述機密信息可以是電話號碼。當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測到的數(shù)字數(shù)目等于第一個數(shù)字為“ 1”的11個數(shù)字時,確定出現(xiàn)格式匹配。與電話號碼關聯(lián)的規(guī)則可以包括有效區(qū)號的列表的規(guī)范。與電話號碼關聯(lián)的規(guī)則可以包括在區(qū)號之后的第一個數(shù)字必須不是1或0的規(guī)范。所述機密信息可以是郵政編碼。當檢測到如下字節(jié)序列時確定出現(xiàn)格式匹配由具有表示數(shù)字的值的五個字節(jié)組成、或者由具有表示九個數(shù)字且在第五個數(shù)字與第六個數(shù)字之間有連字號的值的十個字節(jié)組成。與電話號碼關聯(lián)的規(guī)則可以包括有效的五個數(shù)字郵政編碼的列表的規(guī)范。對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中,詞是字串內的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,以及姓名是來自通常用于指代個別個人的序列的列表的字符序列;以及至少部分地基于存儲的數(shù)據(jù)中檢測到的姓名的計數(shù),計算存儲的數(shù)據(jù)的得分。所述姓名列表可以被分成兩個子集姓和名。對于每個字串,確定該字串是否包括一個或多個全名,其中全名是字符序列,該字符列表如下組成來自姓列表姓后面跟著空格符、并且后面跟著來自名列表的名;以及至少部分地基于檢測到的全名的計數(shù),計算存儲的數(shù)據(jù)的得分。列表中的姓名可以各自具有與它們關聯(lián)的頻率計數(shù),并且對于出現(xiàn)在存儲的數(shù)據(jù)中的姓名計算平均頻率計數(shù),以及可以至少部分地基于所述平均頻率計數(shù)計算存儲的數(shù)據(jù)的得分。如果存儲的數(shù)據(jù)中檢測到的姓名數(shù)目小于閾值,則可以忽略平均頻率計數(shù)。對于每個字串,對由兩個字母組成的詞的數(shù)目計數(shù),其中,詞是字串內的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值。對于每個兩個字母的詞,確定該兩個字母的詞是否是有效的州縮寫;以及至少部分地基于有效的州縮寫的計數(shù)以及兩個字母的詞的計數(shù),計算存儲的數(shù)據(jù)的得分。對于每個字串,確定該字串是否包括一個或多個州/郵編對,其中,州/郵編對是如下組成的字符列表州縮寫后面跟著空格符,所述空格符后面依次跟著郵政編碼;以及至少部分地基于檢測到的州/郵編對的計數(shù),計算存儲的數(shù)據(jù)的得分。檢測在電存儲的文件系統(tǒng)中哪些文件最近被更新過;以及在最近被更新過的文件中的每一個中搜索機密信息。定義字串的字節(jié)值的子集可以表示字母數(shù)字字符、括號、連字號以及空格符。將所述得分與閾值相比較;以及如果該得分超過所述閾值,則將該存儲的數(shù)據(jù)標記為可能包含機密信息。這些方面可以包括一個或多個下列好處使得對機密信息的搜索自動化。有效檢測機密信息以實現(xiàn)并增強安全性和私密性保護手段。
本申請的其它特征和好處將從以下說明以及從權利要求中變得清楚。
圖1是用于檢測存儲的數(shù)據(jù)中的機密信息的系統(tǒng)的框圖。圖2是用于檢測存儲的數(shù)據(jù)中的機密信息的軟件的框圖。圖3是用于計算表示文件包含機密信息的可能性的得分的過程的流程圖。
具體實施例方式期望能夠在較大數(shù)據(jù)集中檢測的機密數(shù)據(jù)的出現(xiàn),并且具體來說,期望在搜索機密數(shù)據(jù)的過程中檢測機密信息而無需人工代理審閱大部分的數(shù)據(jù)。用于檢測機密信息的系統(tǒng)能夠自動檢測可能的機密數(shù)據(jù),這些可能的機密數(shù)據(jù)之后能夠被人工代理整體或者部分地審閱。在一些實施例中,機密數(shù)據(jù)的人工審閱可能局限于明確的工作人員在極少時間進行或者被完全避免,由此降低或者消除由機密信息的誤處理所引起的私密性侵害。圖1描繪了用于檢測電子存儲的數(shù)據(jù)中的機密信息的示范性系統(tǒng)。感興趣的數(shù)據(jù)可以存儲在一個或多個數(shù)據(jù)存儲設備中,諸如實現(xiàn)在平行文件系統(tǒng)的多個設備上的平行 “多文件” 110 (例如,如通過引用并入此處的美國申請5,897,638中所述)或者數(shù)據(jù)庫服務器120中。機密信息檢測(CID)系統(tǒng)100使用運行在運行時環(huán)境150中的軟件來分析數(shù)據(jù)存儲設備中存儲的數(shù)據(jù)。分析的結果,包括存儲的數(shù)據(jù)的每個單元——諸如文件——的得分、以及可能指示存儲的數(shù)據(jù)的哪些單元可能包含機密信息的標記,可以被寫入同一個 110、120或者其它數(shù)據(jù)存儲設備160、170。在一些情況下,可以由操作者使用用戶接口 180 配置和控制CID系統(tǒng)的運行以及審閱結果??梢栽诤线m的操作系統(tǒng)——諸如UNIX操作系統(tǒng)——的控制下在一個或多個通用計算機上提供運行時環(huán)境150。例如,運行時環(huán)境150能夠包括多節(jié)點平行計算環(huán)境,該環(huán)境包括使用多個中央處理單元(CPU)的計算機系統(tǒng)的配置,多個中央處理單元要么是本地的(例如,諸如SMP計算機的多處理器系統(tǒng))或者本地分布的(例如,耦接為群或者MPP的多個處理器),要么是遠程或者遠程分布的(例如,經(jīng)由LAN或者WAN網(wǎng)絡耦接的多個處理器),或者其任意組合。由運行時環(huán)境150存取的輸入、輸出或者中間數(shù)據(jù)集可以是存儲在平行文件系統(tǒng)(例如,數(shù)據(jù)存儲器160,或者本地或者通過通信鏈接遠程地耦接到系統(tǒng)100 的外部數(shù)據(jù)存儲器170)中的平行“多文件”。圖2描繪了可以在運行時環(huán)境中運行以實現(xiàn)用于檢測電子存儲文件中的機密信息的系統(tǒng)的軟件的結構。CID系統(tǒng)100將所有文件格式都視為未知并且搜索包含機密數(shù)據(jù)的字符串。文件是從數(shù)據(jù)存儲設備201讀取的。字串提取模塊210將文件視為數(shù)據(jù)字節(jié)序列。用于識別字串的方法將去除除了表示下述字符的字節(jié)之外的所有字節(jié)這些字符用于表示機密信息的數(shù)據(jù)或者表示機密信息的數(shù)據(jù)的通常格式化。典型地,字節(jié)是8比特長,但是可以定義為適合于試圖檢測的字符集的任意大小。例如,一字節(jié)的長度可以定義為16或 32比特。所示的示例系統(tǒng)使用8比特的字節(jié)大小。使用與感興趣的字符關聯(lián)的可能字節(jié)值的子集來識別字串。其值在子集范圍之外的字節(jié)被視為字串分隔符。在本例中,子集中的字節(jié)值是表示字母數(shù)字字符、括號、連字號和空格符的ASCII。包括括號、連字號和空格符是因為這些字符通常用于對像電話號碼、SSN、信用卡以及地址之間的詞之類進行格式化。通過字串提取模塊210識別的字串被傳遞到各種機密信息檢測模塊220、230、M0、250、260和270。信用卡號碼檢測模塊220在每個字串中搜索號碼并且針對與信用卡號碼關聯(lián)的規(guī)則集合檢查該號碼。這些規(guī)則包括以數(shù)字數(shù)目測量的一個或多個允許的信用卡號碼長度的規(guī)范。模塊通過在字串中搜索表示數(shù)字的字節(jié)開始。如果該字串中檢測到的數(shù)字數(shù)目等于信用卡號碼的標準格式的數(shù)字的長度,那么就聲明基本格式匹配。甚至當表示其它字符——諸如數(shù)字組之間的空格符——的字節(jié)散布在表示號碼的數(shù)字之間時也可以發(fā)生基本格式匹配。對于每個基本格式匹配來說,使用與信用卡號碼關聯(lián)的規(guī)則全集測試由字串中的數(shù)字表示的號碼。全集中的其它規(guī)則可以包括例如有效發(fā)行商識別號或者有效校驗和的規(guī)范。如果該號碼不滿足任一規(guī)則,那么它將被識別為無效的或者看似(look-a-like) 信用卡號碼。隨著文件被處理,信用卡號碼檢測模塊220對基本格式匹配的數(shù)目和被確定為無效的號碼數(shù)目進行計數(shù)。無效號碼的計數(shù)對其它基本格式匹配的計數(shù)的比值可以與所述其它基本格式匹配事實上是有效信用卡號碼的可能性相關。在示例系統(tǒng)中,該比值用來在計算得分時對完全格式匹配的計數(shù)進行加權。在替換實施例中,可以僅當字串包括不間斷字節(jié)序列——每個字節(jié)具有表示數(shù)字的值——時聲明信用卡號碼的基本格式匹配,該不間斷字節(jié)序列的長度等于信用卡號碼的標準格式的數(shù)字中的長度。類似地,社保號碼檢測模塊230在每個字串中搜索號碼并且針對與社保號碼關聯(lián)的規(guī)則集合檢查該號碼。這些規(guī)則包括社保號碼長度必須是9位數(shù)字的規(guī)范。模塊通過搜索字串中表示數(shù)字的字節(jié)開始。如果在字串中的檢測到的數(shù)字數(shù)目等于9,那么就聲明基本格式匹配。甚至當表示其它字符——諸如數(shù)字組之間的連字號——的字節(jié)散布在表示號碼的數(shù)字之間時也可以發(fā)生基本格式匹配。對于每個基本格式匹配來說,使用與社保號碼關聯(lián)的規(guī)則全集測試由字串中的數(shù)字表示的號碼。全集中的其它規(guī)則可以包括,例如,用于由社保號碼的前五個數(shù)字表示的號碼的值的有效子集的規(guī)范。如果該號碼不滿足任一規(guī)則, 那么它將被識別為無效的或者看似社保號碼。隨著文件被處理,社保號碼檢測模塊230對基本格式匹配的數(shù)目和被確定為無效的號碼數(shù)目進行計數(shù)。無效號碼的計數(shù)對其它基本格式匹配的計數(shù)的比值可以與所述其它基本格式匹配事實上是有效社保號碼的可能性相關。 在示例系統(tǒng)中,該比值用來在計算得分時對完全格式匹配的計數(shù)進行加權。類似地,電話號碼檢測模塊240在每個字串中搜索號碼并且針對與電話號碼關聯(lián)的規(guī)則集合檢查該號碼。這些規(guī)則包括電話號碼應當是要么10個數(shù)字長度要么是第一個數(shù)字等于一的11個數(shù)字長度的規(guī)范。模塊通過搜索字串中表示數(shù)字的字節(jié)開始。如果在該字串中檢測到的數(shù)字的數(shù)目等于10、或者是檢測到的數(shù)字的數(shù)目等于11且第一個數(shù)字是一,那么就聲明基本格式匹配。甚至當表示其它字符一諸如區(qū)號數(shù)字兩邊的括號或者數(shù)字組之間的連字號一的字節(jié)散布在表示號碼的數(shù)字之間時也可以發(fā)生基本格式匹配。 對于每個基本格式匹配來說,使用與電話號碼關聯(lián)的規(guī)則全集測試由字串中的數(shù)字表示的號碼。全集中的其它規(guī)則可以包括,例如,有效區(qū)號或者區(qū)號之后的第一個數(shù)字必須不為1 或0的規(guī)范。如果該號碼不滿足任一規(guī)則,那么它將被識別為無效的或者看似電話號碼。隨著文件被處理,電話號碼檢測模塊240對基本格式匹配的數(shù)目和被確定為無效的號碼數(shù)目進行計數(shù)。無效號碼的計數(shù)對其它基本格式匹配的計數(shù)的比值可以與所述其它基本格式匹配事實上是有效電話號碼的可能性相關。在示例系統(tǒng)中,該比值用來在計算得分時對完全格式匹配的計數(shù)進行加權。在替換實施例中,可以僅當字串包括不間斷字節(jié)序列時聲明電話號碼的基本格式匹配,該不間斷字節(jié)序列具有表示以下序列其中之一的值氺氺氺氺氺氺氺氺氺氺1氺氺氺氺氺氺氺氺氺氺氺氺氺一氺氺氺一氺氺氺氺1_氺氺氺一氺氺氺一氺氺氺氺(氺氺氺)ΦΦΦ-ΦΦΦΦ1(氺氺氺)ΦΦΦ-ΦΦΦΦ其中*是代表數(shù)字0,1,2,3,4,5,6,7,8或者9中任何一個的通配符。姓名檢測模塊250在每個字串中搜索匹配常用姓名列表中的姓名的詞。這里,詞是全部表示字母的連續(xù)字節(jié)序列。這樣的常用姓名列表可以來源于政府普查。姓名列表可以分為姓和名??梢詫⒁阎獮槌S迷~的別名的特定名稱排除在外,以降低假肯定(false positive)的概率。例如,可以將姓名列表定制為將月份和星期幾的名稱排除在外。補償假肯定的另一種方法是監(jiān)控出現(xiàn)在文件中的姓名的平均頻率。例如,美國政府普查提供針對每個姓名的頻率計數(shù)。因為存在比常用姓名多得多的不常用姓名,所以大多數(shù)的名字具有大大低于平均頻率的頻率。姓名列表可以預期為具有近似平均頻率。恰巧命中少數(shù)姓名的隨機字符列表應當具有低得多的頻率。如果文件中檢測到的姓名的數(shù)目超過最小取樣大小,諸如10個姓名,那么可以計算文件中那些姓名的平均頻率來測試姓名??梢詫⑵骄l率與閾值相比較以確定這些姓名更加可能是假肯定還是真姓名。在本例中,姓名檢測模塊250在每個字串中搜索來自具有關聯(lián)頻率的常用姓名列表中的姓和名。它還檢測何時在同一字串中在名之前緊挨著出現(xiàn)姓并且將這樣的出現(xiàn)事件算作全名。模塊250輸出對于姓的計數(shù)、名的計數(shù)、全名的計數(shù)以及出現(xiàn)在文件中的所有姓名的平均頻率。街道地址檢測模塊260在每個字串中搜索詞的序列,所述詞的序列包括后面跟著由字母組成的一個或兩個詞的號碼,詞后面接著跟著已識別的街道縮寫。在街道地址開頭的號碼必須以連續(xù)數(shù)字序列開始,且第一個數(shù)字不等于零。該號碼在街道名稱的一個或者兩個詞之前的空格符之前的末尾處可以具有可選字母。街道地址檢測模塊將文件中檢測到的街道地址序列的號碼的計數(shù)傳遞給計分模塊。州和郵政編碼檢測模塊270在每個字串中搜索郵政編碼和已識別的兩個字符的州縮寫。它還對組成州縮寫的兩個詞的序列的出現(xiàn)事件進行計數(shù),該州縮寫后面跟著有效郵政編碼。該模塊對所有兩個字母的詞進行計數(shù)并且檢查每個兩個字母的詞是否都是有效州名稱縮寫,如美國郵政局所規(guī)定的那樣。模塊270還搜索每個字串中的號碼并且針對與郵政編碼關聯(lián)的規(guī)則集合檢查該號碼。這些規(guī)則包括這樣的規(guī)范郵政編碼必須要么是五個數(shù)字長度的連續(xù)數(shù)字序列要么是在第五個和第六個數(shù)字之間有連字號的九個數(shù)字長度的序列。如果檢測到匹配這些模式中任意一個的字節(jié)序列,那么就聲明基本格式匹配。對于每個基本格式匹配來說,使用與郵政編碼關聯(lián)的規(guī)則全集測試由字串中的數(shù)字表示的號碼。全集中的其它規(guī)則可以包括,例如,有效的五個數(shù)字郵政編碼作為全部可能的五個數(shù)字號碼的子集的規(guī)范。如果該號碼不滿足任一規(guī)則,那么它將被識別為無效的或者看似郵政編碼。隨著文件被處理,模塊270對基本格式匹配的數(shù)目和被確定為無效的號碼數(shù)目進行計數(shù)。無效號碼的計數(shù)對其它基本格式匹配的計數(shù)的比值可以與所述其它基本格式匹配事實上是有效郵政編碼的可能性相關。在示例系統(tǒng)中,該比值用來在計算得分時對完全格式匹配的計數(shù)進行加權。最后,模塊270對州和郵編序列的數(shù)目進行計數(shù),該州和郵政編碼序列這樣組成有效州縮寫后面跟著空格符,空格符后面跟著有效郵政編碼。然后,模塊270 將兩個字母的詞的計數(shù)、有效州縮寫的計數(shù)、郵政編碼格式匹配的計數(shù)、有效郵政編碼的計數(shù)以及州和郵政編碼序列的計數(shù)傳遞給計分模塊。經(jīng)CID系統(tǒng)處理的每個文件都分配一個得分,并且根據(jù)得分可以將文件標記為可能包含機密信息。計分模塊280基于機密信息檢測模塊220、230、M0、250、260和270的輸出計算文件的得分。得分可以被保存或者從CID系統(tǒng)100輸出。得分還被傳遞給閾值模塊 290,閾值模塊290將得分與閾值相比較并且如果文件得分超過閾值則標記該文件。盡管在圖2中將機密信息檢測模塊描繪為獨立地對字串進行操作,但是應當理解,在一些情況下通過在一些檢測模塊之間共享針對字串的中間處理結果可以實現(xiàn)更高的效率。例如,對字串中表示數(shù)字的字節(jié)進行計數(shù)的程序的結果可以為信用卡號碼檢測模塊 220、社保號碼檢測模塊230以及電話號碼檢測模塊240共享。而且,可以通過對具有小于匹配其正在搜索的機密信息的格式所需的最小字節(jié)數(shù)目的字串進行忽略來優(yōu)化許多檢測模塊。示出的模塊邊界意圖是傳達對正在實現(xiàn)的邏輯的理解而非對以軟件實現(xiàn)所公開的方法的代碼結構施加嚴格的約束。在圖3中描繪了可以在用于計算得分的計分模塊觀0中實現(xiàn)的示范性計分方法 300。在計分模塊開始運行(301)之后,它檢索(310)與已經(jīng)由機密信息檢測模塊220、230、 240、250、260或者270中的一個輸出的機密信息類型(Cl類型)中的一個有關的數(shù)據(jù)。然后,計分模塊提取(320)該CI類型的命中計數(shù)和假肯定指示符。命中計數(shù)是文件中尚未被確定為無效的、對某一 CI類型格式的匹配的數(shù)目。例如,由信用卡號碼檢測模塊生成的命中計數(shù)是未確定為無效的基本格式匹配的數(shù)目。這些命中是對與該CI類型關聯(lián)的規(guī)則全集的完全匹配。命中仍然有可能是一個假肯定,這是因為即使隨機數(shù)據(jù)未對CI類型的信息進行編碼,它也可能包括完全匹配所以。假肯定指示符是由計分模塊用來評定關聯(lián)的命中計數(shù)的可靠性的度量。例如,由信用卡號碼檢測模塊生成的假肯定指示符是被確定為無效的基本格式匹配的計數(shù)。這些無效基本格式匹配在某種意義上來說是“接近未命中”或者“看似”信用卡號碼并且它們的存在可以指示較高的假肯定的概率。對于尚未針對其定義基本格式匹配——區(qū)別于完全匹配一的CI類型來說,可以使用其它度量作為假肯定指示符。例如,由姓名檢測模塊生成的平均頻率計數(shù)可以用作針對姓名計數(shù)的假肯定指示符。計分模塊部分地基于假肯定指示符計算(330)假肯定加權因子。在本例中,加權因子與假肯定指示符成反比。更加精確地說,加權因子取以下形式W= (H/(H+F))n其中H是命中計數(shù),F(xiàn)是假肯定指示符,η是一個整數(shù)指數(shù),通常在1和5之間。一些假肯定指示符可能需要其它函數(shù)形式以計算假肯定加權因子。例如,假肯定加權因子直接與姓名的平均頻率計數(shù)成正比。采取附加步驟限制(bound)加權因子可以取的值也可能是有益的。例如,姓名的加權因子可以不連續(xù)地被限制為取0. 5和1之間的值。可存在在計分中考慮的、而對于其沒有假肯定指示符可用的CI類型。在示例系統(tǒng)中,街道地址檢測模塊不產生假肯定指示符??梢酝ㄟ^跳過假肯定加權因子計算步驟330, 或者等效地通過將加權因子設置為統(tǒng)一值或者一些其它默認值,將沒有假肯定指示符的CI 類型考慮在計分中。然后,計分模塊針對在計分中考慮的每個CI類型計算(340)子得分。在本例中, 子得分被計算為命中計數(shù)、假肯定加權因子和文件大小指示符的函數(shù)。更加精確地說,子得分取以下形式S = W*k* (H * c/N)1/2其中,N是文件大小指示符,k和η是針對每個CI類型進行調節(jié)以將子得分中的因子規(guī)范化的常數(shù)。在特定情況下,可以簡化子得分計算的形式。例如,全名的檢測可以觸發(fā)針對姓名的子得分的替換計算。實現(xiàn)類似于前述算法的計分算法的示例代碼包括在下面的樣本代碼列表部分中。在計算子得分(340)之后,計分模塊檢查(350)是否還有CI類型數(shù)據(jù)仍然待考慮。如果尚未針對待考慮的所有CI類型計算子得分,那么計分模塊循環(huán)回到從機密信息檢測模塊檢索數(shù)據(jù)以尋找下一 CI類型。如果已經(jīng)計算了所有子得分,那么它前進到基于子得分計算(360)文件的綜合得分(composite score)。在所描繪的示例中,綜合得分是所有子得分的總和。子得分可以在它們被加到綜合得分中之前被限定。然后,可以通過例如將結果綜合得分寫入諸如數(shù)據(jù)庫服務器170或者平行“多文件”系統(tǒng)160這樣的數(shù)據(jù)存儲設備上的非易失性存儲器中來保存(370)結果綜合得分。綜合得分也可以在計分模塊運行的終止(3%)之前被傳遞給閾值模塊四0。在一些實施方式中,CID系統(tǒng)100可以被配置為處理由系統(tǒng)的用戶提供的一個或多個文件的列表。在其它實施方式中,CID系統(tǒng)可以被配置為處理文件系統(tǒng)中的所有文件。 CID系統(tǒng)可以被配置為周期性地運行,并且在一些實施方式中可以被配置為檢查與文件系統(tǒng)中的文件關聯(lián)的時間戳并且僅處理新近被更新的那些文件(例如,在給定時間之后最近編輯的,給定時間諸如CID系統(tǒng)上一次被運行的時間)??梢允褂迷谟嬎銠C系統(tǒng)上運行的軟件實現(xiàn)上述的機密信息檢測方法。例如,所述軟件形成在運行在經(jīng)編程或可編程計算機系統(tǒng)(可以具有各種架構,諸如分布式、客戶機/ 服務器或者網(wǎng)格式)上的一個或多個計算機程序中的過程,所述計算機系統(tǒng)每個包括至少一個處理器、至少一個數(shù)據(jù)存儲系統(tǒng)(包括易失和非易失性存儲器和/或存儲元件)、至少一個輸入設備或端口以及至少一個輸出設備或端口。軟件可以形成更大程序的一個或多個模塊,例如,提供與計算圖的設計和配置有關的其它業(yè)務。圖的節(jié)點和元素可以實現(xiàn)為存儲在計算機可讀介質中的數(shù)據(jù)結構或者符合存儲在數(shù)據(jù)庫中的數(shù)據(jù)模型的其它結構化數(shù)據(jù)。所述軟件可以提供在可由通用可編程計算機或者專用可編程計算機讀取的存儲介質上,存儲介質諸如CD-ROM,或者通過網(wǎng)絡的通信媒體傳遞(在傳送信號中被編碼)到運行其的計算機??梢砸苑植际綄崿F(xiàn)所述軟件,其中由軟件規(guī)定的不同部分的計算由不同的計算機執(zhí)行。每個這樣的計算機程序都優(yōu)選地存儲在存儲介質或者設備上或者下載到存儲介質或者設備中(例如,固態(tài)存儲器或介質,或者磁介質或光介質),這些存儲介質或者設備可由通用可編程計算機或者專用可編程計算機讀取,以便當由計算機系統(tǒng)讀取存儲介質或者設備以執(zhí)行在此描述的過程時配置和運行計算機。也可以考慮將本發(fā)明的系統(tǒng)實現(xiàn)為計算機可讀存儲介質,被配置為具有計算機程序,其中存儲介質被配置為使得計算機系統(tǒng)以特定并且預定義的方式運行以執(zhí)行這里所描述的功能。已經(jīng)描述了本發(fā)明的許多實施例。然而,應當理解,在不脫離本發(fā)明的精神和范圍的條件下可以進行各種修改。例如,上面描述的一些步驟可以是與次序無關的,由此可以以不同于所描述的次序執(zhí)行。樣本代碼列表
out::reformat(in)= begin
letreal(8) first一name一ratio = if(in.first_name_pct == 0 orin.first一name一count <= 9) 0.5 elseif(in.first_name_pct > 0.04) 1.0 elsein.first_name_pct / 0.04; Ietreal(8) last_name_ratio = if(in.last_name_pct == 0 orin.last_name_count <= 9) 0.5 elseif(in.last_name_pct > 0.006) 1.0 elsein.last_name_pct / 0.006;
letreal(8) credit_card_ratio = if(i η. cred it_ca rd_co u nt > 0) (double) i η. cred it_ca rd_co u nt / (iη.credit_card_count + in.non_credit_card_count) else 1;
letreal(8) ssn_ratio = if(in.ssn_count > 0) (double) in.ssn_count / (in.ssn_count + in.non_ssn_count) else 1 ;
Ietreal(8) phone_ratio = if(in.phone_count > 0) (double) in.phone_count / (in.phone_count +
in.non_phone_count) else 1;letreal(8) zip一ratio = if(in.zip一count > 0) (double) in.zip一count / (in.zip一count + in.non一zip一count) else 1 ; letreal(8) state_ratio = if(in.state_count > 0) (double) in.state_count / (in.state_count + in.total_two_char_string_length / 2) else 1 ;
first_name_ratio = first_name_ratio * first_name_ratio;
ssn_ratio = ssn_ratio * ssn_「atio * ssn_ratio * ssn_ratio * ssn_ratio;
phone_ratio = phone_ratio * phone_ratio * phone_ratio * phone_ratio * phone_ratio;
zip_ratio = zip_ratio * zip_ratio * zip_ratio * zip_ratio * zip_ratio;
state_ratio = state_ratio * state_ratio * state_ratio * state_ratio * state_ratio;
out * :: in.*;
out.name_score :: if(in.first_and_last_count > 0) math_sqrt(in.first_and_last_count) * 1000 else
75000.0 * (math_sqrt((double) in.first一name一count * 6 / in.total一string一length) + math_sqrt(in.first_name_count * 6 / in.total_string_length)) * first_name_ratio * last_name_ratio; out.credit_card_score :: if(iη.credit_card_count == 0) 0 else if(in.non一credit一card一count == 0) math一sqrt(in.c「edit一card一count) * 1000 else
(75000.0 * math_sqrt((double) iη.credit_card_count * 16 / in.total_stringJength)) * credit_card_ratio;
out.ssn_score :: if(in.ssn_count == 0) 0
else if(in.non_ssn_count == 0) math_sqrt(in.ssn_count) * 1000
else
((75000.0 * math_sqrt((double) in.ssn一count * 9 / in.total_stringJength)) * ssn_ratio);
out.phone_score :: if(in.phone_count == 0) 0
else if(in.non一phone一count == 0) math一sqrt(in.phone一count) * 1000
else
((750000.0 * math_sqrt((double) in.phone一count * 10 / in.total_string_length)) * phone 一 ratio);
out.zip_score :: if(in.zip_count == 0) 0
else if(in non一zip一count == 0) math一sqrt(in.zip一count) * 1000
else
((75000.0 * math_sqrt((double) in.zip一count * 5 / in .total一string一length)) * zip_ratio);
out.state_score :: if(i η .state 一 count == 0) 0
else if(in.total_two_char_st「ing_length /2 <= in.state_count) math_sqrt(iη.state_count) * 1000 else
((5000000.0 * math_sqrt((double) in.state_count * 2 / in.total_string_length)) *
state_ratio);
end;
out::reformat(in)= begin
out.overall_score :: (if(in.first_and_last_count > 0) 1000 else min(in.name_score, 2000) / 3) +
(if(iη.credit_card_score >= 1000) 1000 else min(in.credit_card_score, 2000) / 3) +
(if(in.ssn_score >= 1000) 1000 else min(in.ssn_score, 2000) / 3) +
(if(in.phone一score >= 1000) 1000 else min(in.phone_score, 2000) / 3) +
(if(in.address一count > 0) 1000 elseO) +
(if(in.state_and_zip_count > 0) 1000 elseO) +
(if(in.zip_score >= 1000 andin.name_score >= 1000) 1000 else min(in.zip_score, 2000) / 3) + (if(in.state_score >= 1000 andin.name_score >= 1000) 1000 else min(in.state_score, 2000) /3); out.username :: file_information(in.filename).username; out * :: in.*;
end;
/氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺^5 ^ ^ 氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺氺/其它實施例在后附權利要求的范圍內。
權利要求
1.一種用于檢測機密信息的方法,該方法包括讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)的序列,所述字節(jié)全部具有在可能值的預定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
2.如權利要求1所述的方法,其中,所述機密信息是信用卡號碼。
3.如權利要求2所述的方法,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號碼的標準格式中的數(shù)字數(shù)目時,確定出現(xiàn)格式匹配。
4.如權利要求3所述的方法,其中,所述與信用卡號碼關聯(lián)的規(guī)則包括有效發(fā)行商識別號碼的列表的規(guī)范。
5.如權利要求3所述的方法,其中,所述與信用卡號碼關聯(lián)的規(guī)則包括校驗和算法的規(guī)范。
6.如權利要求1所述的方法,其中,所述機密信息是社保號碼。
7.如權利要求6所述的方法,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時,確定出現(xiàn)格式匹配。
8.如權利要求7所述的方法,其中,與所述社保號碼關聯(lián)的規(guī)則包括對于由社保號碼的前五個數(shù)字表示的號碼的值的有效子集的規(guī)范。
9.如權利要求1所述的方法,其中,所述機密信息是電話號碼。
10.如權利要求9所述的方法,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測到的數(shù)字數(shù)目等于第一個數(shù)字為“ 1”的11個數(shù)字時,確定出現(xiàn)格式匹配。
11.如權利要求10所述的方法,其中,所述與電話號碼關聯(lián)的規(guī)則包括有效區(qū)號的列表的規(guī)范。
12.如權利要求10所述的方法,其中,所述與電話號碼關聯(lián)的規(guī)則包括在區(qū)號之后的第一個數(shù)字必須不是1或0的規(guī)范。
13.如權利要求1所述的方法,其中,所述機密信息是郵政編碼。
14.如權利要求13所述的方法,其中,當檢測到如下字節(jié)序列時確定出現(xiàn)格式匹配由具有表示數(shù)字的值的五個字節(jié)組成、或者由具有表示九個數(shù)字且在第五個數(shù)字與第六個數(shù)字之間有連字號的值的十個字節(jié)組成。
15.如權利要求14所述的方法,其中,所述與電話號碼關聯(lián)的規(guī)則包括有效的五個數(shù)字郵政編碼的列表的規(guī)范。
16.如權利要求1所述的方法,還包括對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中,詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,并且姓名是來自通常用于指代單個人(individual people)的這樣的序列的列表的字符序列;以及至少部分地基于在存儲的數(shù)據(jù)中檢測到的姓名的計數(shù),計算存儲的數(shù)據(jù)的得分。
17.如權利要求16所述的方法,其中,所述姓名列表被分成兩個子集姓和名。
18.如權利要求17所述的方法,還包括對于每個字串,確定該字串是否包括一個或多個全名,其中全名是字符序列,該字符序列如下組成來自姓列表的姓后面跟著空格符、并且后面跟著來自名列表的名;以及至少部分地基于檢測到的全名的計數(shù),計算存儲的數(shù)據(jù)的得分。
19.如權利要求16所述的方法,其中,所述列表中的姓名各自具有與它們關聯(lián)的頻率計數(shù),并且對于出現(xiàn)在存儲的數(shù)據(jù)中的姓名計算平均頻率計數(shù),以及至少部分地基于所述平均頻率計數(shù)計算存儲的數(shù)據(jù)的得分。
20.如權利要求19所述的方法,其中,如果存儲的數(shù)據(jù)中檢測到的姓名數(shù)目小于閾值, 則忽略平均頻率計數(shù)。
21.如權利要求1所述的方法,還包括對于每個字串,對由兩個字母組成的詞的數(shù)目進行計數(shù),其中,詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值。
22.如權利要求21所述的方法,還包括對于每個兩個字母的詞,確定該兩個字母的詞是否是有效的州縮寫;以及至少部分地基于有效的州縮寫的計數(shù)以及兩個字母的詞的計數(shù),計算存儲的數(shù)據(jù)的得分。
23.如權利要求1所述的方法,還包括對于每個字串,確定該字串是否包括一個或多個州/郵編對,其中,州/郵編對是如下組成的字符序列州縮寫后面跟著空格符,所述空格符后面接著跟著郵政編碼;以及至少部分地基于檢測到的州/郵編對的計數(shù),計算存儲的數(shù)據(jù)的得分。
24.如權利要求1所述的方法,還包括檢測在電存儲的文件系統(tǒng)中哪些文件最近被更新過;以及將權利要求1的方法應用到最近被更新過的文件中的每一個。
25.如權利要求1所述的方法,其中,所述定義字串的字節(jié)值的子集表示字母數(shù)字字符、括號、連字號以及空格符。
26.如權利要求1所述的方法,還包括 將所述得分與閾值相比較;以及如果該得分超過所述閾值,則將該存儲的數(shù)據(jù)標記為可能包含機密信息。
27.一種用于檢測機密信息的系統(tǒng),該系統(tǒng)包括 數(shù)據(jù)存儲設備;以及運行時環(huán)境,被連接到所述數(shù)據(jù)存儲設備并且被配置為 從所述數(shù)據(jù)存儲設備讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)的序列,所述字節(jié)全部具有在可能值的預定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
28.如權利要求27所述的系統(tǒng),其中,所述機密信息是信用卡號碼,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號碼的標準格式中的數(shù)字數(shù)目時確定出現(xiàn)格式匹配,以及與信用卡號碼關聯(lián)的規(guī)則包括有效發(fā)行商識別號碼的列表的規(guī)范和校驗和算法的規(guī)范。
29.如權利要求27所述的系統(tǒng),其中,所述機密信息是社保號碼,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時確定出現(xiàn)格式匹配,以及與社保號碼關聯(lián)的規(guī)則包括用于由所述社保號碼的前五個數(shù)字表示的號碼值的有效子集的規(guī)范。
30.如權利要求27所述的系統(tǒng),其中,所述機密信息是電話號碼,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測到的數(shù)字數(shù)目等于第一個數(shù)字為“1”的11個數(shù)字時確定出現(xiàn)格式匹配,以及與電話號碼關聯(lián)的規(guī)則包括有效區(qū)號的列表的規(guī)范以及在區(qū)號之后的第一個數(shù)字必須不是1或0的規(guī)范。
31.如權利要求27所述的系統(tǒng),其中,所述機密信息是郵政編碼,當檢測到如下字節(jié)序列時確定出現(xiàn)格式匹配由具有表示數(shù)字的值的五個字節(jié)組成、或者由具有表示九個數(shù)字并且在第五個與第六個數(shù)字之間有連字號的值的十個字節(jié)組成,以及與電話號碼關聯(lián)的規(guī)則包括有效的五個數(shù)字郵政編碼的列表的規(guī)范。
32.如權利要求27所述的系統(tǒng),其中,所述運行時環(huán)境還被配置為對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,以及姓名是來自通常用于指代單個人的這樣的序列的列表的字符序列,并且該列表被分成兩個子集姓和名;以及對于每個字串,確定該字串是否包括一個或多個全名,其中全名是字符序列,該字符序列如下組成來自姓列表的姓后面跟著空格符、并且后面跟著來自名列表的名;以及至少部分地基于在所述存儲的數(shù)據(jù)中檢測到的姓名的計數(shù)以及至少部分地基于檢測到全名的計數(shù),計算所述存儲的數(shù)據(jù)的得分。
33.如權利要求27所述的系統(tǒng),其中,所述運行時環(huán)境還被配置為對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,所述姓名是來自通常用于指代單個人的這樣的序列的列表的字符序列,并且所述列表中的姓名各自具有與它們關聯(lián)的頻率計數(shù);對于出現(xiàn)在存儲的數(shù)據(jù)中的姓名計算平均頻率計數(shù);以及至少部分地基于在所述存儲的數(shù)據(jù)中檢測到的姓名的計數(shù)以及至少部分地基于所述平均頻率計數(shù),計算所述存儲的數(shù)據(jù)的得分。
34.如權利要求27所述的系統(tǒng),其中,所述運行時環(huán)境還被配置為對于每個字串,確定該字串是否包括一個或多個州/郵編對,其中,州/郵編對是如下組成的字符序列州縮寫后面跟著空格符,所述空格符后面接著跟著郵政編碼;以及至少部分地基于檢測到的州/郵編對的計數(shù),計算存儲的數(shù)據(jù)的得分。
35.如權利要求27所述的系統(tǒng),其中,所述定義字串的字節(jié)值的子集表示字母數(shù)字字符、括號、連字號以及空格符。
36.一種計算機可讀介質,存儲用于檢測機密信息的計算機程序,該計算機程序包括導致計算機執(zhí)行以下步驟的指令讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內的字串,其中每個字串包括連續(xù)字節(jié)的序列,所述字節(jié)全部具有在可能值的預定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合;對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
37.如權利要求36所述的計算機可讀介質,其中,所述機密信息是信用卡號碼。
38.如權利要求37所述的計算機可讀介質,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號碼的標準格式中的數(shù)字數(shù)目時,確定出現(xiàn)格式匹配。
39.如權利要求38所述的計算機可讀介質,其中,所述與信用卡號碼關聯(lián)的規(guī)則包括有效發(fā)行商識別號碼的列表的規(guī)范。
40.如權利要求38所述的計算機可讀介質,其中,所述與信用卡號碼關聯(lián)的規(guī)則包括校驗和算法的規(guī)范。
41.如權利要求36所述的計算機可讀介質,其中,所述機密信息是社保號碼。
42.如權利要求41所述的計算機可讀介質,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時,確定出現(xiàn)格式匹配。
43.如權利要求42所述的計算機可讀介質,其中,所述與社保號碼關聯(lián)的規(guī)則包括對于由社保號碼的前五個數(shù)字表示的號碼的值的有效子集的規(guī)范。
44.如權利要求36所述的計算機可讀介質,其中,所述機密信息是電話號碼。
45.如權利要求44所述的計算機可讀介質,其中,當在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測到的數(shù)字數(shù)目等于第一個數(shù)字為“1” 的11個數(shù)字時,確定出現(xiàn)格式匹配。
46.如權利要求45所述的計算機可讀介質,其中,所述與電話號碼關聯(lián)的規(guī)則包括有效區(qū)號的列表的規(guī)范。
47.如權利要求45所述的計算機可讀介質,其中,所述與電話號碼關聯(lián)的規(guī)則包括在區(qū)號之后的第一個數(shù)字必須不是1或0的規(guī)范。
48.如權利要求36所述的計算機可讀介質,其中,所述機密信息是郵政編碼。
49.如權利要求48所述的計算機可讀介質,其中,當檢測到如下字節(jié)序列時確定出現(xiàn)格式匹配由具有表示數(shù)字的值的五個字節(jié)組成、或者由具有表示九個數(shù)字且在第五個數(shù)字與第六個數(shù)字之間有連字號的值的十個字節(jié)組成。
50.如權利要求49所述的計算機可讀介質,其中,所述與電話號碼關聯(lián)的規(guī)則包括有效的五個數(shù)字郵政編碼的列表的規(guī)范。
51.如權利要求36所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中,詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,并且姓名是來自通常用于指代單個人的序列的列表的字符序列;以及至少部分地基于存儲的數(shù)據(jù)中檢測到的姓名的計數(shù),計算存儲的數(shù)據(jù)的得分。
52.如權利要求51所述的計算機可讀介質,其中,所述姓名列表被分成兩個子集姓和名。
53.如權利要求52所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 對于每個字串,確定該字串是否包括一個或多個全名,其中全名是字符序列,該字符序列如下組成來自姓列表姓后面跟著空格符、并且后面跟著來自名列表的名;以及至少部分地基于檢測到的全名的計數(shù),計算存儲的數(shù)據(jù)的得分。
54.如權利要求51所述的計算機可讀介質,其中,所述列表中的姓名各自具有與它們關聯(lián)的頻率計數(shù),并且對于出現(xiàn)在存儲的數(shù)據(jù)中的姓名計算平均頻率計數(shù),以及至少部分地基于所述平均頻率計數(shù)計算存儲的數(shù)據(jù)的得分。
55.如權利要求M所述的計算機可讀介質,其中,如果存儲的數(shù)據(jù)中檢測到的姓名數(shù)目小于閾值,則忽略平均頻率計數(shù)。
56.如權利要求36所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 對于每個字串,對由兩個字母組成的詞的數(shù)目進行計數(shù),其中,詞是字串內的連續(xù)字節(jié)的序列,所述字節(jié)全部具有表示字母數(shù)字字符的值。
57.如權利要求56所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 對于每個兩個字母的詞,確定該兩個字母的詞是否是有效的州縮寫;以及至少部分地基于有效的州縮寫的計數(shù)以及兩個字母的詞的計數(shù),計算存儲的數(shù)據(jù)的得分。
58.如權利要求36所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 對于每個字串,確定該字串是否包括一個或多個州/郵編對,其中,州/郵編對是如下組成的字符序列州縮寫后面跟著空格符,所述空格符后面接著跟著郵政編碼;以及至少部分地基于檢測到的州/郵編對的計數(shù),計算存儲的數(shù)據(jù)的得分。
59.如權利要求36所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 檢測在電存儲的文件系統(tǒng)中哪些文件最近被更新過;以及將權利要求1的方法應用到最近被更新過的文件中的每一個。
60.如權利要求36所述的計算機可讀介質,其中,所述定義字串的字節(jié)值的子集表示字母數(shù)字字符、括號、連字號以及空格符。
61.如權利要求36所述的計算機可讀介質,還包括導致計算機執(zhí)行以下步驟的指令 將所述得分與閾值相比較;以及如果該得分超過所述閾值,則將該存儲的數(shù)據(jù)標記為可能包含機密信息。
全文摘要
檢測機密信息包括讀取存儲的數(shù)據(jù)和識別所述存儲的數(shù)據(jù)內的字串(210),其中每個字串包括連續(xù)字節(jié)的序列,所述字節(jié)全部具有在可能值的預定子集中的值。對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配(220-270)的字節(jié),其中格式匹配包括匹配與機密信息關聯(lián)的預定格式的值的集合。對于每個格式匹配,利用與所述機密信息關聯(lián)的規(guī)則集合測試匹配預定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配,以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分(280,300)。
文檔編號G06F21/00GK102171702SQ200980139094
公開日2011年8月31日 申請日期2009年10月1日 優(yōu)先權日2008年10月3日
發(fā)明者戴維.福尼爾 申請人:起元技術有限責任公司