欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法

文檔序號:6629090閱讀:517來源:國知局
一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法
【專利摘要】本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法。該利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,通過按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成指紋序列,和使用第二算法將標(biāo)準(zhǔn)數(shù)據(jù)生成影響的指紋序列,在通過對比兩個序列中的哈希值是否匹配,進(jìn)而來確認(rèn)待檢測指紋序列是否滿足預(yù)設(shè)的要求,由于用于對比的第一指紋序列和第二指紋序列均為哈希值序列,所以,即使二者的差別很小,從哈希值序列中也能夠直觀的體現(xiàn)出來,也就是產(chǎn)生的哈希值是不相同的,即使標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行了修改也能夠有效的檢驗出來待檢測數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的匹配程度,從而解決了現(xiàn)有技術(shù)的不足。
【專利說明】一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法。

【背景技術(shù)】
[0002]隨著信息技術(shù)的快速發(fā)展,“大數(shù)據(jù)化匕也仏,或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的資訊)”的概念已經(jīng)廣為熟知。伴隨著大數(shù)據(jù)產(chǎn)生的便是對大量數(shù)據(jù)進(jìn)行檢索與對比。對比大量數(shù)據(jù),或者對一定數(shù)量的數(shù)據(jù)檢索只能依靠電腦完成,人工檢索幾乎是不可能完成的。
[0003]通常的檢索手段是對待檢測數(shù)據(jù)的字符串(待檢測字符串)和在已經(jīng)儲存好數(shù)據(jù)的數(shù)據(jù)庫(數(shù)據(jù)庫中包括已儲存字符串)中進(jìn)行檢索。檢索的原則就是查看待檢測數(shù)據(jù)的字符串是否存在于已經(jīng)儲存好數(shù)據(jù)的數(shù)據(jù)庫中。如數(shù)據(jù)庫中有八7個字母,待檢測數(shù)據(jù)的字符串為80,那么便可以通過對比查找出在已經(jīng)建立好的數(shù)據(jù)庫中存在80。
[0004]傳統(tǒng)的數(shù)據(jù)檢測主要依賴于字符串匹配和正則表達(dá)式匹配,這些檢測方式有一定的局限性,比如只能對字符串類的數(shù)據(jù)進(jìn)行檢測,且對待檢測數(shù)據(jù)進(jìn)行簡單地增字或減字修改后,這種傳統(tǒng)的檢測方式就失效了,如數(shù)據(jù)庫中如數(shù)據(jù)庫中有八順序排列的7個字母,待檢測數(shù)據(jù)的字符串為8%,只是在8(:之間增加了一個字母,可卻導(dǎo)致無法正常檢索的結(jié)果。
[0005]綜上,現(xiàn)有的數(shù)據(jù)檢測方法,待檢測字符串只要與已儲存字符串稍有差別,就無法進(jìn)行正常檢測。


【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法和一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的裝置,以解決上述的問題。
[0007]在本發(fā)明的實施例中提供了一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,包括:
[0008]獲取待檢測數(shù)據(jù),并按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成待檢測指紋序列,待檢測指紋序列中包括多個待檢測數(shù)據(jù)的哈希值;
[0009]對比待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配,標(biāo)準(zhǔn)指紋序列是由標(biāo)準(zhǔn)數(shù)據(jù)經(jīng)過第二算法生成的,標(biāo)準(zhǔn)指紋序列包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0010]若是,則待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求。
[0011]優(yōu)選的,對比待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配包括:
[0012]查找與每個待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0013]獲取查找到的每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,位置偏移量用于標(biāo)識每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,原始數(shù)據(jù)庫用于儲存標(biāo)準(zhǔn)指紋序列;
[0014]生成位置偏移量序列,位置偏移量在位置偏移量序列中的順序與標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在待檢測指紋序列中的位置是相對應(yīng)的;
[0015]比對相鄰的位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。
[0016]優(yōu)選的,還包括:
[0017]按照預(yù)設(shè)的片段長度,將標(biāo)準(zhǔn)數(shù)據(jù)分為多段標(biāo)準(zhǔn)數(shù)據(jù)片段;
[0018]分別將每段標(biāo)準(zhǔn)數(shù)據(jù)片段按照第二算法生成標(biāo)準(zhǔn)指紋序列片段,標(biāo)準(zhǔn)指紋序列片段中包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0019]將標(biāo)準(zhǔn)指紋序列片段組成標(biāo)準(zhǔn)指紋序列。
[0020]優(yōu)選的,第一算法與第二算法為相同的哈希算法,或映射算法。
[0021]優(yōu)選的,還包括:
[0022]根據(jù)多段標(biāo)準(zhǔn)指紋序列片段建立原始數(shù)據(jù)庫;
[0023]根據(jù)原始數(shù)據(jù)庫建立運行數(shù)據(jù)庫,運行數(shù)據(jù)庫的主鍵為指紋數(shù)據(jù);
[0024]記錄原始數(shù)據(jù)庫中每個哈希值的主鍵的位置偏移量;
[0025]在運行數(shù)據(jù)庫中查找與待檢測數(shù)據(jù)的哈希值相對應(yīng)的位置偏移量,并生成位置偏移量序列。
[0026]優(yōu)選的,查找與每個待檢測哈希值相對應(yīng)的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值的方法為:
[0027]采用主鍵索引的方法進(jìn)行查找。
[0028]優(yōu)選的,獲取待檢測數(shù)據(jù)的檢測精度,根據(jù)檢測精度確定檢測數(shù)值。
[0029]本發(fā)明實施例還提供了數(shù)據(jù)檢測裝置,包括:
[0030]第一生成模塊,用于獲取待檢測數(shù)據(jù),并按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成待檢測指紋序列,待檢測指紋序列中包括多個待檢測數(shù)據(jù)的哈希值;
[0031]對比模塊,用于對比待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配,標(biāo)準(zhǔn)指紋序列是由標(biāo)準(zhǔn)數(shù)據(jù)經(jīng)過第二算法生成的,標(biāo)準(zhǔn)指紋序列包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0032]認(rèn)證模塊,若對比模塊判斷為是,則用于認(rèn)證待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求。
[0033]優(yōu)選的,對比模塊包括:
[0034]查找單元,用于查找與每個待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0035]獲取單元,用于獲取查找到的每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,位置偏移量用于標(biāo)識每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,原始數(shù)據(jù)庫用于儲存標(biāo)準(zhǔn)指紋序列;
[0036]生成單兀,用于生成位置偏移量序列,位置偏移量在位置偏移量序列中的順序與標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在待檢測指紋序列中的位置是相對應(yīng)的;
[0037]對比單元,用于比對相鄰的位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。
[0038]優(yōu)選的,包括:
[0039]分割模塊,用于按照預(yù)設(shè)的片段長度,將標(biāo)準(zhǔn)數(shù)據(jù)分為多段標(biāo)準(zhǔn)數(shù)據(jù)片段;
[0040]第二生成模塊,用于分別將每段標(biāo)準(zhǔn)數(shù)據(jù)片段按照第二算法生成標(biāo)準(zhǔn)指紋序列片段,標(biāo)準(zhǔn)指紋序列片段中包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0041〕 組合模塊,用于將標(biāo)準(zhǔn)指紋序列片段組成標(biāo)準(zhǔn)指紋序列。
[0042]本發(fā)明實施例提供的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,與現(xiàn)有技術(shù)中的在對字符串?dāng)?shù)據(jù)進(jìn)行檢測的時候,如果修改了數(shù)據(jù)庫中的標(biāo)準(zhǔn)數(shù)據(jù)(用于檢測其他數(shù)據(jù)的作為標(biāo)準(zhǔn)出現(xiàn)的數(shù)據(jù)),如在原數(shù)據(jù)順序排列的條件下進(jìn)一步在數(shù)據(jù)間增加字符,則會造成無法有效的進(jìn)行字符串匹配,或者無法按照正則表達(dá)式匹配而導(dǎo)致數(shù)據(jù)檢測失敗相比,其通過按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成指紋序列,和使用第二算法將標(biāo)準(zhǔn)數(shù)據(jù)生成影響的指紋序列,在通過對比兩個序列中的哈希值是否匹配,進(jìn)而來確認(rèn)待檢測指紋序列是否滿足預(yù)設(shè)的要求,由于用于對比的第一指紋序列和第二指紋序列均為哈希值序列,所以,即使二者的差別很小,從哈希值序列中也能夠直觀的體現(xiàn)出來,也就是產(chǎn)生的哈希值是不相同的,并且使用哈希值進(jìn)行匹配能夠有效的檢驗待檢測數(shù)據(jù)的哈希值的連貫性是否與標(biāo)準(zhǔn)數(shù)據(jù)項匹配,即使標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行了修改也能夠有效的檢驗出來待檢測數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的匹配程度,從而解決了現(xiàn)有技術(shù)的不足。

【專利附圖】

【附圖說明】
[0043]圖1示出了本發(fā)明實施例的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的基本流程;
[0044]圖2示出了本發(fā)明實施例的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的對比步驟細(xì)化流程;
[0045]圖3示出了本發(fā)明實施例的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的數(shù)據(jù)分段示意圖;
[0046]圖4示出了本發(fā)明實施例的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的通過原始數(shù)據(jù)庫進(jìn)行哈希值匹配的示意圖;
[0047]圖5示出了本發(fā)明實施例的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的通過運行數(shù)據(jù)庫進(jìn)行哈希值匹配的示意圖;
[0048]圖6示出了本發(fā)明實施例的數(shù)據(jù)檢測裝置的模塊連接圖。

【具體實施方式】
[0049]下面通過具體的實施例子并結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述。本發(fā)明實施例1提供了一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,如圖1所示,包括如下步驟:
[0050]3101,獲取待檢測數(shù)據(jù),并按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成待檢測指紋序列;
[0051〕 3102,對比待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配;
[0052]8103,認(rèn)證待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求。
[0053]其中,步驟3101,待檢測指紋序列中包括多個待檢測數(shù)據(jù)的哈希值。預(yù)設(shè)的第一算法可以是哈希算法、映射算法,或者其他能夠得到哈希值的算法。待檢測指紋序列中的哈希值是通過計算待檢測數(shù)據(jù)得到的,也就是可以采用將待檢測數(shù)據(jù)的字符串、代碼等信息經(jīng)過變換得到的映射代碼均可,且該映射代碼可以用于比對兩組映射代碼是否具有相似性。
[0054]步驟3102中,標(biāo)準(zhǔn)指紋序列是由標(biāo)準(zhǔn)數(shù)據(jù)經(jīng)過第二算法生成的,標(biāo)準(zhǔn)指紋序列包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值。需要說明的是,為了使待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)數(shù)據(jù)的哈希值能夠有效的進(jìn)行匹配,第一算法和第二算法應(yīng)使用相同的算法類型,或者算法公式,也就是針對相同的文字、字符串或代碼等信息所映射產(chǎn)生的哈希值,或者應(yīng)設(shè)置是相同的。需要說明的是,本文中所提及的第一算法和第二算法應(yīng)理解為產(chǎn)生用于進(jìn)行比對的數(shù)據(jù)的全部算法,進(jìn)行比對的數(shù)據(jù)是比對兩組數(shù)據(jù)是否能夠匹配的基礎(chǔ)。具體的,第一算法和第二算法,可以如,哈希算法和映射算法等,同時,產(chǎn)生的哈希值也應(yīng)理解為映射值,或哈希值等具有比對功能的數(shù)值,并且不同的數(shù)據(jù)會產(chǎn)生不同的映射值。
[0055]步驟3103中,在對兩組哈希值進(jìn)行對比之后,便能夠確認(rèn)兩組哈希值是否匹配,進(jìn)而就能夠判斷待檢測數(shù)據(jù)是否滿足預(yù)設(shè)的要求。預(yù)設(shè)的要求是指精度要求,重合度要求等具體的比對要求。如,要求根據(jù)待檢測數(shù)據(jù)所產(chǎn)生的指紋序列中超過80%的哈希值是能夠從標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所組成的序列中查找到的。又如,待檢測指紋序列中的哈希值是否按照標(biāo)準(zhǔn)指紋序列中的哈希值排列順序所排列的。又如,可以將上述兩者結(jié)合在一起進(jìn)行比對,以確認(rèn)二者是否匹配,或者說待檢測數(shù)據(jù)是否滿足預(yù)設(shè)的要求。其中,標(biāo)準(zhǔn)數(shù)據(jù)可以是預(yù)先從可靠的數(shù)據(jù)源處獲得的。
[0056]具體的,如圖2所示,步驟3102可以細(xì)化為如下步驟:
[0057]31021,查找與每個待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0058]31022,獲取查找到的每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,位置偏移量用于標(biāo)識每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置;
[0059]31023,生成位置偏移量序列,位置偏移量在位置偏移量序列中的順序與標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在待檢測指紋序列中的位置是相對應(yīng)的;
[0060]31024,比對相鄰的位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。
[0061]步驟31021中,需要先查找到與每個待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值。此處的對應(yīng)是指數(shù)值相同,或者是由同一種原始數(shù)據(jù),經(jīng)過相同的算法(哈希算法,或映射算法)產(chǎn)生的數(shù)值。如“我的”經(jīng)過哈希算法計算后產(chǎn)生的數(shù)字為34567,那么不管“我的”這兩個字在待檢測數(shù)據(jù)中,還是在標(biāo)準(zhǔn)數(shù)據(jù)中,經(jīng)過哈希算法的計算后均會生成34567,也就是通過查找在標(biāo)準(zhǔn)數(shù)據(jù)中是否存在34567,便能夠確認(rèn)待檢測數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)是否相符合。再次基礎(chǔ)上,為了增加數(shù)據(jù)信息的保密性,或者安全性,可以在計算出標(biāo)準(zhǔn)數(shù)據(jù)的哈希值的基礎(chǔ)上,使用加密算法,或者其他換算方法將標(biāo)準(zhǔn)數(shù)據(jù)的哈希值進(jìn)行加密運算,或者二次映射運算,如某段文字產(chǎn)生的哈希值為12345,采用換算公式為0+102,其中,X為獲取到的哈希值,那么經(jīng)過換算公式運算后所得到的便是(12345+102 = 24692。也就是說,實際上,如果待檢測數(shù)據(jù)的某字段的哈希值經(jīng)過映射,或者哈希算法計算后,得到的是12345,那么在標(biāo)準(zhǔn)數(shù)據(jù)的哈希值序列中應(yīng)查找的是24692這個數(shù)字,也可以是將24692這個產(chǎn)生的新數(shù)字,儲存在其他的序列,或者數(shù)據(jù)庫等儲存容器中。同樣的道理,使用加密算法進(jìn)行計算,也可以起到同樣的作用,如使用對稱加密和非對稱加密等算法,先將標(biāo)準(zhǔn)數(shù)據(jù)的哈希值進(jìn)行加密,帶需要對待檢測數(shù)據(jù)進(jìn)行檢測的時候,再通過對加密后的哈希值進(jìn)行解密,再與待檢測數(shù)據(jù)進(jìn)行匹配。或者將待檢測數(shù)據(jù)進(jìn)行相同方式的加密后,使用均經(jīng)過加密的哈希值進(jìn)行匹配,需要說明的是,不同數(shù)值的哈希值在加密后的所展現(xiàn)的表達(dá)式應(yīng)是不同的,或者說是唯一的,以防止出現(xiàn)誤匹配的信箱。
[0062]步驟31022中,獲取查找到的每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,位置偏移量用于標(biāo)識每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,原始數(shù)據(jù)庫用于儲存標(biāo)準(zhǔn)指紋序列
[0063]每個哈希值在序列中是由其固定位置的,位置偏移量記錄了某一個哈希值相對于某個數(shù)字(通常為首個數(shù)字)的偏移量,通過該偏移量也就能夠了解到該數(shù)字在原始數(shù)據(jù)庫中所處的位置,那么,這一組數(shù)字所組成的哈希值序列中,每一個哈希值所對應(yīng)的位置偏移量也就能夠表示每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,進(jìn)一步,也就能夠得到一個位置偏移量的序列,該位置偏移量的序列是用于描述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所組成的序列中,每個哈希值所處的位置。
[0064]步驟31023中,在步驟3102的基礎(chǔ)上,將獲取到的多個位置偏移量組成一個位置偏移量序列。多個是指,每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值均會對應(yīng)一個位置偏移量,那么描述一端數(shù)據(jù)的是多個哈希值,對應(yīng)的,也就會有多個位置偏移量產(chǎn)生。進(jìn)而將多個位置偏移量組成一個序列,即位置偏移量序列。
[0065]步驟31024中,如圖4所示,對比相鄰的位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。如前文,位置偏移量表示了某哈希值在原始數(shù)據(jù)庫中所處的位置,那么位置偏移量是否連續(xù)就說明了待檢測數(shù)據(jù)中,某段文字的順序是否與標(biāo)準(zhǔn)數(shù)據(jù)的相同,如果相同那么則可以認(rèn)為待檢測數(shù)據(jù)符合要求。進(jìn)一步,如果待檢測數(shù)據(jù)中,每個哈希值所對應(yīng)的位置偏移量,與前一個,或后一個哈希值所對應(yīng)的位置偏移量是遞進(jìn)的關(guān)系;或者說與前一個,或后一個哈希值所對應(yīng)的位置偏移量的差值為1,或者較小的數(shù)值,那么就能夠說明待檢測數(shù)據(jù)中的數(shù)據(jù)順序是與標(biāo)準(zhǔn)數(shù)據(jù)的數(shù)據(jù)順序是相同的,或者說是相近的,那么便可以確定二者是相互匹配的,也就能夠確認(rèn)待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求,以完成數(shù)據(jù)檢測的工作。
[0066]為了將標(biāo)準(zhǔn)數(shù)據(jù)生成指紋,需要按照與第一算法相同的算法進(jìn)行操作,同時,考慮到檢索的精度和準(zhǔn)確度,可以將標(biāo)準(zhǔn)數(shù)據(jù)分為多段,并且在檢索的時候每一段均可以進(jìn)行參考。具體步驟如下:
[0067]按照預(yù)設(shè)的片段長度,將標(biāo)準(zhǔn)數(shù)據(jù)分為多段標(biāo)準(zhǔn)數(shù)據(jù)片段;
[0068]分別將每段標(biāo)準(zhǔn)數(shù)據(jù)片段按照第二算法生成標(biāo)準(zhǔn)指紋序列片段,標(biāo)準(zhǔn)指紋序列片段中包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0069]將標(biāo)準(zhǔn)指紋序列片段組成標(biāo)準(zhǔn)指紋序列。
[0070]如圖3所示,具體的,設(shè)定片段長度為II (分段后,每段的長度為11),將長度為111(0= 11)的數(shù)據(jù)每隔一個數(shù)據(jù)計量單位00做一次分片,最終得到1111+1個片段。
[0071]對每個長度為!1的片段,計算其哈?;蛴成渲担罱K得到一個哈西值序列&142,…最后,再將這些序列片段組成一個完整的標(biāo)準(zhǔn)指紋序列。如圖所示,可以按照重復(fù)數(shù)據(jù)分段的方式進(jìn)行分段,也可以按照非重復(fù)的方式進(jìn)行分段。重復(fù)的分段方式能夠提聞檢測的精度。
[0072]需要說明的是,為了使一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法能夠合理的進(jìn)行,第一算法與第二算法為相同的哈希算法,或映射算法,也就是能夠保證相同的數(shù)據(jù),在使用算法后能夠得到相同的哈希值,或者映射值。
[0073]在原始數(shù)據(jù)庫中查找與待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值,可以使用如傳統(tǒng)的二分查找法等方法,但為了提高查找動作的執(zhí)行效率,可以采用設(shè)定主鍵的方式進(jìn)行查找。具體的工作過程如下,如圖5所示,
[0074]根據(jù)多段標(biāo)準(zhǔn)指紋序列片段建立原始數(shù)據(jù)庫;
[0075]根據(jù)原始數(shù)據(jù)庫建立運行數(shù)據(jù)庫,運行數(shù)據(jù)庫的主鍵為指紋數(shù)據(jù);
[0076]記錄原始數(shù)據(jù)庫中每個哈希值的主鍵的位置偏移量;
[0077]在運行數(shù)據(jù)庫中查找與待檢測數(shù)據(jù)的哈希值相對應(yīng)的位置偏移量,并生成位置偏移量序列。
[0078]在建立的以指紋數(shù)據(jù)為主鍵的運行數(shù)據(jù)庫后,可以通過主鍵查找的方式進(jìn)行檢索,這樣,檢索的速度也就大大提高了。并且在建立好運行數(shù)據(jù)庫之后,從運行數(shù)據(jù)庫中查找與待檢測數(shù)據(jù)的哈希值相對應(yīng)的位置偏移量即可,以提高速度。即:查找與每個待檢測哈希值相對應(yīng)的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值的方法為:
[0079]采用主鍵索引的方法進(jìn)行查找。
[0080]為了調(diào)整一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法的針對性,還可以先獲取待檢測數(shù)據(jù)的檢測精度,根據(jù)檢測精度確定檢測數(shù)值。
[0081]也就是,待檢測指紋序列中,相鄰哈希值所對應(yīng)的位置偏移量的差值過大,則說明待檢測數(shù)據(jù)的數(shù)據(jù)順序相對于標(biāo)準(zhǔn)數(shù)據(jù)的數(shù)據(jù)順序是有一定差別的。但應(yīng)注意的是,單純的降低檢測數(shù)值的大小,能夠提聞檢測精度,但相應(yīng)的,提聞檢測精度也會造成一定比例的誤報,也就是,可能待檢測數(shù)據(jù)中的某數(shù)據(jù)段只比標(biāo)準(zhǔn)數(shù)據(jù)的相應(yīng)數(shù)據(jù)段增加/修改了很少的內(nèi)容(如不重要的虛詞等),但卻由于精度的提高而使待檢測數(shù)據(jù)不符合預(yù)設(shè)的要求,這樣并不合理,因此,需要具體考慮待檢測數(shù)據(jù)的檢測精度來決定檢測數(shù)值。
[0082]需要說明的是,除了檢測數(shù)值,還可以通過設(shè)定連續(xù)X個位置偏移量的差值超過的預(yù)設(shè)的檢測數(shù)值來判斷,待檢測數(shù)據(jù)是否與標(biāo)準(zhǔn)數(shù)據(jù)相匹配。如待檢測數(shù)據(jù)的位置偏移量的某集合為:123,124, 125,126,130,131,132。那么126和130之間相差4,但130之后又恢復(fù)到正常的差值,也就是說明待檢測數(shù)據(jù)相對于標(biāo)準(zhǔn)數(shù)據(jù),標(biāo)準(zhǔn)數(shù)據(jù)要比待檢測數(shù)據(jù)多出些內(nèi)容,就是126和130之間的內(nèi)容。也就是只有一小部分不同,其他的位置偏移量均是連續(xù)的,那么也就是可以理解為待檢測數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)是相匹配的。當(dāng)然,也有可能待檢測數(shù)據(jù)的哈希值是標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所沒有的,那么通常跳過該哈希值即可。
[0083]本發(fā)明所提供的一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,通過按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成指紋序列,和使用第二算法將標(biāo)準(zhǔn)數(shù)據(jù)生成影響的指紋序列,在通過對比兩個序列中的哈希值是否匹配,進(jìn)而來確認(rèn)待檢測指紋序列是否滿足預(yù)設(shè)的要求,由于用于對比的第一指紋序列和第二指紋序列均為哈希值序列,所以,即使二者的差別很小,從哈希值序列中也能夠直觀的體現(xiàn)出來,也就是產(chǎn)生的哈希值是不相同的,并且使用哈希值進(jìn)行匹配能夠有效的檢驗待檢測數(shù)據(jù)的哈希值的連貫性是否與標(biāo)準(zhǔn)數(shù)據(jù)項匹配,即使標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行了修改也能夠有效的檢驗出來待檢測數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的匹配程度,并且通過建立了運行數(shù)據(jù)庫,且該數(shù)據(jù)庫的主鍵為指紋數(shù)據(jù),那么在根據(jù)待檢測數(shù)據(jù)的哈希值進(jìn)行檢索的時候,能夠加快檢索的效率,還通過設(shè)定了連續(xù)X個位置偏移量的差值是否超過預(yù)設(shè)值來進(jìn)一步判斷待檢測數(shù)據(jù)域標(biāo)準(zhǔn)數(shù)據(jù)是否相匹配,從而更好的解決了現(xiàn)有技術(shù)的不足。
[0084]本發(fā)明實施例2提供了數(shù)據(jù)檢測裝置,如圖6所示,包括:
[0085]第一生成模塊301,用于獲取待檢測數(shù)據(jù),并按照預(yù)設(shè)的第一算法將待檢測數(shù)據(jù)生成待檢測指紋序列,待檢測指紋序列中包括多個待檢測數(shù)據(jù)的哈希值;
[0086]對比模塊302,用于對比待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配,標(biāo)準(zhǔn)指紋序列是由標(biāo)準(zhǔn)數(shù)據(jù)經(jīng)過第二算法生成的,標(biāo)準(zhǔn)指紋序列包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0087]認(rèn)證模塊303,若對比模塊302判斷為是,則用于認(rèn)證待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求。
[0088]對比模塊302包括:
[0089]查找單元,用于查找與每個待檢測數(shù)據(jù)的哈希值相對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0090]獲取單元,用于獲取查找到的每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,位置偏移量用于標(biāo)識每個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,原始數(shù)據(jù)庫用于儲存標(biāo)準(zhǔn)指紋序列;
[0091]生成單兀,用于生成位置偏移量序列,位置偏移量在位置偏移量序列中的順序與標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在待檢測指紋序列中的位置是相對應(yīng)的;
[0092]對比單元,用于比對相鄰的位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。
[0093]分割模塊,用于按照預(yù)設(shè)的片段長度,將標(biāo)準(zhǔn)數(shù)據(jù)分為多段標(biāo)準(zhǔn)數(shù)據(jù)片段;
[0094]第二生成模塊,用于分別將每段標(biāo)準(zhǔn)數(shù)據(jù)片段按照第二算法生成標(biāo)準(zhǔn)指紋序列片段,標(biāo)準(zhǔn)指紋序列片段中包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值;
[0095]組合模塊,用于將標(biāo)準(zhǔn)指紋序列片段組成標(biāo)準(zhǔn)指紋序列。
[0096]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0097]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種利用數(shù)據(jù)指紋進(jìn)行數(shù)據(jù)檢測的方法,其特征在于,包括: 獲取待檢測數(shù)據(jù),并按照預(yù)設(shè)的第一算法將所述待檢測數(shù)據(jù)生成待檢測指紋序列,所述待檢測指紋序列中包括多個待檢測數(shù)據(jù)的哈希值; 對比所述待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配,所述標(biāo)準(zhǔn)指紋序列是由標(biāo)準(zhǔn)數(shù)據(jù)經(jīng)過第二算法生成的,所述標(biāo)準(zhǔn)指紋序列包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值; 若是,則判定所述待檢測數(shù)據(jù)滿足預(yù)設(shè)的要求。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對比所述待檢測指紋序列中的多個待檢測數(shù)據(jù)的哈希值與標(biāo)準(zhǔn)指紋序列中的多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值是否相匹配包括: 查找與每個所述待檢測數(shù)據(jù)的哈希值相對應(yīng)的所述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值; 獲取查找到的每個所述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值所對應(yīng)的位置偏移量,所述位置偏移量用于標(biāo)識每個所述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在原始數(shù)據(jù)庫中的位置,所述原始數(shù)據(jù)庫用于儲存所述標(biāo)準(zhǔn)指紋序列; 生成位置偏移量序列,所述位置偏移量在所述位置偏移量序列中的順序與所述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值在所述待檢測指紋序列中的位置是相對應(yīng)的; 比對相鄰的所述位置偏移量的差值是否小于預(yù)設(shè)的檢測數(shù)值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 按照預(yù)設(shè)的片段長度,將所述標(biāo)準(zhǔn)數(shù)據(jù)分為多段標(biāo)準(zhǔn)數(shù)據(jù)片段; 分別將每段所述標(biāo)準(zhǔn)數(shù)據(jù)片段按照所述第二算法生成標(biāo)準(zhǔn)指紋序列片段,所述標(biāo)準(zhǔn)指紋序列片段中包括多個標(biāo)準(zhǔn)數(shù)據(jù)的哈希值; 將所述標(biāo)準(zhǔn)指紋序列片段組成所述標(biāo)準(zhǔn)指紋序列。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一算法與所述第二算法為相同的哈希算法,或映射算法。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括: 根據(jù)多段所述標(biāo)準(zhǔn)指紋序列片段建立原始數(shù)據(jù)庫; 根據(jù)所述原始數(shù)據(jù)庫建立運行數(shù)據(jù)庫,所述運行數(shù)據(jù)庫的主鍵為指紋數(shù)據(jù); 記錄所述原始數(shù)據(jù)庫中每個哈希值的主鍵的位置偏移量; 在所述運行數(shù)據(jù)庫中查找與所述待檢測數(shù)據(jù)的哈希值相對應(yīng)的位置偏移量,并生成位置偏移量序列。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述查找與每個所述待檢測哈希值相對應(yīng)的多個所述標(biāo)準(zhǔn)數(shù)據(jù)的哈希值的方法為: 采用主鍵索引的方法進(jìn)行查找。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述待檢測數(shù)據(jù)的檢測精度,根據(jù)所述檢測精度確定所述檢測數(shù)值。
【文檔編號】G06F17/30GK104317823SQ201410515557
【公開日】2015年1月28日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】劉水, 丁世杰 申請人:北京合力思騰科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
西青区| 手游| 宾川县| 三河市| 巴彦淖尔市| 濉溪县| 郓城县| 德保县| 当阳市| 文水县| 那坡县| 广宁县| 衡水市| 抚远县| 宿迁市| 石首市| 岐山县| 石阡县| 大邑县| 祁连县| 龙州县| 龙口市| 扎鲁特旗| 江山市| 宣武区| 深圳市| 双辽市| 丽江市| 虹口区| 息烽县| 台北县| 苏尼特左旗| 大名县| 西藏| 曲周县| 蕲春县| 莱州市| 永靖县| 湘乡市| 玉龙| 淮安市|