專利名稱:一種高精度多維計數(shù)布魯姆過濾器及其大數(shù)據(jù)處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分布式系統(tǒng)、網(wǎng)絡(luò)等領(lǐng)域大數(shù)據(jù)處理,具體是指基于高精度多維計數(shù)布魯姆過濾器的大數(shù)據(jù)處理方法。
背景技術(shù):
未來的十年將是一個大數(shù)據(jù)引領(lǐng)的時代。大數(shù)據(jù)有三個典型特征1)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,元素屬性多維化。如數(shù)字城市中空間數(shù)據(jù)具有三維坐標(biāo)、地形等多維屬性;網(wǎng)絡(luò)Trace海量數(shù)據(jù)包具有源IP、目的IP、協(xié)議等多維屬性;2)數(shù)據(jù)價值密度低。價值密度的高低與 數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒;3)數(shù)據(jù)動態(tài)變化更新快。如何在快速變化的海量數(shù)據(jù)中通過高精度的數(shù)據(jù)處理方法迅速地完成數(shù)據(jù)的價值“提純”,成為有效進(jìn)行大數(shù)據(jù)處理過程中極具挑戰(zhàn)性的問題。布魯姆過濾器(B F,Bloom Filter)是一種結(jié)構(gòu)精簡的數(shù)據(jù)過濾方法,雖然它存在稍許查詢誤判,但由于其哈希查找的常數(shù)時間和存儲空間開銷較小,從而使它具有很好的實用價值,已廣泛應(yīng)用于網(wǎng)絡(luò)、分布式計算等領(lǐng)域。BF采用長度為m的比特向量V表示η個元素集合S = Is1, s2,...,sj,采用k個相互獨立的哈希函數(shù)h” h2,. .,hk,其函數(shù)取值均勻分布在范圍為[1. . . m]。插入元素s時,設(shè)置V中第!^(Shh2(S)VMhk(S)位為I。查詢元素u時,檢查V中第Ii1 (u),h2 (U),. . .,hk(u)位是否全為I,如果全為I,則元素u在S中;否則,元素u不在S中。后面章節(jié)中采用三元組In,m,k,}形式化表示單維屬性布魯姆過濾器,用四元組In,m, k, L}表示多維屬性布魯姆過濾器。η為集合S中元素個數(shù),m為向量V的長度,k為哈希函數(shù)的個數(shù),L為元素屬性維數(shù)。但目前布魯姆過濾器的研究主要集中在單維元素的處理,如標(biāo)準(zhǔn)布魯姆過濾器、計數(shù)布魯姆過濾器、光譜布魯姆過濾器,拆分型布魯姆過濾器、分檔布魯姆過濾器、索引拆分布魯姆過濾器等。這些算法從不同角度討論和優(yōu)化布魯姆過濾器的設(shè)計以滿足實際應(yīng)用的不同需求。目前存在少數(shù)針對多維元素處理的布魯姆過濾器方法,如MDBF(Mult1-Dimension Bloom Filte)、CMDBF (Combined Mult1-Dimension Bloom Filter))和PBF-BF (Parallel Bloom Filter-Bloom Filter),但是這些方法由于沒有對多維屬性進(jìn)行有效的關(guān)聯(lián),仍然存在誤判率高的缺點,無法應(yīng)用于未來大數(shù)據(jù)環(huán)境下多維數(shù)據(jù)處理精度需求。因此,針對大數(shù)據(jù)特點,設(shè)計出高精度的多維布魯姆過濾器來完成多維元素過濾和更新等大數(shù)據(jù)處理方法,成為大數(shù)據(jù)處理中迫切解決的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)不足,提供一種高精度多維計數(shù)布魯姆過濾器及其大數(shù)據(jù)處理方法,更迅速地完成數(shù)據(jù)的價值“提純”,快速有效地對大數(shù)據(jù)進(jìn)行加工處理。為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是,高精度多維計數(shù)布魯姆過濾器的結(jié)構(gòu)由兩部分組成,即第一部分是用來存儲多維元素各個屬性的高精度計數(shù)布魯姆過濾器,高精度計數(shù)布魯姆過濾器是一種基于分層結(jié)構(gòu)的計數(shù)布魯姆過濾器,通過高效利用計數(shù)器的存儲空間來降低假陽性,提升其處理精度;第二部分是用來存儲元素整體信息的聯(lián)合計數(shù)布魯姆過濾器,采用雙射函數(shù)將元素多維屬性轉(zhuǎn)換為一維數(shù)值來表示元素整體信息,將這個一維數(shù)值映射到聯(lián)合計數(shù)布魯姆過濾器中,聯(lián)合元素各屬性值利用聯(lián)合計數(shù)布魯姆過濾器進(jìn)行確認(rèn)。下面分別介紹這兩部分詳細(xì)設(shè)計。( I)高精度計數(shù)布魯姆過濾器設(shè)計標(biāo)準(zhǔn)布魯姆過濾器不支持刪除操作,從而不支持集合的動態(tài)變化,CBF被提出以解決此問題,用計數(shù)器替代標(biāo)準(zhǔn)BF中的每個bit位,一般情況下,每個計數(shù)器由4個bit組成,最大值為16。CBF使用時,首先將m個計數(shù)器初始化為O。元素的插入操作和刪除操作分別將對應(yīng)的k個計數(shù)器加I或者減I。進(jìn)行元素是否在集合中的判斷時,只需要判斷這k個計數(shù)器的值是否都大于I。在CBF實際應(yīng)用中,本發(fā)明發(fā)現(xiàn)大部分計數(shù)器的值只需1-2個bit來表示,從而造成內(nèi)存空間浪費(fèi)。本發(fā)明隨機(jī)產(chǎn)生30組10萬個元素插入CBF中,哈希函數(shù)個數(shù)為3,存儲空間m與插入元素個數(shù)η比值c (c = m/n)分別設(shè)置為8、12,統(tǒng)計插入元素后CBF中計數(shù)器值分別等于(Γ15的計數(shù)器個數(shù),結(jié)果(30組平均值)如表I所示。表I值分別等于(Γ15的計數(shù)器個數(shù)分布
權(quán)利要求
1.一種高精度多維計數(shù)布魯姆過濾器,其特征在于,由用于存儲多維元素各個屬性的基于分層結(jié)構(gòu)的高精度計數(shù)布魯姆過濾器和用于存儲元素整體信息的聯(lián)合計數(shù)布魯姆過濾器組成;所述基于分層結(jié)構(gòu)的計數(shù)布魯姆過濾器由空間不等的多層bit位組成,gp L1,…,Ln,其中第I層L1長度固定,其值為4m-kn;第2層L2長度等于L1層中bit位為I 的個數(shù),第3層長度等于第2層中bit位為I的個數(shù),以此類推;其中,m為標(biāo)準(zhǔn)計數(shù)布魯姆過濾器中的計數(shù)器個數(shù),N為高精度計數(shù)布魯姆過濾器的層數(shù),k為高精度多維計數(shù)布魯姆過濾器采用的哈希函數(shù)的個數(shù),η為存入高精度多維計數(shù)布魯姆過濾器中元素的個數(shù)。
2.一種基于權(quán)利要求1所述的高精度多維計數(shù)布魯姆過濾器的大數(shù)據(jù)處理方法,其特征在于,該方法為O讀入具有相應(yīng)特性的多維屬性數(shù)據(jù)集;2)將具有相應(yīng)特性的多維屬性數(shù)據(jù)集中每個元素的各屬性哈希映射到各自對應(yīng)的高精度計數(shù)布魯姆過濾器中;同時將具有相應(yīng)特性多維屬性數(shù)據(jù)集中每個元素的所有屬性通過雙射函數(shù)轉(zhuǎn)換為一個值來表示元素整體信息,然后將這個值哈希映射到聯(lián)合計數(shù)布魯姆過濾器中,完成多維元素整體的表示;所述雙射函數(shù)表達(dá)式為 FunL(H1 (a),H1 (a2),· ·,H1 (aL)) = FunL (Furv1 (H1 (B1),H1 (a2),· · ·,H1 D),H1 (aL)),其中,H1 為基于分層結(jié)構(gòu)的計數(shù)布魯姆過濾器采用的第I個哈希函數(shù)a2,. . .,\表示元素的多維屬性;3)讀取需要處理的多維屬性大數(shù)據(jù)集;4)計算待處理的多維屬性大數(shù)據(jù)集中每個元素的各屬性哈希值,根據(jù)這些哈希值判斷各個屬性對應(yīng)的高精度計數(shù)布魯姆過濾器L1層對應(yīng)的bit位是否為I ;將待處理的多維屬性大數(shù)據(jù)集中每個元素的各屬性通過雙射函數(shù)轉(zhuǎn)換為一個值來表示元素整體信息,然后將計算該值的哈希值,根據(jù)該哈希值判斷聯(lián)合計數(shù)布魯姆過濾器中對應(yīng)的bit位是否大于I ;5)將滿足所述步驟4)判斷條件的多維屬性大數(shù)據(jù)集中的元素輸出,得到處理后的多維屬性數(shù)據(jù)集。
全文摘要
本發(fā)明公開了一種高精度多維計數(shù)布魯姆過濾器及其大數(shù)據(jù)處理方法,在高精度多維計數(shù)布魯姆過濾器中存儲一定規(guī)?;蚓哂邢鄳?yīng)特性的多維屬性數(shù)據(jù)集;讀取需要處理的多維屬性大數(shù)據(jù)集;進(jìn)行高精度多維計數(shù)布魯姆過濾器處理,包括多維元素查詢和更新等;輸出經(jīng)過處理后的多維屬性數(shù)據(jù)集。本發(fā)明大大減少誤判發(fā)生的幾率,處理精度大幅度提高。通過本發(fā)明提供的大數(shù)據(jù)處理方法,更迅速地完成數(shù)據(jù)的價值“提純”,快速有效地對大數(shù)據(jù)進(jìn)行加工處理,讓數(shù)據(jù)產(chǎn)生經(jīng)濟(jì)和社會價值。本發(fā)明廣泛應(yīng)用于分布式系統(tǒng)、網(wǎng)絡(luò)等領(lǐng)域內(nèi)大數(shù)據(jù)處理。
文檔編號G06F17/30GK103020296SQ20121059048
公開日2013年4月3日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者張大方, 李瑋, 黃昆, 謝鯤 申請人:湖南大學(xué)