一種海量數(shù)據(jù)近似聚集查詢中的離群分治取樣方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于海量數(shù)據(jù)管理領(lǐng)域,特別涉及一種海量數(shù)據(jù)近似聚集查詢中的離群分 治取樣方法。
【背景技術(shù)】
[0002] 首先對本發(fā)明的技術(shù)術(shù)語進行如下解釋:
[0003] 離群點:如果一個數(shù)據(jù)樣本與其他樣本之間存在足以引起懷疑的差異,則稱其為 離群點;
[0004] 標(biāo)準(zhǔn)差S:尺寸為N的數(shù)據(jù)集R,相應(yīng)元組的值集為{Xl,x2,…,%},標(biāo)準(zhǔn)差S是方 差S2的平方根,S被定義為:
[0005]
【主權(quán)項】
1. 一種海量數(shù)據(jù)近似聚集查詢中的離群分治取樣方法,其特征在于:包括離群分離步 驟和查詢處理步驟,其中: 步驟1,離群分離: 步驟1-1,分離R中的離群值并生成離群值子集R。: 步驟1-1-1,定義輸入?yún)?shù):海量數(shù)據(jù)集的元組數(shù)N;均勻取樣率f;離群值比率1,1>0, 且離群點數(shù)lN〈〈n',n'是取樣集T的樣本數(shù),n' =f* (N-IN),ITI=n',1值借助工作負載 信息或歷史數(shù)據(jù)分布信息獲取; 步驟1-1-2,將關(guān)系R的數(shù)據(jù)集劃分為m個窗口,m=clN,即要求窗口數(shù)超過離群點數(shù); 公式中的c為正整數(shù)常數(shù),2 <c< 1/1,如果離群值分散或均勻分布,c取下界值,否則取 上界值;
步驟1-1-4,對每個窗口i,i從1起算到第m個窗口止均重復(fù)以下的計算過程: 步驟1-1-4-1,從第i個窗口中順序取出w個元組的IC1,…,CN},并定義為⑷/,… ,Cw' },C是查詢Q的聚集屬性列IC1,…,CJ; 步驟1-1-4-2,如果從最后一個窗口中取出的元組數(shù)w'少于w,則直接取w的值為w' ; 步驟1-1-4-3,對每個窗口i中的每個元組j均實施以下的計算過程: 步驟1-1-4-3-1,計算除元組j之外的標(biāo)準(zhǔn)差值E(j),E(j) =S({C/,…CV1',Cj+1',…,Cw' }),S是C的子集的標(biāo)準(zhǔn)差,C1'是低界值,Cw'是高界值; 步驟1-1-4-3-2,設(shè)E(j)取最小值時的j為j',C/是候選離群點,將含Cj'的元組 插入離群值子集R。; 步驟1-1-5,合并與排序離群值子集R。,只保留頭IN個元組,IN是離群點數(shù)目; 步驟1-1-6,Rn_o=R-Ro,非離群子集Rn_o為數(shù)據(jù)集R與離群值子集Ro的差集; 步驟1-2,根據(jù)取樣率f對R中余下的非離群值Rn_o進行均勻取樣,生成取樣集T; 步驟2,查詢處理: 步驟2-1,聚集離群值:在離群值子集Ro上運行聚集查詢; 步驟2-2,聚集非離群值:在非離群值子集Rn_o的均勻取樣集T上運行聚集查詢并乘 以取樣率的倒數(shù),從而推算出Rn_〇的近似查詢值; 步驟2-3,結(jié)合聚集值:結(jié)合Ro上的準(zhǔn)確聚集值和Rn_o上的近似聚集值來得到R的近 似聚集值。
【專利摘要】本發(fā)明公開了一種海量數(shù)據(jù)近似聚集查詢中的離群分治取樣方法,將高偏斜關(guān)系R離群分離成兩個子集Ro和Rn_o;近似聚集查詢Q可以看成兩個子查詢的并,第一個子查詢運行在離群值子集Ro上,第二個子查詢則運行在Rn_o的均勻取樣集上;具體來說,海量數(shù)據(jù)近似聚集查詢中的離群分治取樣方法包括兩個步驟:離群分離+查詢處理;從以上方法實現(xiàn)框架得出:查詢誤差只歸結(jié)于非離群值子集Rn_o上的近似查詢誤差。本發(fā)明在海量數(shù)據(jù)集的聚集屬性內(nèi)部存在高方差分布時能克服隨機均勻取樣的不足,顯著降低近似查詢誤差,適用于云計算環(huán)境,離群分治取樣方法的離群分離步驟只需單遍掃描數(shù)據(jù)集、無需對整個聚集屬性集進行排序,能自然的擴展應(yīng)用于數(shù)據(jù)流的近似聚集查詢。
【IPC分類】G06F17-30
【公開號】CN104715031
【申請?zhí)枴緾N201510107578
【發(fā)明人】胡文瑜, 劉建華, 唐鄭熠, 劉垣
【申請人】福建工程學(xué)院
【公開日】2015年6月17日
【申請日】2015年3月12日