欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法

文檔序號(hào):40589834發(fā)布日期:2025-01-07 20:30閱讀:4來(lái)源:國(guó)知局
一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法

本發(fā)明涉及數(shù)據(jù)集處理,尤其涉及一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法。


背景技術(shù):

1、基數(shù)估算(cardinality?estimation),即估算在一個(gè)數(shù)據(jù)集合中不同值的數(shù)量,是數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要基礎(chǔ)問(wèn)題,在大規(guī)模數(shù)據(jù)表中,精確計(jì)算某一列的不同值數(shù)量(ndv,number?of?distinct?values)往往需要耗費(fèi)大量時(shí)間和內(nèi)存,因此,基數(shù)估算在數(shù)據(jù)壓縮、查詢優(yōu)化等多種數(shù)據(jù)庫(kù)應(yīng)用中起著關(guān)鍵作用。目前,基數(shù)估算主要有兩類(lèi)方法:一是sketch方法:例如flajolet-martin(fm)sketch和hyperloglog(hll),這些方法通過(guò)構(gòu)建緊湊的數(shù)據(jù)摘要來(lái)近似估算數(shù)據(jù)集合的基數(shù),sketch方法通常占用較少的內(nèi)存空間,并且比采樣方法更為精確。二是采樣方法:通過(guò)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣來(lái)估算基數(shù),雖然采樣方法簡(jiǎn)單直接,但在估算精度方面通常不如sketch方法。

2、以上兩類(lèi)方法在靜態(tài)數(shù)據(jù)集的基數(shù)估算中表現(xiàn)優(yōu)異,但在處理動(dòng)態(tài)數(shù)據(jù)集時(shí),尤其是數(shù)據(jù)刪除操作時(shí),效率往往較低。在當(dāng)前動(dòng)態(tài)數(shù)據(jù)流的基數(shù)估算研究中,hllremosketch方法作為一種基于hyperloglog的擴(kuò)展技術(shù),解決了hyperloglog系列方法在動(dòng)態(tài)數(shù)據(jù)集中處理數(shù)據(jù)刪除時(shí)效率低下的問(wèn)題,為動(dòng)態(tài)環(huán)境中的基數(shù)估算提供了更加有效的解決方案。但由于hllremo?sketch方法本身是一種近似算法,具有誤差是其不可避免的特性,因此,在保持內(nèi)存效率的前提下,如何進(jìn)一步降低這種誤差是亟待解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,以克服現(xiàn)有技術(shù)在計(jì)算動(dòng)態(tài)數(shù)據(jù)集的基數(shù)時(shí)存在誤差的技術(shù)問(wèn)題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:

3、一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,具體步驟包括:

4、s1:獲取動(dòng)態(tài)目標(biāo)數(shù)據(jù)集;

5、s2:初始化sketch,設(shè)sketch的列數(shù)為m,即桶的數(shù)量,并令m=2p,p為哈希值邏輯上桶索引部分的位數(shù),設(shè)sketch的行數(shù)為e,即每個(gè)桶的寄存器的數(shù)量,并令e=t-p+1,t為哈希值的位數(shù);設(shè)定所有寄存器的初始值為零;

6、s3:基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立動(dòng)態(tài)sketch;

7、s4:基于改進(jìn)的sketch信息提取算法,對(duì)動(dòng)態(tài)sketch進(jìn)行掃描,得到動(dòng)態(tài)sketch中若干寄存器的信息,并存入設(shè)定的寄存器組;

8、s5:基于所述寄存器組,并利用fgra估計(jì)器,得到動(dòng)態(tài)目標(biāo)數(shù)據(jù)集的基數(shù)估算結(jié)果。

9、進(jìn)一步地,s4中,基于改進(jìn)的sketch信息提取算法,對(duì)動(dòng)態(tài)sketch進(jìn)行掃描,得到動(dòng)態(tài)sketch中若干寄存器的信息,并存入設(shè)定的寄存器組的過(guò)程為:

10、s41:依次自下向上遍歷sketch每一列的每一行,當(dāng)發(fā)現(xiàn)一列中第m行的寄存器存儲(chǔ)的信息為非0時(shí),2≤m≤e-1,將其行號(hào)信息存儲(chǔ)在寄存器組中該列對(duì)應(yīng)的臨時(shí)寄存器的高k位,k≥6,同時(shí)檢查第m-1行的寄存器存儲(chǔ)的信息是否為0,若非0,則將所述臨時(shí)寄存器的第k+1位bit位設(shè)置為1,同時(shí)檢查第m-2行的寄存器存儲(chǔ)的信息是否為0,若非0,則將所述臨時(shí)寄存器的第k+2位bit位設(shè)置為1,至此完成該列的寄存器信息收集;

11、s42:得到存儲(chǔ)有sketch中若干寄存器信息的寄存器組。

12、進(jìn)一步地,s3中,基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立動(dòng)態(tài)sketch的過(guò)程包括基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的元素對(duì)sketch進(jìn)行添加元素或刪除元素操作。

13、進(jìn)一步地,所述基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的元素對(duì)sketch進(jìn)行添加元素或刪除元素操作的過(guò)程為:遍歷動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的所有數(shù)據(jù)元素,每掃描到一個(gè)數(shù)據(jù)元素時(shí),通過(guò)哈希函數(shù)計(jì)算該數(shù)據(jù)元素的哈希值,并將所述哈希值分為兩部分,即桶索引部分和剩余的比特部分,基于所述剩余的比特部分計(jì)算前導(dǎo)零的數(shù)量,基于所述桶索引部分和前導(dǎo)零的數(shù)量確定sketch中對(duì)應(yīng)的寄存器的位置,并基于更新原則更新相應(yīng)位置的寄存器的信息,從而完成添加元素或刪除元素。

14、進(jìn)一步地,所述更新原則為:判斷相應(yīng)位置的寄存器的值是否大于設(shè)定的閾值,若是,則按照設(shè)定的概率增加或減小寄存器的值,否則,直接增加或減小寄存器的值。

15、進(jìn)一步地,所述哈希函數(shù)選用murmurhash64。

16、有益效果:本發(fā)明通過(guò)動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立了動(dòng)態(tài)sketch,并基于改進(jìn)的動(dòng)態(tài)sketch信息提取算法掃描動(dòng)態(tài)sketch以獲得更多的寄存器信息,并基于寄存器信息和fgra估計(jì)器獲得基數(shù)估算結(jié)果,在保持內(nèi)存效率的同時(shí)降低了估算誤差。



技術(shù)特征:

1.一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,具體步驟包括:

2.根據(jù)權(quán)利要求1所述的用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,s4中,基于改進(jìn)的sketch信息提取算法,對(duì)動(dòng)態(tài)sketch進(jìn)行掃描,得到動(dòng)態(tài)sketch中若干寄存器的信息,并存入設(shè)定的寄存器組的過(guò)程為:

3.根據(jù)權(quán)利要求2所述的用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,s3中,基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立動(dòng)態(tài)sketch的過(guò)程包括基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的元素對(duì)sketch進(jìn)行添加元素或刪除元素操作。

4.根據(jù)權(quán)利要求3所述的用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,所述基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的元素對(duì)sketch進(jìn)行添加元素或刪除元素操作的過(guò)程為:遍歷動(dòng)態(tài)目標(biāo)數(shù)據(jù)集中的所有數(shù)據(jù)元素,每掃描到一個(gè)數(shù)據(jù)元素時(shí),通過(guò)哈希函數(shù)計(jì)算該數(shù)據(jù)元素的哈希值,并將所述哈希值分為兩部分,即桶索引部分和剩余的比特部分,基于所述剩余的比特部分計(jì)算前導(dǎo)零的數(shù)量,基于所述桶索引部分和前導(dǎo)零的數(shù)量確定sketch中對(duì)應(yīng)的寄存器的位置,并基于更新原則更新相應(yīng)位置的寄存器的信息,從而完成添加元素或刪除元素。

5.根據(jù)權(quán)利要求4所述的用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,所述更新原則為:

6.根據(jù)權(quán)利要求4所述的用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,其特征在于,所述哈希函數(shù)選用murmurhash64。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種用于動(dòng)態(tài)數(shù)據(jù)流中的基數(shù)估算方法,S1:獲取動(dòng)態(tài)目標(biāo)數(shù)據(jù)集;S2:初始化Sketch,設(shè)Sketch的列數(shù)為m,即桶的數(shù)量,設(shè)Sketch的行數(shù)為e,即每個(gè)桶的寄存器的數(shù)量;設(shè)定所有寄存器的初始值為零;S3:基于動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立動(dòng)態(tài)Sketch;S4:基于改進(jìn)的Sketch信息提取算法,對(duì)動(dòng)態(tài)Sketch進(jìn)行掃描,得到動(dòng)態(tài)Sketch中若干寄存器的信息,并存入設(shè)定的寄存器組;S5:基于所述寄存器組,并利用FGRA估計(jì)器,得到動(dòng)態(tài)目標(biāo)數(shù)據(jù)集的基數(shù)估算結(jié)果。本發(fā)明通過(guò)動(dòng)態(tài)目標(biāo)數(shù)據(jù)集建立了動(dòng)態(tài)Sketch,基于改進(jìn)的動(dòng)態(tài)Sketch信息提取算法掃描動(dòng)態(tài)Sketch以獲得更多的寄存器信息以及基于寄存器信息和FGRA估計(jì)器獲得基數(shù)估算結(jié)果,在保持內(nèi)存效率的同時(shí)降低了估算誤差。

技術(shù)研發(fā)人員:白梅,李新宇,王習(xí)特,馬茜
受保護(hù)的技術(shù)使用者:大連海事大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
北安市| 东至县| 连平县| 南郑县| 蚌埠市| 海盐县| 河曲县| 红河县| 长汀县| 左贡县| 山东| 文水县| 虹口区| 利津县| 如皋市| 榆林市| 双鸭山市| 兴化市| 七台河市| 新宁县| 九龙城区| 万盛区| 泊头市| 福鼎市| 和顺县| 平邑县| 永平县| 昌平区| 苏尼特右旗| 富宁县| 集贤县| 嵊泗县| 长沙县| 彭水| 巨野县| 湟源县| 玛多县| 高陵县| 塔城市| 祥云县| 富裕县|