欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于分段保序哈希的日志數(shù)據(jù)分片方法及裝置的制造方法

文檔序號(hào):9396868閱讀:591來(lái)源:國(guó)知局
基于分段保序哈希的日志數(shù)據(jù)分片方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于分段保序哈希的日志數(shù)據(jù)分片 方法及裝置。
【背景技術(shù)】
[0002] 日志數(shù)據(jù)記錄了各類(lèi)實(shí)體發(fā)生交互的歷史信息,比如用戶對(duì)商品的購(gòu)買(mǎi)行為、用 戶和好友的互動(dòng)歷史、用戶的軌跡信息等?;诖罅康娜罩緮?shù)據(jù),可以進(jìn)行數(shù)據(jù)挖掘和機(jī)器 學(xué)習(xí),以便發(fā)現(xiàn)其中的規(guī)律和特點(diǎn)。在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)時(shí),針對(duì)大量的日志數(shù)據(jù)需要通 過(guò)數(shù)據(jù)查詢提取數(shù)據(jù)。這里數(shù)據(jù)查詢主要是指范圍查詢,比如查詢一段時(shí)間內(nèi)某些實(shí)體之 間的交互信息,以及某個(gè)地理范圍內(nèi)的實(shí)體之間的交互信息等。然而,為了數(shù)據(jù)查詢更準(zhǔn)確 和高效,如何針對(duì)大量的日志數(shù)據(jù)進(jìn)行分片存儲(chǔ)顯得尤為重要。
[0003] 現(xiàn)有的基于哈希的日志數(shù)據(jù)分片方法,是把日志數(shù)據(jù)根據(jù)哈希函數(shù)映射到對(duì)應(yīng)的 目標(biāo)地址空間里,從而實(shí)現(xiàn)日志數(shù)據(jù)分片存儲(chǔ),分片之后相鄰的日志數(shù)據(jù)不一定映射到相 鄰的目標(biāo)地址空間里,因此分片之后的日志數(shù)據(jù)只支持點(diǎn)查詢,即查詢時(shí)一次只能提取單 條的日志數(shù)據(jù),而不支持范圍查詢,比如一次提取某段時(shí)間內(nèi)的日志數(shù)據(jù);因此,利用現(xiàn)有 的日志數(shù)據(jù)分片方法分片后的日志數(shù)據(jù),在數(shù)據(jù)查詢時(shí)效率較低。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供一種基于分段保序哈希的日志數(shù)據(jù)分片方法及裝置,能夠解決現(xiàn)有技 術(shù)中對(duì)日志數(shù)據(jù)分片后數(shù)據(jù)查詢效率較低的問(wèn)題。
[0005] 第一方面,本發(fā)明提供一種基于分段保序哈希的日志數(shù)據(jù)分片方法,包括:
[0006] 將日志數(shù)據(jù)的多個(gè)屬性字段的值域分別劃分成N個(gè)分段;N為大于1的整數(shù);
[0007] 按照所述N個(gè)分段的順序建立每個(gè)所述屬性字段對(duì)應(yīng)的所述N個(gè)分段與哈希值的 映射關(guān)系;所述哈希值為連續(xù)排列的整數(shù),所述哈希值的排列順序與所述N個(gè)分段的順序 一致;
[0008] 將每個(gè)所述哈希值對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)存儲(chǔ)單元中。
[0009] 可選地,所述將日志數(shù)據(jù)的多個(gè)屬性字段的值域分別劃分成N個(gè)分段,包括:
[0010] 獲取采樣的日志數(shù)據(jù),根據(jù)所述采樣的日志數(shù)據(jù)在所述多個(gè)屬性字段的值域上分 別建立等深直方圖;
[0011] 根據(jù)所述等深直方圖將所述值域劃分為所述N個(gè)分段。
[0012] 可選地,所述將每個(gè)所述哈希值對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)存儲(chǔ)單元中,包括:
[0013] 分別從每個(gè)所述屬性字段中選擇一個(gè)所述分段對(duì)應(yīng)的哈希值生成向量,將所述向 量作為單元編號(hào);
[0014] 將所述單元編號(hào)對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)所述存儲(chǔ)單元中;所述存儲(chǔ)單元與所 述單元編號(hào) 對(duì)應(yīng)。
[0015] 可選地,所述將所述單元編號(hào)對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)所述存儲(chǔ)單元中之后, 還包括:
[0016] 若所述存儲(chǔ)單元的存儲(chǔ)空間存滿之后,記錄所述存儲(chǔ)單元的元信息,并將所述存 儲(chǔ)單元中的日志數(shù)據(jù)寫(xiě)入數(shù)據(jù)文件中;其中,所述元信息包括:所述各個(gè)屬性字段的哈希 值、所述存儲(chǔ)單元存滿的次數(shù)、所述各個(gè)屬性字段的值域在所述存儲(chǔ)單元的最大值和最小 值以及位置信息。
[0017] 可選地,還包括:
[0018] 將多個(gè)所述存儲(chǔ)單元中的日志數(shù)據(jù)寫(xiě)入同一數(shù)據(jù)文件,所述數(shù)據(jù)文件的文件頭中 包括:所述存儲(chǔ)單元的單元編號(hào)與所述存儲(chǔ)單元中的日志數(shù)據(jù)在所述數(shù)據(jù)文件內(nèi)偏移量的 對(duì)應(yīng)關(guān)系。
[0019] 可選地,還包括:
[0020] 記錄所述各個(gè)屬性字段的映射關(guān)系、所述映射關(guān)系的啟用時(shí)間和終止時(shí)間、所述 存儲(chǔ)單元的元信息和數(shù)據(jù)文件的集合。
[0021] 第二方面,本發(fā)明提供一種基于分段保序哈希的日志數(shù)據(jù)分片裝置,包括:
[0022] 劃分模塊,用于將日志數(shù)據(jù)的多個(gè)屬性字段的值域分別劃分成N個(gè)分段;N為大于 1的整數(shù);
[0023] 映射模塊,用于按照所述N個(gè)分段的順序建立每個(gè)所述屬性字段對(duì)應(yīng)的所述N個(gè) 分段與哈希值的映射關(guān)系;所述哈希值為連續(xù)排列的整數(shù),所述哈希值的排列順序與所述 N個(gè)分段的順序一致;
[0024] 所述劃分模塊,還用于將每個(gè)所述哈希值對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)存儲(chǔ)單元 中。
[0025] 可選地,所述劃分模塊,具體用于:
[0026] 獲取采樣的日志數(shù)據(jù),根據(jù)所述采樣的日志數(shù)據(jù)在所述多個(gè)屬性字段的值域上分 別建立等深直方圖;
[0027] 根據(jù)所述等深直方圖將所述值域劃分為所述N個(gè)分段。
[0028] 可選地,所述劃分模塊,還具體用于:
[0029] 分別從每個(gè)所述屬性字段中選擇一個(gè)所述分段對(duì)應(yīng)的哈希值生成向量,將所述向 量作為單元編號(hào);
[0030] 將所述單元編號(hào)對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)所述存儲(chǔ)單元中;所述存儲(chǔ)單元與所 述單元編號(hào) 對(duì)應(yīng)。
[0031] 可選地,還包括:
[0032] 處理模塊,用于若所述存儲(chǔ)單元的存儲(chǔ)空間存滿之后,記錄所述存儲(chǔ)單元的元信 息,并將所述存儲(chǔ)單元中的日志數(shù)據(jù)寫(xiě)入數(shù)據(jù)文件中;其中,所述元信息包括:所述各個(gè)屬 性字段的哈希值、所述存儲(chǔ)單元存滿的次數(shù)、所述各個(gè)屬性字段的值域在所述存儲(chǔ)單元的 最大值和最小值以及位置信息。
[0033] 本發(fā)明提供的基于分段保序哈希的日志數(shù)據(jù)分片方法及裝置,通過(guò)將日志數(shù)據(jù)的 多個(gè)屬性字段的值域分別劃分成N個(gè)分段;按照所述N個(gè)分段的順序建立每個(gè)所述屬性字 段對(duì)應(yīng)的所述N個(gè)分段與哈希值的映射關(guān)系;所述哈希值為連續(xù)排列的整數(shù),所述哈希值 的排列順序與所述N個(gè)分段的順序一致;將每個(gè)所述哈希值對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)存 儲(chǔ)單元中,由于建立映射關(guān)系時(shí)哈希值是按照分段的順序依次排列的,因此建立的映射關(guān) 系為分段保序的哈希函數(shù),通過(guò)哈希函數(shù)的保序性,保證了相鄰的日志數(shù)據(jù)被劃分到相鄰 的目標(biāo)存儲(chǔ)空間,以便支持范圍查詢能夠快速尋找到相關(guān)數(shù)據(jù)。
【附圖說(shuō)明】
[0034] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其它的附圖。
[0035] 圖1為本發(fā)明基于分段保序哈希的日志數(shù)據(jù)分片方法一實(shí)施例的流程圖;
[0036] 圖2為本發(fā)明方法一實(shí)施例的映射關(guān)系示意圖;
[0037] 圖3為本發(fā)明方法一實(shí)施例的等深直方圖的示意圖;
[0038] 圖4為本發(fā)明基于分段保序哈希的日志數(shù)據(jù)分片裝置一實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0039] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0040] 圖1為本發(fā)明基于分段保序哈希的日志數(shù)據(jù)分片方法一實(shí)施例的流程圖。圖2為 本發(fā)明方法一實(shí)施例的映射關(guān)系示意圖。如圖1所示,本實(shí)施例的方法包括:
[0041] 步驟101、將日志數(shù)據(jù)的多個(gè)屬性字段的值域分別劃分成N個(gè)分段;N為大于1的 整數(shù);
[0042] 步驟102、按照所述N個(gè)分段的順序建立每個(gè)所述屬性字段對(duì)應(yīng)的所述N個(gè)分段與 哈希值的映射關(guān)系;所述哈希值為連續(xù)排列的整數(shù),所述哈希值的排列順序與所述N個(gè)分 段的順序一致;
[0043] 步驟103、將每個(gè)所述哈希值對(duì)應(yīng)的日志數(shù)據(jù)劃分到一個(gè)存儲(chǔ)單元中。
[0044] 具體來(lái)說(shuō),將日志數(shù)據(jù)的多個(gè)屬性字段的值域分別劃分成N個(gè)分段,N個(gè)分段可以 是等分的,也可以是不等分的,多個(gè)屬性字段例如是時(shí)間戳字段、地理位置信息字段(包括 X坐標(biāo)字段、Y坐標(biāo)字段)等作為范圍查詢的屬性字段,每個(gè)所述分段都對(duì)應(yīng)一個(gè)哈希值,即 每個(gè)分段按照順序?qū)?yīng)從〇到N-I的哈希值,順序越靠前的分段映射的哈希值越小,N個(gè)分 段與哈希值的映射關(guān)系就作為哈希函數(shù),由于映射之后的哈希值為按序的,因此該哈希函 數(shù)是分段保序的哈希函數(shù),如圖2所示,將時(shí)間戳字段的值域分成N個(gè)分段,每個(gè)分段的寬 度為1小時(shí)。例如,把每個(gè)所述屬性字段中第一個(gè)分段的所有日志數(shù)據(jù)(也就是每個(gè)所述 屬性字段的值落在第一個(gè)分段內(nèi)的日志數(shù)據(jù))都映射到哈希值1對(duì)應(yīng)的哈希桶里,第二個(gè) 分段的所有日志數(shù)據(jù)都映射到哈希值2對(duì)應(yīng)的哈希桶里等,即將每個(gè)所述哈希值對(duì)應(yīng)的日 志數(shù)據(jù)劃分到一個(gè)存儲(chǔ)單元中。
[0045] 所謂保序的哈希函數(shù),指屬性字段的數(shù)據(jù)的原值為X和y,如果x〈 = y,則 Hash (X)〈 = Hash (y),其中,HashO為哈希函數(shù)。保序的哈希函數(shù)能支持范圍查詢,即如果 查詢條件為a> = x and a〈 = y (a為范圍查詢的屬性字段的值),那么可以根據(jù)X和y的具 體值,計(jì)算其哈希值,從而迅速找到相關(guān)的
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
马尔康县| 莱阳市| 美姑县| 和平县| 枣强县| 菏泽市| 辉县市| 峡江县| 天津市| 阿瓦提县| 盘山县| 嘉义县| 新田县| 闵行区| 绥德县| 阳城县| 忻州市| 和平区| 中山市| 淳安县| 鹿邑县| 舒城县| 伊川县| 绥德县| 恭城| 梧州市| 湟中县| 百色市| 扬州市| 澄城县| 潞西市| 涡阳县| 响水县| 沐川县| 西藏| 班戈县| 襄垣县| 遂平县| 嘉峪关市| 柳林县| 晋中市|