欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)去重的方法及裝置與流程

文檔序號:11155394閱讀:289來源:國知局
一種數(shù)據(jù)去重的方法及裝置與制造工藝

本發(fā)明實施例涉及數(shù)據(jù)處理技術(shù),尤其涉及一種數(shù)據(jù)去重的方法及裝置。



背景技術(shù):

在當今的大數(shù)據(jù)時代,隨著信息化的發(fā)展,用數(shù)據(jù)說話是很多企業(yè)經(jīng)營者的理念。企業(yè)要處理的數(shù)據(jù)量激增,大數(shù)據(jù)帶來便利的同時,也給技術(shù)人員增加了一些負擔,在海量的數(shù)據(jù)中,存在大量的重復數(shù)據(jù),造成系統(tǒng)的負載越來越大,數(shù)據(jù)入庫和查詢性能隨之下降,如何實現(xiàn)對大量重復垃圾數(shù)據(jù)的刪除,減少硬盤的使用率,成為大數(shù)據(jù)時代亟待解決的難題。



技術(shù)實現(xiàn)要素:

本發(fā)明提供一種數(shù)據(jù)去重的方法及裝置,以實現(xiàn)對大規(guī)模數(shù)據(jù)的去重,減少硬盤的使用率。

第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)去重的方法,該方法包括:

獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識;

將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對;

比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值;

如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,在刪除所述待處理數(shù)據(jù)之后,還包括:

將待處理數(shù)據(jù)的鍵值對與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的鍵值對保存在重復統(tǒng)計庫中。

進一步地,還包括:

如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值不同,則將所述待處理數(shù)據(jù)和對應的數(shù)據(jù)標識存入數(shù)據(jù)庫;

保存所述待處理數(shù)據(jù)的鍵值對到已有數(shù)據(jù)的鍵值對中。

進一步地,獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識包括:

按行讀取待處理數(shù)據(jù);

計算所述待處理數(shù)據(jù)的MD5值;

根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,計算所述待處理數(shù)據(jù)的MD5值包括:

如果所述待處理數(shù)據(jù)中包含預設忽略數(shù)據(jù),則將所述待處理數(shù)據(jù)去除所述預設忽略數(shù)據(jù);

計算去除所述預設忽略數(shù)據(jù)后的待處理數(shù)據(jù)的MD5值,作為所述待處理數(shù)據(jù)的MD5值。

第二方面,本發(fā)明實施例還提供了一種數(shù)據(jù)去重的裝置,該裝置包括:

數(shù)據(jù)標識獲取模塊,用于獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識;

鍵值對組成模塊,用于將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對;

MD5值比對模塊,用于比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值;

重復數(shù)據(jù)確定模塊,用于如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,還包括鍵值對保存模塊,用于在刪除所述待處理數(shù)據(jù)之后,將待處理數(shù)據(jù)的鍵值對與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的鍵值對保存在重復統(tǒng)計庫中。

進一步地,還包括數(shù)據(jù)存儲模塊,具體用于:

如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值不同,則將所述待處理數(shù)據(jù)和對應的數(shù)據(jù)標識存入數(shù)據(jù)庫;

保存所述待處理數(shù)據(jù)的鍵值對到已有數(shù)據(jù)的鍵值對中。

進一步地,數(shù)據(jù)標識獲取模塊包括:

數(shù)據(jù)讀取單元,用于按行讀取待處理數(shù)據(jù);

MD5值計算單元,用于計算所述待處理數(shù)據(jù)的MD5值;

數(shù)據(jù)標識生成單元,用于根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,MD5值計算單元具體用于:

如果所述待處理數(shù)據(jù)中包含預設忽略數(shù)據(jù),則將所述待處理數(shù)據(jù)去除所述預設忽略數(shù)據(jù);

計算去除所述預設忽略數(shù)據(jù)后的待處理數(shù)據(jù)的MD5值,作為所述待處理數(shù)據(jù)的MD5值。

本實施例的技術(shù)方案,通過將待處理數(shù)據(jù)的MD5值和數(shù)據(jù)標識組成鍵值對,并比對待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值,將與已有數(shù)據(jù)的MD5值相同的待處理數(shù)據(jù)刪除,解決了海量數(shù)據(jù)中存在重復數(shù)據(jù)的問題,達到了在入庫之前對數(shù)據(jù)進行去重的效果,減少硬盤的使用率,降低成本。

附圖說明

圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)去重的方法的流程圖;

圖2是本發(fā)明實施例二提供的一種數(shù)據(jù)去重的方法的流程圖;

圖3為本發(fā)明實施例提供的一種數(shù)據(jù)去重方法中的數(shù)據(jù)處理系統(tǒng)的整體框架圖;

圖4是本發(fā)明實施例三提供的一種數(shù)據(jù)去重的方法的流程圖;

圖5是本發(fā)明實施例四提供的一種數(shù)據(jù)去重的方法的流程圖;

圖6是本發(fā)明實施例五提供的一種數(shù)據(jù)去重的裝置示意圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

實施例一

圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)去重的方法的流程圖,本實施例可適用于對海量數(shù)據(jù)進行有效去重的情況,該方法可以由數(shù)據(jù)去重的裝置來執(zhí)行,該方法具體包括如下步驟:

S110、獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識。

其中,MD5(Message-Digest Algorithm 5,信息-摘要算法5),用于確保信息傳輸完整一致,是計算機廣泛使用的雜湊算法之一,具有壓縮性、容易計算、抗修改性以及強抗碰撞等特點。待處理數(shù)據(jù)的類型可以是文本類型,可以按行或按列等方式讀取數(shù)據(jù)并計算數(shù)據(jù)對應的MD5值,數(shù)據(jù)標識可以作為每條數(shù)據(jù)的標記,用于區(qū)分每條數(shù)據(jù)。

S120、將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對。

其中,可將MD5值存放在redis集群上,采用redis集群的好處是redis數(shù)據(jù)庫上存儲的數(shù)據(jù)一般都是鍵值對的方式,可以實現(xiàn)高效率的比對操作。可以將MD5值和數(shù)據(jù)標識組成鍵值對,存儲在redis集群數(shù)據(jù)庫中。一般重復處理數(shù)據(jù)都是利用一種分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),這樣可以有效地實現(xiàn)海量數(shù)據(jù)存儲,同時有效防止單點故障,避免不必要的損失。但是,在HDFS上進行數(shù)據(jù)去重時,數(shù)據(jù)就會提前存入硬盤中,導致數(shù)據(jù)已經(jīng)入庫,浪費硬盤資源,增加硬件成本,消耗大量的時間,在redis數(shù)據(jù)庫中進行去重可以實現(xiàn)在數(shù)據(jù)入庫之前就有效地把大量重復垃圾數(shù)據(jù)刪除,減少硬盤的使用率,降低成本。

S130、比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值。

其中,已有數(shù)據(jù)可以是已經(jīng)進行存儲的數(shù)據(jù)。

將待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值進行對比,判斷待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值是否相同。通過不斷比對操作,刪除垃圾重復數(shù)據(jù)。

S140、如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

如果待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則可以認為兩條數(shù)據(jù)互相重復,因此將待處理數(shù)據(jù)進行刪除,同時確定與待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識,以確定與待處理數(shù)據(jù)重復的已有數(shù)據(jù)。

上述步驟即S110、S120、S130和S140可以由一個硬件設備執(zhí)行,也可以由不同的硬件設備分別執(zhí)行,具體執(zhí)行的設備這里不做限定。

本實施例的技術(shù)方案,通過將待處理數(shù)據(jù)的MD5值和數(shù)據(jù)標識組成鍵值對,并比對待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值,將與已有數(shù)據(jù)的MD5值相同的待處理數(shù)據(jù)刪除,解決了海量數(shù)據(jù)中存在重復數(shù)據(jù)的問題,達到了在入庫之前對數(shù)據(jù)進行去重的效果,減少硬盤的使用率,降低成本。

在上述技術(shù)方案的基礎(chǔ)上,在刪除所述待處理數(shù)據(jù)之后,還優(yōu)選包括:

將待處理數(shù)據(jù)的鍵值對與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的鍵值對保存在重復統(tǒng)計庫中。

其中,將待處理數(shù)據(jù)的鍵值對與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的鍵值對保存在重復統(tǒng)計庫中,可以利用保存的信息計算出相同MD5值的數(shù)據(jù)的數(shù)據(jù)重復量,數(shù)據(jù)重復量可作為考慮業(yè)務需求時的參考因素。

在上述實施例的基礎(chǔ)上,還優(yōu)選包括:

如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值不同,則將所述待處理數(shù)據(jù)和對應的數(shù)據(jù)標識存入數(shù)據(jù)庫;

保存所述待處理數(shù)據(jù)的鍵值對到已有數(shù)據(jù)的鍵值對中。

其中,如果待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值不同,則可以確認待處理數(shù)據(jù)與已有數(shù)據(jù)之間不存在重復,則將所述待處理數(shù)據(jù)和對應的數(shù)據(jù)標識存入數(shù)據(jù)庫即可。同時將待處理數(shù)據(jù)的鍵值對保存,作為以后比對的參考依據(jù)。將不重復的數(shù)據(jù)進行存儲,保證數(shù)據(jù)的完整性。

實施例二

圖2是本發(fā)明實施例二提供的一種數(shù)據(jù)去重的方法的流程圖,本實施例在上述實施例的基礎(chǔ)上進行了進一步的優(yōu)化,將“獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識”進一步細化為“按行讀取待處理數(shù)據(jù);計算所述待處理數(shù)據(jù)的MD5值;根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識?!痹摲椒ň唧w包括以下步驟:

S210、按行讀取待處理數(shù)據(jù)。

其中,數(shù)據(jù)在預處理之前可以是數(shù)據(jù)接入環(huán)節(jié),可以通過搬運工具將數(shù)據(jù)搬運到預處理的服務器當中,等待數(shù)據(jù)的處理。在預處理服務器中,程序按行讀取數(shù)據(jù)。一般使用的搬運程序都是通過網(wǎng)絡傳輸?shù)模话悴捎脗鬏斂刂茀f(xié)議(Transmission Control Protocol,TCP)通信或者文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)傳輸。利用預處理程序?qū)崿F(xiàn)數(shù)據(jù)的實時接入,提高數(shù)據(jù)的處理效率。圖3為本發(fā)明實施例提供的一種數(shù)據(jù)去重方法中的數(shù)據(jù)處理系統(tǒng)的整體框架圖。如圖3所示,數(shù)據(jù)搬運服務器集群由服務器1-服務器N構(gòu)成,數(shù)據(jù)搬運服務器集群310利用搬運程序?qū)?shù)據(jù)搬運至預處理服務器集群320中,預處理服務器集群由服務器1'-服務器N'構(gòu)成,其中預處理程序可以在一臺或者多臺服務器安裝,從而安裝了預處理程序的一臺或多臺服務器組成預處理服務器集群320,計算數(shù)據(jù)的MD5值并在redis服務器集群330上與已有數(shù)據(jù)的MD5值進行比對。本發(fā)明實施例中的redis服務器集群330由服務器1”-服務器N”等通過快速通信鏈路連接起來組成的,將不存在重復的數(shù)據(jù)存入數(shù)據(jù)庫340中,其中數(shù)據(jù)庫340可以是Hbase或Oracle數(shù)據(jù)庫。

S220、計算所述待處理數(shù)據(jù)的MD5值。

其中,將讀取到的每行的待處理數(shù)據(jù)依次計算MD5值。

S230、根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識。

其中,為待處理數(shù)據(jù)生成唯一的數(shù)據(jù)標識,即數(shù)據(jù)ID。ID可以由待處理數(shù)據(jù)的讀取時間或讀取待處理數(shù)據(jù)時的線程號中的至少一個組成,在由預處理集群讀取待處理數(shù)據(jù)時,ID也可以是預處理集群中的預處理服務器設備號。由于預處理服務器可能是多臺,所以為了區(qū)分服務器為每一臺服務器設置唯一編號,即預處理服務器設備號。

S240、將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對;

S250、比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值;

S260、如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

本實施例的技術(shù)方案,通過按行讀取待處理數(shù)據(jù),并計算每行數(shù)據(jù)的MD5值,生成數(shù)據(jù)標識,將行數(shù)據(jù)的MD5值與已有數(shù)據(jù)的MD5值進行比對,當相同時刪除待處理數(shù)據(jù),解決了海量數(shù)據(jù)中具有重復數(shù)據(jù)的問題,達到了在入庫之前對海量數(shù)據(jù)中的重復數(shù)據(jù)進行去重的效果,減少硬盤的使用率,降低成本。采用將待處理數(shù)據(jù)按行讀取為行數(shù)據(jù),利用判斷各行數(shù)據(jù)是否存在重復,將存在重復情況的行數(shù)據(jù)刪除,達到去重操作更加具體化的效果,并且通過按行讀取使得數(shù)據(jù)處理更加快速。

實施例三

圖4是本發(fā)明實施例三提供的一種數(shù)據(jù)去重的方法的流程圖,本實施例在上述實施例的基礎(chǔ)上進行了進一步的優(yōu)化,將“計算所述待處理數(shù)據(jù)的MD5值”進一步細化為“如果所述待處理數(shù)據(jù)中包含預設忽略數(shù)據(jù),則將所述待處理數(shù)據(jù)去除所述預設忽略數(shù)據(jù);計算去除所述預設忽略數(shù)據(jù)后的待處理數(shù)據(jù)的MD5值,作為所述待處理數(shù)據(jù)的MD5值?!痹摲椒ň唧w包括以下步驟:

S410、按行讀取待處理數(shù)據(jù)。

S420、如果所述待處理數(shù)據(jù)中包含預設忽略數(shù)據(jù),則將所述待處理數(shù)據(jù)去除所述預設忽略數(shù)據(jù)。

其中,在讀取待處理數(shù)據(jù)之前,可以根據(jù)實際的需求,將某些數(shù)據(jù)內(nèi)容設置為預設忽略數(shù)據(jù),例如可以是數(shù)據(jù)的端口號或者某些不必要的時間信息等,這些都是操作系統(tǒng)隨機產(chǎn)生的,對數(shù)據(jù)本身沒有價值可言,因此可以將預設忽略數(shù)據(jù)相同而其余數(shù)據(jù)不同的待處理數(shù)據(jù)認為同一條處理,將其中的一條數(shù)據(jù)入庫,其他進行刪除處理,即可實現(xiàn)數(shù)據(jù)的去重,在計算數(shù)據(jù)的MD5值之前,去除預設忽略數(shù)據(jù),可以起到提高數(shù)據(jù)去重效果的目的,節(jié)省了一部分工作量,節(jié)省數(shù)據(jù)去重時間。

S430、計算去除所述預設忽略數(shù)據(jù)后的待處理數(shù)據(jù)的MD5值,作為所述待處理數(shù)據(jù)的MD5值。

其中,在將預設忽略數(shù)據(jù)去除后,再計算待處理數(shù)據(jù)的MD5值。

S440、根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識。

S450、將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對;

S460、比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值;

S470、如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

本實施例的技術(shù)方案,通過在計算數(shù)據(jù)的MD5值之前增加了忽略數(shù)據(jù)預判斷環(huán)節(jié),去除系統(tǒng)隨機產(chǎn)生的無效數(shù)據(jù)部分,達到節(jié)省工作量的效果,節(jié)省了數(shù)據(jù)去重時間。

實施例四

圖5是本發(fā)明實施例四提供的一種數(shù)據(jù)去重的方法的流程圖,本實施例是在上述實施例的基礎(chǔ)上的一個優(yōu)選實例,本方法具體包括以下步驟:

S510、數(shù)據(jù)搬運服務器集群將待處理數(shù)據(jù)搬運到預處理服務器。

S520、預處理服務器集群計算待處理數(shù)據(jù)的MD5值,并獲取待處理數(shù)據(jù)的數(shù)據(jù)標識,組成鍵值對,將鍵值對發(fā)送至redis集群。

S530、redis集群將所述鍵值對中的MD5值與redis數(shù)據(jù)庫已存放的鍵值對中的MD5值比較,判斷是否相同。若相同,則執(zhí)行S540,否則執(zhí)行S550。

S540、將重復數(shù)據(jù)刪除。

其中,若待處理數(shù)據(jù)的MD5值與redis數(shù)據(jù)庫存放的MD5值相同,則說明待處理數(shù)據(jù)與已有數(shù)據(jù)重復,則將待處理數(shù)據(jù)確認為重復數(shù)據(jù),將其刪除。

S550、確定待處理數(shù)據(jù)為唯一數(shù)據(jù)。

其中,若待處理數(shù)據(jù)的MD5值與redis數(shù)據(jù)庫存放的MD5值不同,則可以認為對于當前待處理數(shù)據(jù)而言,不存在數(shù)據(jù)重復的問題,則將待處理數(shù)據(jù)確定為唯一數(shù)據(jù)。

S560、將待處理數(shù)據(jù)入庫到HBase或Oracle等數(shù)據(jù)存儲設備,并將待處理數(shù)據(jù)的鍵值對存入redis數(shù)據(jù)庫中。

本發(fā)明實施例的技術(shù)方案,通過多個集群的處理,將待處理數(shù)據(jù)的MD5值與redis數(shù)據(jù)庫存放的MD5值進行比較,判斷數(shù)據(jù)是否重復,并將重復數(shù)據(jù)刪除,達到了對海量數(shù)據(jù)的有效去重,提高去重效率。

實施例五

圖6是本發(fā)明實施例五提供的一種數(shù)據(jù)去重的裝置示意圖,該裝置包括:

數(shù)據(jù)標識獲取模塊610,用于獲取待處理數(shù)據(jù)的MD5值和對應的數(shù)據(jù)標識;

鍵值對組成模塊620,用于將所述MD5值和所述數(shù)據(jù)標識組成所述待處理數(shù)據(jù)的鍵值對;

MD5值比對模塊630,用于比對所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值;

重復數(shù)據(jù)確定模塊640,用于如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值相同,則刪除所述待處理數(shù)據(jù),并確定與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,還包括;

鍵值對保存模塊620,用于在刪除所述待處理數(shù)據(jù)之后,將待處理數(shù)據(jù)的鍵值對與所述待處理數(shù)據(jù)重復的已有數(shù)據(jù)的鍵值對保存在重復統(tǒng)計庫中。

進一步地,還包括數(shù)據(jù)存儲模塊,具體用于:

如果所述待處理數(shù)據(jù)的鍵值對中的MD5值和已有數(shù)據(jù)的鍵值對中的MD5值不同,則將所述待處理數(shù)據(jù)和對應的數(shù)據(jù)標識存入數(shù)據(jù)庫;

保存所述待處理數(shù)據(jù)的鍵值對到已有數(shù)據(jù)的鍵值對中。

進一步地,數(shù)據(jù)標識獲取模塊610包括:

數(shù)據(jù)讀取單元,用于按行讀取待處理數(shù)據(jù);

MD5值計算單元,用于計算所述待處理數(shù)據(jù)的MD5值;

數(shù)據(jù)標識生成單元,用于根據(jù)讀取時間和/或讀取待處理數(shù)據(jù)時的線程號,生成所述待處理數(shù)據(jù)的數(shù)據(jù)標識。

進一步地,MD5值計算單元具體用于:

如果所述待處理數(shù)據(jù)中包含預設忽略數(shù)據(jù),則將所述待處理數(shù)據(jù)去除所述預設忽略數(shù)據(jù);

計算去除所述預設忽略數(shù)據(jù)后的待處理數(shù)據(jù)的MD5值,作為所述待處理數(shù)據(jù)的MD5值。

上述數(shù)據(jù)去重的裝置可執(zhí)行本發(fā)明任意實施例所提供的數(shù)據(jù)去重的方法,具備執(zhí)行數(shù)據(jù)去重的方法相應的功能模塊和有益效果。

注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝坻区| 鹿邑县| 龙游县| 山阳县| 云龙县| 襄汾县| 松江区| 保德县| 浮梁县| 桃江县| 宁陕县| 偃师市| 宁海县| 柏乡县| 凤庆县| 海盐县| 竹北市| 西乡县| 大丰市| 淳化县| 依兰县| 景德镇市| 汪清县| 深泽县| 金平| 平凉市| 阿荣旗| 延庆县| 大理市| 卢氏县| 忻州市| 西畴县| 交城县| 洪江市| 玉田县| 陈巴尔虎旗| 会昌县| 古丈县| 霍州市| 璧山县| 建宁县|