基于Hadoop MapReduce的數(shù)據(jù)連接方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于Hadoop MapReduce的數(shù)據(jù)連接方法及裝置。
【背景技術(shù)】
[0002]目前,大數(shù)據(jù)的組織與處理主要是經(jīng)由分布式文件處理系統(tǒng)來完成,主流的技術(shù)是Hadoop開源平臺(tái),它提供分布式文件處理系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)以及分布式計(jì)算框架MapReduce,分別作為大數(shù)據(jù)的存儲(chǔ)和處理的框架。Hadoop的MapReduce處理技術(shù)已被大數(shù)據(jù)業(yè)界廣泛接受,每天處理著各種各樣的海量數(shù)據(jù)。為提高Hadoop的處理效率和能力,很多開發(fā)者不斷對其進(jìn)行改進(jìn)。
[0003]在現(xiàn)有Hadoop MapReduce的數(shù)據(jù)連接(join)方法中,舉例來說,如圖1所示,需要將車輛??繑?shù)據(jù)A表和車輛靜態(tài)信息數(shù)據(jù)B表做join操作。由于A表是??繑?shù)據(jù),數(shù)據(jù)量大,且會(huì)動(dòng)態(tài)增加,而B表是車輛的靜態(tài)數(shù)據(jù),數(shù)據(jù)量少且固定。所以做連接操作的計(jì)算時(shí)將B表數(shù)據(jù)使用字典緩存在內(nèi)存中。使用時(shí)候,從字典中讀取。該操作會(huì)受到內(nèi)存大小的影響,因?yàn)殪o態(tài)數(shù)據(jù)量越大使用的內(nèi)存也就越大。當(dāng)可分配內(nèi)存小于數(shù)據(jù)存儲(chǔ)所需空間時(shí),該計(jì)算失敗。
[0004]鑒于此,如何減少HadoopMapReduce的數(shù)據(jù)連接(join)操作時(shí)內(nèi)存的使用,增加數(shù)據(jù)處理效率成為目前需要解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005]為解決上述的技術(shù)問題,本發(fā)明提供一種基于HadoopMapReduce的數(shù)據(jù)連接方法及裝置,能夠減少Hadoop MapReduce的數(shù)據(jù)連接(join)操作時(shí)內(nèi)存的使用,增加數(shù)據(jù)處理效率。
[0006]第一方面,本發(fā)明提供一種基于HadoopMapReduce的數(shù)據(jù)連接方法,包括:
[0007]在第一類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和時(shí)間信息,得到第一信息;
[0008]在第二類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和與所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)相同的多個(gè)0,得到第二信息;
[0009]將所述第一信息和所述第二信息作為MapReduce的關(guān)鍵詞key信息,根據(jù)MapReduce模型將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)進(jìn)行連接,并將所述第一信息和所述第二信息中的主鍵標(biāo)識(shí)信息作為分區(qū)parti t1n信息,計(jì)算將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)連接后得到的每條數(shù)據(jù)屬于哪個(gè)partit1n,并在每個(gè)partit1n中使用key信息進(jìn)行排序;
[0010]其中,所述第一類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息和時(shí)間信息;所述第二類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息。
[0011]可選地,所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息與所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息對應(yīng)為同一信息。
[0012]可選地,所述預(yù)設(shè)字符信息為逗號。
[0013]可選地,所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)為6,所述多個(gè)O為000000。
[0014]可選地,所述第一類數(shù)據(jù)為車輛??繑?shù)據(jù)表,所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第一類數(shù)據(jù)還包括:興趣點(diǎn)POI??縤d信息;
[0015]所述第二類數(shù)據(jù)為車輛靜態(tài)信息數(shù)據(jù)表,所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第二類數(shù)據(jù)還包括:車輛注冊時(shí)間信息。
[0016]第二方面,本發(fā)明提供一種基于HadoopMapReduce的數(shù)據(jù)連接join裝置,包括:
[0017]第一連接模塊,用于在第一類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和時(shí)間信息,得到第一信息;
[0018]第二連接模塊,用于在第二類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和與所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)相同的多個(gè)0,得到第二信息;
[0019]連接排序模塊,用于將所述第一信息和所述第二信息作為MapReduce的關(guān)鍵詞key信息,根據(jù)MapReduce模型將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)進(jìn)行連接,并將所述第一信息和所述第二信息中的主鍵標(biāo)識(shí)信息作為分區(qū)partit1n信息,計(jì)算將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)連接后得到的每條數(shù)據(jù)屬于哪個(gè)partit1n,并在每個(gè)partit1n中使用key信息進(jìn)彳丁排序;
[0020]其中,所述第一類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息和時(shí)間信息;所述第二類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息。
[0021]可選地,所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息與所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息對應(yīng)為同一信息。
[0022]可選地,所述預(yù)設(shè)字符信息為逗號。
[0023]可選地,所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)為6,所述多個(gè)O為000000。
[0024]可選地,所述第一類數(shù)據(jù)為車輛停靠數(shù)據(jù)表,所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第一類數(shù)據(jù)還包括:興趣點(diǎn)POI??縤d信息;
[0025]所述第二類數(shù)據(jù)為車輛靜態(tài)信息數(shù)據(jù)表,所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第二類數(shù)據(jù)還包括:車輛注冊時(shí)間信息。
[0026]由上述技術(shù)方案可知,本發(fā)明的基于HadoopMapReduce的數(shù)據(jù)連接方法及裝置,能夠減少Hadoop MapReduce的數(shù)據(jù)連接(join)操作時(shí)內(nèi)存的使用,增加數(shù)據(jù)處理效率。
【附圖說明】
[0027]圖1為一種連接數(shù)據(jù)及使用現(xiàn)有HadoopMapReduce的數(shù)據(jù)連接方法的連接結(jié)果的示意圖;
[0028]圖2為本發(fā)明一實(shí)施例提供的一種基于HadoopMapReduce的數(shù)據(jù)連接方法的流程示意圖;
[0029]圖3為使用圖2所示實(shí)施例所述基于HadoopMapReduce的數(shù)據(jù)連接方法對圖1所示的A表和B表的數(shù)據(jù)的連接過程的示意圖;
[°03°]圖4為本發(fā)明一實(shí)施例提供的一種基于Hadoop MapReduce的數(shù)據(jù)連接裝置的結(jié)構(gòu)示意圖;[0031 ]圖5為本發(fā)明實(shí)施例提供的Hadoop數(shù)據(jù)存儲(chǔ)樣式截圖。
【具體實(shí)施方式】
[0032]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他的實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0033]圖2示出了本發(fā)明一實(shí)施例提供的基于HadoopMapReduce的數(shù)據(jù)連接(join)方法的流程示意圖,如圖2所示,本實(shí)施例的基于Hadoop MapReduce的數(shù)據(jù)連接方法如下所述。
[0034]201、在第一類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和時(shí)間信息,得到第一信息。
[0035]202、在第二類數(shù)據(jù)中的主鍵標(biāo)識(shí)信息后面依次連接預(yù)設(shè)字符信息和與所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)相同的多個(gè)0,得到第二信息。
[0036]203、將所述第一信息和所述第二信息作為MapReduce的關(guān)鍵詞key信息,根據(jù)MapReduce模型將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)進(jìn)行連接,并將所述第一信息和所述第二信息中的主鍵標(biāo)識(shí)信息作為分區(qū)parti t1n信息,計(jì)算將第一類數(shù)據(jù)與第二類數(shù)據(jù)的數(shù)據(jù)連接后得到的每條數(shù)據(jù)屬于哪個(gè)partit1n,并在每個(gè)partit1n中使用key信息進(jìn)行排序。
[0037]其中,所述第一類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息和時(shí)間信息;所述第二類數(shù)據(jù)包括:主鍵標(biāo)識(shí)信息。
[0038]在具體應(yīng)用中,本實(shí)施例所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息與所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息對應(yīng)為同一信息。
[0039]在具體應(yīng)用中,本實(shí)施例所述主鍵標(biāo)識(shí)信息可以為主鍵標(biāo)識(shí)(identity,簡稱id)字段,所述預(yù)設(shè)字符信息可以為預(yù)設(shè)字符字段,所述時(shí)間信息可以為時(shí)間字段,所述分區(qū)partit1n信息可以為分區(qū)partit1n字段,所述關(guān)鍵詞key信息可以為關(guān)鍵詞key字段。
[0040]在具體應(yīng)用中,本實(shí)施例所述預(yù)設(shè)字符信息可優(yōu)選為逗號。
[0041]在具體應(yīng)用中,本實(shí)施例所述第一類數(shù)據(jù)中的時(shí)間信息的字符數(shù)可優(yōu)選為6,相應(yīng)地,所述多個(gè)O為000000。
[0042]可理解的是,本實(shí)施例中的partit1n是“區(qū)”的意思,就是數(shù)據(jù)要分區(qū)處理,一個(gè)區(qū)就是一個(gè)邏輯空間。Partit1n字段決定將數(shù)據(jù)分到哪個(gè)區(qū)處理,本實(shí)施例將所有數(shù)據(jù)按照partit1n信息分到不同的partit1n中,在每個(gè)partit1n中按照key信息進(jìn)行排序。
[0043]應(yīng)說明的是,Hadoop數(shù)據(jù)通常是以文本形式存儲(chǔ),如圖5所示,一行為一條記錄,中間以逗號分開,所以本實(shí)施例中的第一類數(shù)據(jù)和第二類數(shù)據(jù)也是以文本形式存儲(chǔ)。
[0044]本實(shí)施例的基于Hadoop MapReduce的數(shù)據(jù)連接(jo in)方法,能夠減少HadoopMapReduce的數(shù)據(jù)連接操作時(shí)內(nèi)存的使用,增加數(shù)據(jù)處理效率
[0045]舉例來說,圖1為一種連接join數(shù)據(jù)(A表和B表)及使用現(xiàn)有Hadoop MapReduce的數(shù)據(jù)連接方法的連接(join)操作結(jié)果(C表),可使用本實(shí)施例所述方法將A表和B表的數(shù)據(jù)進(jìn)行連接操作,即本實(shí)施例所述第一類數(shù)據(jù)為車輛??繑?shù)據(jù)表(即A表),所述第一類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第一類數(shù)據(jù)還包括:興趣點(diǎn)(Point of Interest,簡稱POI)??縤d字段;本實(shí)施例所述第二類數(shù)據(jù)為車輛靜態(tài)信息數(shù)據(jù)表(S卩B表),所述第二類數(shù)據(jù)的主鍵標(biāo)識(shí)信息為車輛id字段,所述第二類數(shù)據(jù)還包括:車輛注冊時(shí)間信息。
[0046]使用本實(shí)施例所述方法對A表和B表的數(shù)據(jù)的進(jìn)行連接(join),包括:
[0047]al、在A表中的“車輛id”字段后面依次連接“,”和“時(shí)間”字段,得到“車輛id,時(shí)間”字段;
[