一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)處理系統(tǒng),具體涉及一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)時(shí)代的高速發(fā)展,人們的生活發(fā)生了巨大的變化。人們會(huì)利用互聯(lián)網(wǎng)進(jìn)行工作、學(xué)習(xí)和生活,其中利用互聯(lián)網(wǎng)的便利尋找學(xué)習(xí)資料、工作資料、購(gòu)置生活用品的現(xiàn)象已經(jīng)非常普遍?,F(xiàn)代社會(huì)已經(jīng)進(jìn)入高科技時(shí)代,所有的辦公環(huán)境及溝通交流都是通過(guò)電子產(chǎn)品,數(shù)據(jù)的產(chǎn)生速度及共享速度也成指數(shù)增長(zhǎng),從而導(dǎo)致數(shù)據(jù)量的劇增。但由于數(shù)據(jù)的來(lái)源及類型變得復(fù)雜多樣性,數(shù)據(jù)量非常龐大,與傳統(tǒng)的數(shù)據(jù)有很大的區(qū)別。在傳統(tǒng)數(shù)據(jù)中,數(shù)據(jù)存儲(chǔ)、處理及分析的數(shù)據(jù)量相對(duì)較少,可以采用關(guān)系型數(shù)據(jù)庫(kù)和并行倉(cāng)庫(kù)處理,難以保證擴(kuò)展性。在海量數(shù)據(jù)存在的大數(shù)據(jù)時(shí)代,由于大數(shù)據(jù)處理大量的非結(jié)構(gòu)化數(shù)據(jù),因此,其存儲(chǔ)及處理與傳統(tǒng)數(shù)據(jù)有很大的區(qū)別,同時(shí)也帶來(lái)了極大的挑戰(zhàn)。為了滿足大數(shù)據(jù)存儲(chǔ)分析處理的需求,分布式采集數(shù)據(jù)、分布式存儲(chǔ)數(shù)據(jù)、分布式處理數(shù)據(jù)等技術(shù)是很好的解決方案。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是針對(duì)現(xiàn)有技術(shù)的不足,提供一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法。本方法采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,從而提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源。
[0004 ]本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法,采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。
[0005]海量數(shù)據(jù)收集模塊是通過(guò)數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集,通過(guò)定制數(shù)據(jù)的發(fā)送方,用于用戶收集數(shù)據(jù),然后寫到數(shù)據(jù)接受方,該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功會(huì)泛。
[0006]海量數(shù)據(jù)存儲(chǔ)模塊是通過(guò)分布式文件進(jìn)行存儲(chǔ),具有多副本的高可靠性,將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上,滿足海量數(shù)據(jù)存儲(chǔ)的需求。
[0007]海量數(shù)據(jù)處理模塊是通過(guò)分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分,然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理,滿足海量數(shù)據(jù)處理的效率。
[0008]本發(fā)明的一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法與現(xiàn)有技術(shù)相比,所產(chǎn)生的有益效果是,(1)通過(guò)海量數(shù)據(jù)聚合方式將海量數(shù)據(jù)進(jìn)行收集,便于傳輸需求;(2)提供分布式存儲(chǔ)海量數(shù)據(jù),充分利用存儲(chǔ)空間,保證數(shù)據(jù)的可靠性;(3)通過(guò)分布式計(jì)算框架提取數(shù)據(jù)進(jìn)行處理,體現(xiàn)了并行計(jì)算的特點(diǎn),大大提高了處理效率。
[0009]為了使得海量數(shù)據(jù)處理過(guò)程更加便捷、高效、安全,本文采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,實(shí)現(xiàn)了一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。從而提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源。
【附圖說(shuō)明】
[0010]附圖1 一種海量數(shù)據(jù)處理系統(tǒng)的框架圖;
附圖2海量數(shù)據(jù)收集模塊示意圖;
附圖3海量數(shù)據(jù)處理模塊流程圖。
【具體實(shí)施方式】
[0011 ]下面對(duì)本發(fā)明的一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法作以下詳細(xì)地說(shuō)明。
[0012]—種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法,采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。
[0013]海量數(shù)據(jù)收集模塊是通過(guò)數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集,通過(guò)定制數(shù)據(jù)的發(fā)送方,用于用戶收集數(shù)據(jù),然后寫到數(shù)據(jù)接受方,該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功會(huì)泛。
[0014]海量數(shù)據(jù)存儲(chǔ)模塊是通過(guò)分布式文件進(jìn)行存儲(chǔ),具有多副本的高可靠性,將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上,滿足海量數(shù)據(jù)存儲(chǔ)的需求。
[0015]海量數(shù)據(jù)處理模塊是通過(guò)分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分,然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理,滿足海量數(shù)據(jù)處理的效率。
實(shí)施例
[0016]下面參照附圖,對(duì)本發(fā)明的內(nèi)容以一個(gè)具體實(shí)例來(lái)描述一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)的過(guò)程。
[0017]正如
【發(fā)明內(nèi)容】
中所描述的,本發(fā)明中一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)包括三個(gè)模塊,分別是海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊和海量數(shù)據(jù)處理模塊。一種海量數(shù)據(jù)處理系統(tǒng)的框架圖如附圖1所示。
[0018]首先在三個(gè)節(jié)點(diǎn)的服務(wù)器上安裝操作系統(tǒng)Centos6.3,然后組件三個(gè)節(jié)點(diǎn)的集群環(huán)境。按照安裝的步驟搭建Hadoop平臺(tái),啟動(dòng)HDFS、MapReduce、HBase、Flume組件。為海量數(shù)據(jù)的處理進(jìn)行環(huán)境準(zhǔn)備。
[0019]海量數(shù)據(jù)收集模塊示意圖如附圖2所示,使用Flume將在不同agent端的數(shù)據(jù)進(jìn)行收集,然后通過(guò)配置文件制定到分布式數(shù)據(jù)存儲(chǔ)文件系統(tǒng)中,如HDFSADFS具有高可用性,可以根據(jù)需求進(jìn)行副本的設(shè)置。
[0020]海量數(shù)據(jù)處理模塊流程圖如附圖3所示,該模塊對(duì)于存儲(chǔ)在HDFS上的海量數(shù)據(jù)進(jìn)行處理。根據(jù)分布式計(jì)算編程框架MapRedcue處理HDFS上的文件,然后進(jìn)行分割,分別分配到每個(gè)節(jié)點(diǎn)上進(jìn)行子任務(wù)的執(zhí)行,最后匯聚結(jié)果。該模塊通過(guò)并行處理可以大大提高數(shù)據(jù)的處理效率,充分利用服務(wù)器的資源,滿足了海量數(shù)據(jù)處理的需求。
【主權(quán)項(xiàng)】
1.一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法,其特征在于采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CHJ及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊; 海量數(shù)據(jù)收集模塊是通過(guò)數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集,通過(guò)定制數(shù)據(jù)的發(fā)送方,用于用戶收集數(shù)據(jù),然后寫到數(shù)據(jù)接受方,該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功能;海量數(shù)據(jù)存儲(chǔ)模塊是通過(guò)分布式文件進(jìn)行存儲(chǔ),具有多副本的高可靠性,將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上,滿足海量數(shù)據(jù)存儲(chǔ)的需求; 海量數(shù)據(jù)處理模塊是通過(guò)分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分,然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理,滿足海量數(shù)據(jù)處理的效率。
【專利摘要】本發(fā)明提供一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法,采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。本發(fā)明的結(jié)構(gòu)設(shè)計(jì)主要考慮海量數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理的問(wèn)題。為了使得海量數(shù)據(jù)處理過(guò)程更加便捷、高效、安全,本文采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式,實(shí)現(xiàn)了一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。從而提高數(shù)據(jù)存儲(chǔ)、處理效率,節(jié)省CPU及網(wǎng)絡(luò)資源。
【IPC分類】G06F17/30
【公開號(hào)】CN105468756
【申請(qǐng)?zhí)枴緾N201510850498
【發(fā)明人】孫志云, 郭美思
【申請(qǐng)人】浪潮集團(tuán)有限公司
【公開日】2016年4月6日
【申請(qǐng)日】2015年11月30日