欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法、裝置及系統(tǒng)的制作方法

文檔序號(hào):9453084閱讀:269來源:國知局
一種數(shù)據(jù)處理方法、裝置及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,全球已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,數(shù)據(jù)量呈現(xiàn)了爆炸性的增長,傳統(tǒng)的數(shù)據(jù)處理和存儲(chǔ)方式已經(jīng)不能滿足要求。例如石油探井檢測(cè)設(shè)備,每個(gè)檢測(cè)設(shè)備每隔幾秒會(huì)發(fā)送上千條數(shù)據(jù)記錄,而探井設(shè)備有很多,涉及到的數(shù)據(jù)量很大,每天要處理數(shù)億條記錄。
[0003]針對(duì)大數(shù)據(jù)的處理,HDFS(HadoopDistributed File System,hadoop 分布式文件系統(tǒng))具有較強(qiáng)的處理能力。HDFS具有高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用來部署在低廉的硬件上,它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
[0004]現(xiàn)有技術(shù)中,在處理海量數(shù)據(jù)時(shí),直接將接收到的海量數(shù)據(jù)傳輸?shù)狡胀ǖ臄?shù)據(jù)庫中,但是普通的數(shù)據(jù)庫處理能力較低,難以負(fù)載海量數(shù)據(jù)的處理。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供了一種數(shù)據(jù)處理方法、裝置及系統(tǒng),能夠提高處理海量的數(shù)據(jù)的效率。
[0006]第一方面,本發(fā)明提供了一種數(shù)據(jù)處理方法,該方法包括:
[0007]將接收到的數(shù)據(jù)緩存到內(nèi)存中;
[0008]將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中;
[0009]將所述創(chuàng)建的文件導(dǎo)入到Hadoop分布式文件系統(tǒng)HDFS中,以使數(shù)據(jù)倉庫能夠?qū)λ鯤DFS中的所述數(shù)據(jù)進(jìn)行處理。
[0010]進(jìn)一步地,在所述將接收到的數(shù)據(jù)緩存到內(nèi)存中之前,還包括:
[0011]開啟線程接收外部發(fā)來的數(shù)據(jù)。
[0012]進(jìn)一步地,所述將接收到的數(shù)據(jù)緩存到內(nèi)存中包括:
[0013]S1:用預(yù)先設(shè)置的全局的鎖給預(yù)先設(shè)置的全局變量加鎖;
[0014]S2:將接收到的數(shù)據(jù)存入到加鎖后的全局變量中;
[0015]S3:當(dāng)所述全局變量中存儲(chǔ)的數(shù)據(jù)達(dá)到預(yù)設(shè)值時(shí),創(chuàng)建所述文件;
[0016]S4:將所述全局變量中的數(shù)據(jù)賦給局部變量,并給所述全局變量解鎖,返回步驟SI。
[0017]進(jìn)一步地,所述將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中,包括:
[0018]將所述局部變量中的數(shù)據(jù)寫入到所述文件中。
[0019]進(jìn)一步地,所述文件的名稱是唯一的。
[0020]進(jìn)一步地,所述預(yù)設(shè)值為HDFS中的數(shù)據(jù)塊大小的整數(shù)倍。
[0021]進(jìn)一步地,將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中,具體為:
[0022]按照寫入規(guī)則將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中;
[0023]所述寫入規(guī)則為:
[0024]一條記錄為一行;
[0025]記錄中的字段以“,”或空格作為分隔符。
[0026]第二方面,本發(fā)明提供了一種數(shù)據(jù)處理裝置,該裝置包括:
[0027]緩存單元,用于將接收到的數(shù)據(jù)緩存到內(nèi)存中;
[0028]數(shù)據(jù)寫入單元,用于將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中;
[0029]文件導(dǎo)入單元,用于將所述創(chuàng)建的文件導(dǎo)入到Hadoop分布式文件系統(tǒng)HDFS中,以使數(shù)據(jù)倉庫能夠?qū)λ鯤DFS中的所述數(shù)據(jù)進(jìn)行處理。
[0030]第三方面,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括:
[0031]第二方面所述的數(shù)據(jù)處理裝置;
[0032]Hadoop分布式文件系統(tǒng)HDFS,用于接收并存儲(chǔ)所述文件導(dǎo)入單元發(fā)來的所述文件,并通知數(shù)據(jù)倉庫;
[0033]數(shù)據(jù)倉庫,用于對(duì)所述HDFS中的所述數(shù)據(jù)進(jìn)行處理。
[0034]通過本發(fā)明提供的一種數(shù)據(jù)處理方法、裝置及系統(tǒng),將接收到的數(shù)據(jù)寫入到文件中,將寫入數(shù)據(jù)的文件導(dǎo)入到HDFS中,進(jìn)一步使數(shù)據(jù)倉庫對(duì)HDFS中的所述數(shù)據(jù)進(jìn)行處理,能夠提高處理海量的數(shù)據(jù)的效率。
【附圖說明】
[0035]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0036]圖1是本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)處理方法流程圖;
[0037]圖2是本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖;
[0038]圖3是本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0039]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0040]Hadoop是一種分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。HDFS是在Hadoop基礎(chǔ)上實(shí)現(xiàn)的分布式文件系統(tǒng),HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,而且它提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序,可以實(shí)現(xiàn)流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。為了解決海量數(shù)據(jù)的處理問題,本發(fā)明實(shí)施例提出了一種基于HDFS的數(shù)據(jù)處理方法,參見圖1,該方法包括:
[0041]步驟101:將接收到的數(shù)據(jù)緩存到內(nèi)存中;
[0042]步驟102:將所述內(nèi)存中緩存的數(shù)據(jù)寫入創(chuàng)建的文件中;
[0043]步驟103:將所述創(chuàng)建的文件導(dǎo)入到HDFS中,以使數(shù)據(jù)倉庫能夠?qū)λ鯤DFS中的所述數(shù)據(jù)進(jìn)行處理。
[0044]通過本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法,將接收到的數(shù)據(jù)寫入到文件中,將寫入數(shù)據(jù)的文件導(dǎo)入到HDFS中,進(jìn)一步使數(shù)據(jù)倉庫對(duì)HDFS中的所述數(shù)據(jù)進(jìn)行處理,能夠提高處理海量的數(shù)據(jù)的效率。
[0045]其中,本發(fā)明實(shí)施例中的數(shù)據(jù)為實(shí)時(shí)流式數(shù)據(jù)。
[0046]其中,數(shù)據(jù)倉庫是為企業(yè)所有級(jí)別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持的目的而創(chuàng)建。為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時(shí)間、成本、質(zhì)量和控制。數(shù)據(jù)倉庫對(duì)數(shù)據(jù)分析和查詢的效率高,適合海量數(shù)據(jù)的處理。本發(fā)明實(shí)施例中的數(shù)據(jù)倉庫可以是hive、impala等數(shù)據(jù)倉庫工具。在將所述文件導(dǎo)入到HDFS中后,更新數(shù)據(jù)庫,將HDFS中存儲(chǔ)的數(shù)據(jù)的相關(guān)信息通知給數(shù)據(jù)倉庫,數(shù)據(jù)倉庫能夠?qū)DFS中存儲(chǔ)的數(shù)據(jù)進(jìn)行查詢、分析等處理。
[0047]為了接收外部發(fā)來的數(shù)據(jù),在所述步驟101之前,還包括:開啟線程接收外部發(fā)來的數(shù)據(jù)。外部發(fā)送數(shù)據(jù)的設(shè)備可以是用來發(fā)送數(shù)據(jù)的客戶端,例如石油探測(cè)頭等。在開啟線程接收外部發(fā)來的數(shù)據(jù)后,要定時(shí)查看線程量是否足夠處理當(dāng)前的任務(wù),如果線程不夠,則及時(shí)開啟新的線程接收數(shù)據(jù)。當(dāng)一個(gè)線程接收完數(shù)據(jù)后,將該線程關(guān)閉。
[0048]將接收到的數(shù)據(jù)緩存到內(nèi)存中,當(dāng)內(nèi)存中有數(shù)據(jù)時(shí)就將其中的數(shù)據(jù)寫入到創(chuàng)建的文件中,將數(shù)據(jù)寫入到文件中在導(dǎo)入到HDFS中能夠加快數(shù)據(jù)處理的速度,能夠高效的處理海量的數(shù)據(jù)。當(dāng)前的文件導(dǎo)入HDFS時(shí),創(chuàng)建新的文件以使數(shù)據(jù)能夠及時(shí)的寫入到文件中加快數(shù)據(jù)處理的速度。接收到的數(shù)據(jù)最終是要供用戶查詢和分析的,因此在將文件導(dǎo)入到HDFS后,還要使HDFS將所述文件中的數(shù)據(jù)的信息通知數(shù)據(jù)倉庫,方便用戶通過數(shù)據(jù)倉庫對(duì)數(shù)據(jù)的進(jìn)行處理。
[0049]為了方便HDFS對(duì)所述文件進(jìn)行存儲(chǔ),優(yōu)選地,所述預(yù)設(shè)值為HDFS中的數(shù)據(jù)塊大小的整數(shù)倍。例如:如果HDFS中的數(shù)據(jù)庫大小為64M,則預(yù)設(shè)值可以選擇為64M或128M等。
[0050]步驟101具體可以通過以下方式實(shí)現(xiàn):
[0051]S1:用預(yù)先設(shè)置的全局的鎖給預(yù)先設(shè)置的全局變量
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
朝阳县| 思南县| 临邑县| 崇礼县| 曲周县| 蓬莱市| 汾阳市| 漳州市| 九台市| 鄂尔多斯市| 连云港市| 清流县| 蕉岭县| 堆龙德庆县| 阳西县| 阿巴嘎旗| 原阳县| 辉县市| 新津县| 喀喇沁旗| 突泉县| 武平县| 扶风县| 安泽县| 桐梓县| 秀山| 百色市| 罗平县| 栾川县| 临海市| 三台县| 兰考县| 叶城县| 澄迈县| 察雅县| 张家港市| 九寨沟县| 富锦市| 仪征市| 邢台市| 买车|