欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種海量數(shù)據(jù)處理方法和系統(tǒng)的制作方法

文檔序號:6427653閱讀:181來源:國知局
專利名稱:一種海量數(shù)據(jù)處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù),特別是涉及一種海量數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)用戶的數(shù)量急劇增長,因此,對于互聯(lián)網(wǎng)用戶數(shù)據(jù)的采集、清洗、統(tǒng)計(jì)、分析等數(shù)據(jù)處理的需求越來越多。同時,互聯(lián)網(wǎng)用戶數(shù)據(jù)的量級也在呈爆炸式的增長,從而導(dǎo)致上述數(shù)據(jù)處理的壓力進(jìn)一步增大。目前,在對互聯(lián)網(wǎng)用戶的海量數(shù)據(jù)進(jìn)行處理時,采用分布式平臺(Hadoop)技術(shù)與數(shù)據(jù)倉庫平臺(Hive)技術(shù)相結(jié)合的方法。在分布式平臺存儲海量數(shù)據(jù),通過控制臺命令調(diào)用數(shù)據(jù)倉庫操作語句(HQL)的計(jì)算命令對分布式平臺存儲的海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析等處理,該方法在命令調(diào)用時的靈活性差。

發(fā)明內(nèi)容
本發(fā)明提供了一種海量數(shù)據(jù)處理方法,采用該方法能夠增強(qiáng)海量數(shù)據(jù)處理的靈活性。本發(fā)明還提供了一種海量數(shù)據(jù)處理系統(tǒng),采用該系統(tǒng)能夠增強(qiáng)海量數(shù)據(jù)處理的靈活性。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的本發(fā)明公開了一種海量數(shù)據(jù)處理方法,包括調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序;調(diào)度模塊根據(jù)所述調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句;數(shù)據(jù)倉庫平臺從關(guān)系數(shù)據(jù)庫中讀取所述數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息;數(shù)據(jù)倉庫平臺根據(jù)所述調(diào)用順序觸發(fā)所述數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到所述分布式平臺。所述生成結(jié)果文件并存儲到所述分布式平臺之后,還包括調(diào)度模塊控制所述分布式平臺將所述結(jié)果數(shù)據(jù)導(dǎo)入所述關(guān)系數(shù)據(jù)庫;調(diào)度模塊控制緩存模塊根據(jù)預(yù)設(shè)的展現(xiàn)策略從所述關(guān)系數(shù)據(jù)庫中抽取常用的結(jié)果數(shù)據(jù);數(shù)據(jù)展現(xiàn)平臺從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果數(shù)據(jù)。所述數(shù)據(jù)展現(xiàn)平臺從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果文件之后,還包括數(shù)據(jù)展現(xiàn)平臺從所述關(guān)系數(shù)據(jù)庫中讀取并展現(xiàn)所述結(jié)果數(shù)據(jù)。所述調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句之前,還包括數(shù)據(jù)接入平臺向分布式平臺傳輸至少一次數(shù)據(jù);
當(dāng)每次傳輸完成時,數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息;所述調(diào)度模塊從所述消息接口模塊獲取至少一次所述數(shù)據(jù)傳輸完成消息,作為所述當(dāng)前業(yè)務(wù)信息。所述數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息包括所述數(shù)據(jù)接入平臺采用谷歌消息傳輸方案protoBuffer通訊方式向消息接口模塊發(fā)送所述數(shù)據(jù)傳輸完成消息。本發(fā)明公開了一種海量數(shù)據(jù)處理系統(tǒng),包括調(diào)度模塊,用于根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序,根據(jù)所述調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句;所述數(shù)據(jù)倉庫平臺,用于從關(guān)系數(shù)據(jù)庫中讀取所述數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息,根據(jù)所述調(diào)用順序觸發(fā)所述數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算, 生成結(jié)果數(shù)據(jù)并存儲到所述分布式平臺;所述關(guān)系數(shù)據(jù)庫,用于存儲所述數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息;分布式平臺,用于存儲所述數(shù)據(jù)和所述結(jié)果數(shù)據(jù)。所述調(diào)度模塊還用于控制所述分布式平臺將所述結(jié)果數(shù)據(jù)導(dǎo)入所述關(guān)系數(shù)據(jù)庫, 控制緩存模塊根據(jù)預(yù)設(shè)的展現(xiàn)策略從所述關(guān)系數(shù)據(jù)庫中抽取常用的結(jié)果數(shù)據(jù);所述系統(tǒng)還包括所述緩存模塊用于緩存所述常用的結(jié)果數(shù)據(jù);數(shù)據(jù)展現(xiàn)平臺,用于從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果數(shù)據(jù)。所述數(shù)據(jù)展現(xiàn)平臺還用于從所述關(guān)系數(shù)據(jù)庫中讀取并展現(xiàn)所述結(jié)果數(shù)據(jù)。所述系統(tǒng)還包括數(shù)據(jù)接入平臺,用于向分布式平臺傳輸至少一次數(shù)據(jù),當(dāng)每次傳輸完成時,向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息;所述消息接口模塊,用于接收所述數(shù)據(jù)傳輸完成消息;所述調(diào)度模塊,還用于從所述消息接口模塊獲取至少一次所述數(shù)據(jù)傳輸完成消息,作為所述當(dāng)前業(yè)務(wù)信息。所述數(shù)據(jù)接入平臺具體用于采用谷歌消息傳輸方案protoBuffer通訊方式向消息接口模塊發(fā)送所述數(shù)據(jù)傳輸完成消息。由上述發(fā)明內(nèi)容可見,在海量數(shù)據(jù)處理系統(tǒng)中加入調(diào)度模塊,該模塊根據(jù)當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略確定調(diào)用數(shù)據(jù)倉庫操作語句以及調(diào)用順序,在調(diào)度模塊的控制下完成數(shù)據(jù)處理過程,從而避免了現(xiàn)有的海量數(shù)據(jù)處理系統(tǒng)中通過控制臺逐次下發(fā)命令,因?yàn)橥ㄟ^調(diào)度模塊進(jìn)行控制,可以根據(jù)所需要實(shí)現(xiàn)的業(yè)務(wù)的邏輯,靈活配置相應(yīng)的調(diào)度策略和調(diào)用順序,從而增強(qiáng)了海量數(shù)據(jù)處理的靈活性。


圖1是本發(fā)明實(shí)施例一的海量數(shù)據(jù)處理方法的流程圖;圖2是本發(fā)明實(shí)施例二的海量數(shù)據(jù)處理方法的流程圖;圖3是本發(fā)明實(shí)施例三的海量數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。本發(fā)明的基本思想是,在海量數(shù)據(jù)處理系統(tǒng)中加入調(diào)度模塊,該模塊根據(jù)當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略確定調(diào)用數(shù)據(jù)倉庫操作語句以及調(diào)用順序,在調(diào)度模塊的控制下完成數(shù)據(jù)處理過程。圖1是本發(fā)明實(shí)施例一的海量數(shù)據(jù)處理方法的流程圖。如圖1所示,該方法至少包括如下過程。步驟101 調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序。步驟102 調(diào)度模塊根據(jù)調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句。步驟103 數(shù)據(jù)倉庫平臺從關(guān)系數(shù)據(jù)庫(mysql)中讀取數(shù)據(jù)倉庫操作語句對應(yīng)的
配置信息。步驟104 數(shù)據(jù)倉庫平臺根據(jù)調(diào)用順序觸發(fā)數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到分布式平臺。圖2是本發(fā)明實(shí)施例二的海量數(shù)據(jù)處理方法的流程圖。如圖2所示,該方法包括如下過程。步驟201 數(shù)據(jù)接入平臺向分布式平臺傳輸至少一次數(shù)據(jù)。在本步驟中,一種較佳的實(shí)施方式為,數(shù)據(jù)接入平臺定時將已接收的數(shù)據(jù)傳輸?shù)椒植际狡脚_里面。分布式平臺支持外圍系統(tǒng)的數(shù)據(jù)接收、整理、計(jì)算、分發(fā)計(jì)算結(jié)果到報表系統(tǒng)等功能。具體地,分布式平臺是國外開源基金會(Apache)下的一個數(shù)據(jù)存儲平臺,由分布式文件系統(tǒng)(HDFS)、分布式文件處理等成員組成。其中,分布式文件系統(tǒng)(HDR5)和分布式文件處理是兩個最基礎(chǔ)最重要的成員。分布式文件系統(tǒng)(HDFS)是谷歌分布文件系統(tǒng) (GFS)的開源版本,是一個高度容錯的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù)訪問, 適合存儲海量的大文件,例如PB級的超過64M的大文件,將大的文件拆分成N個小的文件分散到不同的機(jī)器上面,并且可以設(shè)置備份的數(shù)量,從而在某些機(jī)器出現(xiàn)問題時仍然可以正常工作。分布式文件處理是大規(guī)模數(shù)據(jù)計(jì)算的利器,例如TB級數(shù)據(jù),包括分布數(shù)據(jù)抽取 (Map)和分布數(shù)據(jù)處理(Reduce)模塊。分布數(shù)據(jù)抽取模塊負(fù)責(zé)將數(shù)據(jù)打散;分布數(shù)據(jù)處理模塊負(fù)責(zé)對數(shù)據(jù)進(jìn)行聚集。用戶只需要實(shí)現(xiàn)分布數(shù)據(jù)抽取和分布數(shù)據(jù)處理兩個接口,即可完成TB級數(shù)據(jù)的計(jì)算。分布式文件處理可以應(yīng)用于日志分析和數(shù)據(jù)挖掘等數(shù)據(jù)分析,還可應(yīng)用于科學(xué)數(shù)據(jù)計(jì)算,如圓周率PI的計(jì)算等。步驟202 當(dāng)每次傳輸完成時,數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息。在本步驟中,數(shù)據(jù)接入平臺每次向分布式平臺傳輸數(shù)據(jù)完成時,數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息,通過該消息將數(shù)據(jù)傳輸完成的信息同步到數(shù)據(jù)平臺的應(yīng)用系統(tǒng)。一種較佳的實(shí)施方式為,數(shù)據(jù)接入平臺采用谷歌的一種消息傳輸方案 (protoBuffer)通訊方式向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息。
步驟203 調(diào)度模塊從消息接口模塊獲取至少一次數(shù)據(jù)傳輸完成消息,作為當(dāng)前業(yè)務(wù)信息。在本步驟中,例如,數(shù)據(jù)接入平臺向分布式平臺傳輸了 3次數(shù)據(jù),相應(yīng)地,調(diào)度模塊從消息接口模塊獲取3次數(shù)據(jù)傳輸完成消息,調(diào)度模塊將3次獲取的數(shù)據(jù)傳輸完成消息作為當(dāng)前業(yè)務(wù)信息。步驟204 調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句。當(dāng)判斷為是時,執(zhí)行步驟205 ;當(dāng)判斷為是否,返回步驟201。在本步驟中,調(diào)度策略是預(yù)先設(shè)置在調(diào)度模塊中的。調(diào)度策略用于指示調(diào)用數(shù)據(jù)倉庫操作語句的觸發(fā)條件,如果當(dāng)前業(yè)務(wù)信息滿足調(diào)度策略規(guī)定的條件,則調(diào)度模塊判斷為調(diào)用數(shù)據(jù)倉庫操作語句,反之,如果當(dāng)前業(yè)務(wù)信息不滿足調(diào)度策略規(guī)定的條件,則調(diào)度模塊判斷為不調(diào)用數(shù)據(jù)倉庫操作語句。例如,數(shù)據(jù)接入平臺接收的數(shù)據(jù)包括多個方面的數(shù)據(jù), 數(shù)據(jù)分多次導(dǎo)入到分布式平臺里面,相應(yīng)地,調(diào)度模塊從消息接口模塊獲取多次數(shù)據(jù)傳輸完成消息,調(diào)度系統(tǒng)根據(jù)多次數(shù)據(jù)傳輸完成消息判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,根據(jù)調(diào)度策略,當(dāng)只接收到其中部分?jǐn)?shù)據(jù)傳輸完成消息時,不調(diào)用數(shù)據(jù)倉庫操作語句,只有當(dāng)上述多個方面的數(shù)據(jù)全部完整導(dǎo)入到分布式平臺之后,接收到全部的數(shù)據(jù)傳輸完成消息,調(diào)度模塊才判斷為開始調(diào)用數(shù)據(jù)倉庫操作語句,以進(jìn)行數(shù)據(jù)計(jì)算。步驟205 調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序。在本步驟中,由于數(shù)據(jù)計(jì)算包括很多步驟,有的步驟之間相互不存在邏輯聯(lián)系,而有的步驟之間必須要按照一定的順序執(zhí)行,因此,按照一定的調(diào)用順序調(diào)用數(shù)據(jù)倉庫操作語句執(zhí)行計(jì)算。該調(diào)用順序是預(yù)先設(shè)置在調(diào)度模塊中的。在調(diào)度模塊中可以預(yù)設(shè)多個調(diào)用順序,調(diào)度模塊可以根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略選擇相應(yīng)的調(diào)用順序。步驟206 調(diào)度模塊根據(jù)調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句。步驟207 數(shù)據(jù)倉庫平臺從關(guān)系數(shù)據(jù)庫中讀取數(shù)據(jù)倉庫操作語句對應(yīng)的配置信肩、ο在本步驟中,數(shù)據(jù)倉庫平臺是一個結(jié)構(gòu)化查詢語言(SQL)解析引擎,它用于將SQL 語句轉(zhuǎn)譯成分布數(shù)據(jù)抽取/分布數(shù)據(jù)處理,然后在分布式平臺中執(zhí)行,以達(dá)到快速開發(fā)的目的。數(shù)據(jù)倉庫平臺中存儲的表是分布式平臺的目錄,具體地,數(shù)據(jù)倉庫平臺默認(rèn)表存放路徑位于當(dāng)前工作目錄的數(shù)據(jù)倉庫目錄內(nèi),以表名做為文件夾分開,如果當(dāng)前工作存在分區(qū)表,則分區(qū)值是子文件夾,可以直接在其它的分布數(shù)據(jù)抽取/分布數(shù)據(jù)處理里直接應(yīng)用這部分?jǐn)?shù)據(jù)。數(shù)據(jù)倉庫平臺可以和關(guān)系數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)。將數(shù)據(jù)倉庫操作語句需要操作的文件或者目錄映射成表名信息存儲在關(guān)系數(shù)據(jù)庫中,并且將文件中的字段也映射成要操作的表的字段信息存儲在關(guān)系數(shù)據(jù)庫中,上述映射獲得的表名信息和字段信息作為該數(shù)據(jù)倉庫操作語句的配置信息。當(dāng)數(shù)據(jù)倉庫接收到調(diào)用數(shù)據(jù)倉庫操作語句進(jìn)行計(jì)算的命令時,會解析接收到的命令,并且從關(guān)系數(shù)據(jù)庫中讀取所調(diào)用的數(shù)據(jù)倉庫操作語句相關(guān)的配置信息, 根據(jù)該配置信息轉(zhuǎn)譯成分布數(shù)據(jù)抽取/分布數(shù)據(jù)處理程序進(jìn)行統(tǒng)計(jì)計(jì)算。步驟208 數(shù)據(jù)倉庫平臺根據(jù)調(diào)用順序觸發(fā)數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到分布式平臺。步驟209 調(diào)度模塊控制分布式平臺將結(jié)果數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫。在本步驟中,具體地,調(diào)用模塊采用導(dǎo)入算法從分布式平臺里面讀取數(shù)據(jù)倉庫計(jì)算生成的結(jié)果數(shù)據(jù),該結(jié)果數(shù)據(jù)可以以結(jié)果文件的形式存儲,然后調(diào)用模塊根據(jù)業(yè)務(wù)需求將上述結(jié)果數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫中的多個數(shù)據(jù)表中。步驟210 調(diào)度模塊控制緩存模塊根據(jù)預(yù)設(shè)的展現(xiàn)策略從關(guān)系數(shù)據(jù)庫中抽取常用的結(jié)果數(shù)據(jù)。在本步驟中,展現(xiàn)策略預(yù)先設(shè)置在調(diào)度模塊中,該展現(xiàn)策略用于指示展現(xiàn)平臺的常用數(shù)據(jù),調(diào)度模塊根據(jù)該展現(xiàn)策略,將關(guān)系數(shù)據(jù)庫中存儲的結(jié)果數(shù)據(jù)中屬于展現(xiàn)平臺的常用數(shù)據(jù)的結(jié)果數(shù)據(jù)抽取到緩存模塊中。具體地,緩存模塊可以采用內(nèi)存緩存(memcache) 技術(shù),是一個高性能的分布式的內(nèi)存對象緩存系統(tǒng),通過在內(nèi)存里維護(hù)一個統(tǒng)一的巨大的散列(Hash)表來存儲各種格式的數(shù)據(jù),包括圖像、視頻、文件以及數(shù)據(jù)庫檢索的結(jié)果等。緩存模塊是一種分布式的,也就是可以允許不同主機(jī)上的多個用戶同時訪問,從而不僅解決了共享內(nèi)存只能是單機(jī)的弊端,而且還減小了數(shù)據(jù)庫檢索的壓力,并且提高了訪問獲取數(shù)據(jù)的速度。步驟211 數(shù)據(jù)展現(xiàn)平臺從緩存模塊中讀取并展現(xiàn)常用的結(jié)果數(shù)據(jù)。在本步驟中,數(shù)據(jù)展現(xiàn)平臺對于自身常用的數(shù)據(jù),通過從緩存模塊中讀取結(jié)果數(shù)據(jù)來獲得,并在獲得后展現(xiàn)常用的結(jié)果數(shù)據(jù)。對于數(shù)據(jù)展現(xiàn)平臺不常用的數(shù)據(jù),因?yàn)闊o法從緩存模塊中讀取到,所以繼續(xù)執(zhí)行下述步驟212。步驟212 數(shù)據(jù)展現(xiàn)平臺從關(guān)系數(shù)據(jù)庫中讀取并展現(xiàn)結(jié)果數(shù)據(jù)。在本步驟中,數(shù)據(jù)展現(xiàn)平臺不常用的數(shù)據(jù),例如,需要動態(tài)變換以及查詢的數(shù)據(jù)等,數(shù)據(jù)展現(xiàn)平臺通過從關(guān)系數(shù)據(jù)庫中讀取結(jié)果數(shù)據(jù)來獲得,并在獲得后展現(xiàn)常用的結(jié)果數(shù)據(jù)。圖3是本發(fā)明實(shí)施例三的海量數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖。如圖3所示,該海量數(shù)據(jù)處理系統(tǒng)至少包括調(diào)度模塊31、數(shù)據(jù)倉庫平臺32、關(guān)系數(shù)據(jù)庫33和分布式平臺34。 在此基礎(chǔ)上,還可以包括數(shù)據(jù)接入平臺35、消息接口模塊36、緩存模塊37和數(shù)據(jù)展現(xiàn)平臺 38。上述消息接口模塊36與調(diào)度模塊31可以都位于應(yīng)用系統(tǒng)中。其中各個組成部分執(zhí)行的處理方式以及流程可以參見本發(fā)明實(shí)施例一和本發(fā)明實(shí)施例二的記載。其中,調(diào)度模塊31根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序,根據(jù)調(diào)用順序向數(shù)據(jù)倉庫平臺32調(diào)用數(shù)據(jù)倉庫操作語句。數(shù)據(jù)倉庫平臺32從關(guān)系數(shù)據(jù)庫33中讀取數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息,根據(jù)調(diào)用順序觸發(fā)數(shù)據(jù)倉庫操作語句對分布式平臺34存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到分布式平臺;34。關(guān)系數(shù)據(jù)庫33存儲數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息。分布式平臺34存儲上述數(shù)據(jù)和上述結(jié)果數(shù)據(jù)。在上述技術(shù)方案的基礎(chǔ)上,在上述系統(tǒng)中包括數(shù)據(jù)接入平臺35和消息接口模塊 36的情況下,數(shù)據(jù)接入平臺35向分布式平臺34傳輸至少一次數(shù)據(jù),當(dāng)每次傳輸完成時,向消息接口模塊36發(fā)送數(shù)據(jù)傳輸完成消息。消息接口模塊36接收數(shù)據(jù)傳輸完成消息。調(diào)度模塊31從消息接口模塊36獲取至少一次數(shù)據(jù)傳輸完成消息,作為當(dāng)前業(yè)務(wù)信息。具體地, 數(shù)據(jù)接入平臺35具體可以采用谷歌的一種消息傳輸方案,例如protoBuffer通訊方式向消息接口模塊36發(fā)送數(shù)據(jù)傳輸完成消息。其中,數(shù)據(jù)接入平臺35用于外圍系統(tǒng)的數(shù)據(jù)接入,支持實(shí)時接口接入。數(shù)據(jù)接入平臺35接收的數(shù)據(jù)按照規(guī)定的格式生成文本文件,例如txt 格式的文件。并且,數(shù)據(jù)接入平臺35定時將上述文本文件傳輸?shù)椒植际狡脚_34的HDFS文件系統(tǒng)里面。在上述技術(shù)方案的基礎(chǔ)上,在上述系統(tǒng)中包括緩存模塊37的情況下,調(diào)度模塊31 還控制分布式平臺;34將結(jié)果數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫33,控制緩存模塊37根據(jù)預(yù)設(shè)的展現(xiàn)策略從關(guān)系數(shù)據(jù)庫33中抽取常用的結(jié)果數(shù)據(jù)。緩存模塊37緩存常用的結(jié)果數(shù)據(jù)。數(shù)據(jù)展現(xiàn)平臺38將本數(shù)據(jù)處理系統(tǒng)最終整理的結(jié)果數(shù)據(jù)展現(xiàn)到界面。數(shù)據(jù)展現(xiàn)平臺38的數(shù)據(jù)來源包括以下兩種第一,從緩存模塊37中獲??;第二,從關(guān)系數(shù)據(jù)庫中獲取。具體地,數(shù)據(jù)展現(xiàn)平臺38從緩存模塊37中讀取并展現(xiàn)常用的結(jié)果數(shù)據(jù)。并且,數(shù)據(jù)展現(xiàn)平臺38還從關(guān)系數(shù)據(jù)庫33中讀取并展現(xiàn)結(jié)果數(shù)據(jù)。根據(jù)以上具體實(shí)施方式
可見,在海量數(shù)據(jù)處理系統(tǒng)中加入調(diào)度模塊,該模塊根據(jù)當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略確定調(diào)用數(shù)據(jù)倉庫操作語句以及調(diào)用順序,在調(diào)度模塊的控制下完成數(shù)據(jù)處理過程,從而避免了現(xiàn)有的海量數(shù)據(jù)處理系統(tǒng)中通過控制臺逐次下發(fā)命令,因?yàn)橥ㄟ^調(diào)度模塊進(jìn)行控制,可以根據(jù)所需要實(shí)現(xiàn)的業(yè)務(wù)的邏輯,靈活配置相應(yīng)的調(diào)度策略和調(diào)用順序,從而增強(qiáng)了海量數(shù)據(jù)處理的靈活性。并且,通過緩存模塊存儲常用的結(jié)果數(shù)據(jù),數(shù)據(jù)展現(xiàn)模塊優(yōu)先從緩存模塊中讀取結(jié)果數(shù)據(jù)并展現(xiàn),只有當(dāng)緩存模塊中未存儲所需的結(jié)果數(shù)據(jù)時,數(shù)據(jù)展現(xiàn)平臺才會從數(shù)據(jù)庫中讀取,從而通過增加緩存模塊減小了大量訪問給數(shù)據(jù)展現(xiàn)平臺造成的壓力。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種海量數(shù)據(jù)處理方法,其特征在于,包括調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序; 調(diào)度模塊根據(jù)所述調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句; 數(shù)據(jù)倉庫平臺從關(guān)系數(shù)據(jù)庫中讀取所述數(shù)據(jù)倉庫對應(yīng)的配置信息; 數(shù)據(jù)倉庫平臺根據(jù)所述調(diào)用順序觸發(fā)所述數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到所述分布式平臺。
2.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)處理方法,其特征在于,所述生成結(jié)果文件并存儲到所述分布式平臺之后,還包括調(diào)度模塊控制所述分布式平臺將所述結(jié)果數(shù)據(jù)導(dǎo)入所述關(guān)系數(shù)據(jù)庫;調(diào)度模塊控制緩存模塊根據(jù)預(yù)設(shè)的展現(xiàn)策略從所述關(guān)系數(shù)據(jù)庫中抽取常用的結(jié)果數(shù)據(jù);數(shù)據(jù)展現(xiàn)平臺從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的海量數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)展現(xiàn)平臺從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果文件之后,還包括數(shù)據(jù)展現(xiàn)平臺從所述關(guān)系數(shù)據(jù)庫中讀取并展現(xiàn)所述結(jié)果數(shù)據(jù)。
4.根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的海量數(shù)據(jù)處理方法,其特征在于,所述調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句之前,還包括數(shù)據(jù)接入平臺向分布式平臺傳輸至少一次數(shù)據(jù);當(dāng)每次傳輸完成時,數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息; 所述調(diào)度模塊從所述消息接口模塊獲取至少一次所述數(shù)據(jù)傳輸完成消息,作為所述當(dāng)前業(yè)務(wù)信息。
5.根據(jù)權(quán)利要求4所述的海量數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)接入平臺向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息包括所述數(shù)據(jù)接入平臺采用谷歌消息傳輸方案ProtoBuffer通訊方式向消息接口模塊發(fā)送所述數(shù)據(jù)傳輸完成消息。
6.一種海量數(shù)據(jù)處理系統(tǒng),其特征在于,包括調(diào)度模塊,用于根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句,當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序,根據(jù)所述調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用數(shù)據(jù)倉庫操作語句;所述數(shù)據(jù)倉庫平臺,用于從關(guān)系數(shù)據(jù)庫中讀取所述數(shù)據(jù)倉庫對應(yīng)的配置信息,根據(jù)所述調(diào)用順序觸發(fā)所述數(shù)據(jù)倉庫操作語句對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到所述分布式平臺;所述關(guān)系數(shù)據(jù)庫,用于存儲所述數(shù)據(jù)倉庫操作語句對應(yīng)的配置信息; 分布式平臺,用于存儲所述數(shù)據(jù)和所述結(jié)果數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的海量數(shù)據(jù)處理系統(tǒng),其特征在于,所述調(diào)度模塊還用于控制所述分布式平臺將所述結(jié)果數(shù)據(jù)導(dǎo)入所述關(guān)系數(shù)據(jù)庫,控制緩存模塊根據(jù)預(yù)設(shè)的展現(xiàn)策略從所述關(guān)系數(shù)據(jù)庫中抽取常用的結(jié)果數(shù)據(jù);所述系統(tǒng)還包括所述緩存模塊用于緩存所述常用的結(jié)果數(shù)據(jù);數(shù)據(jù)展現(xiàn)平臺,用于從所述緩存模塊中讀取并展現(xiàn)所述常用的結(jié)果數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的海量數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)展現(xiàn)平臺還用于從所述關(guān)系數(shù)據(jù)庫中讀取并展現(xiàn)所述結(jié)果數(shù)據(jù)。
9.根據(jù)權(quán)利要求6或8中任意一項(xiàng)所述的海量數(shù)據(jù)處理系統(tǒng),其特征在于,所述系統(tǒng)還包括數(shù)據(jù)接入平臺,用于向分布式平臺傳輸至少一次數(shù)據(jù),當(dāng)每次傳輸完成時,向消息接口模塊發(fā)送數(shù)據(jù)傳輸完成消息;所述消息接口模塊,用于接收所述數(shù)據(jù)傳輸完成消息;所述調(diào)度模塊,還用于從所述消息接口模塊獲取至少一次所述數(shù)據(jù)傳輸完成消息,作為所述當(dāng)前業(yè)務(wù)信息。
10.根據(jù)權(quán)利要求9所述的海量數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)接入平臺具體用于采用谷歌消息傳輸方案ProtoBuffer通訊方式向消息接口模塊發(fā)送所述數(shù)據(jù)傳輸完成消息。
全文摘要
本發(fā)明公開了一種海量數(shù)據(jù)處理方法,調(diào)度模塊根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略判斷是否調(diào)用數(shù)據(jù)倉庫操作語句(HQL),當(dāng)判斷為是時,根據(jù)獲取的當(dāng)前業(yè)務(wù)信息和預(yù)設(shè)的調(diào)度策略獲取調(diào)用順序,調(diào)度模塊根據(jù)調(diào)用順序向數(shù)據(jù)倉庫平臺調(diào)用HQL,數(shù)據(jù)倉庫平臺從關(guān)系數(shù)據(jù)庫中讀取數(shù)據(jù)倉庫對應(yīng)的配置信息,數(shù)據(jù)倉庫平臺根據(jù)調(diào)用順序觸發(fā)HQL對分布式平臺存儲的數(shù)據(jù)進(jìn)行運(yùn)算,生成結(jié)果數(shù)據(jù)并存儲到分布式平臺。本發(fā)明還公開了一種海量數(shù)據(jù)處理系統(tǒng)。采用本發(fā)明公開的海量數(shù)據(jù)處理方法和系統(tǒng),能夠增強(qiáng)海量數(shù)據(jù)處理的靈活性。
文檔編號G06F17/30GK102214236SQ20111018229
公開日2011年10月12日 申請日期2011年6月30日 優(yōu)先權(quán)日2011年6月30日
發(fā)明者祝博立 申請人:北京新媒傳信科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
阜新| 中方县| 双牌县| 绥化市| 洛隆县| 济南市| 沛县| 南涧| 上饶县| 探索| 西丰县| 越西县| 中西区| 稷山县| 西吉县| 林周县| 清水县| 达尔| 湘潭县| 屏南县| 昌都县| 海安县| 永胜县| 广水市| 沁水县| 宜章县| 祁连县| 洛宁县| 潞西市| 高碑店市| 年辖:市辖区| 旺苍县| 监利县| 临泉县| 锦州市| 东丽区| 巫山县| 白银市| 丹棱县| 马尔康县| 吉隆县|