欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于語義的海量數(shù)據(jù)處理方法與流程

文檔序號:11807150閱讀:326來源:國知局
一種基于語義的海量數(shù)據(jù)處理方法與流程
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于語義的海量數(shù)據(jù)處理方法。

背景技術(shù):
隨著Web2.0技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)絡(luò)經(jīng)歷了從信息(網(wǎng)頁)與信息(網(wǎng)頁)互連的WWW階段、物與物互連的物聯(lián)網(wǎng)時代、人與人互連的社會網(wǎng)絡(luò)時代及其人與物與所有信息相融合的綜合互連時代。人在互聯(lián)網(wǎng)中產(chǎn)生的信息(BBS,評論,社交網(wǎng)絡(luò),微博等),尤其是機器(傳感器及其各類處理器生成的分析數(shù)據(jù)等等)時時刻刻都在不斷產(chǎn)生新的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司IDC2011年發(fā)布的DigitalUniverseStudy,全球信息總量每過兩年,就會增長一倍。僅在2011年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB(1.8萬億GB)。相較2010年同期上漲超過1ZB,到2020年這一數(shù)值將增長到35ZB。大數(shù)據(jù)已經(jīng)成為當今信息處理最為關(guān)鍵的問題之一。隨著互聯(lián)網(wǎng)的飛速發(fā)展,云計算與物聯(lián)網(wǎng)技術(shù)得到了飛速發(fā)展。海量數(shù)據(jù),在國外一般又稱為大數(shù)據(jù)(BigData)。IBM把海量數(shù)據(jù)概括成了三個V,即Volume(數(shù)據(jù)規(guī)模巨大)、Variety(數(shù)據(jù)類型及其來源廣泛多樣)和Velocity(快速化)。2011年2月11日美國出版的《科學》(Science)期刊專門出版了一期數(shù)據(jù)處理(DealingwithData)的專輯,其主題是圍繞目前科學研究數(shù)據(jù)的海量增加展開討論,說明海量數(shù)據(jù)對科學研究的重要性。隨后的2011年9月4日,《自然》(Nature)也就海量數(shù)據(jù)處理設(shè)立了一個專門的專題,討論分析了現(xiàn)代科學研究面臨的一個巨大挑戰(zhàn)就是如何處理已有的海量數(shù)據(jù)。云計算與物聯(lián)網(wǎng)環(huán)境下海量數(shù)據(jù)的處理是一個極為復雜的問題。如何讓上億條數(shù)據(jù)查詢計劃能夠在幾秒內(nèi)完成,如何能夠快速定位到用戶所需的數(shù)據(jù)塊的位置,這些均給數(shù)據(jù)的處理提出了巨大的挑戰(zhàn)。由于云計算與物聯(lián)網(wǎng)的飛速發(fā)展,越來越多的云應(yīng)用需要處理和管理海量的數(shù)據(jù)。用戶對于海量文件的查詢處理速度的需求等越來越高,從而如何處理這些海量數(shù)據(jù)將成為其中重要的一個環(huán)節(jié)。為了實現(xiàn)較好地處理這些云應(yīng)用的海量數(shù)據(jù),需要研究一種基于語 義的海量數(shù)據(jù)處理方法,為海量數(shù)據(jù)的處理計算提供較好的處理效率。

技術(shù)實現(xiàn)要素:
為了克服現(xiàn)有技術(shù)在處理海量數(shù)據(jù)能力上的不足,本發(fā)明的目的在于提供一種基于語義的海量數(shù)據(jù)處理方法,可以提高云環(huán)境海量數(shù)據(jù)的處理效率,從而更好地服務(wù)于人類需求。為實現(xiàn)以上目的,本發(fā)明采取以下的技術(shù)方案:一種基于語義的海量數(shù)據(jù)處理方法,其包括以下步驟:A、對不同的云應(yīng)用,分別將所述云應(yīng)用中的所有的海量數(shù)據(jù)進行語義處理,形成智能分布式的語義索引機制;B、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照所述語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中,以使具有語義關(guān)聯(lián)的數(shù)據(jù)存儲緊密;C、對存儲于云存儲系統(tǒng)中的云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算。云應(yīng)用,包括所有的云環(huán)境下的應(yīng)用,如社交網(wǎng)絡(luò)、電信應(yīng)用、證券應(yīng)用等等。所述步驟B包括以下步驟:B1、按照所述語義索引機制獲得子云應(yīng)用;B2、對所述子云應(yīng)用的元數(shù)據(jù)分配到元數(shù)據(jù)服務(wù)器,其具體包括以下情況:B21、若子云應(yīng)用的數(shù)量小于元數(shù)據(jù)服務(wù)器的數(shù)量,則每個子云應(yīng)用的元數(shù)據(jù)均分配一個元數(shù)據(jù)服務(wù)器;B22、若子云應(yīng)用的數(shù)量等于元數(shù)據(jù)服務(wù)器的數(shù)量,則每個子云應(yīng)用的元數(shù)據(jù)均分配一個元數(shù)據(jù)服務(wù)器;B23、若子云應(yīng)用的數(shù)量大于元數(shù)據(jù)服務(wù)器的數(shù)量,則按照以下步驟執(zhí)行元數(shù)據(jù)庫服務(wù)器的分配:B231、給每個元數(shù)據(jù)服務(wù)器均先分配一個子云應(yīng)用的元數(shù)據(jù);B232、剩余的子云應(yīng)用的元數(shù)據(jù)繼續(xù)按照一個子云應(yīng)用的元數(shù)據(jù)對應(yīng)分配給一個元數(shù)據(jù)服務(wù)器的方式進行分配,分配過程中,須使每個元數(shù)據(jù)服務(wù)器的元數(shù)據(jù)之和均衡;B233、重復步驟B232,直到將所有的子云應(yīng)用的元數(shù)據(jù)分配完成;B3、將子云應(yīng)用的數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群,其具體包括以下步驟:B31、計算每個子云應(yīng)用的負載,并將所有的子云應(yīng)用的負載求和獲取負載和,根據(jù)所述數(shù)據(jù)存儲節(jié)點集群的具體數(shù)量計算出每臺數(shù)據(jù)存儲節(jié)點的平均存儲負載;B32、列出子云應(yīng)用中所有負載位于平均存儲負載閾值范圍內(nèi)的所有子云應(yīng)用,并將這些滿足條件的子云應(yīng)用的數(shù)據(jù)分配到一臺數(shù)據(jù)存儲節(jié)點中;B33、計算子云應(yīng)用的負載之和位于平均存儲負載閾值范圍內(nèi)的所有子云應(yīng)用,并將這些滿足條件的子云應(yīng)用的數(shù)據(jù)分配到一臺數(shù)據(jù)存儲節(jié)點中;B34、將子云應(yīng)用的負載大于平均存儲負載閾值的所有子云應(yīng)用進行分割,分割后的負載盡量均位于平均存儲負載閾值的范圍內(nèi),并將分割后的子云應(yīng)用所對應(yīng)的所有數(shù)據(jù)分配至不同的數(shù)據(jù)存儲節(jié)點;B35、重復步驟B31-B34,直到所有的子云應(yīng)用的數(shù)據(jù)分配完成。所述平均存儲負載閾值為[90%平均存儲負載,110%平均存儲負載]。所述子云應(yīng)用為將一社區(qū)網(wǎng)絡(luò)按照社會網(wǎng)絡(luò)算法得到的子社區(qū),其中,所述社區(qū)網(wǎng)絡(luò)為各種基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用的文件通過一個聚類或者社會網(wǎng)絡(luò)算法得到的。所述社會網(wǎng)絡(luò)算法為聚類算法。所述子云應(yīng)用為將本體網(wǎng)絡(luò)或標記網(wǎng)絡(luò)進行分割,讓有聯(lián)系的元數(shù)據(jù)文件集中在一起,同時對該有聯(lián)系的元數(shù)據(jù)文件進行相應(yīng)的聚合而形成的相應(yīng)的語義聚合對,其中,所述本體網(wǎng)絡(luò)或標記網(wǎng)絡(luò)為根據(jù)各種語義算法對各種來自分類的密集型應(yīng)用的文件進行語義計算得到的。海量數(shù)據(jù),包括所有的云環(huán)境下的應(yīng)用所涉及到的各種海量數(shù)據(jù),如社交網(wǎng)絡(luò)的記錄、電信應(yīng)用的電話通信記錄及其證券應(yīng)用中的證券交易記錄等等。同時,海量數(shù)據(jù),既包括海量大文件也包括海量小文件,既包括海量結(jié)構(gòu)化數(shù)據(jù),也包括海量半結(jié)構(gòu)化數(shù)據(jù)及其海量非結(jié)構(gòu)化數(shù)據(jù)。所述云存儲系統(tǒng)包括用來存儲海量非結(jié)構(gòu)化數(shù)據(jù)的云文件系統(tǒng)、以及用于存儲海量結(jié)構(gòu)化數(shù)據(jù)和海量半結(jié)構(gòu)化數(shù)據(jù)的云數(shù)據(jù)庫系統(tǒng)。所述云文件系統(tǒng)包括單一Master節(jié)點的云文件系統(tǒng),以及大于一個Master節(jié)點的Master集群的云文件系統(tǒng)。所述云數(shù)據(jù)庫系統(tǒng)包括單一Master節(jié)點的云數(shù)據(jù)庫系統(tǒng),以及大于一個Master節(jié)點的Master集群的云數(shù)據(jù)庫系統(tǒng)。MapReduce,它是一種現(xiàn)有的處理海量數(shù)據(jù)的編程模型。只要能夠?qū)崿F(xiàn)較好的存儲,則那些關(guān)系緊密的數(shù)據(jù)會存儲在同一臺機器上,會大大減少MapReduce的遷移時間,從而提高MapReduce的執(zhí)行效率。本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點:本發(fā)明針對不同的云應(yīng)用,分別將它們的所有海量數(shù)據(jù)進行一個語義處理,形成一種智能的分布式語義索引機制,同時云中的所有的元數(shù)據(jù)和數(shù)據(jù)將按照該語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)(如分布式文件系統(tǒng)或者云數(shù)據(jù)庫系統(tǒng))。按照這種基于語義的海量數(shù)據(jù)存儲方法,將會使得那些具有語義關(guān)聯(lián)比較高的數(shù)據(jù)存儲的比較緊密,當各種云應(yīng)用需要執(zhí)行對海量數(shù)據(jù)的MapReduce計算時,會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù),從而減少數(shù)據(jù)遷移的時間消耗,將會較好地提高海量數(shù)據(jù)的處理效率。附圖說明圖1是本發(fā)明基于語義的海量數(shù)據(jù)處理方法的流程示意圖;圖2為本發(fā)明基于語義的海量數(shù)據(jù)處理方法的體系框架圖;圖3為本發(fā)明基于語義的智能存儲機制框圖;圖4為本發(fā)明基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制框圖;圖5為本發(fā)明基于分類的數(shù)據(jù)密集型應(yīng)用的大小文件語義處理機制框圖。具體實施方式下面結(jié)合附圖和具體實施方式對本發(fā)明的內(nèi)容做進一步詳細說明。圖2展示了基于語義的海量數(shù)據(jù)處理方法的基本框架。它主要包含如下幾個部分:云應(yīng)用21、海量數(shù)據(jù)22、基于語義的智能存儲機制23、云存儲系統(tǒng)24及其MapReduce25。云應(yīng)用21是指云環(huán)境下的各種數(shù)據(jù)密集型或計算密集型的應(yīng)用,包括所有的云環(huán)境下的應(yīng)用,如社交網(wǎng)絡(luò)、電信應(yīng)用、證券應(yīng)用等等。海量數(shù)據(jù)22,它是指各種云應(yīng)用所產(chǎn)生的各種海量的TB級甚至PB級別的數(shù)據(jù)。海量數(shù)據(jù)22包括所有的云環(huán)境下的應(yīng)用所涉及到的各種海量數(shù)據(jù),如社交網(wǎng)絡(luò)的記錄、電信應(yīng)用的電話通信記錄及其證券應(yīng)用中的證券交易記錄等等。同時,海量數(shù)據(jù),既包括海量大文件也包括海量小文件,既包括海量結(jié)構(gòu)化數(shù) 據(jù),也包括海量半結(jié)構(gòu)化數(shù)據(jù)及其海量非結(jié)構(gòu)化數(shù)據(jù)?;谡Z義的智能存儲機制23,它是一種用來決定海量數(shù)據(jù)及其相關(guān)的元數(shù)據(jù)存儲位置的一種智能機制。詳細的分析請見對圖3的說明。云存儲系統(tǒng)24,它主要包括用來存儲非結(jié)構(gòu)化數(shù)據(jù)的云文件系統(tǒng)和用于存儲結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)的云數(shù)據(jù)庫系統(tǒng),其中云文件系統(tǒng)既包括單一Master節(jié)點的云文件系統(tǒng),也包括大于一個Master節(jié)點的Master集群的云文件系統(tǒng)。云數(shù)據(jù)庫系統(tǒng)既包括單一Master節(jié)點的云數(shù)據(jù)庫系統(tǒng),也包括大于一個Master節(jié)點的Master集群的云數(shù)據(jù)庫系統(tǒng)。MapReduce25,它是一種現(xiàn)有的處理海量數(shù)據(jù)的編程模型。只要能夠?qū)崿F(xiàn)較好的存儲,則那些關(guān)系緊密的數(shù)據(jù)會存儲在同一臺機器上,會大大減少MapReduce的遷移時間,從而提高MapReduce的執(zhí)行效率圖3展示了基于語義的智能處理的總體框架?;谡Z義的智能處理的總體框架包括:數(shù)據(jù)密集型應(yīng)用的判斷31、各種數(shù)據(jù)密集型應(yīng)用的海量數(shù)據(jù)32、基于社會網(wǎng)絡(luò)的應(yīng)用元數(shù)據(jù)存儲節(jié)點集群分配33、基于分類的(本體分類或者標記分類等)應(yīng)用元數(shù)據(jù)存儲節(jié)點集群分配34、基于社會網(wǎng)絡(luò)的應(yīng)用數(shù)據(jù)存儲節(jié)點集群分配35、基于分類的(本體分類或者標記分類等)應(yīng)用數(shù)據(jù)存儲節(jié)點集群分配36。根據(jù)云環(huán)境下數(shù)據(jù)密集型應(yīng)用(包括存儲密集型應(yīng)用和計算密集型應(yīng)用),我們總結(jié)了二種數(shù)據(jù)密集型應(yīng)用,分別為基于社會網(wǎng)絡(luò)的應(yīng)用和基于分類的(本體分類或者標記分類)的數(shù)據(jù)密集型應(yīng)用。1)首先使用數(shù)據(jù)密集型應(yīng)用的判斷方法對來自云環(huán)境的各種海量數(shù)據(jù)進行一個判斷,然后將它們進行歸類。在圖3中我們展示了其中的兩類:基于社會網(wǎng)絡(luò)的應(yīng)用和基于分類的(本體分類或者標記分類)的應(yīng)用。2)對于那些社會網(wǎng)絡(luò)的應(yīng)用如(Twitter,F(xiàn)aceBook,人人網(wǎng),騰訊微博及其新浪微博等)這種應(yīng)用,則按照基于社會網(wǎng)絡(luò)應(yīng)用的元數(shù)據(jù)存儲節(jié)點集群分配進行元數(shù)據(jù)分配,同時進行其對應(yīng)的按照基于社會網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲節(jié)點集群分配進行數(shù)據(jù)分配。具體實施方式見圖4所示。3)對于那些分類的應(yīng)用如(本體關(guān)聯(lián)比較大的應(yīng)用等)這種應(yīng)用,則按照基于分類的應(yīng)用的元數(shù)據(jù)存儲節(jié)點集群分配進行元數(shù)據(jù)分配,同時進行其對應(yīng)的按照基于分類的應(yīng)用的數(shù)據(jù)存儲節(jié)點集群分配進行數(shù)據(jù)分配。具體實施方式 見圖5所示。實施例一基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制。具體的基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制,請參閱圖1和圖4。對于社會網(wǎng)絡(luò)的各種應(yīng)用系統(tǒng)(Twitter,F(xiàn)aceBook,人人網(wǎng),騰訊微博及其新浪微博等)非常適合這種存儲方法。首先使用目前所有的各種社會網(wǎng)絡(luò)算法(如:聚類算法就是其中的一種),對各種來自社會網(wǎng)絡(luò)應(yīng)用的文件進行一個聚類或者社會網(wǎng)絡(luò)算法的其他操作。通過計算后得到一個巨大的社區(qū)網(wǎng)絡(luò)。S11、按照社會網(wǎng)絡(luò)的算法,將該巨大的社區(qū)網(wǎng)絡(luò)進行語義處理,形成智能分布式的語義索引機制。S12、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中,具體是:1)根據(jù)語義索引機制得到該巨大的社區(qū)網(wǎng)絡(luò)的子社區(qū)。圖4顯示了某個社會網(wǎng)絡(luò)社區(qū)總共有5個子社區(qū)(或稱之為圈子)。其中有些節(jié)點(圖中的連接子社區(qū)之間的節(jié)點)是非常關(guān)鍵的節(jié)點,又稱為結(jié)構(gòu)洞。2)按照子社區(qū),將元數(shù)據(jù)分配到元數(shù)據(jù)服務(wù)器集群中。其分配原則為:若子社區(qū)數(shù)量小于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況并不多見。若子社區(qū)數(shù)量等于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況也并不多見。若子社區(qū)數(shù)量大于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則按照如下步驟執(zhí)行分配:■步驟一:首先給每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。■步驟二:剩余的子社區(qū)繼續(xù)按照每個子社區(qū)分配一個元數(shù)據(jù)服務(wù)器的方式進行分配。但是在分配過程中盡量保持每個子社區(qū)的元數(shù)據(jù)的負載均衡。例如:假設(shè)某個元數(shù)據(jù)服務(wù)器A在已經(jīng)分配的子社區(qū)的元數(shù)據(jù)量很小,在后面的分配中,則給其分配一個元數(shù)據(jù)量相對比較大的子社區(qū)的元數(shù)據(jù)?!霾襟E三:重復步驟二,直到將所有的子社區(qū)的元數(shù)據(jù)分配完成。子社區(qū)的元數(shù)據(jù)的分配不進行分割,只能分配在一臺元數(shù)據(jù)服務(wù)器上。也就是說不將一個子社區(qū)的元數(shù)據(jù)分配給兩臺或者兩臺以上的元數(shù)據(jù)服務(wù)器上,主要原因是一個子社區(qū)的元數(shù)據(jù)放在同一元數(shù)據(jù)服務(wù)器會減少元數(shù)據(jù)維護時間,同時由于采用元數(shù)據(jù)集群的方式,元數(shù)據(jù)服務(wù)器的承載是在可接受的范圍內(nèi)的。圖4所示的子社區(qū)1和子社區(qū)3的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器1;子社區(qū)2和子社區(qū)4的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器2;子社區(qū)5的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器3.3)按照子社區(qū),將數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群中(注意:這里只考慮主副本的分配,其他的副本隨機即可)。它的分配原則和元數(shù)據(jù)的分配原則不同,它主要考慮負載均衡的問題,其分配方法可以按照如下步驟進行:步驟一:計算每個子社區(qū)的負載(即數(shù)據(jù)量),計算所有子社區(qū)的負載總和,計算每臺數(shù)據(jù)存儲節(jié)點的理想的平均存儲負載。步驟二:計算出社區(qū)負載接近平均存儲負載(假設(shè)閾值為:[90%平均存儲負載,110%平均存儲負載])的所有子社區(qū),將滿足這些條件的所有子社區(qū)分配給一臺數(shù)據(jù)存儲節(jié)點。步驟三:計算出那些小的子社區(qū),并計算出那些子社區(qū)的負載之和接近平均存儲負載(假設(shè)閾值為:[90%平均存儲負載,110%平均存儲負載])的所有子社區(qū),將這些滿足條件的子社區(qū)的組合分配給一臺數(shù)據(jù)存儲節(jié)點。步驟四:將那些大的子社區(qū)按照負載進行分割,例如某個大的子社區(qū)的負載等于6個平均存儲負載,則將該大的子社區(qū)的所有數(shù)據(jù)存儲負載分配給六臺數(shù)據(jù)存儲節(jié)點。步驟五:重復步驟一到步驟四,直到將所有子社區(qū)的數(shù)據(jù)分配完成。圖4所示的子社區(qū)1的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點2;子社區(qū)2和子社區(qū)3的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點q;子社區(qū)4的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點2。S13、對存儲于云存儲系統(tǒng)中的所有云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算,根據(jù)步驟S12的存儲方式可以在MapReduce計算過程中,會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù)。實施例二基于分類的數(shù)據(jù)密集型應(yīng)用的大小文件語義處理機制。對于一些基于分類的數(shù)據(jù)密集型應(yīng)用(如語義搜索引擎等),請參閱圖1和圖5所示。首先使用目前所有的各種語義算法(如:本體生成算法、標記網(wǎng)絡(luò)),對各種來自分類的密集型應(yīng)用的文件進行各種語義計算得到一個本體網(wǎng)絡(luò)或者標記網(wǎng)絡(luò)等。S11、按照語義算法,將該巨大的社區(qū)網(wǎng)絡(luò)進行語義處理,形成智能分布式的語義索引機制。S12、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中,具體是:1)對上述得到的本體網(wǎng)絡(luò)或者標記網(wǎng)絡(luò)進行分割,讓有聯(lián)系的元數(shù)據(jù)文件盡量集中在一起,同時對它們進行相應(yīng)的聚合,形成相應(yīng)的語義聚合對。2)分配給元數(shù)據(jù)存儲節(jié)點集群,有關(guān)聯(lián)的元數(shù)據(jù)盡量分配在同一個元數(shù)據(jù)存儲節(jié)點。這些有關(guān)聯(lián)的元數(shù)據(jù)聚合后形成的語義聚合對的具體分配步驟如下:若語義聚合對數(shù)量小于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則每個語義聚合對的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況并不多見。若語義聚合對數(shù)量等于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則每個語義聚合對的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況也并不多見。若語義聚合對數(shù)量大于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量,則按照如下步驟執(zhí)行分配:■步驟一:首先給每個語義聚合對分配一個元數(shù)據(jù)服務(wù)器。■步驟二:剩余的語義聚合對繼續(xù)按照每個語義聚合對分配一個元數(shù)據(jù)服務(wù)器的方式進行分配。但是在分配過程中盡量保持每個語義聚合對的元數(shù)據(jù)的負載均衡。例如:假設(shè)某個元數(shù)據(jù)服務(wù)器A在已經(jīng)分配的語義聚合對的元數(shù)據(jù)量很小,在后面的分配中,則給其分配一個元數(shù)據(jù)量相對比較大的語義聚合對的元數(shù)據(jù)?!霾襟E三:重復步驟二,直到將所有的語義聚合對的元數(shù)據(jù)分配完成。語義聚合對的元數(shù)據(jù)的分配不進行分割,只能分配在一臺元數(shù)據(jù)服務(wù)器上。也就是說不將一個語義聚合對的元數(shù)據(jù)分配給兩臺或者兩臺以上的元數(shù)據(jù)服務(wù)器上,主要原因是一個語義聚合對的元數(shù)據(jù)放在同一元數(shù)據(jù)服務(wù)器會減少元數(shù) 據(jù)維護時間,同時由于采用元數(shù)據(jù)集群的方式,元數(shù)據(jù)服務(wù)器的承載是在可接受的范圍內(nèi)的。3)按照語義聚合對,將數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群中(注意:這里只考慮主副本的分配,其他的副本隨機分配即可)。它的分配原則和元數(shù)據(jù)的分配原則不同,它主要考慮負載均衡的問題,其分配方法可以按照如下步驟進行:步驟一:計算每個語義聚合對的負載,計算所有語義聚合對的負載總和,計算每臺數(shù)據(jù)存儲節(jié)點的理想的平均存儲負載。步驟二:計算出語義聚合對接近平均存儲負載(假設(shè)閾值為:[90%平均存儲負載,110%平均存儲負載])的所有語義聚合對,將滿足這些條件的所有語義聚合對分配給一臺數(shù)據(jù)存儲節(jié)點。步驟三:計算出那些小的語義聚合對,并計算出那些語義聚合對的負載之和接近平均存儲負載(假設(shè)閾值為:[90%平均存儲負載,110%平均存儲負載])的所有語義聚合對,將這些滿足條件的語義聚合對的組合分配給一臺數(shù)據(jù)存儲節(jié)點。步驟四:將那些大的語義聚合對按照負載進行分割,例如某個大的語義聚合對的負載等于6個平均存儲負載,則將該語義聚合對所對應(yīng)的所有數(shù)據(jù)分配給六臺數(shù)據(jù)存儲節(jié)點。步驟五:重復步驟一到步驟四,直到將所有語義聚合對的數(shù)據(jù)分配完成。S13、對存儲于云存儲系統(tǒng)中的所有云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算,根據(jù)步驟S12的存儲方式可以在MapReduce計算過程中,會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù)。上列詳細說明是針對本發(fā)明可行實施例的具體說明,該實施例并非用以限制本發(fā)明的專利范圍,凡未脫離本發(fā)明所為的等效實施或變更,均應(yīng)包含于本案的專利范圍中。
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
靖宇县| 岗巴县| 新河县| 伊通| 那坡县| 清流县| 靖安县| 英山县| 潞城市| 茌平县| 廊坊市| 渑池县| 勐海县| 广平县| 拜泉县| 信丰县| 岳阳县| 阜城县| 吴堡县| 嘉定区| 吉木萨尔县| 汉沽区| 高台县| 遂川县| 云浮市| 湾仔区| 荥阳市| 滕州市| 安岳县| 临高县| 沙雅县| 壶关县| 华坪县| 临夏县| 堆龙德庆县| 孝昌县| 新巴尔虎左旗| 资溪县| 左权县| 中西区| 临城县|