一種分布式數(shù)據(jù)處理方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及計算機技術領域,具體說涉及一種分布式數(shù)據(jù)處理方法及系統(tǒng)。
【背景技術】
[0002]隨著計算機系統(tǒng)的廣泛應用以及計算機功能的完善,越來越多的工作被交予計算機處理。其中就包含一次性交予計算機處理大量數(shù)據(jù)的情況。
[0003]以網頁(web)日志信息的處理為例。小型網站每天產生的web日志信息很少,在少量web日志信息數(shù)據(jù)量的情況下,依靠單一的計算機節(jié)點,使用Linux工具即可處理每天的web日志信息。
[0004]然而隨著網站規(guī)模的成長,數(shù)據(jù)中心網站的訪問量越來越大,產生的web日志信息也越來越多。一般的中型網站(10萬的頁面瀏覽量以上)每天會產生IGB以上的web日志文件,大型或超大型的網站,可能每個小時就會產生1GB的數(shù)據(jù)量的web日志文件。一旦數(shù)據(jù)量超過一定的大小,傳統(tǒng)的依靠單一計算機節(jié)點的計算能力就不能滿足計算處理需求。
[0005]現(xiàn)有技術中,通常采用分布式處理的方式來進行消耗大量計算資源的復雜計算。利用多臺計算機構成計算機網絡,通過網絡將數(shù)據(jù)分布到多個節(jié)點上進行計算處理。這種方式將大量的數(shù)據(jù)分離成一個個小部分分別解決從而大大提高了處理效率,縮短了處理時間。但是,用于處理數(shù)據(jù)的分布式計算機系統(tǒng)的架構過程復雜且架構成本很高,實用性和推廣度都不高。另外,架構好的分布式計算機系統(tǒng)不能方便的增減規(guī)模,靈活度不高。
[0006]因此,針對消耗大量計算資源的數(shù)據(jù)處理問題,需要一種新的更為靈活實用數(shù)據(jù)處理方法以實現(xiàn)更為低成本、高效率的數(shù)據(jù)處理。
【發(fā)明內容】
[0007]針對消耗大量計算資源的數(shù)據(jù)處理問題,本發(fā)明提供了一種分布式數(shù)據(jù)處理方法,所述方法包括以下步驟:
[0008]虛擬機構建步驟,構建多個包含特定分布式系統(tǒng)基礎架構軟件的虛擬機;
[0009]分布式系統(tǒng)構建步驟,基于所述虛擬機構建分布式系統(tǒng);
[0010]數(shù)據(jù)處理步驟,利用所述分布式系統(tǒng)處理待處理數(shù)據(jù)以獲取處理結果。
[0011]在一實施例中,所述虛擬機構建步驟包含以下步驟:
[0012]鏡像構建步驟,構建包含所述特定分布式系統(tǒng)基礎架構軟件的虛擬機鏡像;
[0013]上傳步驟,將所述虛擬機鏡像上傳到云系統(tǒng)中以構建所述虛擬機。
[0014]在一實施例中,在所述鏡像構建步驟中搭建私有云平臺以在所述私有云平臺上定制所述虛擬機鏡像。
[0015]在一實施例中,在所述分布式系統(tǒng)構建步驟中,對所有所述虛擬機中的所述特定分布式系統(tǒng)基礎架構軟件進行配置以構建所述分布式系統(tǒng)。
[0016]在一實施例中,創(chuàng)建配置腳本以通過所述配置腳本對所有所述虛擬機中的所述特定分布式系統(tǒng)基礎架構軟件進行統(tǒng)一配置。
[0017]在一實施例中,在所述分布式系統(tǒng)構建步驟中,每個所述虛擬機對應所述分布式系統(tǒng)的一個節(jié)點。
[0018]在一實施例中,根據(jù)所述待處理數(shù)據(jù)的數(shù)據(jù)量確定所述分布式系統(tǒng)的節(jié)點數(shù)目從而根據(jù)所述節(jié)點數(shù)目確定在所述虛擬機構建步驟中需要構建的所述虛擬機的數(shù)目。
[0019]在一實施例中,針對構建完成的所述分布式系統(tǒng),關閉/創(chuàng)建一個或多個所述虛擬機以減少/增加所述分布式系統(tǒng)的節(jié)點數(shù)目。
[0020]在一實施例中,所述數(shù)據(jù)處理步驟包含以下步驟:
[0021]將所述待處理數(shù)據(jù)分布式地存放在所述分布式系統(tǒng)的分布式文件系統(tǒng)中;
[0022]在所述分布式系統(tǒng)的節(jié)點間傳遞用于處理所述待處理數(shù)據(jù)的特定程序;
[0023]利用所述特定程序處理所述節(jié)點上的所述待處理數(shù)據(jù)以獲取相應的處理結果;
[0024]將所有節(jié)點上獲取到的所述處理結果合并到一個節(jié)點上。
[0025]本發(fā)明還提出了一種分布式數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包含多個虛擬機,每臺所述虛擬機包含用于構造分布式系統(tǒng)的特定分布式系統(tǒng)基礎架構軟件。
[0026]與現(xiàn)有技術相比,本發(fā)明具有如下優(yōu)點:
[0027]本發(fā)明的分布式數(shù)據(jù)處理辦法實行簡單,系統(tǒng)架構成本低廉,實際推廣難度很低;
[0028]基于本發(fā)明的方法構造的分布式處理系統(tǒng)不僅結構簡單,并且可以根據(jù)實際需要靈活的增減其架構規(guī)模,從而實現(xiàn)針對不同數(shù)據(jù)量的數(shù)據(jù)進行針對性處理,大大提高了資源利用率。
[0029]本發(fā)明的其它特征或優(yōu)點將在隨后的說明書中闡述。并且,本發(fā)明的部分特征或優(yōu)點將通過說明書而變得顯而易見,或者通過實施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的步驟來實現(xiàn)或獲得。
【附圖說明】
[0030]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0031]圖1是根據(jù)本發(fā)明一實施例執(zhí)行流程圖。
【具體實施方式】
[0032]以下將結合附圖及實施例來詳細說明本發(fā)明的實施方式,借此本發(fā)明的實施人員可以充分理解本發(fā)明如何應用技術手段來解決技術問題,并達成技術效果的實現(xiàn)過程并依據(jù)上述實現(xiàn)過程具體實施本發(fā)明。需要說明的是,只要不構成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結合,所形成的技術方案均在本發(fā)明的保護范圍之內。
[0033]隨著計算機系統(tǒng)的廣泛應用以及計算機功能的完善,越來越多的工作被交予計算機處理。其中就包含一次性交予計算機處理大量數(shù)據(jù)的情況。
[0034]以網頁(web)日志信息的處理為例。最初的小型網站每天產生的web日志信息很少,在少量web日志信息數(shù)據(jù)量的情況下,依靠單一的計算機節(jié)點,使用Linux工具如:awk,grep, sort,join配合peri,python正則表達式即可處理每天的web日志信息。
[0035]然而隨著網站規(guī)模的成長,數(shù)據(jù)中心網站的訪問量越來越大,產生的web日志信息也越來越多。一般的中型網站(10萬的頁面瀏覽量以上)每天會產生IGB以上的web日志文件,大型或超大型的網站,可能每個小時就會產生1GB的數(shù)據(jù)量。一旦數(shù)據(jù)量超過一定的大小,傳統(tǒng)的依靠單一計算機節(jié)點的計算能力就不能滿足計算處理需求。
[0036]現(xiàn)有技術中,通常采用分布式處理的方式來進行消耗大量計算資源的復雜計算。這種方式將大量的數(shù)據(jù)分離成一個個小部分分別解決從而大大提高了處理效率,縮短了處理時間。但是,用于處理數(shù)據(jù)的分布式計算機系統(tǒng)的架構過程復雜且架構成本很高,實用性和推廣度都不高。另外,架構好的計算機系統(tǒng)不能方便的增減規(guī)模,靈活度不高。
[0037]針對現(xiàn)有技術中處理消耗大量計算資源的方法存在的問題,本發(fā)明提出了一種分布式數(shù)據(jù)處理方法。接下來基于流程圖來詳細描述本發(fā)明的方法的執(zhí)行過程。附圖的流程圖中示出的步驟可以在包含諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0038]本發(fā)明的方法基于分布式處理原理將大數(shù)據(jù)量的數(shù)據(jù)分割成小塊分布到多個節(jié)點分別進行處理。為了實現(xiàn)分布式處理,首先要構建分布式系統(tǒng)。因此本發(fā)明還提出了一種分布式數(shù)據(jù)處理系統(tǒng)。
[0039]傳統(tǒng)的模式下是利用多臺計算機構成計算機網絡進而構建多個節(jié)點的分布式系統(tǒng)。但是上述方法不僅構造過程繁瑣而且構建成本也很高,為了解決傳統(tǒng)分布式系統(tǒng)構建過程中存在的問題,本發(fā)明的方法基于云系統(tǒng)以及虛擬機構建分布式系統(tǒng),從而利用云計算實現(xiàn)分布式數(shù)據(jù)處理。本發(fā)明的系統(tǒng)包含多個虛擬機,每臺虛擬機包含用于構造分布式系統(tǒng)的特定分布式系統(tǒng)基礎架構軟件。這樣多個虛擬機就可以構成一個分布式系統(tǒng)。基于虛擬機易構造、成本低的特點,本發(fā)明的分布式數(shù)據(jù)處理辦法實行簡單,系統(tǒng)架構成本低廉,實際推廣難度很低。
[0040]為了實現(xiàn)云計算,需要云平臺的支撐。開源的軟件基礎結構(Elastic UtilityComputing Architecture for Linking Your Programs To Useful Systems,Eucalyptus)是常用的一種實現(xiàn)云平臺的軟件基礎結構。Eucalyptus云平臺是基于基礎設施即服務(IaaS)的開源云平臺,是基于Linux的軟件體系結構,其可以實現(xiàn)在現(xiàn)有信息技術(IT)基礎設施上可擴展的私有云和混合云。本實施例的方法主要基于Eucalyptus云平臺的支持實現(xiàn)云計算。
[0041]在本實施例中如圖1所示,執(zhí)行本發(fā)明的方法首先要執(zhí)行步驟S110,虛擬機構建步驟,構建用于組成分布式系統(tǒng)的虛擬機。
[0042]由于Eucalyptus云平臺允許通過自助服務接口使用本地的資源(硬件、存儲、帶寬)。并且Eucalyptus云平臺通過可以通過開源的系統(tǒng)虛擬化模塊(Kernel-basedVirtual Machine,kvm)虛擬化技術將底層資源虛擬化為虛擬機,同時通過定制鏡像,倉1J建虛擬機為用戶提供服務。
[0043]因此在本實施例中,構建虛擬機首先執(zhí)行步驟S111,搭建Eucalyptus私有云平臺。然后執(zhí)行步驟S112,在Eucalyptus私有云平臺上定制用于創(chuàng)建虛擬機的虛擬機鏡像。所謂的鏡像就是一個系統(tǒng),Eucalyptus作為一個私有云平臺,可以很方便的創(chuàng)建各種類型的虛擬機,定制各種需求的鏡像,從而提供了一個很好的分布式環(huán)境。在本實施例中使用的是Linux鏡像,對于Linux鏡像的虛擬機用戶可以用ssh遠程登錄來操作虛擬機。
[0044]在本實施例中,最終構建好的虛擬機是要構成分布式系統(tǒng)的。由于在Eucalyptus云平臺環(huán)境下用戶可以通過遠程訪問虛擬機的方式來使用Eucalyptus虛擬機的軟件,而不需要在本地安裝該軟件。因此為了精