一種適用于大數(shù)據(jù)集群的高效部署系統(tǒng)以及使用方法與流程

文檔序號：12037660閱讀：574來源：國知局

本發(fā)明涉及大數(shù)據(jù)應用及管理領域，具體涉及一種適用于大數(shù)據(jù)集群的高效部署系統(tǒng)以及使用方法。

背景技術：

本世紀是信息技術高度發(fā)展的時代，尤其是近幾年來，隨著計算機和信息技術的迅猛發(fā)展和普及應用，行業(yè)應用系統(tǒng)的規(guī)模迅速擴大，行業(yè)應用所產(chǎn)生的數(shù)據(jù)呈指數(shù)形式進行高速增長。數(shù)據(jù)的計量單位已經(jīng)從傳統(tǒng)的kb、mb、gb而迅速成長為tb和pb。時至今日，數(shù)據(jù)規(guī)模達到數(shù)百tb甚至數(shù)十pb或數(shù)百pb規(guī)模的行業(yè)或者企業(yè)已經(jīng)出現(xiàn)，這些行業(yè)或者企業(yè)的數(shù)據(jù)處理需求已經(jīng)不是傳統(tǒng)計算機技術和信息系統(tǒng)的處理能力能進行處理的，為此，大數(shù)據(jù)的管理和應用方式的研究應運而生，尋求有效的大數(shù)據(jù)處理技術、方法、手段已經(jīng)成為了現(xiàn)實世界的迫切需求。

在大數(shù)據(jù)的應用領域，hadoop是技術人員熟悉的一個架構。hadoop是一個由apache基金會所開發(fā)的分布式系統(tǒng)基礎架構，它實現(xiàn)了一個分布式文件系統(tǒng)hdfs，即hadoopdistributedfilesystem,hdfs有著高容錯性的特點，能提供高吞吐量來訪問應用程序的數(shù)據(jù)，適合擁有超大數(shù)據(jù)集的應用程序。其中，hadoop的框架最核心的設計就是hdfs和mapreduce。前者用于存儲hadoop集群中所有存儲節(jié)點上的文件，作為存儲的核心。而后者則為海量的數(shù)據(jù)提供了計算。用戶可以依靠hadoop這一分布式計算平臺上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。hadoop由于其高可靠性、高擴展性、高有效性、高容錯性和低成本而廣受用戶喜愛，用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

在對hdoop進行管理和監(jiān)控的工程中，人們會選擇使用ambari工具。ambari作為目前的主流工具，使用了多個先進開元技術如：puppet,jetty,ember,jsden,ruby,spring等。作為可視化的部署大數(shù)據(jù)組件，大大降低了大數(shù)據(jù)的管理難度，使用ambari部署已經(jīng)成為了大數(shù)據(jù)領域的主流解決方案。

但是，ambari往往部署在linux環(huán)境下，面臨著linux環(huán)境復雜，hadoop生態(tài)圈版本繁多，部署的成本不斷增加。

技術實現(xiàn)要素：

本發(fā)明的目的是提供一種適用于大數(shù)據(jù)集群的高效部署系統(tǒng)以及使用方法，本系統(tǒng)可配合ambari的自動化部署，連接linux部署環(huán)境、ambari安裝環(huán)境并進行一體化部署，快速提高hadoop集群部署的效率。

本發(fā)明的上述技術目的是通過以下技術方案得以實現(xiàn)的：一種適用于大數(shù)據(jù)集群的高效部署系統(tǒng)，其特征在于：包含操作系統(tǒng)部署模塊、架構部署模塊和工具啟動模塊；

所述操作系統(tǒng)部署模塊用于操作系統(tǒng)的環(huán)境部署，包含用于啟動操作系統(tǒng)環(huán)境部署程序的啟動模塊、用于測試所述操作系統(tǒng)的環(huán)境是否合乎規(guī)則的測試模塊和用于盤查操作系統(tǒng)直至合乎要求的盤查模塊；

所述架構部署模塊用于啟動架構的環(huán)境部署程序；

所述工具啟動模塊用于啟動集群供應、管理和監(jiān)控的工具。

作為本發(fā)明的優(yōu)選，所述操作系統(tǒng)環(huán)境部署模塊部署的操作系統(tǒng)為linux操作系統(tǒng)。

作為本發(fā)明的優(yōu)選，所述架構部署模塊部署的架構為hadoop分布式系統(tǒng)架構，所述工具啟動模塊啟動的集群管理工具為ambari工具。

作為本發(fā)明的優(yōu)選，所述架構部署模塊包含架構啟動模塊、架構測試模塊。

作為本發(fā)明的優(yōu)選，所述安裝部署模塊包含機器系統(tǒng)配置模塊、集群節(jié)點配置模塊和安裝包下載模塊；

所述集群節(jié)點配置模塊用于基于云計算的平臺安裝合適的操作系統(tǒng)；

所述機器系統(tǒng)配置模塊用于操作系統(tǒng)的參數(shù)改進。

作為本發(fā)明的優(yōu)選，所述安裝包下載模塊包含用于將安裝包下載到本地的操作系統(tǒng)安裝包下載模塊和架構安裝包下載模塊；所述操作系統(tǒng)安裝包下載模塊用于下載大數(shù)據(jù)在linux環(huán)境下的安裝包，所述架構安裝包下載模塊用于下載hadoop安裝包。

作為本發(fā)明的優(yōu)選，所述安裝包下載模塊還包含源配置模塊，所述源配置模塊將所述操作系統(tǒng)安裝包下載模塊和所述架構安裝包下載模塊所需要的源配置在本地環(huán)境中。

一種適用于大數(shù)據(jù)集群的高效部署系統(tǒng)的使用方法，包含如下步驟：

步驟1：安裝部署步驟；

所述集群節(jié)點配置模塊基于云計算的平臺安裝合適的操作系統(tǒng)；

所述機器系統(tǒng)配置模塊用于操作系統(tǒng)的參數(shù)進行改進和設置；

安裝包下載模塊將操作系統(tǒng)和架構需要的安裝包安裝進本地；

步驟2：安裝步驟；

將步驟1中下載的安裝包在本地環(huán)境中安裝；

步驟3：操作系統(tǒng)環(huán)境部署步驟；

開啟linux環(huán)境部署程序，并對部署進行測試，測試是否合乎ambari的運行，盤查模塊對linux的環(huán)境部署程序不合乎要求的部分進行修改和設置；

步驟4：架構部署步驟；

啟動架構部署模塊，對架構環(huán)境進行自動部署；

步驟5：工具啟動步驟；

當步驟4進行檢測，測試正常后，啟動工具，完成部署。

作為本發(fā)明的優(yōu)選，在步驟1中，包含環(huán)境安裝步驟和主從設置步驟，在環(huán)境安裝步驟中，將操作系統(tǒng)安裝在多臺主機中，在主從設置步驟中，分別設置主設備和從設備，所述主設備數(shù)量大于兩臺。

作為本發(fā)明的優(yōu)選，在步驟1中，還包含源配置步驟，在該步驟中，將各類安裝包所需要的源都配置在本地。

附圖說明

圖1是本發(fā)明的架構示意圖；

圖2是本發(fā)明中安裝部署模塊的架構示意圖；

圖3是本發(fā)明的流程示意圖。

具體實施方式

以下具體實施例僅僅是對本發(fā)明的解釋，其并不是對本發(fā)明的限制，本領域技術人員在閱讀完本說明書后可以根據(jù)需要對本實施例做出沒有創(chuàng)造性貢獻的修改，但只要在本發(fā)明的權利要求范圍內(nèi)都受到專利法的保護。

實施例1，如本文的背景技術中所述，在信息技術高度發(fā)展的今天，許多行業(yè)，許多企業(yè)的大數(shù)據(jù)數(shù)量已經(jīng)遠遠超出了現(xiàn)有傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力，因此，尋求有效的大數(shù)據(jù)處理技術、方法和手段已經(jīng)成為了現(xiàn)實世界的迫切需求。

根據(jù)行業(yè)內(nèi)的調(diào)查和分析報告，百度目前的總數(shù)據(jù)量已經(jīng)超過1000pb，每天需要處理的網(wǎng)頁數(shù)據(jù)多達10pb——100pb；作為中國電子商務流動量最大的交易平臺，淘寶網(wǎng)，累積的交易數(shù)據(jù)量也已經(jīng)達到100pb以上；世界著名信息分享平臺，社交平臺的twitter每天發(fā)布消息數(shù)量也已經(jīng)超過了2億條消息，中國的新浪微博每天發(fā)帖量達到8000萬條。

不止是互聯(lián)網(wǎng)環(huán)境，通信環(huán)境的數(shù)據(jù)也是如此，中國移動一個省的電話通聯(lián)記錄數(shù)據(jù)每月可達0.5pb——1pb；一個省會城市公安局道路車輛監(jiān)控數(shù)據(jù)三年可達200億條、總量達到120tb。據(jù)世界權威it信息咨詢分析公司idc研究報告預測，全世界數(shù)據(jù)量在未來將會得到爆發(fā)性增長，出現(xiàn)井噴的情況，講從2009年的0.8zb增長到2020年的35zb,zb同樣為數(shù)據(jù)計量單位，1zb＝1000eb＝1000000pb，這10年間，數(shù)據(jù)總量將增長44倍，每年的年均增長更是高達40％。

在大數(shù)據(jù)的數(shù)據(jù)構建領域上，常常將計算機系統(tǒng)構造為分布式文件系統(tǒng)。一般來說，分布式文件系統(tǒng)可以使得能夠從多個主機訪問存儲在這些分布式文件系統(tǒng)中的文件。主機可以被遠程地定位，并且可以經(jīng)由例如計算機網(wǎng)絡與分布式文件系統(tǒng)通信地聯(lián)接。對文件的訪問可以使得客戶端能夠讀取或修改存在于分布式文件系統(tǒng)中的文件和/或使得客戶端能夠向分布式文件系統(tǒng)添加新文件。

分布式文件系統(tǒng)可以通過復制文件來提供一些優(yōu)勢(諸如可靠性)。通過具有文件的多個副本，即使分布式文件系統(tǒng)的某些部分被損壞，用戶也可以訪問這些文件。

計算機集群通常包括被構造為一起操作的一組連接節(jié)點。作為連接成集群的結(jié)果，可以將節(jié)點視為單個單元并且作為單個單元來操作?？梢酝ㄟ^例如計算機網(wǎng)絡來連接節(jié)點。在本技術方案中，使用的就是分布式文件系統(tǒng)，hadoop分布式文件系統(tǒng)。

hadoop分布式文件系統(tǒng)可以包括單個主節(jié)點(該單個主節(jié)點可以被稱為名稱節(jié)點)以及工作節(jié)點的集群。主節(jié)點可以操作以協(xié)調(diào)對文件的訪問。工作節(jié)點可以存儲文件和/或執(zhí)行與訪問和/或修改存儲在hadoop分布式文件系統(tǒng)中的文件相關的各種動作。

而ambari，作為目前的主流工具，使用了多個先進開元技術如：puppet,jetty,ember,jsden,ruby,spring等。作為可視化的部署大數(shù)據(jù)組件，大大降低了大數(shù)據(jù)的管理難度，使用ambari部署已經(jīng)成為了大數(shù)據(jù)領域的主流解決方案。

ambari目前已支持hadoop的大多數(shù)組件，例如包括hdfs、mapreduce、hive、pig、spark等。隨著對ambari的運用方式的成熟度的提升，ambari不僅僅只支持hadoop集群的管理，還繼承了其他的定義服務，例如elasticsearch，還有apachedrill等，使得ambari對hadoop的管理更為便捷。

雖然ambari對hadoop的管理越來越便捷，但是在實現(xiàn)ambari對hadoop的管理前，還需要對hadoop的運行環(huán)境進行配置，對ambari的運行環(huán)境進行配置。而本身，linux操作系統(tǒng)環(huán)境比較復雜，hadoop的生態(tài)圈版本也比較多，對ambari的部署并不容易，需要花費工作人員手動進行部署、軟件安裝、測試、調(diào)節(jié)、參數(shù)修正等，部署的成本較高。

在本技術方案中，首先進行環(huán)境安裝步驟和主從設置步驟，選取多臺機器，安裝操作系統(tǒng)。可選擇linux操作系統(tǒng)。linux是類unix操作系統(tǒng)，是一個基于posix和unix的多用戶、多任務、支持多線程和多cpu的操作系統(tǒng)。它能運行主要的unix工具軟件、應用程序和網(wǎng)絡協(xié)議。它支持32位和64位硬件。linux繼承了unix以網(wǎng)絡為核心的設計思想，是一個性能穩(wěn)定的多用戶網(wǎng)絡操作系統(tǒng)。

在本實施例中，在多臺機器中，安裝linuxcentos7的版本，centos(communityenterpriseoperatingsystem，即：社區(qū)企業(yè)操作系統(tǒng))是linux發(fā)行版之一，它是來自于redhatenterpriselinux依照開放源代碼規(guī)定釋出的源代碼所編譯而成。

安裝后，需要對多臺主機進行主從的設置，設置多個主設備和多個從設備。例如，一共11臺主機，設置4個主設備，即master，其余7臺為從設備，即slave，并保證磁盤根目錄不低于40g。

作為一個分布式架構，主設備，即master，完成任何的分配和調(diào)度，例如，將一個總的計算任務劃分成若干個部分，并要求從設備，即slave進行執(zhí)行。從設備完成計算任務后，將計算結(jié)果反饋到主設備上，主設備進行匯總計算。

在通常情況下，主設備的數(shù)量1臺或者2臺就夠，但是在本實施例中，設置為4臺，namenodeha需要2臺，resourcemanagerha需要2臺，各自安裝，并且互不干擾，大大提高hadoop集群的高可用，避免因為其中一臺master的宕機，帶來集群業(yè)務的停止運行。

完成了上述的環(huán)境安裝步驟和主從設置步驟之后，還需要進行其他的安裝部署步驟。具體的，需要進行機器系統(tǒng)配置和安裝包下載。

機器系統(tǒng)配置模塊運作，開始對linux環(huán)境進行大數(shù)據(jù)需求改進。包括一些參數(shù)上的調(diào)整和設置。此外，在進行安裝包下載之前，需要進行源配置步驟，即準備好各位安裝包的yum源，將這些源都配置在本地。yum源就相當是一個目錄項，當我們使用yum機制安裝軟件時，若需要安裝依賴軟件，則yum機制就會根據(jù)在yum源中定義好的路徑查找依賴軟件，并將依賴軟件安裝好。

yum是“yellowdogupdater,modified”的縮寫，是一個軟件包管理器，yum從指定的地方(相關網(wǎng)站的rpm包地址或本地的rpm路徑)自動下載rpm包并且安裝，能夠很好的解決依賴關系問題。在本技術方案中，即將yum源本地化了。

當yum源配置完成后，需要進行各類安裝包的安裝。在本技術方案中，這類安裝包主要有兩類。一類是大數(shù)據(jù)在linux環(huán)境下的各類安裝包，包括jdk\nts\ntpd等等，這一類通過操作系統(tǒng)安裝包下載模塊進行下載操作。jdk是java開發(fā)工具包(javadevelopmentkit)的縮寫。它是一種用于構建在java平臺上發(fā)布的應用程序、applet和組件的開發(fā)環(huán)境。jdk是一切java應用程序的基礎，所有的java應用程序是構建在這個之上的。它是一組api，也可以說是一些javaclass。而nfs是networkfilesystem的簡寫,即網(wǎng)絡文件系統(tǒng).nfs允許一個系統(tǒng)在網(wǎng)絡上與他人共享目錄和文件。通過使用nfs，用戶和程序可以像訪問本地文件一樣訪問遠端系統(tǒng)上的文件。

另一類則是hadoop的程序及相關組件安裝包，這一類通過架構安裝包下載模塊進行下載安裝。

在這些程序或者組件中，包含hdfs，即hadoopdistributedfilesystem，即hadoop分布式文件系統(tǒng)，作為apachenutch的基礎架構。包含mapreduce，這是，map的概念是映射，reduce的概念則是歸約，它極大地方便了編程人員將自己的程序運行在分布式系統(tǒng)上，非常適用于大規(guī)模數(shù)據(jù)集的并行運算。在本技術方案中，mapreduce的主要功能是數(shù)據(jù)劃分和計算任務調(diào)度：系統(tǒng)自動將一個作業(yè)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊，每個數(shù)據(jù)塊對應于一個計算任務，并自動調(diào)度計算節(jié)點來處理相應的數(shù)據(jù)塊。作業(yè)和任務調(diào)度功能主要負責分配和調(diào)度計算節(jié)點(map節(jié)點或reduce節(jié)點)，同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài)，并負責map節(jié)點執(zhí)行的同步控制。還需要安裝yarn，即yetanotherresourcenegotiator，它是一種新的hadoop資源管理器，它是一個通用資源管理系統(tǒng)，可為上層應用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。它有著諸多優(yōu)點，比如，大大減小了jobtracker(也就是現(xiàn)在的resourcemanager)的資源消耗，并且讓監(jiān)測每一個job子任務(tasks)狀態(tài)的程序分布式化了，更安全、更優(yōu)美。用戶可以對不同的編程模型寫自己的appmst，讓更多類型的編程模型能夠跑在hadoop集群中，對于資源的表示以內(nèi)存為單位，比之前以剩余slot數(shù)目更合理。

除了上文所述的組件，還需要安裝諸如tez，hive，hbase，pig，sqoop，oozie，zookeeper，falcon，storm，flume，ambarimetics等組件。

當完成了這些部署工作之后，即linux的操作系統(tǒng)和主從設備已經(jīng)設置完成，機器系統(tǒng)和集群節(jié)點都已配置完成，而yum源、linux的安裝包和hadoop的安裝包也都下載和安裝完畢。進入步驟3，即操作系統(tǒng)環(huán)境部署步驟。

如圖3和圖1所示，首先，操作系統(tǒng)部署模塊中的啟動模塊，啟動linux的環(huán)境部署程序，程序啟動之后會對linux的環(huán)境進行自動檢測，而檢測的具體內(nèi)容是，當前l(fā)inux的環(huán)境，是否合乎之后ambari的運行要求。測試規(guī)則可以用戶自定義預設，當測試模塊工作之后，盤查模塊會匹配測試模塊的測試結(jié)果，對當前l(fā)inux環(huán)境下不符合ambari的情況進行盤查和修改，直到合乎系統(tǒng)預設要求。

步驟3完成之后，自動進入步驟4，步驟4的原理與步驟3相同，但對象從linux的環(huán)境部署變成了hadoop的環(huán)境部署，即架構部署步驟。在本步驟中，啟動hadoop環(huán)境部署程序，并同樣進行測試，測試規(guī)則可以系統(tǒng)進行自定義預設，當hadoop的環(huán)境部署測試下來一切正常，系統(tǒng)才會進入步驟5，工具啟動步驟，正式啟動ambari，完成ambari的運行。

ambari運行之后，可以再次對所有的環(huán)境進行測試，測試是否存在部署不當?shù)那闆r，通過可視化的操作界面，對hadoop的運行進行管理和監(jiān)控。

這樣的操作方式，實現(xiàn)了linux操作系統(tǒng)環(huán)境部署的自動化，且支持自動檢測和自動盤查，同時，也實現(xiàn)了hadoop環(huán)境的自動部署和測試，為ambari的啟動提供了良好的環(huán)境因素，解決了用戶在以往面對ambari部署時產(chǎn)生的由于linux環(huán)境復雜，hadoop生態(tài)圈版本多而產(chǎn)生的部署效率低，成本高的技術問題。

本技術方案具備以下優(yōu)點：

1、包含多個主設備和從設備，各自安裝，互不干擾，大大提高hadoop集群的高可用性能。

2、所有安裝包的yum源配置在本地環(huán)境，使得系統(tǒng)的網(wǎng)絡環(huán)境部署過程中使用便捷。

3、安裝包下載模塊包含面向linux的操作系統(tǒng)安裝包下載模塊和面向hadoop的架構安裝包下載模塊。

4、linux環(huán)境部署程序啟動后能自動進行檢測和盤查，從而來合乎ambari的運行要求。

5、hadoop的環(huán)境部署程序在啟動后會進行自動測試，測試成功后才會啟動ambari。

完整全部詳細技術資料下載

當前第1頁1 2