異構系統(tǒng)并行隨機森林優(yōu)化方法和系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及機器學習領域,尤指一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法。
【背景技術】
[0002]近年來,隨著當今社會經濟科技日新月異的發(fā)展,許多應用領域在迅速積累著大量的數據,對這些數據進行分析以發(fā)掘數據蘊含的信息,成為幾乎所有領域的共同需求,而在實際應用中,機器學習在數據挖掘分析技術的作用日漸重要,受到了廣泛的關注。
[0003]現有技術中,機器學習中最常用的分類方法就是采用隨機森林算法,隨機森林是一種有監(jiān)督的集成學習分類技術,是通過大量分類樹的匯總來提高模型的預測精度。正是由于它的這種設計使得隨機森林算法對樣本數據中的不正常數據和噪聲等有很好的容忍性,對于數據比較復雜的分類問題有著較好的并行性和擴展性。
[0004]但是,采用現有技術,數據優(yōu)化過程中尋找最優(yōu)解時間比較長,在當前這個數據量以指數級增長的時代,顯然對于超大數據的處理顯得力不從心。
【發(fā)明內容】
[0005]為了解決上述技術問題,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法,能夠通過多個從節(jié)點對數據分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網絡帶寬不足、內存容量小等情況,滿足了高性能應用對于大規(guī)模數據進行處理的要求。
[0006]第一方面,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,包括:一個主節(jié)點和多個從節(jié)點;
[0007]所述主節(jié)點用于將待計算的數據文件劃分成多個數據分片,分別發(fā)送數據分片給各所述從節(jié)點,接收各所述從節(jié)點構建好的決策樹生成隨機森林;
[0008]所述從節(jié)點用于接收所述主節(jié)點分配的所述數據分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點。
[0009]第二方面,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化方法,應用于異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:一個主節(jié)點和多個從節(jié)點;
[0010]所述主節(jié)點調用將待計算的數據文件劃分成多個數據分片,分別發(fā)送數據分片給各所述從節(jié)點,接收各所述從節(jié)點構建好的決策樹生成隨機森林;
[0011]所述從節(jié)點接收所述主節(jié)點分配的所述數據分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點。
[0012]與現有技術相比,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法,包括:一個主節(jié)點和多個從節(jié)點;其中,主節(jié)點用于將待計算的數據文件劃分成多個數據分片,分別發(fā)送數據分片給各從節(jié)點,各從節(jié)點用于接收主節(jié)點分配的數據分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到主節(jié)點,從而生成隨機森林,通過多個從節(jié)點對數據分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網絡帶寬不足、內存容量小等情況,滿足了高性能應用對于大規(guī)模數據進行處理的要求。
[0013]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
【附圖說明】
[0014]附圖用來提供對本發(fā)明技術方案的進一步理解,并且構成說明書的一部分,與本申請的實施例一起用于解釋本發(fā)明的技術方案,并不構成對本發(fā)明技術方案的限制。
[0015]圖1為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)實施例一的結構示意圖;
[0016]圖2為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化方法實施例一的流程示意圖。
【具體實施方式】
[0017]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下文中將結合附圖對本發(fā)明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0018]在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0019]本發(fā)明實施例涉及的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,具體可以是計算機集群或者服務器集群上,其中協(xié)處理器可以是圖形處理器(Graphics Processing Unit,簡稱:GPU)或者眾核處理器(Intel Many IntegratedCore,簡稱:MIC卡),但并不以此為限。
[0020]本發(fā)明實施例涉及的系統(tǒng)和方法,旨在解決現有技術中采用隨機森林的分類方法數據在優(yōu)化過程中尋找最優(yōu)解時間比較長,無法滿足超大規(guī)模數據處理的技術問題。
[0021]下面以具體地實施例對本發(fā)明的技術方案進行詳細說明。下面這幾個具體的實施例可以相互結合,對于相同或相似的概念或過程可能在某些實施例不再贅述。
[0022]圖1為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)實施例一的結構示意圖,如圖1所示,該異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)應用于中央處理器與協(xié)處理器混合異構集群,包括:一個主節(jié)點10和多個從節(jié)點20 ;
[0023]其中,所述主節(jié)點10用于將待計算的數據文件劃分成多個數據分片,分別發(fā)送數據分片給各所述從節(jié)點20,接收各所述從節(jié)點20構建好的決策樹生成隨機森林。
[0024]所述從節(jié)點20用于接收所述主節(jié)點分配的所述數據分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點10。
[0025]具體的,主節(jié)點10將待計算的數據文件劃分成多個數據分片,一般數據文件為指數級超大規(guī)模數據,可以調用庫函數劃分的數據分片大小為16M到64M,具體可以根據子節(jié)點20的計算能力來確定,可以對各數據分片進行編號,用廣播的方式將劃分好的數據分片按照編號順序分發(fā)到各從節(jié)點20上,但并不限于此。
[0026]—般來說從節(jié)點20設置越多,則處理大規(guī)模數據更準確,具體的可以根據需要處理的數據文件的大小來設置從節(jié)點20的數量,各從節(jié)點20接收主節(jié)點10分配得對應的數據分片后,各從節(jié)點20可以通過Bagging集成學習技術并行計算分配的數據分片,選擇計算后的結果中的最優(yōu)解分別構建決策樹,其中,該最優(yōu)解可以是求最小值,根據該最小值對應的數據分片構建決策樹,并發(fā)送給主節(jié)點10進行隨機森林的整合。
[0027]本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,包括至少一個主節(jié)點和多個從節(jié)點,其中,主節(jié)點用于將待計算的數據文件劃分成多個數據分片,分別發(fā)送數據分片給各從節(jié)點,各從節(jié)點用于接收主節(jié)點分配的數據分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到主節(jié)點,從而生成隨機森林,本發(fā)明實施例通過多個從節(jié)點對數據分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網絡帶寬不足、內存容量小等情況,滿足了高性能應用對于大規(guī)模數據進行處理的要求。
[0028]進一步地,從節(jié)點20包括至少一個中央處理器210 (Central Processing Unit,簡稱:CPU)和多個協(xié)處理器 220 (Many Integrated Core,簡稱:MIC),
[0029]所述從節(jié)點20用于接收所述主節(jié)點10分配的所述數據分片,包括:所述中央處理器210接收所述數據分片,將所述數據分片劃分為多個數據分片子集,分配相應的所述數據分片子集給各所述線程,分發(fā)線程給各所述協(xié)處理器220 ;
[0030]具體的,為了更好地說明本實施例,假設該從節(jié)點20包括一個中央處理器210和4塊協(xié)處理器220,該中央處理器210將接收的數據分片劃分為多個數據分片子集,可以根據這4塊協(xié)處理器220的計算能力進行劃分,分配相應的數據分配子集給各線程,并分發(fā)線程給各協(xié)處理器220,線程與協(xié)處理器220是一一對應的,如果有4個線程,則分發(fā)I個線程給一個協(xié)處理器220。
[0031]所述從節(jié)點20用于計算所述數據分片并將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點10,包括:所述協(xié)處理器220接收對應的線程獲取相應的所述數據分片子集和初始值進行計算,根據計算后的結果獲取最優(yōu)分裂屬性構建決策樹發(fā)送給所述主節(jié)點10。
[0032]具體的,協(xié)處理器220接收對應的線程獲取相應的所述數據分片子集和初始值,該數據分片子集為需要進行計算處理的數據集合,該初始值是指構建初始決策樹需要的數據,這些數據可以隨機產生,也可以固定的,計算過程可以采用幾何估算法、曲線擬合法和分布函數法獲取基尼(Gini)值的測算,根據計算后的Gini值,一般選擇Gini值最小的作為最優(yōu)分裂屬性構建決策樹。
[0033]進一步地,所述協(xié)處理器220用于接收對應的線程獲取相應的所述數據分片子集和初始值進行計算之前,還包括:
[0034]所述主節(jié)點10向各所述從節(jié)點20分配進程,所述進程向所述從節(jié)點內所有設備發(fā)送調用請求進行計算的線程,接收各所述設備返回的調用請求進行計算的線程;其中,一個中央處理器作為一個設備,一塊協(xié)處理器作為一個設備。
[0035]具體的,在協(xié)處理器220獲取對應線程的數據分片子集和初始值進行計算之前,主節(jié)點20向各從節(jié)點20分配進程,該進程會向從節(jié)點20內的所有設備發(fā)送調用請求的線程,該調用請求包括資源、地址等信息的請求,并接收各所述設備返回調用請求的線程,根據該調用請求的線程,所述協(xié)處理器220可以獲取到數據分片和初始值。每一個設備對應一個線程,其中,一個中央處理器可以作為一個設備,一塊協(xié)處理器可以作為一個設備,所有設備的數量即為所有處理器設備和協(xié)處理器設備的和。
[0036]進一步地,所述中央處理器210用于劃分數據分片為多個數據分片子集,是指:
[0037]所述中央處理器210按照所述協(xié)處理器220的數量將數據分片平均劃分成多個數據分片子集。
[0038]具體的,為了更好地說明本實施例,假設有M個線程,中央處理器210會將接收到主節(jié)點10分發(fā)的數據分片,將所述數據分片平均劃分成數據分片子集,所述數據分片子集則為1/M的數據分片,把每個數據分片子集分別發(fā)送給從節(jié)點20內的各個協(xié)處理器220,這樣為