一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)模式識別及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于隨機(jī)森林加 權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 分類問題是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識別中一個重要的研宄內(nèi)容。分類算法通 過對已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測新數(shù)據(jù)的類別。
[0003] 隨機(jī)森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的 類別的眾數(shù)而定。隨機(jī)森林算法可以在決定類別時,評估維度的重要性。k近鄰算法是一種 基于實例的惰性分類學(xué)習(xí)算法,將局部近似和將所有計算推遲到分類時。k近鄰算法中被分 配的對象被列為了其k個鄰域?qū)ο笾凶疃嗟囊粋€類別。該分類方法適用于各種大規(guī)模高維 數(shù)據(jù)的分類及回歸問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問題是:本發(fā)明提供了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模 高維數(shù)據(jù)分類方法,對訓(xùn)練樣本利用隨機(jī)森林算法計算各維度重要性,以維度重要性數(shù)值 加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法進(jìn)行分類。
[0005] 本發(fā)明所采用的技術(shù)方案為:
[0006] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對訓(xùn)練樣本利 用隨機(jī)森林算法計算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法 進(jìn)行分類。
[0007] 所述方法包括步驟如下:
[0008] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化;
[0009] 其中:
[0010] 數(shù)據(jù)預(yù)處理:目是對數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性;
[0011] 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異;
[0012] 2)維度重要性計算;
[0013] 采用隨機(jī)森林算法得到各維度重要性;
[0014] 3) K近鄰分類;
[0015] 對于一個待分類樣本,首先計算它和所有模板樣本間的加權(quán)距離,選擇其中距離 最小的k個模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0016] 所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計算各維度的均值及標(biāo)準(zhǔn)差,然后再后續(xù) 訓(xùn)練及分類階段,對應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值變 為0,標(biāo)準(zhǔn)差變?yōu)?。
[0017] 所述維度重要性的計算為誤分率的變化:隨機(jī)森林的每棵樹的子樣本集由所有訓(xùn) 練樣本集有放回采樣得到,平均會有大約1/3的樣本不會被選取,這部分樣本可用來驗證 每一棵的分類誤分率,計算某維度重要性時,在訓(xùn)練決策樹不采用該維度時得到誤分率和 采用該維度時的誤分率的比值定義為該維度的維度重要性。
[0018] 所述維度重要性的計算為分裂時信息熵變化率下降量:決策樹在節(jié)點(diǎn)分裂時會選 擇一個最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策樹訓(xùn)練 的過程中,可計算每個維度所有信息熵變化率的平均值,以此作為維度的重要性。
[0019] 假設(shè)各維度通過前面計算得到的加權(quán)值分別為Wl,W2,…,W n,待測樣本各維度分別 為D1, D2, D3,…,Dn,匹配模板各維度分別為T1, T2, T3,…,Tn,所述加權(quán)距離如下:
[0020]
[0021] 其中δ 訓(xùn)練數(shù)據(jù)中第i個維度的標(biāo)準(zhǔn)差。
[0022] 本發(fā)明的有益效果為:
[0023] 本發(fā)明分類方法可解決所有分類問題,尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問 題,該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問題。
[0024] 說明書附圖
[0025] 圖1為本發(fā)明方法流程圖;
[0026] 圖2為隨即森林算法示意圖;
[0027] 圖3為維度重要性誤分率計算方法示意圖。
【具體實施方式】
[0028] 下面根據(jù)說明書附圖,結(jié)合【具體實施方式】對本發(fā)明進(jìn)一步說明:
[0029] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對訓(xùn)練樣本利 用隨機(jī)森林算法計算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法 進(jìn)行分類。
[0030] 如圖1所示,所述方法包括步驟如下:
[0031] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化;
[0032] 其中:
[0033] 數(shù)據(jù)預(yù)處理:目是對數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性;數(shù)據(jù)預(yù)處理是幾 乎所有數(shù)據(jù)挖掘方法中重要的一個步驟,有效及可靠的數(shù)據(jù)的預(yù)處理,是后續(xù)分類的基 礎(chǔ);
[0034] 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異;
[0035] 2)維度重要性計算;
[0036] 采用隨機(jī)森林算法得到各維度重要性;隨機(jī)森林算法用隨機(jī)建立有多棵不相關(guān)決 策樹構(gòu)成的森林,如附圖2所示,待分類樣本由每棵決策樹給出一個分類結(jié)果,給出最多的 分類即為森林的輸出分類結(jié)果;
[0037] 3) K近鄰分類;
[0038] 對于一個待分類樣本,首先計算它和所有模板樣本間的加權(quán)距離,選擇其中距離 最小的k個模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0039] 所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計算各維度的均值及標(biāo)準(zhǔn)差,然后再后續(xù) 訓(xùn)練及分類階段,對應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值變 為0,標(biāo)準(zhǔn)差變?yōu)?。
[0040] 如圖3所示,所述維度重要性的計算為誤分率的變化:隨機(jī)森林的每棵樹的子樣 本集由所有訓(xùn)練樣本集有放回采樣得到,平均會有大約1/3的樣本不會被選取,這部分樣 本可用來驗證每一棵的分類誤分率,計算某維度重要性時,在訓(xùn)練決策樹不采用該維度時 得到誤分率和采用該維度時的誤分率的比值定義為該維度的維度重要性。
[0041] 所述維度重要性的計算為分裂時信息熵變化率下降量:決策樹在節(jié)點(diǎn)分裂時會選 擇一個最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策樹訓(xùn)練 的過程中,可計算每個維度所有信息熵變化率的平均值,以此作為維度的重要性。
[0042] 假設(shè)各維度通過前面計算得到的加權(quán)值分別為W1, W2,…,Wn,待測樣本各維度分別 為D1, D2, D3,…,Dn,匹配模板各維度分別為T1, T2, T3,…,Tn,所述加權(quán)距離如下:
[0043]
[0044] 其中δ 訓(xùn)練數(shù)據(jù)中第i個維度的標(biāo)準(zhǔn)差。
[0045] 實施時注意事項:
[0046] 1)本發(fā)明中使用的基本算法可以重新編寫,也可以采用現(xiàn)有程序包;
[0047] 2)考慮到高維數(shù)據(jù)的特點(diǎn),實施時可先對原始樣本數(shù)據(jù)進(jìn)行特征的變換或篩選;
[0048] 3)本
【發(fā)明內(nèi)容】
中給出了兩種給出了兩種不同的維度重要性的計算方式,在實際實 施應(yīng)用時,可根據(jù)實際情況選擇其中一種或兩種計算方法組合使用;
[0049] 4)本發(fā)明給出的距離定義,在實施時需要根據(jù)實際,選擇合理的p值,當(dāng)P = 1,該 距離為加權(quán)的曼哈頓距離;當(dāng)P = 2,該距離為加權(quán)的歐式距離;
[0050] 5)將k近鄰分類方法改為k近鄰回歸方法,可將本發(fā)明方法應(yīng)用大規(guī)模高維數(shù)據(jù) 的回歸問題。
[0051] 以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項】
1. 一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其特征在于:所述方法對 訓(xùn)練樣本利用隨機(jī)森林算法計算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k 近鄰算法進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其 特征在于,所述方法包括步驟如下: 1) 訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化; 其中: 數(shù)據(jù)預(yù)處理:目是對數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性; 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異; 2) 維度重要性計算; 采用隨機(jī)森林算法得到各維度重要性; 3. K近鄰分類; 對于一個待分類樣本,首先計算它和所有模板樣本間的加權(quán)距離,選擇其中距離最小 的k個模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。3. 根據(jù)權(quán)利要求2所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其 特征在于:所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計算各維度的均值及標(biāo)準(zhǔn)差,然后再后 續(xù)訓(xùn)練及分類階段,對應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值 變?yōu)椹?標(biāo)準(zhǔn)差變?yōu)?。4. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于,所述維度重要性的計算為誤分率的變化:隨機(jī)森林的每棵樹的子樣本集由 所有訓(xùn)練樣本集有放回采樣得到,平均會有1/3的樣本不會被選取,這部分樣本可用來驗 證每一棵的分類誤分率,計算某維度重要性時,在訓(xùn)練決策樹不采用該維度時得到誤分率 和采用該維度時的誤分率的比值定義為該維度的維度重要性。5. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于,所述維度重要性的計算為分裂時信息熵變化率下降量:決策樹在節(jié)點(diǎn)分裂 時會選擇一個最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策 樹訓(xùn)練的過程中,可計算每個維度所有信息熵變化率的平均值,以此作為維度的重要性。6. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于:假設(shè)各維度通過前面計算得到的加權(quán)值分別為Wl,w2,…,wn,待測樣本各 維度分別為DpD2,D3,…,Dn,匹配模板各維度分別為1\,T2,T3,…,Tn,所述加權(quán)距離如下:其中\(zhòng)為訓(xùn)練數(shù)據(jù)中第i個維度的標(biāo)準(zhǔn)差。
【專利摘要】本發(fā)明公開了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對訓(xùn)練樣本利用隨機(jī)森林算法計算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法進(jìn)行分類。本發(fā)明分類方法可解決所有分類問題,尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問題,該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問題。
【IPC分類】G06K9/62, G06F17/30
【公開號】CN104915679
【申請?zhí)枴緾N201510272419
【發(fā)明人】韋鵬, 付興旺, 吳楠, 朱英澍
【申請人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開日】2015年9月16日
【申請日】2015年5月26日