一種復雜多變量數(shù)據(jù)的特征選擇新方法
【技術領域】
[0001]本發(fā)明涉及一種復雜多變量數(shù)據(jù)的特征選擇新方法,屬于化學計量學領域。具體來說是利用基于蒙特卡羅的方法,在數(shù)據(jù)的特征和樣本二個方向進行隨機采樣構造系列子模型,統(tǒng)計分析模型的分析結果,以可視化的方式呈現(xiàn)出來,并在圖形中便捷地進行數(shù)據(jù)關鍵特征的選擇。
【背景技術】
[0002]特征選擇是復雜多變量數(shù)據(jù)建模的關鍵步驟,也是有效避免模型過擬合,確保模型泛化能力,基于已知模型,對新的或未知樣本進行有效驗證或預測的關鍵所在。以分析儀器數(shù)據(jù)的處理為例,特征選擇已經(jīng)成為挖掘色譜、質(zhì)譜和光譜數(shù)據(jù)信息,構建可靠分類或回歸模型的重要步驟,已非常廣泛地用于眾多領域的工業(yè)生產(chǎn)和科學研究中,系統(tǒng)生物學(例如代謝組學)中生物標志物的發(fā)現(xiàn)便是其典型的應用示例。
[0003]迄今為止已經(jīng)發(fā)展了眾多的特征選擇的算法,其中較傳統(tǒng)和經(jīng)典算法包括不加權(Unweighted)或加權(Weighted)的方法、Fisher比法,以及逐步回歸分析(StepwiseRegress1n)等,這些方法分別計算每個特征在不同類別樣本中不加權或加權標準偏差的均值或特征在類內(nèi)與類間方差的比值,以及逐步引入或刪減進入模型的特征,計算特征的回歸系數(shù),評價對模型的影響,以選取合適的引入特征。應用特別廣泛,特別是在近紅外等光譜數(shù)據(jù)分析中獲得認可的方法包括偏最小二乘無信息變量消除法(UninformativeVariable Eliminat1n by Partial Least Squares)、移動窗口偏最小二乘法(MovingWindow Partial Least Squares)和選擇性比法(Selectivity Rat1)等。這些方法依次通過加入噪聲以考察對回歸系數(shù)穩(wěn)健性的影響來選取合適特征,或以移動窗口的方式構造一系列的子模型,通過評價這些模型的有效性從而引入或剔除被選窗口內(nèi)的特征,以及考慮每個特征被解釋的方差與殘差方差比所構造的特征重要性評價指標等來達到選擇關鍵特征目的。
[0004]近年來得到較快發(fā)展,引起較大關注的模型集群分析(Model Populat1nAnalysis),已經(jīng)發(fā)展了一系列的有效方法,包括競爭自適應重加權采樣法(CompetitiveAdaptive Reweighted Sampling)、隨機青蛙法(Random Frog)、以及用于支持向量分類機分析的間隔影響分析(Margin Influence Analysis)等。他們分別通過計算多個重采樣子模型的預測誤差分布,實現(xiàn)特征集的全面評價,以選取優(yōu)化的特征組合;統(tǒng)計分析每個特征在N個不同維數(shù)模型中選擇概率,實現(xiàn)特征選擇,以及基于蒙特卡羅的方法構建多個模型,計算相應的支持向量機模型間隔,并統(tǒng)計分析每個特征對模型間隔的影響能力以實現(xiàn)特征選擇。在代謝組學的標志物發(fā)現(xiàn)方面,投影特征重要性法(Variable Importancein Project1n)和基于正交偏最小二乘的S-Plot法應用最為廣泛,主要原因應可歸功于SIMCA軟件,這個在代謝組學研究領域得到廣泛使用的軟件,包括也僅包括這二個方法。前者同時考慮回歸系數(shù)和載荷所構造的特征重要性評價指標,通常以指標值達到I作為引入該特征與否的依據(jù),而后者則同時考慮特征間的協(xié)方差和相關性所定義的特征選擇指標,因圖形近似S形而得名。所有這些方法都包括在了由大連達碩信息技術有限公司所發(fā)展的復雜多變量數(shù)據(jù)分析處理軟件系統(tǒng)中。
[0005]然而,由于實際數(shù)據(jù)的復雜性,上述方法對于數(shù)據(jù)量大、數(shù)據(jù)之間共線性強,特別是代謝組學生物標志物發(fā)現(xiàn)等方面的應用,還是存在眾多的困難和挑戰(zhàn),往往難以發(fā)現(xiàn)真正具有生物意義的小分子標志物,急需發(fā)展新的適應性強,有效性高,結果準確可靠的復雜多變量數(shù)據(jù)的特征選擇新方法。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種新的復雜多變量數(shù)據(jù)的特征選擇方法,通過該方法所發(fā)現(xiàn)的關鍵特征,可使模型具有更高的穩(wěn)健性和泛化能力,減少模型過擬合的風險,特別適合于數(shù)據(jù)量大(特征數(shù)目大)、共線性程度高的數(shù)據(jù)分析,在代謝組學等領域具有良好的應用前景。
[0007]為了解決復雜多變量數(shù)據(jù)的特征選擇問題,本發(fā)明通過對待分析的數(shù)據(jù)從特征和樣本二個方向進行蒙特卡羅劃分,即分別從數(shù)據(jù)矩陣的行和列二個方向隨機提取子數(shù)據(jù),并分別構建和統(tǒng)計分析模型結果,基于分析眾多子模型集群統(tǒng)計評價參數(shù)的角度,計算不同數(shù)據(jù)特征的重要性指標,達到優(yōu)選關鍵特征的目的。特別地,本發(fā)明通過統(tǒng)計分析可視化圖形來達到特征選擇的目的,簡便直觀,意義明確,使用方便,這也是其優(yōu)于傳統(tǒng)上基于模型集群分析思路方法的特點之一。
[0008]上述從待分析數(shù)據(jù)的二個方向?qū)?shù)據(jù)進行劃分和模型分析,其作用和意義是不同的。特征方向的數(shù)據(jù)劃分和模型構建在于從原始的較大數(shù)據(jù)中提取數(shù)據(jù),通過構造模型,優(yōu)選數(shù)據(jù)特征達到數(shù)據(jù)部分降維,且保留重要數(shù)據(jù)特征和信息的目的,可視之為特征的“粗選”,即選擇局部的最優(yōu)特征,為下一步的大規(guī)模數(shù)據(jù)劃分、子模型的構建、統(tǒng)計結果分析,以及可視化圖形操作做準備。特別是對于樣本數(shù)有限,且特征數(shù)較多的數(shù)據(jù),直接的數(shù)據(jù)建模往往很難得到較好的結果,即出現(xiàn)所謂的“少樣本,多變量”問題。特征方向的樣本劃分可以從根本上避免和改善此類現(xiàn)象,提高建模能力和模型的泛化能力。
[0009]上述從特征方向劃分并建模后優(yōu)選所得到的數(shù)據(jù),再從樣本方向進行預先設定次數(shù)的蒙特卡羅劃分,獲得模型訓練集與預測集,或?qū)τ谳^大的數(shù)據(jù)集,則進行“留一法”或I折交叉驗證”,計算模型結果,而對分類和回歸問題,分別統(tǒng)計分析每個子模型的預測錯誤率或交互驗證均方殘差,再分析單次樣本方向劃分所構建的子模型,計算各子模型預測錯誤率或交互驗證均方殘差的平均值和方差,在完成預定次數(shù)的特征和樣本方向的數(shù)據(jù)劃分和模型計算后,繪制均值-方差圖,最后統(tǒng)計落入“小均值、小方差”區(qū)域內(nèi)的模型,并更進一步分析構造這些模型的子數(shù)據(jù),統(tǒng)計分析包含在上述子數(shù)據(jù)中特征的出現(xiàn)次數(shù),獲得原始數(shù)據(jù)中所有特征在圖形中的出現(xiàn)次數(shù),以此作為特征重要性和被選擇與否的依據(jù),出現(xiàn)次數(shù)越多的特征,其重要性則越大,越需要被選擇;反之亦然。
[0010]本發(fā)明與傳統(tǒng)的方法相比,優(yōu)越性明顯。首先本發(fā)明建立在模型集群分析的策略之上,顯著優(yōu)于傳統(tǒng)方法僅僅基于單個模型或其評價參數(shù)思路,減少模型的不穩(wěn)健性,提高模型的泛化能力;其次本發(fā)明以可視化圖形的方式呈現(xiàn),可非常直觀地獲知不同特征在圖形中的出現(xiàn)次數(shù)和建模效果,一目了然;最后本方法適應范圍非常廣,特別是對傳統(tǒng)方法難于處理的“少樣本,多變量”問題,提供了較好的解決方法,可以用于代謝組學等研究中,解決諸如疾病組樣本難以大量獲取,而候選代謝物特征量巨大,從而導致有效生物標志物很難被發(fā)現(xiàn)的問題。
【附圖說明】
[0011]圖1為本發(fā)明所述的特征選擇方法的詳細流程圖;
圖2為本發(fā)明所述的子模型統(tǒng)計分析結果的均值-方差圖。圖形被劃分為4個不同的區(qū)域A、B、C和D,以及該區(qū)域內(nèi)的模型和對應數(shù)據(jù)特征的基本特性;
圖3為一個實施實例數(shù)據(jù)的均值-方差圖結果。圖中的每個點代表數(shù)據(jù)樣本方向劃分后所得到的系列子模型統(tǒng)計分析結果的均值和方差;圖中所標記的二個不同區(qū)域分別表示均值和方差方向選擇1/3數(shù)據(jù)點后的被選擇模型結果面;
圖4為所實施的實例數(shù)據(jù)計算結果,以及與傳統(tǒng)方法的比較。其中圖(A)為所實施的實例數(shù)據(jù)在7個不同的傳統(tǒng)特征選擇算法,以及偏最小二乘線性判別分析下所得到的預測錯誤率百分比;圖⑶為7個傳統(tǒng)特征選擇算法分別所優(yōu)選得到的特征序號;圖(C)則為本發(fā)明所述方法選擇的11個最重要的特征。上述7個傳統(tǒng)的特征選擇方法分別為遺傳算法(ga)、最小二乘無信息變量消除法(uve)、子窗口重排分析(spa)、競爭自適應重加權采樣法(cars)、隨機青蛙(rf)、特征投影重要性(vip)和選擇性比(sr);
圖5為所實施的實例數(shù)據(jù)在改變圖2和圖3中所示的均值-方差圖中的所選目標區(qū)域后的結果,圖中3組不同的棒狀圖結果分別表示所選的模型比例為1/4、1/3和1/2時的分析結果。
【具體實施方式】
[0012]實施例:
以一個用于代謝組學研究的肝病數(shù)據(jù)為例,說明本發(fā)明所述的多變量數(shù)據(jù)關鍵特征的選擇方法。本數(shù)據(jù)包括62個樣本,其中肝病組和正常對照組樣本數(shù)據(jù)各占一半,數(shù)據(jù)預處理后的代謝特征數(shù)為138個,這些特征均由高分辨質(zhì)譜分析所得的精確質(zhì)量數(shù)和