本發(fā)明涉及屬性選擇方法,具體是指一種模糊粗糙集中基于信息增益率的屬性選擇方法。
背景技術(shù):
:現(xiàn)實中由于數(shù)據(jù)采集的結(jié)果往往伴隨著噪聲數(shù)據(jù),這使得不確定數(shù)學(xué)工具顯得尤為重要。粗糙集理論與其他處理不確定和不精確問題理論相比,無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗知識。由于粗糙集處理不確定數(shù)據(jù)的優(yōu)越性,目前已經(jīng)在分類、聚類等多個領(lǐng)域得到廣泛應(yīng)用,其中,屬性選擇是最為重要的應(yīng)用之一。屬性選擇可以從大量的屬性中消除冗余、無關(guān)的屬性,從而提高數(shù)據(jù)質(zhì)量、加速數(shù)據(jù)處理速度和改善分類器的泛化能力。經(jīng)典的粗糙集理論只能夠處理符號屬性,對于數(shù)值屬性必須提前進(jìn)行離散化處理。d.dubios和h.prad在1992年提出了模糊粗糙集,模糊粗糙集將模糊集和離散集結(jié)合,用模糊集和隸屬度來描述一個對象和集合間的關(guān)系,可以直接處理數(shù)值屬性。相比離散化,模糊化能較好的保留數(shù)值屬性的信息。信息增益率是一種選擇屬性的有效方法,可以懲罰值較多的屬性,在實際使用中往往具有較好的效果。但目前模糊粗糙集中存在的基于信息增益率的屬性選擇方法(daij,xuq.attributeselectionbasedoninformationgainratioinfuzzyroughsettheorywithapplicationtotumorclassification[j].appliedsoftcomputing,2013,13(1):211-221.):(1)沒有去除相關(guān)性較低的屬性,相關(guān)性較低的屬性可能會被選擇到結(jié)果中。(2)屬性選擇的結(jié)果中,可能存在冗余。為了解決上述問題,提升模糊粗糙集中屬性選擇方法,本發(fā)明將提出一種新的模糊粗糙集中基于信息增益率的屬性選擇方法。相比目前模糊粗糙集中存在的基于信息增益率的屬性選擇方法,可以進(jìn)一步從大量的屬性中消除無關(guān)、冗余的屬性,從而提高數(shù)據(jù)質(zhì)量、加速數(shù)據(jù)處理速度和改善分類器的泛化能力。技術(shù)實現(xiàn)要素:本發(fā)明的目的是為了提升模糊粗糙集中屬性選擇方法,而提出一種新的模糊粗糙集中基于信息增益率的屬性選擇方法。為了實現(xiàn)以上發(fā)明的目的,本發(fā)明采用的技術(shù)方案如下:本發(fā)明方法是在模糊粗糙集下,計算各屬性的信息增益率,去除信息增益率小于給定閾值的屬性;計算各個未被選擇的屬性的信息增益率,選擇信息增益率最大的屬性,并加入到屬性選擇結(jié)果中;重復(fù)上面的選擇過程,直到信息增益率的最大值為0或未被選擇的屬性集為空集,去除選擇結(jié)果中的冗余屬性。這里的各個未被選擇的屬性是指代刪除信息增益率小于給定閾值的屬性后的模糊粗糙集下的屬性。上述基于模糊粗糙集信息增益率的屬性選擇方法的具體描述如下:輸入:一個決策表dt=(u,a=c∪d,v,f),其中u是論域,c是條件屬性集,d是決策屬性集,v是值域,f是u和a到v的映射。論域中對象間的模糊相似關(guān)系。閾值δ(可根據(jù)實際情況調(diào)節(jié),默認(rèn)為一個較小的值:0.000001)。輸出:屬性選擇結(jié)果b第1步:令屬性選擇結(jié)果b的初始值為空集,未被選擇的屬性集m的初始值為c第2步:對于未選擇屬性集m中的每個屬性a,如果信息增益率gr(a,b,d)<δ,則m=m–{a};第3步:對于未選擇屬性集m中的每個屬性a,計算信息增益率gr(a,b,d);并將信息增益率最大的屬性記為a′。第4步:b=b∪a′,m=m-a′。第5步:如果信息增益率gr(a′,b,d)>0,并且繼續(xù)執(zhí)行第3步和第4步;否則,進(jìn)入下一步。第6步:對于屬性選擇結(jié)果b中的每個屬性a,如果信息增益率gr(a,b–{a},d)=0,則b=b–{a}。遍歷屬性選擇結(jié)果b中所有屬性,最終得到所需的結(jié)果集。(先選擇的屬性往往更重要,因此優(yōu)先去除后選擇的屬性,即在本步中反向遍歷b)本發(fā)明方法具有模糊粗糙集的優(yōu)點,可以直接處理數(shù)值屬性,而且使用信息增益率選擇屬性;提前去除相關(guān)性較低的屬性,防止相關(guān)性較低的屬性被選擇到結(jié)果中;屬性選擇后,去除結(jié)果中的冗余屬性。相比目前模糊粗糙集中存在的基于信息增益率的屬性選擇方法,可以進(jìn)一步的從大量的屬性中消除無關(guān)、冗余的屬性,從而提高數(shù)據(jù)質(zhì)量、加速數(shù)據(jù)處理速度和改善分類器的泛化能力。附圖說明圖1為本發(fā)明的方法流程圖;圖2為本發(fā)明的實施流程圖。具體實施方式下面結(jié)合具體實施例對本發(fā)明做進(jìn)一步的分析。本發(fā)明包括以下4個步驟,圖1為本發(fā)明的方法流程圖;圖2為本發(fā)明的實施流程圖。(1)將數(shù)據(jù)轉(zhuǎn)化為粗糙集中使用的決策表格式(2)計算決策表中對象的模糊相似關(guān)系,常用的數(shù)值屬性的模糊相似關(guān)系如下其中:xi和xj表示論域u中的2個對象,amax表示屬性a的最大值,amin表示屬性a的最小值。(3)通過本發(fā)明的基于模糊粗糙集信息增益率的屬性選擇方法,得到屬性選擇結(jié)果(4)輸出屬性選擇結(jié)果實驗例:在醫(yī)療領(lǐng)域,用機(jī)器學(xué)習(xí)算法診斷疾病已經(jīng)成為一種新的趨勢。相比于傳統(tǒng)的人工診斷,使用機(jī)器學(xué)習(xí)算法診斷,效率更高,準(zhǔn)確率更好。然而,現(xiàn)實生活中采集的數(shù)據(jù)往往包含大量的噪聲和冗余屬性。使用這種數(shù)據(jù)訓(xùn)練模型,效率低下,準(zhǔn)確率低。因此,去除冗余屬性和噪聲的預(yù)處理技術(shù)是必不可少的步驟。在本發(fā)明中,使用本專利提出的方法對uci(http://archive.ics.uci.edu/ml)數(shù)據(jù)倉庫中的breastcancerwisconsin(diagnostic)進(jìn)行屬性約減,并驗證結(jié)果的有效性。breastcancerwisconsin(diagnostic)數(shù)據(jù)集的特征是從乳腺腫塊的細(xì)針穿刺(fna)圖像提取的。這些特征描述了圖像中細(xì)胞核的特性。數(shù)據(jù)集的類別只有兩種:良性(benign)和惡性(malignant)。數(shù)據(jù)集的信息如表1所示。運(yùn)行的結(jié)果如表2所示:消除無關(guān)、冗余的屬性,從而提高數(shù)據(jù)質(zhì)量和改善分類器的泛化能力。屬性選擇后的數(shù)據(jù)集為原始數(shù)據(jù)集去除未在屬性選擇中的屬性;分類準(zhǔn)確率為十者交叉驗證的平均值,采用的分類器為邏輯回歸。表1數(shù)據(jù)集信息#dataset#instances#attributes#classbcw569322表2屬性選擇后的數(shù)據(jù)集與原始數(shù)據(jù)集對比上述實施例并非是對于本發(fā)明的限制,本發(fā)明并非僅限于上述實施例,只要符合本發(fā)明要求,均屬于本發(fā)明的保護(hù)范圍。當(dāng)前第1頁12