專利名稱:一種基于模糊粗糙模型的分類規(guī)則提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬智能決策支持系統(tǒng)中的數(shù)據(jù)挖掘技術(shù),涉及一種模型的分類規(guī)則提取方 法,具體是指一種基于模糊粗糙模型的分類規(guī)則提取方法。
背景技術(shù):
粗糙集理論是一種分析數(shù)據(jù)的數(shù)學(xué)工具,其特點(diǎn)是不需要預(yù)先給定某些特征或?qū)?性的數(shù)量描述,而是直接從給定問題的描述集合出發(fā),找出該問題中的內(nèi)在規(guī)律。它具有 知識(shí)提取完全由數(shù)據(jù)驅(qū)動(dòng)而不需要人為假設(shè)、簡(jiǎn)化輸入信息的表達(dá)空間、算法簡(jiǎn)單且易于 操作等優(yōu)點(diǎn)。但是,粗糙集的數(shù)學(xué)基礎(chǔ)是集合論,對(duì)信息表中連續(xù)屬性的處理能力非常有 限。目前針對(duì)具有連續(xù)屬性的信息表的數(shù)據(jù)挖掘問題,最普遍的方法是對(duì)連續(xù)數(shù)據(jù)進(jìn)行離 散化,由于對(duì)連續(xù)屬性的值進(jìn)行離散化劃分具有不同種方法,現(xiàn)有實(shí)驗(yàn)已經(jīng)證明所有可能 劃分狀態(tài)的最優(yōu)離散化方法是一種NP-hard問題。目前對(duì)連續(xù)屬性離散化的方法目前有三種分類其一,有監(jiān)督的離散化和無監(jiān)督 的離散化;其二,全局離散化與局部離散化;其三,靜態(tài)離散化與動(dòng)態(tài)離散化。$ US i 白勺 1 禾呈(Unsupervised discretization procedures) ^iJ 分一個(gè)連續(xù)變量時(shí)僅考慮這個(gè)屬性數(shù)據(jù)的分布特性,而有監(jiān)督的離散化過程 (Superviseddiscretization procedures)除此之外還需考慮每一個(gè)對(duì)象的分類信息。常 用的無監(jiān)督的離散化過程包括1、等寬區(qū)間法(equal-width-intervals) ;2、等頻區(qū)間法 (equal-freguency-intervals) ;3、串分析方法。有監(jiān)督的離散化是為了使被離散化屬性與 分類屬性之間的某種關(guān)系測(cè)度最大化,例如可利用熵測(cè)度或信息增益測(cè)度(for example Quinlan 1993 ;Catlett 1991 ;Fayyad & Irani 1993)。無監(jiān)督的離散化算法運(yùn)行速度快, 而有監(jiān)督的離散化算法由于考慮了分類標(biāo)識(shí)因而可產(chǎn)生精度較高的離散樹。全局離散化(GlcAal Discretization Method)是指在同一時(shí)刻對(duì)決策表中全部 連續(xù)條件屬性的屬性值進(jìn)行劃分的方法,而局部離散化(Local DiscretizationMethod)則 是指在同一時(shí)刻僅對(duì)一個(gè)連續(xù)屬性的屬性值進(jìn)行劃分的方法。則全局離散化在全部連續(xù)屬 性的離散化過程中只能產(chǎn)生一組離散劃分值,而局部離散化針對(duì)同一個(gè)連續(xù)屬性都可產(chǎn)生 不同種劃分。對(duì)于全局離散方法主要有以下幾種策略歸并方法和劃分方法,劃分法又分為 動(dòng)態(tài)型和靜態(tài)型;動(dòng)態(tài)劃分主要與決策樹有關(guān),它是一邊生成決策樹,一邊進(jìn)行連續(xù)值區(qū)間 的劃分;靜態(tài)劃分方法又稱為預(yù)處理型,即在訓(xùn)練例子集合之前就把連續(xù)屬性預(yù)先都離散 化了,從而在機(jī)器學(xué)習(xí)時(shí)可大大提高學(xué)習(xí)效率。使用有監(jiān)督離散化方法的系統(tǒng)大部分使用 全局離散化。靜態(tài)離散化方法如捆綁法(Binning)和基于熵的方法都是針對(duì)不同的屬性%可 產(chǎn)生不同個(gè)數(shù)的離散化間隔數(shù)ki;而動(dòng)態(tài)離散化方法則是在所有屬性上僅可產(chǎn)生同一個(gè)離 散間隔數(shù)k。目前文獻(xiàn)記載的離散化方法均屬于靜態(tài)離散化方法,動(dòng)態(tài)離散化是學(xué)者正在研 究的目標(biāo)。然而無論哪一種類型的連續(xù)屬性離散化方法,對(duì)于離散歸一化的結(jié)果都應(yīng)滿足下列三點(diǎn)1、連續(xù)屬性離散化后的空間維數(shù)盡量小,也就是每一個(gè)離散歸一化后的屬性值的 種類盡量少;2、屬性值被離散歸一化后的信息丟失盡量少;3、對(duì)于小樣本,離散化后應(yīng)保持決策系統(tǒng)的相容性;對(duì)于大樣本,可給出離散化后 的決策系統(tǒng)不相容性水平。因此,綜上所述,目前連續(xù)屬性離散化方法的不足之處是由于將連續(xù)屬性值的模 糊邊界沒有考慮到,因而在離散化過程中,若離散區(qū)間太多則后續(xù)的數(shù)據(jù)挖掘過程太復(fù)雜 導(dǎo)致挖掘規(guī)則不精煉準(zhǔn)確;若離散區(qū)間太少則會(huì)丟失重要數(shù)據(jù)信息。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于模糊粗糙模型的分類規(guī)則提取方法,該 方法在模糊集合論的連續(xù)屬性模糊化過程,從新的角度將精確和模糊聯(lián)系在一起,為處理 不確定的信息提供了一種新的方法,通過隸屬函數(shù)來刻劃模糊概念,能有效地解決粗糙集 中模糊邊界問題,從而使得數(shù)據(jù)挖掘規(guī)則精煉準(zhǔn)確,避免丟失重要數(shù)據(jù)信息。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為一種基于模糊粗糙模型的分類 規(guī)則提取方法,包括以下步驟首先利用模糊集中的隸屬函數(shù)對(duì)信息表中的連續(xù)屬性進(jìn)行 屬性模糊化,這樣既可防止數(shù)據(jù)的損失,又能表示出各屬性值的差別,從而構(gòu)造具有模糊屬 性值的決策系統(tǒng);再應(yīng)用模糊相似關(guān)系中的粗糙集提出逼近精度近似度量、粗糙逼近精度 近似度量、逼近精度分類質(zhì)量測(cè)度、逼近精度相對(duì)分類測(cè)度等參數(shù),從而建立基于逼近精度 的模糊-粗糙集的約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數(shù)說明及定義設(shè)決策系統(tǒng)中條件屬性集合C中有m個(gè)屬性=C1, C2, A,Cffl,決策屬性集合為D,由 D決定的劃分為{Υ1;Υ2,Λ,Yk},對(duì)每個(gè)條件屬性Ci計(jì)算以下k+4個(gè)參數(shù) (。)'CCci (L^, yCi(L) cpCi{L) PCi{L) ^ φ i = IAffljj = IAk0令、和 分別為這k+4個(gè)參數(shù)的算數(shù)均值
和幾何均值;在每個(gè)條件屬性Ci的k+4個(gè)參數(shù)中同時(shí)考慮了條件屬性與決策屬性的絕對(duì)分 類和相對(duì)分類,使條件屬性對(duì)決策的分類重要性更有具全面性和合理性;2、屬性Ci的重要性定義為=QT1Tci +QT2ATciα工和α 2分別為用戶指定的算數(shù)均值和幾何均值的重要性參數(shù),當(dāng)所有k+4個(gè)參 數(shù)都非0時(shí),表明該屬性對(duì)劃分的各子集都有影響,因而增加幾何均值&,是為了將這種重 要性影響體現(xiàn)出現(xiàn)。上述算法包括以下步驟(1)計(jì)算條件屬性集合的Yc(L);(2)對(duì)于任意條件屬性計(jì)算Z = {ZCf};(3)初始化 C° = Φ ;(4) C0=C0+ {C, I V/,取 Ci 使石,最大};
(5)判斷/c/ <&(幻,若滿足則繼續(xù)下一步,否則返回上一步;(6) C°即為一個(gè)最小約減。本發(fā)明相對(duì)于現(xiàn)有技術(shù),通過利用基于逼近精度參數(shù)的算法將各連續(xù)屬性按重要 性由大到小依次加入到屬性約減集中,直到滿足約減條件為止,算法具有簡(jiǎn)單易實(shí)現(xiàn)的特 點(diǎn),尤其在條件屬性較多時(shí),能較快地求出屬性約減。
圖1是輸入數(shù)據(jù)模式。的隸屬度函數(shù)π函數(shù)分布圖。
具體實(shí)施例方式一種基于模糊粗糙模型的分類規(guī)則提取方法,包括以下步驟首先利用模糊集中 的隸屬函數(shù)對(duì)信息表中的連續(xù)屬性進(jìn)行屬性模糊化,這樣既可防止數(shù)據(jù)的損失,又能表示 出各屬性值的差別,從而構(gòu)造具有模糊屬性值的決策系統(tǒng);再應(yīng)用模糊相似關(guān)系中的粗糙 集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質(zhì)量測(cè)度、逼近精度相對(duì) 分類測(cè)度等參數(shù),從而建立基于逼近精度的模糊-粗糙約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數(shù)說明及定義設(shè)決策系統(tǒng)中條件屬性集合C中有m個(gè)屬性=C1, C2, A,Cffl,決策屬性集合為D,由 D決定的劃分為{Υ1; Υ2,Λ,YJ,對(duì)每個(gè)條件屬性Ci計(jì)算以下k+4個(gè)參數(shù) 凡,(Fj) (Z), A CQ,,凡00,其中i = IAm, j = IAk;令、和\分別為這k+4個(gè)參數(shù)的算數(shù)均值 和幾何均值;在每個(gè)條件屬性Ci的k+4個(gè)參數(shù)中同時(shí)考慮了條件屬性與決策屬性的絕對(duì)分 類和相對(duì)分類,使條件屬性對(duì)決策的分類重要性更有具全面性和合理性。2、屬性Ci的重要性定義為^c, =CClTci +a2KCiα工和α 2分別為用戶指定的算數(shù)均值和幾何均值的重要性參數(shù),當(dāng)所有k+4個(gè)參 數(shù)都非0時(shí),表明該屬性對(duì)劃分的各子集都有影響,因而增加幾何均值\是為了將這種重要 性影響體現(xiàn)出現(xiàn)。上述算法包括如下步驟(1)計(jì)算條件屬性集合的Yc(L);(2)對(duì)于任意條件屬性計(jì)算Z = {Zc, };(3)初始化 C0 = Φ ;(4) C0=C0+ {C, I V/,取 Ci 使&最大};(5)判斷R/ <斤(幻,若滿足則繼續(xù)下一步,否則返回上一步;(6) C°即為一個(gè)最小約減。實(shí)施例一種基于模糊粗糙模型的分類規(guī)則提取方法,包括1、連續(xù)屬性模糊化(1)連續(xù)屬性值的決策系統(tǒng)
設(shè)有一個(gè)決策系統(tǒng)(U,Q,V,f),其中U = Ix1, x2, A,xj為非空的有限論域,表示 對(duì)象;Q為非空的屬性集,Q = CY3jivhmmexw,C = {Ql, q2, A,qj是一個(gè)非空、有限的條件屬性集, 3jivhmmexw為決策屬性集,d:U- {1,2, A,g} ;V為屬性值,V = VcYVd, Vc = {Vq :q e C}是條件屬 性值集,Vd是決策屬性值集,并且第i個(gè)對(duì)象在第j個(gè)條件屬性下的屬性值 (1 = IA η, j = IAm)為連續(xù)屬性值;f :UXQ —V是一個(gè)信息映射函數(shù),顯然這是一個(gè)屬性值連續(xù)的決 策系統(tǒng)。(2)屬性模糊化在實(shí)際應(yīng)用中,對(duì)連續(xù)屬性進(jìn)行模糊化的關(guān)鍵是確定隸屬度函數(shù),利用π函數(shù) 對(duì)屬性進(jìn)行模糊劃分。在模糊集合中模糊成員值用三個(gè)參數(shù)表示即Iow(L),Hiedium(M), high (H),則任意一個(gè)η維的數(shù)據(jù)模式Fj = [Fjl, Fj2,Λ,F(xiàn)jn]可以用一個(gè)3η維的向量表示Fj = [m1ow(Fji) (Fj ),Λ,MhigKFjn) (Fj)]其中μ值表示對(duì)應(yīng)于模糊JI集三個(gè)參數(shù)Iow(L) ,medium (M),high (H)的隸屬函
數(shù)值。當(dāng)輸入數(shù)據(jù)模式h是連續(xù)值時(shí),其隸屬度μ在一維空間中表示為
權(quán)利要求
1.一種基于模糊粗糙模型的分類規(guī)則提取方法,包括以下步驟首先利用模糊集中的 隸屬函數(shù)對(duì)信息表中的連續(xù)屬性進(jìn)行屬性模糊化,構(gòu)造具有模糊屬性值的決策系統(tǒng);再應(yīng) 用模糊相似關(guān)系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分 類質(zhì)量測(cè)度、逼近精度相對(duì)分類測(cè)度等參數(shù),從而建立基于逼近精度的模糊-粗糙集約減 算法來求取分類規(guī)則。
2.根據(jù)權(quán)利要求1所述的一種基于模糊粗糙模型的分類規(guī)則提取方法,其特征在于 所述模糊-粗糙約減算法包括(1)參數(shù)說明及定義設(shè)決策系統(tǒng)中條件屬性集合C中有m個(gè)屬性C1,C2,Λ,Cm,決策屬性集合 為D,由D決定的劃分為{Y1; Y2, Λ,Yk},對(duì)每個(gè)條件屬性(;計(jì)算以下k+4個(gè)參數(shù) ^c1
3.根據(jù)權(quán)利要求1或2所述的一種基于模糊粗糙模型的分類規(guī)則提取方法,其特征在 于所述模糊-粗糙約減算法上述算法包括以下步驟(1)計(jì)算條件屬性集合的Yc(L);(2)對(duì)于任意條件屬性計(jì)算Z=(3)初始化C°= Φ ;(4)C0 = C0 +[Ci I ViMCi^ZcMM ;(5)判斷;^/</cCQ,若滿足則繼續(xù)下一步,否則返回上一步;(6)C0即為一個(gè)最小約減。
全文摘要
本發(fā)明涉及一種基于模糊粗糙模型的分類規(guī)則提取方法。目前連續(xù)屬性離散化方法由于將連續(xù)屬性值的模糊邊界沒有考慮到,因而在離散化過程中,使得數(shù)據(jù)挖掘規(guī)則不夠精煉準(zhǔn)確,容易丟失重要數(shù)據(jù)信息。本發(fā)明的分類規(guī)則提取方法,首先利用模糊集中的隸屬函數(shù)對(duì)信息表中的連續(xù)屬性進(jìn)行屬性模糊化,再應(yīng)用模糊相似關(guān)系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質(zhì)量測(cè)度、逼近精度相對(duì)分類測(cè)度等參數(shù),從而建立基于逼近精度的模糊-粗糙集約減算法來求取分類規(guī)則。本發(fā)明利用將各連續(xù)屬性按重要性由大到小依次加入到屬性約減集中,直到滿足約減條件為止,尤其在條件屬性較多時(shí),能較快地求出屬性約減。
文檔編號(hào)G06F17/30GK102096672SQ20091021937
公開日2011年6月15日 申請(qǐng)日期2009年12月9日 優(yōu)先權(quán)日2009年12月9日
發(fā)明者張文宇 申請(qǐng)人:西安郵電學(xué)院