專利名稱::一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于復(fù)雜系統(tǒng)科學(xué)和數(shù)據(jù)挖掘領(lǐng)域,涉及一種基于改進(jìn)關(guān)聯(lián)度系數(shù)的復(fù)雜系統(tǒng)熵聚堆方法。
背景技術(shù):
:復(fù)雜系統(tǒng)熵分劃是目前唯一一個復(fù)雜系統(tǒng)的非監(jiān)督聚類方法,此方法基于傳統(tǒng)的關(guān)聯(lián)度系數(shù)法畫出信息連通圖,然后人為分類,每一個類對應(yīng)一個子系統(tǒng)。可是此方法有兩個缺點(diǎn)(1)它不是自組織的,需要人為確定,而且實(shí)現(xiàn)"剛性"分類,不能實(shí)現(xiàn)某些特征變量在不同的子系統(tǒng)里面出現(xiàn)。(2)此方法缺少驗(yàn)證,使得對得到的許多結(jié)果無法給出最優(yōu)的結(jié)果。
發(fā)明內(nèi)容本發(fā)明欲解決的傳統(tǒng)技術(shù)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的技術(shù)問題,為此,本發(fā)明提出一種快速、自組織、不但能實(shí)現(xiàn)聚類,還能實(shí)現(xiàn)某些變量在不同的子系統(tǒng)里面出現(xiàn)復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法。為了實(shí)現(xiàn)所述的目的,本發(fā)明復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法的技術(shù)方案如下步驟Sh根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量;特征變量用于描述此復(fù)雜系統(tǒng)屬性的自變量;步驟S2:用改進(jìn)的關(guān)聯(lián)度系數(shù)算出兩兩特征變量之間的關(guān)聯(lián)度;步驟S3:確定每個特征變量的"親友團(tuán)";步驟S4:根據(jù)聚堆方法自組織對特征變量進(jìn)行非監(jiān)督聚堆,得到特征變量的組合;步驟S5:將每個堆回代到原數(shù)據(jù)中,得到算法的敏感性;步驟S6:判斷敏感性的大小,如果敏感性為最大,轉(zhuǎn)入步驟7,如果敏感性不是最大,轉(zhuǎn)入步驟2;步驟S7:利用系統(tǒng)的類變量對非監(jiān)督聚堆方法進(jìn)行驗(yàn)證,得到特征變量最優(yōu)的組合。根據(jù)本發(fā)明的實(shí)施例,所述兩兩特征變量間的改進(jìn)關(guān)聯(lián)度的確定方法具體為<formula>formulaseeoriginaldocumentpage5</formula>其中,M《,A)表示特征變量X,和A之間的關(guān)聯(lián)度;WO-i塵i。g塵為特征變量《的信息熵;//(J^J^-Z/d^h-XZ^iog^為特征變量《和^的聯(lián)合熵;<formula>formulaseeoriginaldocumentpage5</formula>/M/,y')表示特征變量Z,和^的陽性出現(xiàn)頻率;6和3是實(shí)數(shù);其中,ftn,M)為特征變量《屬于C,第"類的數(shù)量,q為y,,/=1,2,..,W,分類的集合;M為樣本的數(shù)量。根據(jù)本發(fā)明的實(shí)施例對于每一個特征變量X,,根據(jù)關(guān)聯(lián)度的值,確定與其最相關(guān)的Z個特征變量,這Z個特征變量就叫做變量X,的"親友團(tuán)",Z為自然數(shù)。根據(jù)本發(fā)明的實(shí)施例,利用類變量數(shù)據(jù)對聚堆進(jìn)行驗(yàn)證的步驟包括(1)對于每一個堆S,把它回代到變量數(shù)據(jù)中,如果這個堆的所有變量都出現(xiàn)在一個樣本上,那么記下此樣本的編號,遍歷,部樣本,統(tǒng)計(jì)出例數(shù)z,記錄下來,列在堆s后面,并得到一個z維的向量^,其每一個元素表示樣本的編號;(2)把與向量^中編號對應(yīng)的類變量的^個向量提取出來并把這些向量相加得到一個向量^;,中的每一個元素w'表示在這z個樣本中有w'個樣本是得第^個類變量;顯然w^、找出^中最大的數(shù)w;,記錄下這個數(shù)和相應(yīng)的類變量;<formula>formulaseeoriginaldocumentpage6</formula>(3)定義并算出堆S的敏感性為^^T,所有的堆的敏感性的平均<formula>formulaseeoriginaldocumentpage6</formula>就是本非監(jiān)督聚堆方法的敏感性,即—p臺\其中r表示方法的敏感性7是堆的個數(shù);如果實(shí)際結(jié)果對應(yīng)于最高的敏感性,非監(jiān)督方法就得到驗(yàn)證。本發(fā)明的技術(shù)效果或優(yōu)點(diǎn)本發(fā)明解決了傳統(tǒng)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的技術(shù)問題,在此基礎(chǔ)上,提出了一種復(fù)雜系統(tǒng)非監(jiān)督聚堆的方法,優(yōu)點(diǎn)是(1)方法是自組織的,不用人為干預(yù)。(2)方法運(yùn)行速度很快,適合大量數(shù)據(jù)甚至海量數(shù)據(jù)。(3)方法不但能實(shí)現(xiàn)聚類,而且能實(shí)現(xiàn)某些變量在某些不同的類里面出現(xiàn)。(4)如果有因變量數(shù)據(jù),本方法能對非監(jiān)督聚出來的堆進(jìn)行驗(yàn)證,以找到最優(yōu)堆。本發(fā)明在生態(tài)分劃和臨床醫(yī)學(xué)數(shù)據(jù)分析等領(lǐng)域有著廣泛的應(yīng)用價值。圖l是本發(fā)明方法流程圖圖2是本發(fā)明方法的敏感性和閾值的關(guān)系,從中可以看出在閾值取15/4215的時候方法最好。具體實(shí)施例方式下面將結(jié)合附圖對本發(fā)明加以詳細(xì)說明,應(yīng)指出的是,所描述的實(shí)6施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。1.1方法概述(overviewofapproach)本發(fā)明的主要方法是基于關(guān)聯(lián)度系數(shù)法的復(fù)雜系統(tǒng)熵分劃的改進(jìn),先改進(jìn)傳統(tǒng)的關(guān)聯(lián)度系數(shù)法以使得能從數(shù)值上區(qū)分正相關(guān)和負(fù)相關(guān),然后在此基礎(chǔ)上得到每個變量的"親友團(tuán)",通過自定義的關(guān)聯(lián)原則和收斂條件自組織地聚出堆來,堆中變量的個數(shù)和總的堆的堆數(shù)都由方法自組織確定,沒有加入任何人為干預(yù)。如果數(shù)據(jù)有相應(yīng)的因變量,就把得到的堆回代到原來數(shù)據(jù)中,參考因變量對每個堆自動對應(yīng)上某個因變量,并算出每個堆的敏感性,然后把每個堆的敏感性相加求平均,得到方法的敏感性,敏感性最大的為最優(yōu)參數(shù),在此參數(shù)下得到的堆即為最優(yōu)堆。本發(fā)明方法的核心在于對傳統(tǒng)的關(guān)聯(lián)度系數(shù)的改進(jìn)和在此基礎(chǔ)上提出的聚堆方法。如圖l所示本發(fā)明方法的具體實(shí)施例包括7個步驟1、首先輸入特征變量數(shù)據(jù)。2、初始化參數(shù),用改進(jìn)的關(guān)聯(lián)度系數(shù)法算出兩兩變量之間的關(guān)聯(lián)系數(shù)。3、根據(jù)關(guān)聯(lián)系數(shù)值的大小,每個變量選擇和它最相關(guān)的前N個變量,記作此變量的"親友團(tuán)"。4、利用聚堆方法規(guī)則自組織地聚出堆來。5、如果有因變量數(shù)據(jù),把每個堆回代到自變量數(shù)據(jù)中,算出每個堆的敏感性,并求平均,記錄下此方法的敏感性的數(shù)值,如果比上次記錄的敏感值大,則覆蓋上次的值,同時記錄下相應(yīng)的參數(shù)。6、微調(diào)一下參數(shù),返回2。7、敏感性最大對應(yīng)的參數(shù)下得到的堆為最優(yōu)特征變量的組合。1.2變量之間相關(guān)性的度量1.2.1關(guān)聯(lián)度和關(guān)聯(lián)度系數(shù)對于一個復(fù)雜系統(tǒng),可以表示為矢量其中,《—A)(^1,2,…,M"-1,2,…,M)是描述系統(tǒng)特征的變量。令《為A,^1,2,…^,分類的集合,G'的第a個元素e'。=a,則有"。C,H1,2,…一,…化"M,并令。^r?!篂槭录i屬于c,第a類的數(shù)量,則變量Xj的熵定義為',仝MSM(2)Xi和Xj的聯(lián)合熵定義為草,,^)=-SZ》g^其中表示事件A屬于G'的第。類同時Xj屬于Cj的第b類的數(shù)量。有了上述熵的定義,下面給出基于互信息的關(guān)聯(lián)度的定義。定義1.假設(shè)^^A,則稱熵為Xi和^之間的關(guān)聯(lián)度。定義2.假設(shè)《^A—,則稱"';叫)(5)為Xi和^之間的關(guān)聯(lián)度系數(shù)。1.2.2改進(jìn)的關(guān)聯(lián)度系數(shù)上述定義的關(guān)聯(lián)度系數(shù)在實(shí)際應(yīng)用時會碰到一些問題。比如中醫(yī)臨床中兩個強(qiáng)相關(guān)的癥狀(比如神疲和乏力)之間的關(guān)聯(lián)度系數(shù)是很大,但是兩個相反的癥狀之間(比如浮脈和沉脈)的關(guān)聯(lián)度系數(shù)也很大,甚至可能是最大的。這是因?yàn)殛P(guān)聯(lián)度的定義可以另外表示為=//(Z,)K|X》(6)8從(6)可以看出A'和、之間的關(guān)聯(lián)度實(shí)際上表示為在確定、后所提供的關(guān)于《的信息。所以一對強(qiáng)相關(guān)的癥狀之間的關(guān)聯(lián)度和另外一對完全相反的癥狀之間的關(guān)聯(lián)度都很大,而且都大于0,這就導(dǎo)致我們后面聚堆方法無法把這兩種類型的情況區(qū)分開。所以這里我們提出一種改進(jìn)的關(guān)聯(lián)度系數(shù)法來解決這個問題。強(qiáng)相關(guān)癥狀之間與相反癥狀之間可以用陽性出現(xiàn)率來區(qū)分開。陽性出現(xiàn)率是指兩個變量同時都為O的概率。強(qiáng)相關(guān)癥狀之間的陽性出現(xiàn)率很大,而相反癥狀之間的陽性出現(xiàn)率理論上應(yīng)該是O,即不可能一個病人同時出現(xiàn)這兩個相反癥狀。所以我們把關(guān)聯(lián)度己經(jīng)關(guān)聯(lián)度系數(shù)的定義重新寫成f<formula>formulaseeoriginaldocumentpage9</formula>(8)其中,6是大于1的實(shí)數(shù),是懲罰系數(shù)。^是閾值。選取合適的閾值不但可以把正相關(guān)和負(fù)相關(guān)分開,而且可以避免一些錯誤數(shù)據(jù)帶來的干擾。,^)表示特征變量X,和&之間的關(guān)聯(lián)度;H(《)=-i:,iog~為特征變量義,的信息熵;<formula>formulaseeoriginaldocumentpage9</formula>為特征變量義,和^的聯(lián)合熵;尸o(/,/)表示特征變量X,和A的陽性出現(xiàn)頻率;6和5是實(shí)數(shù);<formula>formulaseeoriginaldocumentpage9</formula>)為特征變量兀屬于C,第a類的數(shù)量,C,為z,,"1,2,…,;V分類的集合;M為樣本的數(shù)量。1.3聚堆方法1.3.1"親友團(tuán)"我們這里只算出兩兩變量之間的關(guān)聯(lián)度系數(shù),這樣就形成一個WxiV的矩陣,記為7^(A一(/,_/))。對角線的元素表示變量自己與自己的關(guān)聯(lián),設(shè)置為0。一般的方法都是選擇一個全體的閾值來確定是否相關(guān),但是這種做法有點(diǎn)"剛性",而且這個閾值的確定帶有太大的主觀性而且太絕對。所以我們這里采取一種相對的做法,選定一個特定的變量/,在集合5*"(/)={厶//力,)),/=1,2—中取出值最大的前Z,1SZSW-1,個變量,形成一個有Z個元素的集合,記作Z)(/)。Z—般相對iV來說是很小的,所以這個集合可以叫做變量/的"親友團(tuán)",因?yàn)樗渲械拿總€元素都與/很相關(guān)。對于每一個特征變量《,根據(jù)關(guān)聯(lián)度的值,確定與其最相關(guān)的Z個特征變量,這Z個特征變量就叫做變量X,的"親友團(tuán)",z為自然數(shù)。在"親友團(tuán)"基礎(chǔ)上,自組織地聚出由特征變量組合成堆的步驟包括(1)如果兩個特征變量互在對方的"親友團(tuán)"里面,這兩個特征變量相關(guān),則聚在一起,把所有兩兩相關(guān)的變量都提取出來;(2)在此基礎(chǔ)上,如果有三個特征變量,它們之間兩兩都相關(guān),則這三個變量就是相關(guān),依此規(guī)則直到不能往里面加特征變量,則為收斂,這些相關(guān)特征變量的組合成非監(jiān)督聚出的堆。1.3.2聚堆方法對每個變量,我們都取它們各自的"親友團(tuán)"WV-1,2』。如果兩個變量互相在各自的親友團(tuán)里面,那么我們就認(rèn)為這兩個變量是強(qiáng)相關(guān)的。形式化描述就是變量/和/是強(qiáng)相關(guān)當(dāng)且僅當(dāng)/eD(y)且/eD(/)。只有強(qiáng)相關(guān)才能聚在一起。以此類推,三個變量聚在一堆里的當(dāng)且僅當(dāng)任意兩個變量都是強(qiáng)相關(guān)的。由于Z是有限的,所以這個方法肯定收斂。堆的個數(shù)是方法自動確定的,是變量個數(shù)W和"親友團(tuán)"個數(shù)Z的函數(shù)。1.3.3N-class相關(guān)這個方法大大減少了復(fù)雜度,因?yàn)樗灰蟪鲎兞恐g的兩兩相關(guān)就行。如果算三個甚至三個以上變量之間的相關(guān)性的話,那么有時候會面臨一個組合爆炸的困境,比如在這里面,如果沒有聚堆方法的話,至少要算《"個組合,這個復(fù)雜度太高了,而且結(jié)果未必好。我們在這里介紹一個N-dss相關(guān)的概念。它是這樣定義的,對于N個變量,如果任意N—l個變量都是相關(guān)的,那么我們就說這N個變量就是N-class相關(guān)。這個概念意味著要判斷N個變量是否相關(guān),我們只要判斷N—1個變量的是不是相關(guān)就可以。這樣理論上我們只要判斷兩兩變量之間是否相關(guān)就行。定理l:如果N個變量之間是相關(guān)的,第N+1個變量和N個變量之間任意一個都相關(guān),那么,這N+1個變量就是相關(guān)的證明我們知道,N個變量之間的關(guān)聯(lián)度是這么定義的<formula>formulaseeoriginaldocumentpage11</formula>(9)那么我們就有<formula>formulaseeoriginaldocumentpage11</formula>(10)(10)式的第二項(xiàng)表示A+'和A,^,…,A的關(guān)聯(lián)。它意味著這N+1個變量之間的關(guān)聯(lián)等于前N個變量的關(guān)聯(lián)加上^"和A,^,…,A的關(guān)。如果A"是與前面相關(guān)的,那么這N+1個變量也是相關(guān)的。證明完畢。這個定理大大地較少了復(fù)雜性,實(shí)踐證明,在奔騰2G的PC上此方法運(yùn)行所需時間少于50s。實(shí)驗(yàn)結(jié)果1.1在生態(tài)區(qū)劃中的運(yùn)用生態(tài)系統(tǒng)的區(qū)劃就是根據(jù)一定的規(guī)則把一個大區(qū)域分成若干小區(qū)域,使得每個小區(qū)域都有各自的相對獨(dú)立的特征,從而使得這個大區(qū)域內(nèi)各種不同類型的小區(qū)域分布以及它們之間的相互關(guān)系表現(xiàn)得更為清晰。.l丄l生態(tài)數(shù)據(jù)要分劃的區(qū)域由五個鎮(zhèn)(自變量),Xi,i^,2,…,5,組成,每一個鎮(zhèn)分別調(diào)察九種資源(能源,水資源,人口,動物,植物,微生物,自然地理,經(jīng)濟(jì)地理,環(huán)境質(zhì)量)情況,得到了一個9x5的矩陣。通過對這個數(shù)據(jù)的挖掘把五個鎮(zhèn)自動分層幾個類(區(qū)域),使得資源利用等最優(yōu)。所述復(fù)雜系統(tǒng)樣本的原始信息為每個鄉(xiāng)鎮(zhèn)資源的量化取值,特征變量為每個鄉(xiāng)鎮(zhèn)的資源。l丄2方法運(yùn)用選擇"親友團(tuán)"個數(shù)Z為3,閾值為0,因?yàn)樵谶@里面不涉及到完全相反的情況。所有的實(shí)驗(yàn)都是在一臺P42.0G、512MB內(nèi)存、操作系統(tǒng)為Windows2000的PC機(jī)上,用C語言編程或用Matlab語言實(shí)現(xiàn)了本發(fā)明所描述的方法。聚出兩類出來,s,={x2,x5};s2={Xl,x3,x丄此結(jié)果與以前關(guān)于這部分?jǐn)?shù)據(jù)權(quán)威的結(jié)果完全一樣,說明了方法的有效性。由于無法得到相應(yīng)的因變量數(shù)據(jù),所以方法的特點(diǎn)還沒有完全體現(xiàn)出現(xiàn)。1.2在中醫(yī)臨床數(shù)據(jù)分析中的運(yùn)用1.2.1數(shù)據(jù)描述數(shù)據(jù)分成兩部分,一部分是248個四診信息(特征變量)的數(shù)據(jù),由4215x248的矩陣來表示。另外一部分是臨床醫(yī)生給出的結(jié)果,分成風(fēng),火,濕,痰,淤,氣滯,氣虛,陰虛,陽虛,陽亢,閉證,脫證,內(nèi)閉外脫這十三個證候(類變量)。如果有某個證候,就在其下面填上1,反之則填O。一般一個病人都是有幾個證候同時存在的。所以這部分?jǐn)?shù)據(jù)由4215x13的矩陣來表示。所有的實(shí)驗(yàn)都是在一臺P42.0G、512MB內(nèi)存、操作系統(tǒng)為Windows2000的PC機(jī)上,用C語言編程實(shí)現(xiàn)。1.2.2數(shù)據(jù)的預(yù)處理以及參數(shù)選擇所述的復(fù)雜系統(tǒng)樣本的原始信息為人體癥狀所對應(yīng)的取值,特征變量為人體的癥狀,類變量為病人所屬的證候類型。所有的變量都變成0和1,O代表不出現(xiàn),l代表出現(xiàn)。由于調(diào)查的四診信息是248個,所以中風(fēng)病這個復(fù)雜系統(tǒng)就是由248個矢量組成,每一個矢量都是4215維,由0和1組成。^=248,M=4215。選擇"親友團(tuán)"個數(shù)Z需要參考臨床經(jīng)驗(yàn)。一般在臨床上三個到四個變量就可以確定一個證候。所以Z取5或者6比較合適??紤]到在同樣的參數(shù)下,2=5參數(shù)下聚出的堆是2=6的子集。所以在這里我們?nèi)-6。最關(guān)鍵的參數(shù)是閾值^的選擇,太小了會讓一些不太相關(guān)的變量聚在一個堆里;太大了又會使得雖然出現(xiàn)頻次都低但是卻緊密相關(guān)的變量之間的相關(guān)性變小,最后導(dǎo)致不在任何一個堆里面出現(xiàn),大大損失了信息量。在下面我們將介紹這個值的選擇以及對這個方法的驗(yàn)證。1.2.2聚堆結(jié)果1.2.2.1方法實(shí)現(xiàn)聚類我們選擇閾值為"^J,"親友團(tuán)"個數(shù)Z如上所述選為6,在此參數(shù)下方法自組織地聚出了46個相互獨(dú)立的堆,顯然,堆的個數(shù)(記作尸)是S和Z的函數(shù),即^=/(&"。每個堆分別對應(yīng)于中醫(yī)臨床的9個證候中的某一個,我們?nèi)〕?個有代表性的堆對應(yīng)上這9個證候,列在表l里。以前的方法最多只能提取出6個證候,在這里我們提取出了9個證候,為提高治療中風(fēng)病療效奠定了數(shù)理基礎(chǔ)。同時,這9個堆之間屬于不同的證候,可見復(fù)雜系統(tǒng)熵聚堆方法可以實(shí)現(xiàn)分類,而且分類的結(jié)果十分很符合臨床。表1:聚堆方法能實(shí)現(xiàn)分類,分出9個類,對應(yīng)9個不同的證候<table>tableseeoriginaldocumentpage14</column></row><table>1.2.2.2方法實(shí)現(xiàn)一個變量在不同的堆里出現(xiàn)方法不但可以實(shí)現(xiàn)分類,而且可以實(shí)現(xiàn)一個變量在不同的堆里出現(xiàn),而且不同的堆會對應(yīng)不同的證候。如表2所示,堆1和堆2是46個堆中的兩個,它們由兩個變量是相同的,但是卻對應(yīng)不同的證候,此方法在分類的基礎(chǔ)上,亦能實(shí)現(xiàn)變量在不同的堆里出現(xiàn),結(jié)果也十分吻合臨床。是目前能實(shí)現(xiàn)這個效果的唯一非監(jiān)督方法。表2:聚堆方法能實(shí)現(xiàn)一些變量在不同的堆里面出現(xiàn)<table>tableseeoriginaldocumentpage15</column></row><table>1.2.2.3方法驗(yàn)證和敏感性如果復(fù)雜系統(tǒng)有相應(yīng)的類變量數(shù)據(jù),利用類變量數(shù)據(jù)對聚堆進(jìn)行驗(yàn)證的步驟包括(1)對于每一個堆s,把它回代到變量數(shù)據(jù)中,如果這個堆的所有變量都出現(xiàn)在一個樣本上,那么記下此樣本的編號,遍歷全部,本,統(tǒng)計(jì)出例數(shù)z,記錄下來,列在堆s后面,并得到一個z維的向量^,其每一個元素表示樣本的編號;(2)把與向量?中編號對應(yīng)的類變量的l個向量提取出來并把這些向量相加得到一個向量^;^中的每一個元素w'表示在這Z個樣本中有^個樣本是得第/個類變量;顯然w^、找出^中最大的數(shù)氣,記錄下這個數(shù)和相應(yīng)的類變量;(3)定義并算出堆5的敏感性為^=^",所有的堆的敏感性的平均就是本非監(jiān)督聚堆方法的敏感性,即p^S,其中^表示方法的敏感性,尸是堆的個數(shù);如果實(shí)際結(jié)果對應(yīng)于最高的敏感性,非監(jiān)督方法就得到驗(yàn)證。把聚到的堆都回代到原來4215個病例中,把同時有這些癥狀的人都統(tǒng)計(jì)起來。比如第一個序號,在4215個病例中有148個病人同時得這個四個癥狀,然后我們把這148個病例單獨(dú)拿出來,同時也把這些病例對應(yīng)的辨證結(jié)果都取出來,然后加起來,我們發(fā)現(xiàn)這148個病人有140個是氣虛,所以我們就可以認(rèn)為這個堆是氣虛,同時我們也得到了方法關(guān)于聚出這些堆來的敏感性,就是140/148=96%.把所有的堆的敏感性加起來就是方法的敏感性,圖2中顯示了方法和閾值的關(guān)系。從中可以看出在閾值取15/4215的時候方法最好。通過定義敏感性來尋找最優(yōu)參數(shù)和由此產(chǎn)生的唯"^一個最優(yōu)堆,也是方法的精確率達(dá)到97.3°/。,這是目前為止任何方法都無法達(dá)到的。上面描述是用于實(shí)現(xiàn)本發(fā)明的實(shí)施例,本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的范圍的任何修改或局部替換,均屬于本發(fā)明權(quán)利要求來限定的范圍。權(quán)利要求1、一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法,其特征在于,包括步驟步驟S1根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量;特征變量用于描述此復(fù)雜系統(tǒng)屬性的自變量;步驟S2用改進(jìn)的關(guān)聯(lián)度系數(shù)算出兩兩特征變量之間的關(guān)聯(lián)度;步驟S3確定每個特征變量的“親友團(tuán)”;步驟S4根據(jù)聚堆方法自組織對特征變量進(jìn)行非監(jiān)督聚堆,得到特征變量的組合;步驟S5將每個堆回代到原數(shù)據(jù)中,得到算法的敏感性;步驟S6判斷敏感性的大小,如果敏感性為最大,轉(zhuǎn)入步驟7,如果敏感性不是最大,轉(zhuǎn)入步驟2;步驟S7利用系統(tǒng)的類變量對非監(jiān)督聚堆方法進(jìn)行驗(yàn)證,得到特征變量最優(yōu)的組合。2、根據(jù)權(quán)利要求1所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法,其特征在于,所述兩兩特征變量間的改進(jìn)關(guān)聯(lián)度的確定包括<formula>formulaseeoriginaldocumentpage2</formula>叫)単,)其中,一(X,,A)表示特征變量X,和A之間的關(guān)聯(lián)度;i^og^為特征變量Z,的信息熵;/f(X,,X》=W(;J^)=-SZSl0gS為特征變量X,和A的聯(lián)合熵;尸o(/,力表示特征變量X,和^的陽性出現(xiàn)頻率;6和5是實(shí)數(shù);其中,"1>。=肘)為特征變量X屬于C,第a類的數(shù)量,C,為;r,,/",2,…,;V,分類的集合;M為樣本的數(shù)]3、根據(jù)權(quán)利要求2所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法,其特征在于,對于每一個特征變量Z,,根據(jù)關(guān)聯(lián)度的值,確定與其最相關(guān)的z個特征變量,這Z個特征變量就叫做變量義,的"親友團(tuán)",Z為自然數(shù)。4、根據(jù)權(quán)利要求3所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法,其特征在于,在"親友團(tuán)"基礎(chǔ)上,自組織地聚出由特征變量組合成堆的步驟包括(1)如果兩個特征變量互在對方的"親友團(tuán)"里面,這兩個特征變量相關(guān),則聚在一起,把所有兩兩相關(guān)的變量都提取出來;(2)在此基礎(chǔ)上,如果有三個特征變量,它們之間兩兩都相關(guān),則這三個變量就是相關(guān),依此規(guī)則直到不能往里面加特征變量,則為收斂,這些相關(guān)特征變量的組合成非監(jiān)督聚出的堆。5、根據(jù)權(quán)利要求4所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法,其特征在于,利用類變量數(shù)據(jù)對聚堆進(jìn)行驗(yàn)證的步驟包括(1)對于每一個堆S,把它回代到變量數(shù)據(jù)中,如果這個堆的所有變量都出現(xiàn)在一個樣本上,那么記下此樣本的編號,遍歷全部樣本,統(tǒng)計(jì)出例數(shù)Z,記錄下來,列在堆S后面,并得到一個Z維的向量^其每一個元素表示樣本的編號;(2)把與向量^中編號對應(yīng)的類變量的i個向量提取出來并把這些向量相加得到一個向量^;^中的每一個元素w'表示在這Z個樣本中有w'個樣本是得第7個類變量;顯然W>Z,找出^中最大的數(shù)w'匪,記錄下這個數(shù)和相應(yīng)的類變量;(3)定義并算出堆s的敏感性為^^"T,所有的堆的敏感性的平1尸,均就是本非監(jiān)督聚堆方法的敏感性,即7^^,其中r表示方法的敏感性,P是堆的個數(shù);如果實(shí)際結(jié)果對應(yīng)于最高的敏感性,非監(jiān)督方法就得到驗(yàn)證。全文摘要本發(fā)明公開一種復(fù)雜系統(tǒng)中的非監(jiān)督聚堆方法,根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量;計(jì)算兩兩特征變量之間的關(guān)聯(lián)度;確定每個特征變量的“親友團(tuán)”;根據(jù)聚堆自組織對特征變量進(jìn)行非監(jiān)督聚堆,得到特征變量的組合;將每個堆回代到原數(shù)據(jù)中,得到敏感性;判斷敏感性的大??;利用系統(tǒng)的類變量對非監(jiān)督聚堆方法驗(yàn)證,得到特征變量最優(yōu)組合。解決了傳統(tǒng)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的問題,本發(fā)明自組織、不用人為干預(yù)、運(yùn)行速度快,適合大量數(shù)據(jù)甚至海量數(shù)據(jù)。能實(shí)現(xiàn)聚類,能實(shí)現(xiàn)某些變量在某些不同的類里面出現(xiàn)。本方法能對非監(jiān)督聚堆進(jìn)行驗(yàn)證,以找到最優(yōu)堆。本發(fā)明在生態(tài)分劃和臨床醫(yī)學(xué)數(shù)據(jù)分析等領(lǐng)域有著廣泛應(yīng)用價值。文檔編號G06F17/30GK101315626SQ20071009987公開日2008年12月3日申請日期2007年5月31日優(yōu)先權(quán)日2007年5月31日發(fā)明者西廣成,靜陳,陳建新申請人:中國科學(xué)院自動化研究所