分類試探方法

文檔序號(hào)：6554949閱讀：473來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：分類試探方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種分析和分類對(duì)象的方法，這些對(duì)象可以被表示成像文檔那樣的字符串或像股票市場價(jià)格的變化、表示通過對(duì)基因片(gene chip)進(jìn)行mRNA(信使核糖核酸)雜化檢測到的組織的細(xì)胞中的不同基因的級(jí)別或通過質(zhì)譜分析檢測到的樣本中不同蛋白質(zhì)的數(shù)量那樣的數(shù)字?jǐn)?shù)據(jù)的串或表。更具體地說，本發(fā)明涉及一種從由要分類的一組對(duì)象的預(yù)分類樣本組成的學(xué)習(xí)數(shù)據(jù)組中生成和核實(shí)分類算法的通用方法。在文檔的情況中，通過閱讀，在市場數(shù)據(jù)的情況中，通過歷史經(jīng)驗(yàn)，或在生物數(shù)據(jù)的情況，通過病理檢查，已經(jīng)對(duì)預(yù)分類樣本進(jìn)行了分類。然后，分類算法可以用于分類以前未分類的樣本。這樣的算法通常被稱為數(shù)據(jù)開采(mining)技術(shù)。最常用的數(shù)據(jù)開采技術(shù)，譬如，多元線性回歸(multivariate linear regression)和非線性前饋神經(jīng)網(wǎng)絡(luò)(nonlinear feed-forward neural networks)的固有缺陷在于，一旦被開發(fā)出來，它們是靜態(tài)的，不能識(shí)別數(shù)據(jù)流中的新事件。最終結(jié)果是，那些新事件往往被分類錯(cuò)了。本發(fā)明涉及一種通過可以識(shí)別數(shù)據(jù)流中的新事件的自適應(yīng)機(jī)制克服這個(gè)缺陷的解決方案。
背景技術(shù)：
本發(fā)明使用了遺傳算法和自組織自適應(yīng)模式識(shí)別算法。遺傳算法最初是由John.H.Holland教授加以描述的(J.H.Holland，Adaptation in Naturaland Artificial Systems，MIT Press 1992，see also U.S.patent No.4,697,242 and No.4,881,178)。頒發(fā)給Koza的美國專利第5,136,686號(hào)描述了把遺傳算法用于模式識(shí)別(參見第87欄)。
自組織模式識(shí)別已經(jīng)由Kohonen作了描述(T.Kohonen，Self Organizingand Associative Memory，8 Series in Information Sciences，SpringerVerlag，1984；Kohonen，T，Self-organizing Maps，Springer Verlag，Heidelberg 1997)。把自組織映射應(yīng)用在自適應(yīng)模式識(shí)別中由麻省理工學(xué)院(Massachusetts Institute of Technology)的Richard Lippman先生作了描述。

發(fā)明內(nèi)容
本發(fā)明包括兩種相關(guān)試探算法，即，用于實(shí)現(xiàn)分類方法和學(xué)習(xí)方法的分類算法和學(xué)習(xí)算法。分類算法的參數(shù)通過把學(xué)習(xí)算法應(yīng)用在訓(xùn)練或?qū)W習(xí)數(shù)據(jù)組中來確定。訓(xùn)練數(shù)據(jù)組是每個(gè)項(xiàng)目已經(jīng)被分類的數(shù)據(jù)組。盡管描述如下的方法沒有涉及數(shù)字計(jì)算機(jī)，但是，本領(lǐng)域的普通技術(shù)人員應(yīng)該明白，本發(fā)明是通過像計(jì)算機(jī)軟件那樣的工具實(shí)現(xiàn)的。任何通用計(jì)算機(jī)都可以使用；基于本方法的計(jì)算不是過分地大。雖然含有并行處理設(shè)施的計(jì)算機(jī)可以用于本發(fā)明，但是，這樣的處理能力并不是實(shí)現(xiàn)使用本發(fā)明的學(xué)習(xí)算法所必需的。分類算法只需要最低程度的計(jì)算量。
本發(fā)明的分類方法根據(jù)與對(duì)象相聯(lián)系的數(shù)據(jù)流分類對(duì)象。本發(fā)明中每個(gè)對(duì)象的特征在于，大量的，至少約100個(gè)數(shù)據(jù)點(diǎn)，可以是10,000或甚至更多個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)流。數(shù)據(jù)流以使同一類型對(duì)象的不同樣本的數(shù)據(jù)流中的各個(gè)數(shù)據(jù)相互關(guān)聯(lián)的方式生成。
對(duì)象的樣本包括文本、在預(yù)測金融市場的方向或復(fù)雜處理設(shè)施的行為的情況下的時(shí)間點(diǎn)和用于醫(yī)療診斷的生物樣本。這些對(duì)象的相關(guān)數(shù)據(jù)流是文本中三字母組的分布、公開交易的股票或商品的價(jià)格的逐日變化、壓力和溫度的瞬時(shí)讀數(shù)和諸如煉油廠之類的處理設(shè)施中的流動(dòng)讀數(shù)和在樣本中找到的某個(gè)蛋白質(zhì)分組的質(zhì)譜或?qū)σ涣胁煌囼?yàn)多核苷酸進(jìn)行mRNA雜分的強(qiáng)度。
因此，一般說來，無論什么時(shí)候想要把對(duì)象分類到例如通常是兩個(gè)或三個(gè)類目的幾個(gè)類目之一中，都可以應(yīng)用本發(fā)明，并且，這些對(duì)象與大量數(shù)據(jù)例如通常數(shù)千個(gè)數(shù)據(jù)點(diǎn)相聯(lián)系。術(shù)語“對(duì)象(Object)”在這里用大寫字母開頭，以表示對(duì)象在這里具有特殊含義，它的特殊含義在于，它用來統(tǒng)指有形對(duì)象例如特定樣本、無形對(duì)象例如作品或文本和完全抽象的對(duì)象例如在復(fù)雜處理設(shè)施中出現(xiàn)不幸事件之前的時(shí)刻，或外幣價(jià)格的變動(dòng)。
分類方法的第一步是計(jì)算對(duì)象矢量，即，從與要分類的對(duì)象相聯(lián)系的數(shù)據(jù)流中取出的小量數(shù)據(jù)點(diǎn)或標(biāo)量(在4到100之間，更通常地，在5到30之間)的有序組。把數(shù)據(jù)流轉(zhuǎn)換成對(duì)象矢量稱為“提取(abstraction)”。最簡單的提取處理是選擇數(shù)據(jù)流的若干個(gè)點(diǎn)。但是，原則上，可以對(duì)數(shù)據(jù)流的任何函數(shù)進(jìn)行提取處理。在如上所述的實(shí)施例中，通過從數(shù)據(jù)流中選擇少數(shù)幾個(gè)特定強(qiáng)度進(jìn)行提取。
在一個(gè)實(shí)施例中，分類方法的第二步是，如果存在的話，確定矢量處在哪個(gè)數(shù)據(jù)簇中。數(shù)據(jù)簇是作為矢量空間中固定規(guī)模的不重疊“超球面”的多維等效物的數(shù)據(jù)結(jié)構(gòu)。每個(gè)數(shù)據(jù)簇的位置和相關(guān)分類或“狀態(tài)”通過學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)組中確定。每個(gè)數(shù)據(jù)簇的范圍或規(guī)模和矢量空間的維數(shù)被設(shè)置成在運(yùn)行學(xué)習(xí)算法操作之前，由操作人員完成的常規(guī)實(shí)驗(yàn)。如果矢量位于已知的數(shù)據(jù)簇之內(nèi)，則對(duì)對(duì)象進(jìn)行與那個(gè)簇相關(guān)的分類。在最簡單實(shí)施例中，矢量空間的維數(shù)等于在提取處理中選擇的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。但是，可替換地，對(duì)象矢量的每個(gè)標(biāo)題可以利用數(shù)據(jù)流的多個(gè)數(shù)據(jù)點(diǎn)來計(jì)算。如果對(duì)象矢量位于任何已知簇之外，可以對(duì)異型物或異型樣本進(jìn)行分類。
在一個(gè)可替代實(shí)施例中，放棄把每個(gè)數(shù)據(jù)簇定義成超球面，和第二步通過計(jì)算數(shù)據(jù)參數(shù)p＝∑min(|Ii|，|Wi|)/∑|Wi|)來完成，其中，Ii是對(duì)象矢量的標(biāo)量，和Wi是預(yù)先形成分類矢量的質(zhì)心的標(biāo)量。匹配參數(shù)p也被稱為歸一化“模糊(Fuzzy)”AND(“與”)。然后，通過這個(gè)尺度，根據(jù)與之最相似的預(yù)先形成矢量的分類，分類對(duì)象。當(dāng)對(duì)象矢量和預(yù)先形成矢量相同時(shí)，匹配參數(shù)是1，在所有其它情況下，匹配參數(shù)都小于1。
學(xué)習(xí)算法確定利用已知數(shù)學(xué)技術(shù)和兩個(gè)預(yù)置參數(shù)的組合，確定提取處理的細(xì)節(jié)和數(shù)據(jù)簇的特性(identity)兩者。用戶預(yù)置矢量空間的維數(shù)和數(shù)據(jù)簇的規(guī)模，或者，可替換地，“模糊AND”匹配參數(shù)ρ的最小可接受量級(jí)。正如這里所使用的那樣，術(shù)語“數(shù)據(jù)簇”指的是利用歐幾里得尺度(Euclideanmetric)的超球面和利用“模糊AND”尺度的預(yù)先形成分類矢量兩者。
通常，數(shù)據(jù)簇所處的矢量空間是歸一化矢量空間，使得在每一維中強(qiáng)度的差異是不變的。通過這樣的表示方式，利用歐幾里得尺度的數(shù)據(jù)簇的規(guī)?？梢员硎緸槲挥诖貎?nèi)的矢量之間的最小相似度(百分比)。
在一個(gè)實(shí)施例中，學(xué)習(xí)算法可以通過把兩種不同類型的可公開買到的普通軟件組合在一起來實(shí)現(xiàn)，這兩種軟件是由別人開發(fā)的，并且是本領(lǐng)域的普通技術(shù)人員所熟知的，它們是(1)遺傳算法(J.H.Holland，Adaptation inNatural and Artificial Systems，MIT Press 1992)，用于處理一組邏輯染色體(logical chromosome)1，以識(shí)別控制數(shù)據(jù)流的提取的最佳邏輯染色體；和(2)可從Group One Software，Greenbelt，MD購買到的自適應(yīng)自組織模式識(shí)別系統(tǒng)(參見T.Kohonen，Self Organizing and Associative Memory，8 Series in Information Sciences，Springer Verlag，1984；Kohonen，T，Self-organizing Maps，Springer Verlag，Heidelberg 1997)，用于根據(jù)通過邏輯染色體生成的任何一組矢量，識(shí)別一組數(shù)據(jù)簇。具體地說，自適應(yīng)模式識(shí)別軟件使位于同質(zhì)(homogeneous)數(shù)據(jù)簇，即，包含只含有一種分類類型的學(xué)習(xí)數(shù)據(jù)組的矢量的數(shù)據(jù)簇中的矢量個(gè)數(shù)達(dá)到最大。
為了使用遺傳算法，必須把“適應(yīng)性(fitness)”指定給每個(gè)邏輯染色體。每個(gè)邏輯染色體的適應(yīng)性是通過位于與那個(gè)染色體有關(guān)的一組最佳數(shù)據(jù)簇的同質(zhì)簇中的、在訓(xùn)練數(shù)據(jù)組中的矢量的個(gè)數(shù)來確定的。因此，本發(fā)明的學(xué)習(xí)算法把識(shí)別最佳邏輯染色體的遺傳算法、生成一組最佳數(shù)據(jù)簇的自適應(yīng)模式識(shí)別算法和基于位于同質(zhì)簇中的樣本矢量的個(gè)數(shù)的適應(yīng)性計(jì)算組合在一起。在它的最概括實(shí)施例中，本發(fā)明的學(xué)習(xí)算法包括遺傳算法、模式識(shí)別算法和衡量模式識(shí)別算法的輸出的同質(zhì)性(homogeneity)，以控制遺傳算法的適應(yīng)性函數(shù)的使用的組合。
為了避免混亂，應(yīng)該注意到，數(shù)據(jù)簇的個(gè)數(shù)比類目的個(gè)數(shù)要大得多。下面舉例的分類算法把對(duì)象分類成兩個(gè)類目例如把文檔分類成感興趣的那些文檔和不感興趣的那些文檔，或者，把臨床樣本分類成良性的或惡性的。但是，這些分類算法利用了許多個(gè)數(shù)據(jù)簇來進(jìn)行分類。當(dāng)對(duì)象是時(shí)間點(diǎn)時(shí)，分類算法可以使用多于兩個(gè)的類目。例如，當(dāng)本發(fā)明用作外幣匯率的預(yù)測器時(shí)，與上升、下跌和前景難測相對(duì)應(yīng)的三部分(tripartite)方案是合適的。此外，可以預(yù)計(jì)，這樣的三部分分類算法存在個(gè)數(shù)比三大得多的數(shù)據(jù)簇。
具體實(shí)施例方式
為了實(shí)際應(yīng)用本發(fā)明，常規(guī)專業(yè)人員必須通過應(yīng)用學(xué)習(xí)算法，開發(fā)分類1把術(shù)語“邏輯染色體”與遺傳學(xué)習(xí)算法聯(lián)系在一起使用是因?yàn)?，算法的邏輯運(yùn)算與復(fù)制、選擇、重組和變異類似。當(dāng)然，在DNA等中還沒有邏輯染色體的生物實(shí)施例。本發(fā)明的遺傳學(xué)習(xí)算法純粹是一種計(jì)算手段，不應(yīng)與用于基于生物的信息處理的方案相混淆。算法。對(duì)于任何試探法，需要一些常規(guī)實(shí)驗(yàn)。為了應(yīng)用學(xué)習(xí)算法，常規(guī)專業(yè)人員利用訓(xùn)練數(shù)據(jù)組，并且必須通過實(shí)驗(yàn)優(yōu)化兩個(gè)參數(shù)，維數(shù)和數(shù)據(jù)簇規(guī)模。
盡管對(duì)矢量的維數(shù)沒有絕對(duì)的或固有的限制，但是，在每次實(shí)施時(shí)，學(xué)習(xí)算法本身固有地限制維數(shù)。如果維數(shù)太低或簇的規(guī)模太大，學(xué)習(xí)算法就不能生成正確分類具有可接受水平的同質(zhì)性的所有樣本的任何邏輯染色體。相反，維數(shù)可能太大。在這種情況下，學(xué)習(xí)算法在學(xué)習(xí)處理過程的早期生成可能適應(yīng)性最大的許多邏輯染色體。因此，存在著結(jié)果卻中途夭折的選擇。類似地，當(dāng)數(shù)據(jù)簇的規(guī)模太小時(shí)，將發(fā)現(xiàn)簇的個(gè)數(shù)與訓(xùn)練數(shù)據(jù)組中樣本的個(gè)數(shù)接近，此外，常規(guī)專業(yè)人員將發(fā)現(xiàn)，大量邏輯染色體將形成一組完全同質(zhì)的數(shù)據(jù)簇。
盡管上文提供了為分類算法選擇維數(shù)和數(shù)據(jù)簇規(guī)模的一般性指導(dǎo)，但是，應(yīng)該明白，分類算法的值的真假檢驗(yàn)是其正確分類與訓(xùn)練數(shù)據(jù)組中的數(shù)據(jù)流無關(guān)的數(shù)據(jù)流的能力。因此，常規(guī)專業(yè)人員應(yīng)該明白，必須保留學(xué)習(xí)數(shù)據(jù)組的一部分，以便核實(shí)分類算法隨對(duì)于指定目的可接受的出錯(cuò)率而變化的情況。下面更詳細(xì)地描述本發(fā)明的具體部分。
A.數(shù)據(jù)流和對(duì)象的類型對(duì)象的分類和相關(guān)數(shù)據(jù)流的生成取決于要解決的問題的性質(zhì)。這些原則通過如下的實(shí)例加以說明。
文檔在一個(gè)實(shí)施例中，本發(fā)明提供了用于計(jì)算機(jī)化分類文檔的方法。例如，你可能想要從由多得難以一個(gè)一個(gè)單獨(dú)查看的大量文檔組成的數(shù)據(jù)庫中提取感興趣的文檔。對(duì)于這些情況，本發(fā)明提供了一種計(jì)算機(jī)化算法，以識(shí)別最有可能包含感興趣文檔的一個(gè)數(shù)據(jù)庫分組。每個(gè)文檔是一個(gè)對(duì)象，每個(gè)文檔的數(shù)據(jù)流由直方圖組成，直方圖表示在去掉空格和標(biāo)點(diǎn)符號(hào)之后，在文檔中找到的17576(263)種三字母組合(三字母組(trigrams))每一個(gè)出現(xiàn)的頻率?？商鎿Q地，在從文檔中進(jìn)一步去掉元音之后，可以制作輔音的9261種三字母組的直方圖。根據(jù)用戶的需要，訓(xùn)練數(shù)據(jù)組由已經(jīng)被分類成“感興趣”或“不感興趣”的適當(dāng)文檔的樣本組成。
金融市場不言而喻，金融市場會(huì)對(duì)外部事件作出反應(yīng)，并且，以協(xié)調(diào)的方式相互聯(lián)系；例如，外匯匯率受投資機(jī)會(huì)的吸引力的影響。但是，對(duì)單獨(dú)事件作出反應(yīng)的方向和程度卻難以預(yù)測。在一個(gè)實(shí)施例中，本發(fā)明提供了在一個(gè)基于價(jià)格隨其它因素而變動(dòng)的市場中價(jià)格的計(jì)算機(jī)化預(yù)測算法。每個(gè)時(shí)間點(diǎn)是一個(gè)對(duì)象例如以小時(shí)計(jì)的間隔，一個(gè)小時(shí)的數(shù)據(jù)流由相關(guān)國家的主要股票市場例如對(duì)英鎊和美元的匯率感興趣的紐約和倫敦股票交易所中公開交易證券的價(jià)格變化的直方圖組成。訓(xùn)練數(shù)據(jù)組由已經(jīng)被分類成在美元-英鎊匯率的上升或下降之前的價(jià)格變化的歷史記錄組成。
處理設(shè)施在復(fù)雜的處理設(shè)施，譬如，煉油廠、油田或石化廠中，不斷監(jiān)視和記錄許多閥門和其它控制器的壓力、溫度、流動(dòng)和狀態(tài)(統(tǒng)稱為“狀態(tài)值”)。需要在不幸事件變成災(zāi)難性故障之前，檢測出即將來臨的不幸事件。本發(fā)明提供了把每個(gè)時(shí)間點(diǎn)分類成高風(fēng)險(xiǎn)時(shí)間點(diǎn)或一般風(fēng)險(xiǎn)時(shí)間點(diǎn)的計(jì)算機(jī)化算法。數(shù)據(jù)流由每個(gè)時(shí)間點(diǎn)的狀態(tài)值組成。訓(xùn)練數(shù)據(jù)組由分類成在不幸事件之前或在一般操作之前的狀態(tài)值的歷史記錄組成。
醫(yī)療診斷本發(fā)明可以用在為醫(yī)療診斷分析組織樣本中例如用于分析血清或血漿。數(shù)據(jù)流可以是得出2,000或更多個(gè)可以被量化成至少千分之一(三位有效數(shù)字)的測量結(jié)果的組織樣本的任何可再現(xiàn)物理分析。蛋白質(zhì)的飛行時(shí)間質(zhì)譜尤其適合于本發(fā)明的實(shí)際應(yīng)用。更具體地說，就是基體促進(jìn)型激光器退吸電離飛行時(shí)間(matrix assisted laser desorption ionization timeof flight，MALDI-TOF)和表面增強(qiáng)型激光器退吸電離飛行時(shí)間(surfaceenhanced laser desorption ionization time of flight，SELDI-TOF)譜測量。有關(guān)內(nèi)容請(qǐng)參閱WO 00/49410。
數(shù)據(jù)流還可以包括不是固有地通過諸如分子重量之類的單個(gè)有序參數(shù)組織的，而是具有任意次序的測量結(jié)果。因此，當(dāng)組織樣本是活體解剖標(biāo)本時(shí)，同時(shí)衡量2,000或更多個(gè)基因的表示級(jí)的DNA微陣列數(shù)據(jù)可以用作數(shù)據(jù)流，對(duì)各個(gè)基因的次序是數(shù)據(jù)流的認(rèn)識(shí)是任意的。
對(duì)于早期診斷很重要，但是由于癥狀不明而造成技術(shù)上的困難，和由于病理組織的代謝活動(dòng)，可以預(yù)計(jì)疾病在血清中產(chǎn)生可檢測出來的變異的特定疾病，本發(fā)明特別有用。惡性腫瘤(癌癥)的早期診斷是本發(fā)明應(yīng)用的基本焦點(diǎn)。工作樣本顯示了前列腺癌的診斷，還為卵巢癥的診斷進(jìn)行了相似測試。
應(yīng)該注意到，利用本發(fā)明的方法，可以對(duì)來自一個(gè)患者樣本的單個(gè)數(shù)據(jù)流進(jìn)行分析，供多種診斷使用。由于專用于每種診斷的步驟僅僅由計(jì)算機(jī)來完成，因此，這種多種診斷的附加成本是微不足道的。
B.提取處理和邏輯染色體在本發(fā)明的分類處理中第一步驟是把數(shù)據(jù)流轉(zhuǎn)換成特征矢量或從數(shù)據(jù)流中提取特征矢量。在提取之前，通過把總峰值指定成獨(dú)立值1和把所有其它點(diǎn)變成相應(yīng)分?jǐn)?shù)值，可以方便地歸一化數(shù)據(jù)。數(shù)據(jù)流的最簡單提取包括選擇少數(shù)幾個(gè)數(shù)據(jù)點(diǎn)。本領(lǐng)域的普通技術(shù)人員應(yīng)該認(rèn)識(shí)到，可以構(gòu)造出多個(gè)點(diǎn)的更復(fù)雜函數(shù)，譬如，在某個(gè)區(qū)間上的平均值函數(shù)或在相對(duì)于所選原始數(shù)據(jù)點(diǎn)預(yù)定距離的數(shù)據(jù)點(diǎn)之間的更復(fù)雜和或差函數(shù)。也可以使用數(shù)據(jù)流的強(qiáng)度值的函數(shù)，并且，可以預(yù)測，這樣的函數(shù)起與在工作樣本中所示的簡單提取等效的作用。
本領(lǐng)域的普通技術(shù)人員還應(yīng)該懂得，常規(guī)實(shí)驗(yàn)可以確定在任意點(diǎn)上求出瞬時(shí)斜率的提取在本發(fā)明中是否也有效。因此，所示工作樣本這種可通過常規(guī)方法獲得的變型在本發(fā)明的范圍之內(nèi)。
本發(fā)明的特征是把遺傳算法用于確定用于計(jì)算特征矢量的數(shù)據(jù)點(diǎn)。為了與現(xiàn)有技術(shù)的名稱保持一致，要選擇的特定點(diǎn)的列表被稱為邏輯染色體。邏輯染色體包含與特征矢量的維數(shù)一樣多的“基因”。只要假設(shè)不能復(fù)制染色體的基因，任何適當(dāng)個(gè)數(shù)據(jù)點(diǎn)的組都可以是邏輯染色體?；虻拇涡?qū)Ρ景l(fā)明來說并不重要。
本領(lǐng)域的普通技術(shù)人員應(yīng)該懂得，遺傳算法可以應(yīng)用在兩個(gè)條件得到滿足的時(shí)候。對(duì)于這個(gè)問題的具體解決方案必須能夠通過一組或一串固定長度離散元素來表示，這些單元可以是數(shù)字或字符，和可以重組這些串，進(jìn)一步形成解決方案。你還必須能夠計(jì)數(shù)每種解決方案的優(yōu)缺點(diǎn)的數(shù)值，即它的適應(yīng)性。在這些情況下，遺傳算法的細(xì)節(jié)與尋求解決的問題無關(guān)。因此，對(duì)于本發(fā)明，可以應(yīng)用遺傳算法軟件?？蓮陌⒇晣覍?shí)驗(yàn)室(Argonne NationalLaboratory)購買到的PGAPack程序庫中的算法是適用的。下面討論具體邏輯染色體的適應(yīng)性的計(jì)算。
第一個(gè)示范性實(shí)例涉及到100個(gè)文檔的文集，把這100文檔隨機(jī)分成46個(gè)文檔的訓(xùn)練組和54個(gè)文檔的測試組。該文檔包括國會(huì)(State of the Union)演說、書籍《戰(zhàn)爭藝術(shù)》(The Art of War)的選段和來自《金融時(shí)報(bào)》(theFinancial Time)的文章。對(duì)每個(gè)文檔計(jì)算三字母組的分布。選擇25維的矢量空間和在每維中是那個(gè)維中的值域的0.35倍數(shù)據(jù)簇規(guī)模。遺傳算法用大約1,500個(gè)隨機(jī)選擇的邏輯染色體初始化。隨著算法進(jìn)行下去，復(fù)制出更合適的邏輯染色體，終止掉不那么合適的邏輯染色體。在染色體與通過隨機(jī)取代染色體的元素發(fā)生的變異之間存在重組。最初隨機(jī)選擇的邏輯染色體的集合不是本發(fā)明的基本特征。對(duì)數(shù)據(jù)流的所有組進(jìn)行某種預(yù)先篩分，以便識(shí)別出那些具有最高可變性的的數(shù)據(jù)點(diǎn)也許是有用的，盡管這樣的技術(shù)也有可能引入不希望有的初始偏差。本領(lǐng)域的普通技術(shù)人員應(yīng)該懂得，遺傳算法的初始染色體組、變異率和其它邊界條件對(duì)于它的函數(shù)來說不是關(guān)鍵性的。
C.模式識(shí)別處理和適應(yīng)性分?jǐn)?shù)生成計(jì)算通過遺傳算法生成的邏輯染色體每一個(gè)的適應(yīng)性分?jǐn)?shù)(score)。適應(yīng)性分?jǐn)?shù)的計(jì)算需要為測試的每一個(gè)邏輯染色體生成一組最佳數(shù)據(jù)簇。數(shù)據(jù)簇只不過是訓(xùn)練數(shù)據(jù)組的對(duì)象矢量所在的矢量空間中的體積。生成一組最佳數(shù)據(jù)簇的方法對(duì)于本發(fā)明來說不是關(guān)鍵性的，下面將對(duì)此加以研究。但是，無論什么方法用于生成數(shù)據(jù)簇映像，該映像都受如下規(guī)則約束每個(gè)數(shù)據(jù)簇都應(yīng)該位于處在數(shù)據(jù)簇內(nèi)的數(shù)據(jù)點(diǎn)的質(zhì)心上，兩個(gè)數(shù)據(jù)簇不可以重疊，和在生成映像之前，歸一化矢量空間中每個(gè)簇的維數(shù)是固定的。
數(shù)據(jù)簇的規(guī)模由用戶在訓(xùn)練期間設(shè)置。把規(guī)模設(shè)置得太大會(huì)導(dǎo)致難以找到可以成功分類整個(gè)訓(xùn)練組的任何染色體，相反，把規(guī)模設(shè)置得小一點(diǎn)會(huì)導(dǎo)致簇的個(gè)數(shù)接近訓(xùn)練組中數(shù)據(jù)點(diǎn)的個(gè)數(shù)的一組最佳數(shù)據(jù)簇。更重要的是，數(shù)據(jù)簇的規(guī)模被設(shè)置得太小會(huì)導(dǎo)致如下所述的“過分適應(yīng)(overfiting)”。
用于定義數(shù)據(jù)簇的規(guī)模的方法是本發(fā)明的一部分。簇規(guī)模可以通過數(shù)據(jù)簇的任何兩個(gè)成員之間的歐幾里得距離(平方和的根)的等效物的最大值來定義。當(dāng)數(shù)據(jù)流通過SELDI-TOF質(zhì)譜測量數(shù)據(jù)生成時(shí)，與90％相似性的要求相對(duì)應(yīng)的數(shù)據(jù)簇規(guī)模適合于本發(fā)明。對(duì)于文本的分類，發(fā)現(xiàn)稍微大一點(diǎn)的數(shù)據(jù)簇更有用。從數(shù)學(xué)上，90％相似性通過要求簇的任何兩個(gè)成員之間的距離小于歸一化矢量空間中兩個(gè)點(diǎn)之間的最大距離的0.1來定義。對(duì)于這樣的計(jì)算，歸一化矢量空間，以便訓(xùn)練數(shù)據(jù)組內(nèi)矢量的每個(gè)標(biāo)量的范圍在0.0和1.0之間。然后，矢量空間中任何兩個(gè)矢量之間如此歸一化的、最大可能距離是，其中，N是維數(shù)。然后，每個(gè)簇的歐幾里得距離是0.1× 矢量空間的具體歸一化不是本發(fā)明的關(guān)鍵性特征。前述方法是為了易于計(jì)算而選擇的?？商鎿Q的歸一化可以通過不是把每一維定標(biāo)成一定范圍，而是使每一維具有相等的變異性來實(shí)現(xiàn)。可以使用諸如矢積尺度之類的非歐幾里得尺度。
本領(lǐng)域的普通技術(shù)人員還應(yīng)該認(rèn)識(shí)到，數(shù)據(jù)流內(nèi)值的分布是對(duì)數(shù)正態(tài)分布，而不是一般分布，那么，可以把數(shù)據(jù)流轉(zhuǎn)換成對(duì)數(shù)形式。
一旦已經(jīng)生成邏輯染色體的一組最佳數(shù)據(jù)簇，就可以計(jì)算那個(gè)染色體的適應(yīng)性分?jǐn)?shù)。對(duì)于本發(fā)明，染色體的適應(yīng)性分?jǐn)?shù)大體上對(duì)應(yīng)于位于同質(zhì)的簇，即，包含來自具有單一分類的樣本的特征矢量的簇中的訓(xùn)練數(shù)據(jù)組的矢量數(shù)。更明確地說，適應(yīng)性分?jǐn)?shù)通過把同質(zhì)性分?jǐn)?shù)指定給每個(gè)簇來計(jì)算，同質(zhì)性分?jǐn)?shù)從對(duì)于同質(zhì)簇為0.0變化到對(duì)于包含相等個(gè)數(shù)的惡性和良性樣本矢量的簇為0.5。染色體的適應(yīng)性分?jǐn)?shù)是數(shù)據(jù)簇的平均適應(yīng)性分?jǐn)?shù)。因此，0.0的適應(yīng)性分?jǐn)?shù)是最合適的。存在有助于生成更多數(shù)據(jù)簇的邏輯染色體的偏差，這時(shí)因?yàn)?，?dāng)在指定數(shù)據(jù)的過程中，兩個(gè)邏輯染色體存在相同個(gè)數(shù)的錯(cuò)誤時(shí)，生成更多個(gè)數(shù)的簇的邏輯染色體將具有更低的平均同質(zhì)性分?jǐn)?shù)，因此，具有更好的適應(yīng)性分?jǐn)?shù)。
可公開買到的利用自組織映射生成的軟件有好幾個(gè)，其中之一是“LeadCluster Map”，可以通過作為Model1從Group One Software(Green-belt，MD)獲得的通用軟件來實(shí)現(xiàn)。
本發(fā)明的可替換實(shí)施例利用非歐幾里得尺度來建立數(shù)據(jù)簇的邊界。尺度指的是在矢量空間中測量距離的方法。本發(fā)明的可替換尺度可以基于如上面所定義的歸一化“模糊AND”。根據(jù)“模糊AND”實(shí)現(xiàn)自適應(yīng)模式識(shí)別算法的軟件可從波士頓大學(xué)(Boston University)獲得，這個(gè)軟件名叫Fuzzy ARTMAP。
D.特定實(shí)施例的描述和核實(shí)本領(lǐng)域的普通技術(shù)人員應(yīng)該明白，整個(gè)訓(xùn)練數(shù)據(jù)組到同質(zhì)數(shù)據(jù)簇的指定本身不是分類算法以可接受水平的精度有效運(yùn)行的證據(jù)。因此，通過學(xué)習(xí)算法生成的分類算法的值必須通過它分類除了訓(xùn)練數(shù)據(jù)組之外的其它一組數(shù)據(jù)的能力來測試。當(dāng)學(xué)習(xí)算法生成成功指定訓(xùn)練數(shù)據(jù)組，但是僅僅很差地指定測試數(shù)據(jù)組的分類算法時(shí)，就認(rèn)為這個(gè)訓(xùn)練數(shù)據(jù)被學(xué)習(xí)算法過分適應(yīng)了。當(dāng)維數(shù)太大和/或數(shù)據(jù)簇的規(guī)模太小時(shí)會(huì)導(dǎo)致過分適應(yīng)。
文檔簇文檔(文本)是各行各業(yè)都感興趣的。這些行業(yè)包括法律、醫(yī)療和情報(bào)團(tuán)體。當(dāng)面對(duì)文本性材料的流水作業(yè)量的精確性時(shí)，已經(jīng)證明基于布爾(Boolean)的搜索和檢索方法是不合適的。并且，布爾搜索不能捕獲到概念性信息。
對(duì)這個(gè)問題的建議方法是設(shè)法以服從數(shù)值分析的方式提取概念性信息。一種這樣的方法是把文檔編制成三字母組的集合和記錄它們出現(xiàn)的頻率。三字母組是任何三個(gè)字符的集合，譬如，AFV、KLF、OID等。因此，有263種三字母組?？崭窈蜆?biāo)點(diǎn)稱號(hào)不包括在內(nèi)。然后，可以通過把文檔分段成從源自那個(gè)文檔的文本的開頭開始的三字母組的特定集合來表示這個(gè)文檔。從那個(gè)文檔得出的三字母組集合和它們的頻率是特征量。如果在一個(gè)集合中的文檔具有相似的三字母組集合和頻率，那么，它們很可能涉及相同主題。如果只檢查和計(jì)數(shù)三字母組的特定子集，這就特別正確。問題是，三字母組的哪個(gè)子集描述了任何概念?；诒景l(fā)明的學(xué)習(xí)算法可以回答這個(gè)問題。
把來自《金融時(shí)報(bào)》、《戰(zhàn)爭藝術(shù)》和總統(tǒng)國會(huì)演說的100個(gè)英文文檔匯編成一個(gè)文集。把分類隨機(jī)地劃分成訓(xùn)練和測試文集。把0或1的某個(gè)值指定給所有文檔，其中，0表示令人討厭的，1表示賞心悅目的。學(xué)習(xí)算法對(duì)整個(gè)三字母組集合進(jìn)行搜索，并且識(shí)別將文檔分成兩類的三字母組集合。最后的模型處在25維空間中，以及判別邊界被設(shè)置在該空間中允許的最大距離的0.35倍上。分類算法只利用了17,576種可能三字母組中的25種。一旦進(jìn)行測試，就會(huì)獲得下表的結(jié)果。

表A從垂直方向讀出含混矩陣(confusion matrix)實(shí)際值，和從水平方向讀出根據(jù)本發(fā)明的算法的結(jié)果。
結(jié)果表明，算法正確地識(shí)別出26個(gè)感興趣文檔中的24個(gè)，和正確地篩出或舍棄了26個(gè)不感興趣文檔中的22個(gè)。
生物狀態(tài)的評(píng)估把上述學(xué)習(xí)算法用于開展利用55個(gè)患者血清樣本的SELDI-TOF質(zhì)譜(MS)對(duì)前列腺癌逐步進(jìn)行分類，在這55個(gè)患者血清樣本中，30個(gè)通過活體解剖被診斷為前列腺癌和前列腺血清抗原(PSA)水平大于4.0ng/ml，和25個(gè)正常體PSA水平低于1ng/ml。MA數(shù)據(jù)是通過選擇7個(gè)分子量值提取的。
生成把訓(xùn)練數(shù)據(jù)組中的每個(gè)矢量指定給同質(zhì)數(shù)據(jù)簇的簇映像。簇映像包含34個(gè)簇，其中，17個(gè)是良性的，和17個(gè)是惡性的。表1顯示了映像的每個(gè)數(shù)據(jù)簇的位置和指定給每個(gè)簇的訓(xùn)練組的樣本數(shù)。
分類算法是利用把訓(xùn)練數(shù)據(jù)組排除在外的231個(gè)樣本進(jìn)行測試的。使用了來自經(jīng)歷過各種臨床和病理診斷的患者的6組樣本。臨床和病理描述和算法結(jié)果如下1)24個(gè)患者PSA＞4ng/ml，和通過活體解剖證明得了癌癥，其中，22個(gè)被映射到有病數(shù)據(jù)簇，2個(gè)被映射到無病數(shù)據(jù)簇；2)6個(gè)正常，均被映射到健康數(shù)據(jù)簇；3)39個(gè)得了前列腺肥大(BPH)或前列腺炎，和PSA＜4ng/ml，其中，7個(gè)被映射到有病數(shù)據(jù)簇，0個(gè)被映射到健康數(shù)據(jù)簇，和32個(gè)被映射到無病數(shù)據(jù)族；4)139個(gè)得了BPH或前列腺炎，并且，4ng/ml＜PSA＜10ng/ml，其中，42個(gè)被映射到有病數(shù)據(jù)簇，2個(gè)被映射到健康數(shù)據(jù)簇，和95個(gè)被映射到無病數(shù)據(jù)族；5)19個(gè)得了BPH或前列腺炎，并且，PSA＞10ng/ml，其中，9個(gè)被映射到有病數(shù)據(jù)簇，0個(gè)被映射到健康數(shù)據(jù)簇，和10個(gè)被映射到無病數(shù)據(jù)族。第6組數(shù)據(jù)是從通過活體解剖證明得了惡性腫瘤和PSA＞10ng/ml的患者身上取出前列腺切除之前和之后的樣本得到的。正如所期望的那樣，7個(gè)手術(shù)前樣本的每一個(gè)都被指定到有病數(shù)據(jù)組。但是，在做完手術(shù)6個(gè)星期之后，PSA水平已經(jīng)降到1ng/ml以下，那時(shí)取出的樣本沒有一個(gè)不可以被指定到任何數(shù)據(jù)組。
當(dāng)評(píng)估前述測試的結(jié)果時(shí)，應(yīng)當(dāng)回想到，在PSA為2-4ng/ml和通過活體解剖診斷為良性的患者中隱藏著惡性腫瘤的比率為約30％。因此，雖然對(duì)癌癥沒有進(jìn)行組織診斷，但發(fā)現(xiàn)18％和47％之間的患者PSA高，這與正確預(yù)測惡性腫瘤的存在是一致的。
權(quán)利要求
1.一種利用含有多個(gè)預(yù)分類數(shù)據(jù)簇的矢量空間分類對(duì)象的方法，包括如下步驟a.輸入描述對(duì)象的數(shù)據(jù)流；b.提取數(shù)據(jù)流，以便計(jì)算刻劃數(shù)據(jù)流的對(duì)象矢量；c.如果存在的話，識(shí)別對(duì)象矢量所在的數(shù)據(jù)族；和d.把識(shí)別的數(shù)據(jù)族的狀態(tài)指定給對(duì)象，或者，如果沒有識(shí)別出數(shù)據(jù)簇，則把異型的狀態(tài)指定給對(duì)象。
2.根據(jù)權(quán)利要求1所述的方法，其中，提取是通過包括從數(shù)據(jù)流中選擇5到25個(gè)之間的數(shù)據(jù)點(diǎn)的處理完成的。
3.根據(jù)權(quán)利要求1所述的方法，其中，識(shí)別是通過包括計(jì)算數(shù)據(jù)族的質(zhì)心與對(duì)象矢量之間的歐幾里得距離的處理完成的。
4.根據(jù)權(quán)利要求1所述的方法，其中，識(shí)別是通過包括計(jì)算對(duì)象矢量的歸一化矢積和表示數(shù)據(jù)族的質(zhì)心的處理完成的。
5.根據(jù)權(quán)利要求1所述的方法，其中，每個(gè)數(shù)據(jù)簇被預(yù)分類成具有一個(gè)或兩個(gè)狀態(tài)條件。
6.根據(jù)權(quán)利要求1所述的方法，其中，每個(gè)數(shù)據(jù)簇被預(yù)分類成具有三個(gè)狀態(tài)條件之一。
7.根據(jù)權(quán)利要求1所述的方法，其中，數(shù)據(jù)流由1,000到20,000個(gè)之間的數(shù)據(jù)點(diǎn)組成。
8.根據(jù)權(quán)利要求1所述的方法，其中，數(shù)據(jù)流的長度由至少1,000個(gè)數(shù)據(jù)點(diǎn)組成。
9.一種利用一組預(yù)分類對(duì)象構(gòu)造分類算法的方法，每個(gè)對(duì)象與數(shù)據(jù)流相聯(lián)系，其中，該算法的特征在于，在維數(shù)固定的矢量空間中含有預(yù)定范圍的多個(gè)數(shù)據(jù)簇，該方法包括如下步驟a.提供一組與預(yù)分類對(duì)象相聯(lián)系的數(shù)據(jù)流；b.選擇指定數(shù)據(jù)流的預(yù)定個(gè)點(diǎn)的位置的最初一組邏輯染色體；c.利用每個(gè)染色體為該組數(shù)據(jù)流的每個(gè)成員計(jì)算對(duì)象矢量；d.通過在預(yù)定范圍的多個(gè)不重疊數(shù)據(jù)簇的矢量空間中，找出使位于只包含同質(zhì)分類對(duì)象矢量的數(shù)據(jù)簇中的對(duì)象矢量的個(gè)數(shù)最大化的位置，確定每個(gè)染色體的適應(yīng)性，這樣的矢量的個(gè)數(shù)越多，邏輯染色體的適應(yīng)性就越大；e.通過包括步驟(c)和(d)的疊代、終止適應(yīng)性低的邏輯染色體，復(fù)制適應(yīng)性高的邏輯染色體，染色體的重組和變異的疊代處理，優(yōu)化該組邏輯染色體；f.終止疊代處理和選擇為不重疊數(shù)據(jù)簇的最佳同質(zhì)組作好準(zhǔn)備的邏輯染色體，其中，最佳同質(zhì)組的每個(gè)簇的歸屬狀態(tài)是位于數(shù)據(jù)簇內(nèi)的對(duì)象矢量的分類；和g.通過包括利用所選邏輯染色體計(jì)算未知對(duì)象矢量和根據(jù)未知對(duì)象矢量所處的不重疊數(shù)據(jù)簇的最佳同質(zhì)的數(shù)據(jù)簇的歸屬狀態(tài)，分類未知對(duì)象矢量的處理，構(gòu)造分類未知對(duì)象的分類算法。
10.根據(jù)權(quán)利要求9所述的方法，其中，固定維數(shù)在5到25之間。
11.根據(jù)權(quán)利要求9所述的方法，其中，預(yù)分類對(duì)象的個(gè)數(shù)在20到200之間。
12.根據(jù)權(quán)利要求9所述的方法，其中，最初一組邏輯染色體是隨機(jī)選擇出來的。
13.根據(jù)權(quán)利要求9所述的方法，其中，最初一組邏輯染色體由100到2,000個(gè)之間的邏輯染色體組成。
14.根據(jù)權(quán)利要求9所述的方法，其中，每個(gè)數(shù)據(jù)簇的范圍是相等的。
15.根據(jù)權(quán)利要求9所述的方法，其中，每個(gè)數(shù)據(jù)簇的范圍是通過歐幾里得尺度確定的。
16.根據(jù)權(quán)利要求15所述的方法，其中，每個(gè)數(shù)據(jù)簇在一維中的內(nèi)容是對(duì)象矢量在該維中的范圍的預(yù)定分?jǐn)?shù)。
17.根據(jù)權(quán)利要求9所述的方法，其中，確定每個(gè)數(shù)據(jù)簇的范圍的尺度是模糊AND匹配參數(shù)隨數(shù)據(jù)簇的矢量特征量變化的函數(shù)。
18.根據(jù)權(quán)利要求9所述的方法，其中，最佳同質(zhì)組的每個(gè)數(shù)據(jù)簇的位置是位于數(shù)據(jù)簇中的預(yù)分類對(duì)象的對(duì)象矢量的質(zhì)心。
19.根據(jù)權(quán)利要求9所述的方法，其中，最佳同質(zhì)組的每個(gè)數(shù)據(jù)簇的位置是位于數(shù)據(jù)簇中的預(yù)分類對(duì)象的對(duì)象矢量的質(zhì)心。
20.根據(jù)權(quán)利要求9所述的方法，其中，最佳同質(zhì)組的每個(gè)數(shù)據(jù)簇的位置是位于數(shù)據(jù)簇中的預(yù)分類對(duì)象的對(duì)象矢量的質(zhì)心。
21.一種附有可以用于執(zhí)行權(quán)利要求1所述的方法或權(quán)利要求9所述的方法的指令的、用于通用數(shù)字計(jì)算機(jī)的軟件產(chǎn)品。
22.一種在通用數(shù)字計(jì)算機(jī)上執(zhí)行權(quán)利要求1所述的方法或權(quán)利要求9所述的方法或者使權(quán)利要求1所述的方法或權(quán)利要求9所述的方法在通用數(shù)字計(jì)算機(jī)上得以執(zhí)行的軟件產(chǎn)品。
23.一種被編程成執(zhí)行權(quán)利要求1所述的方法或權(quán)利要求9所述的方法或者使權(quán)利要求1所述的方法或權(quán)利要求9所述的方法得以執(zhí)行的通用數(shù)字計(jì)算機(jī)。
全文摘要
本發(fā)明涉及分類對(duì)象的試探(heuristic)算法。第一學(xué)習(xí)算法包括用于提取與每個(gè)對(duì)象相關(guān)聯(lián)的數(shù)據(jù)流的遺傳算法，以及用于分類對(duì)象和衡量遺傳算法的染色體的適應(yīng)性的模式識(shí)別算法。學(xué)習(xí)算法應(yīng)用于訓(xùn)練數(shù)據(jù)組。學(xué)習(xí)算法生成用于分類或歸類未知對(duì)象的分類算法。本發(fā)明可用在分類文本和醫(yī)學(xué)樣本，預(yù)測基于價(jià)格隨其它因素而改變的金融市場的行為，和監(jiān)視復(fù)雜處理設(shè)施的狀態(tài)，以便檢測即將發(fā)生的故障的領(lǐng)域中。
文檔編號(hào)G06K9/62GK1446344SQ01813720
公開日2003年10月1日申請(qǐng)日期2001年6月19日優(yōu)先權(quán)日2000年6月19日
發(fā)明者本·希特申請(qǐng)人:科雷洛吉克系統(tǒng)公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：本.希特
技術(shù)所有人：科雷洛吉克系統(tǒng)公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文件分類方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分類試探方法