從異常數(shù)據(jù)構(gòu)造反常模型的方法
【專利摘要】從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型(10)的方法(100)包含學(xué)習(xí)對(duì)于概率圖形模型(10)的結(jié)構(gòu)的參數(shù)的步驟。該結(jié)構(gòu)包含其他變量(12,14,16,18,20,22,24)以其為條件并且具有多個(gè)成分的至少一個(gè)潛在變量(26)。方法進(jìn)一步包含以下步驟:使?jié)撛谧兞浚?6)的多個(gè)成分中的一個(gè)或多個(gè)與正常數(shù)據(jù)迭代關(guān)聯(lián);構(gòu)造關(guān)聯(lián)矩陣;基于與正常數(shù)據(jù)的低關(guān)聯(lián)或關(guān)聯(lián)矩陣中的一個(gè)檢測(cè)潛在變量(26)的異常成分;以及從概率圖形模型(10)刪除潛在變量(26)的異常成分。
【專利說(shuō)明】
從異常數(shù)據(jù)構(gòu)造反常模型的方法
【背景技術(shù)】
[0001]從數(shù)據(jù)檢測(cè)異常行為是許多應(yīng)用的要求。例如,異常行為能夠指示如關(guān)于機(jī)械資產(chǎn)、網(wǎng)絡(luò)攻擊、需要即時(shí)關(guān)注的重病特護(hù)患者或欺詐交易等的問(wèn)題的這類事情。
[0002]理想地在已知為‘正?!臍v史數(shù)據(jù)上進(jìn)行開(kāi)發(fā),構(gòu)建分析模型來(lái)檢測(cè)異常行為。然而,存在其中歷史數(shù)據(jù)無(wú)法清除反常的許多應(yīng)用。在反常行為先前未被檢測(cè)并且已沒(méi)有理由回顧看看數(shù)據(jù)時(shí)情況就是這樣的。例如,考慮裝有健康狀況監(jiān)測(cè)系統(tǒng)(其包含振動(dòng)傳感器和磁碎片檢測(cè)器)的旋翼飛行器。由于磁塞檢測(cè)引起的警報(bào)可導(dǎo)致更換變速器(transmiss1n)。然而,如果健康狀況監(jiān)測(cè)系統(tǒng)未使警報(bào)與振動(dòng)傳感器關(guān)聯(lián),它可未將振動(dòng)數(shù)據(jù)標(biāo)記為異常。換言之,健康狀況監(jiān)測(cè)系統(tǒng)可假設(shè)振動(dòng)數(shù)據(jù)是正常的,即使能夠存在異常行為的證據(jù)。
[0003]可使用先驗(yàn)知識(shí)來(lái)描述反常或異常事件的檢測(cè)。例如,考慮在高溫情況下的患者。單變量測(cè)量特征(例如患者的體溫和患者的正常體溫響應(yīng)的知識(shí))足以設(shè)置簡(jiǎn)單規(guī)則用于檢測(cè)高溫。通常存在測(cè)量的體溫以患者處于寧?kù)o狀態(tài)(例如,不執(zhí)行緊張運(yùn)動(dòng))為條件的假設(shè)。對(duì)于許多情形,不存在先驗(yàn)知識(shí)來(lái)定義異常事件(或狀態(tài))。此外,異常事件的定義可要求多變量特征。例如,檢測(cè)人是否過(guò)重要求身高和體重的特征。多個(gè)特征通常取決于彼此并且這些依賴性根據(jù)諸如觀察對(duì)象的當(dāng)前狀態(tài)的因素而變化(或以其為條件)。例如,飛機(jī)可在起飛、爬升、巡航等期間收集數(shù)據(jù)并且所得的數(shù)據(jù)和它的相關(guān)特征能夠最終變得非常復(fù)雜。對(duì)于存儲(chǔ)歷史數(shù)據(jù)的應(yīng)用,通過(guò)直接從數(shù)據(jù)學(xué)習(xí)那些模型來(lái)對(duì)反常檢測(cè)構(gòu)造模型通常是可能的。通常叫作數(shù)據(jù)驅(qū)動(dòng)建模方法,一般概念是要從過(guò)去行為的歷史學(xué)習(xí)‘正常’行為的模型。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的一個(gè)方面涉及從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型的方法。該方法包括:學(xué)習(xí)概率圖形模型的結(jié)構(gòu)的參數(shù),其中該結(jié)構(gòu)包含其他變量以其為條件并且具有多個(gè)成分的至少一個(gè)潛在變量;使?jié)撛谧兞康亩鄠€(gè)成分中的一個(gè)或多個(gè)與正常數(shù)據(jù)迭代關(guān)聯(lián);構(gòu)造關(guān)聯(lián)的矩陣;基于與正常數(shù)據(jù)的低關(guān)聯(lián)或關(guān)聯(lián)矩陣中的一個(gè)檢測(cè)潛在變量的異常成分;以及從概率圖形模型刪除潛在變量的異常成分。
【附圖說(shuō)明】
[0005]在圖中:
圖1示出發(fā)明性方法可應(yīng)用在其上的數(shù)據(jù)的示例概率圖形模型。
[0006]圖2示出根據(jù)本發(fā)明的實(shí)施例的流程圖,其詳述用于從概率圖形模型(例如圖1)去除異常數(shù)據(jù)成分的關(guān)聯(lián)矩陣的距離計(jì)算和生成。
【具體實(shí)施方式】
[0007]在背景和下面的描述中,為了說(shuō)明目的,闡述許多特定細(xì)節(jié)以便提供對(duì)本文描述的技術(shù)的徹底理解。然而,示范性實(shí)施例可在沒(méi)有這些特定細(xì)節(jié)的情況下實(shí)施,這對(duì)于本領(lǐng)域內(nèi)技術(shù)人員將是顯然的。在其他實(shí)例中,采用簡(jiǎn)圖的形式示出結(jié)構(gòu)和裝置以便促進(jìn)描述示范性實(shí)施例。
[0008]參考圖來(lái)描述示范性實(shí)施例。這些圖圖示實(shí)現(xiàn)本文描述的模塊、方法或計(jì)算機(jī)程序產(chǎn)品的特定實(shí)施例的某些細(xì)節(jié)。然而,圖不應(yīng)理解為強(qiáng)加可在圖中存在的任何限制??稍谌魏螜C(jī)器可讀媒體上提供方法和計(jì)算機(jī)程序產(chǎn)品用于實(shí)現(xiàn)它們的操作??墒褂矛F(xiàn)有的計(jì)算機(jī)處理器或通過(guò)為該或另一個(gè)目的而合并的專用計(jì)算機(jī)處理器或通過(guò)硬連線系統(tǒng)來(lái)實(shí)現(xiàn)實(shí)施例。
[0009]如上所述,本文描述的實(shí)施例可包含計(jì)算機(jī)程序產(chǎn)品,其包括用于攜帶或具有存儲(chǔ)在其上的機(jī)器可運(yùn)行指令或數(shù)據(jù)結(jié)構(gòu)的機(jī)器可讀媒體。這種機(jī)器可讀媒體能夠是任何可用媒體,其能夠被通用或?qū)S糜?jì)算機(jī)或具有處理器的其他機(jī)器訪問(wèn)。通過(guò)示例,這類機(jī)器可讀媒體能夠包括RAM、R0M、EPR0M、EEPR0M、CD_R0M或其他光盤(pán)存儲(chǔ)裝置、磁盤(pán)存儲(chǔ)裝置或其他磁存儲(chǔ)裝置,或能夠用來(lái)采用機(jī)器可運(yùn)行指令或數(shù)據(jù)結(jié)構(gòu)形式攜帶或存儲(chǔ)期望程序代碼并且能夠被通用或?qū)S糜?jì)算機(jī)或具有處理器的其他機(jī)器訪問(wèn)的任何其他媒介。當(dāng)通過(guò)網(wǎng)絡(luò)或另一個(gè)通信連接(硬連線、無(wú)線或硬連線或無(wú)線的組合)將信息傳遞或提供給機(jī)器時(shí),機(jī)器適當(dāng)?shù)貙⑦B接視為機(jī)器可讀媒介。因而,任何這種連接適當(dāng)?shù)胤Q作機(jī)器可讀媒介。上文的組合也包含在機(jī)器可讀媒體的范圍內(nèi)。機(jī)器可運(yùn)行指令包括,例如促使通用計(jì)算機(jī)、專用計(jì)算機(jī)或?qū)S锰幚頇C(jī)執(zhí)行某些功能或功能編組的指令和數(shù)據(jù)。
[0010]將在可在一個(gè)實(shí)施例中由包含機(jī)器可運(yùn)行指令(例如程序代碼)例如采用由聯(lián)網(wǎng)環(huán)境中的機(jī)器運(yùn)行的程序模塊的形式的程序產(chǎn)品實(shí)現(xiàn)的方法步驟的一般上下文中描述實(shí)施例。一般來(lái)說(shuō),程序模塊包含具有執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的技術(shù)效果的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。機(jī)器可運(yùn)行指令、關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)和程序模塊表示用于運(yùn)行本文公開(kāi)的方法的步驟的程序代碼的示例。這類可運(yùn)行指令或關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的特定序列表示用于實(shí)現(xiàn)在這類步驟中描述的功能的對(duì)應(yīng)動(dòng)作的示例。
[0011]實(shí)施例可使用到具有處理器的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接而在聯(lián)網(wǎng)環(huán)境中實(shí)施。邏輯連接可包含局域網(wǎng)(LAN)和廣域網(wǎng)(WAN),其作為示例而非限制在這里被提出。這類聯(lián)網(wǎng)環(huán)境在辦公室范圍或企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是普通的,并且可使用各種各樣不同的通信協(xié)議。本領(lǐng)域內(nèi)技術(shù)人員將領(lǐng)會(huì),這類網(wǎng)絡(luò)計(jì)算環(huán)境通常將囊括許多類型的計(jì)算機(jī)系統(tǒng)配置,其包含個(gè)人計(jì)算機(jī)、手持裝置、多處理器系統(tǒng)、基于微處理器或可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)等。
[0012]實(shí)施例還可在分布式計(jì)算環(huán)境中實(shí)施,其中任務(wù)由通過(guò)通信網(wǎng)絡(luò)而鏈接(通過(guò)硬連線鏈路、無(wú)線鏈路或硬連線或無(wú)線鏈路的組合)的本地和遠(yuǎn)程處理裝置執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)裝置兩者中。
[0013]用于實(shí)現(xiàn)示范性實(shí)施例的全部或部分的示范性系統(tǒng)可包含采用計(jì)算機(jī)形式的通用計(jì)算裝置,其包含處理單元、系統(tǒng)存儲(chǔ)器和使包含系統(tǒng)存儲(chǔ)器的各種系統(tǒng)組件耦合于處理單元的系統(tǒng)總線。系統(tǒng)存儲(chǔ)器可包含只讀存儲(chǔ)器(ROM)和隨機(jī)存取存儲(chǔ)器(RAM)。計(jì)算機(jī)還可包含用于從磁硬盤(pán)讀取和寫(xiě)入磁硬盤(pán)的磁硬盤(pán)驅(qū)動(dòng)、用于從可移動(dòng)磁盤(pán)讀取或?qū)懭肟梢苿?dòng)磁盤(pán)的磁盤(pán)驅(qū)動(dòng)和用于從可移動(dòng)光盤(pán)(例如CD-ROM或其他光學(xué)媒體)讀取或?qū)懭肟梢苿?dòng)光盤(pán)的光盤(pán)驅(qū)動(dòng)。驅(qū)動(dòng)和它們關(guān)聯(lián)的計(jì)算機(jī)可讀媒體為計(jì)算機(jī)提供機(jī)器可運(yùn)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的非易失性存儲(chǔ)。
[0014]在實(shí)施例中公開(kāi)的方法的有益效果包含對(duì)許多模型類型的構(gòu)建時(shí)間顯著減少。模型(用于當(dāng)前技術(shù)水平的臺(tái)式計(jì)算機(jī)的模型的構(gòu)建時(shí)間可范圍達(dá)到(range up to)若干幾天)可具有減少至若干小時(shí)的構(gòu)建時(shí)間。通過(guò)使用并行處理已知的技術(shù)來(lái)實(shí)現(xiàn)附加的時(shí)間節(jié)省。
[0015]概率圖形模型(PGM)提供隨機(jī)變量之間的條件依賴性結(jié)構(gòu)的基于圖形的表示。通過(guò)C.M.BishopiSiPaiier/? Recognit1n and Machine Learning, Springer(2006)的章節(jié)8中進(jìn)一步描述,PGM是概率模型,但它們的結(jié)構(gòu)能夠可視化,這允許通過(guò)檢查來(lái)推導(dǎo)獨(dú)立性質(zhì)。變量(例如特征)由節(jié)點(diǎn)表示并且變量之間的關(guān)聯(lián)由邊表示。為了幫助檢測(cè)異常(或反常)行為,PGM可表示觀察系統(tǒng)的正常行為。
[0016]經(jīng)由機(jī)器學(xué)習(xí)技術(shù),PGM能夠?qū)W習(xí)數(shù)據(jù)的密度模型,使得表示正常行為的數(shù)據(jù)占據(jù)致密區(qū)而占據(jù)稀疏密度區(qū)的數(shù)據(jù)是異常行為的候選。PGM可包含連續(xù)和離散特征兩者。連續(xù)特征是諸如溫度的模擬輸入并且離散特征是諸如成分標(biāo)識(shí)符的可計(jì)算特征。如對(duì)本領(lǐng)域內(nèi)普通技術(shù)人員是明顯的,連續(xù)特征能夠成為離散的。連續(xù)特征通常在PGM中由高斯變量表示并且離散特征由多項(xiàng)變量表示。
[0017]P G M提供高度靈活的結(jié)構(gòu)用于推斷。它們能夠用來(lái):預(yù)測(cè)類成員關(guān)系(membership);從一個(gè)或其他特征的值推斷一個(gè)或多個(gè)特征的值;測(cè)量一組特征與模型之間的關(guān)聯(lián)(稱為似然得分);并且計(jì)算概率、聯(lián)合分布和其他推導(dǎo)度量。此外,PGM允許推斷數(shù)據(jù)何時(shí)丟失,例如在系統(tǒng)輸入中的一個(gè)包含故障傳感器的時(shí)間。
[0018]現(xiàn)在參考圖1,示出示例PGM結(jié)構(gòu)10。模型的特定結(jié)構(gòu)可取決于模型的特定實(shí)例而變化。即,建模應(yīng)用確定PGM的實(shí)際預(yù)定義結(jié)構(gòu)。圓形節(jié)點(diǎn)12、14、16用來(lái)指示連續(xù)變量(或特征)并且矩形節(jié)點(diǎn)18、20、22、24、26用來(lái)指示離散變量(或特征)。模型將包含由Xjg示的一個(gè)或多個(gè)特征,其中i對(duì)個(gè)別特征編索引。這些特征能夠是連續(xù)或離散的。所有特征以潛在變量L 26為條件(下文描述)。所有離散特征在已知L 26的值時(shí)假設(shè)為有條件獨(dú)立。
[0019]連續(xù)特征12、14、16能夠被鏈接來(lái)表示依賴性28、30、32。例如,如果X1、12和X2、14相關(guān),則它們將會(huì)被鏈接30。連續(xù)變量的鏈接必須維持作為定向且無(wú)環(huán)圖形的結(jié)構(gòu)。換言之,路徑通過(guò)遵循邊的方向而不能夠從節(jié)點(diǎn)引出回(draw back)到它自身。
[0020]變量L26稱為潛在或隱藏變量,因?yàn)樗闹狄话悴槐挥^察。L 26的值稱為‘成分’。L 26的目的是要允許特征以不同的數(shù)據(jù)模式為條件。變量L 26允許模型表示復(fù)雜的密度景觀(landscape)ο
[0021]數(shù)據(jù)中的不同模式能夠由于許多原因而出現(xiàn)。如果應(yīng)用牽涉機(jī)械資產(chǎn),則由于以下中的差異而能夠出現(xiàn)不同的模式:物理配置;采集體系;環(huán)境因素(例如,熱對(duì)冷氣候);等。S變量22、24稱為子集變量并且用來(lái)顯式描述預(yù)期模式。
[0022]L 26與子集變量S 22、24之間的邊的方向應(yīng)反過(guò)來(lái)示出,因?yàn)長(zhǎng) 26以子集變量S
22、24為條件。然而,使邊如示出的那樣定向,這更方便。來(lái)自推斷的結(jié)果將是正確的,但模型訓(xùn)練必須遵循特定程序。如果邊從子集變量S 22、24定向到L 26 JljL 26中的條目(entry)在計(jì)算上將會(huì)是不可管理的。例如,假設(shè)S1 24具有20個(gè)值,S2 22具有30個(gè)值并且L26具有50個(gè)值。如果邊指向L 26,則如與在如示出的那樣引出時(shí)的50相對(duì),在L 26中將會(huì)存在30000個(gè)條目(S卩20x30x50)。圖1示出兩個(gè)子集變量S 22、24,但可不存在或存在一個(gè)或多個(gè)。例如,考慮用來(lái)監(jiān)測(cè)旋翼飛行器隊(duì)中的變速器振動(dòng)的應(yīng)用。振動(dòng)簽名(signature)在飛機(jī)創(chuàng)建截然不同的模式之間能夠明顯變化,從而。因此,添加表示飛機(jī)尾號(hào)的子集變量可以是更可取的。因此,子集變量中的值的數(shù)量將會(huì)對(duì)應(yīng)于隊(duì)中飛機(jī)的數(shù)量。
[0023]變量L26能夠視為指定訓(xùn)練數(shù)據(jù)中的分區(qū)(或子集模型)。分區(qū)的數(shù)量等同于子集變量S 22、24中的值的積。例如對(duì)于20旋翼飛行器隊(duì),分區(qū)的數(shù)量是20。隨著添加第二子集變量來(lái)以諸如盤(pán)旋和巡航的體系為條件,分區(qū)的數(shù)量是40。通常,L 26中的值被硬賦給子集;即,值是專用的并且僅對(duì)與特定子集模型關(guān)聯(lián)的數(shù)據(jù)來(lái)訓(xùn)練。備選地,值可跨子集共享。賦給子集的L值的數(shù)量能夠由于子集而變化。例如,L中的單個(gè)值可表示一個(gè)子集,而20個(gè)值可表示另一個(gè)子集。進(jìn)一步使模型訓(xùn)練過(guò)程復(fù)雜化,每子集的值的數(shù)量可由于在訓(xùn)練期間的最優(yōu)化而變化。
[0024]系統(tǒng)可通過(guò)假設(shè)在由L值所表示的特征空間的區(qū)域中出現(xiàn)訓(xùn)練反常而從包含反常的訓(xùn)練數(shù)據(jù)構(gòu)建模型。換言之,將存在訓(xùn)練反常將與之最緊密關(guān)聯(lián)的L的值并且L的這些值與正常數(shù)據(jù)將具有低關(guān)聯(lián)。然后通過(guò)檢測(cè)這些‘反常’L值并且從模型刪除它們而生成常態(tài)模型。盡管先前的專利申請(qǐng)已公開(kāi)通過(guò)將數(shù)據(jù)分區(qū)成多個(gè)子集來(lái)生成模型的方法(美國(guó)專利號(hào)13/027829 )以及涉及圖形模型的功用的概念(英國(guó)專利申請(qǐng)1119241.6 ),本發(fā)明的實(shí)施例的方法的關(guān)鍵方面是高效去除‘反?!疞,其可以是模型構(gòu)建過(guò)程的最耗時(shí)階段。
[0025]模型構(gòu)建由兩個(gè)階段組成。在第一階段期間學(xué)習(xí)子集模型參數(shù)。第二階段包含從L去除可能與反常關(guān)聯(lián)的成分(或值)。
[0026]現(xiàn)在參考圖2,本發(fā)明的方法100的處理器將在步驟102處在子集上執(zhí)行循環(huán)。進(jìn)而通過(guò)輸入關(guān)于子集變量的證據(jù)來(lái)選擇每個(gè)子集。如上文指示的,如本文描述的方法適用于硬證據(jù)(hard evidence),其確保每個(gè)子集映射到L的一個(gè)或多個(gè)值,但L的這些值未映射到任何其他子集。然而,方法在存在軟證據(jù)(soft evidence)的情況下可同樣適用并且因此不應(yīng)視為局限于其中僅硬證據(jù)可用的應(yīng)用。硬證據(jù)簡(jiǎn)單地意指選擇每個(gè)子集變量的單個(gè)值。關(guān)于子集變量的硬證據(jù)定義單個(gè)子集。變量L將包含專用于所選子集的一個(gè)或多個(gè)成分。然后學(xué)習(xí)以有效成分為條件的特征。關(guān)于子集變量的證據(jù)在訓(xùn)練數(shù)據(jù)中定義分區(qū)。證據(jù)用來(lái)構(gòu)造查詢,使得與分區(qū)關(guān)聯(lián)的數(shù)據(jù)能夠被檢索用于訓(xùn)練。訓(xùn)練能夠利用任何適合的方法,例如期望最大化。
[0027]其中構(gòu)成模型的方式意指存在與L的每個(gè)成分關(guān)聯(lián)的特征參數(shù)。例如,連續(xù)特征將具有L的每個(gè)值的均值和方差,和對(duì)于每個(gè)關(guān)聯(lián)連續(xù)特征的權(quán)重。離散特征將具有對(duì)于L的每個(gè)成分在它的值上分布的概率。這些概率是離散特征的參數(shù)。
[0028]如上文描述的,專用于子集的成分的數(shù)量能夠基于在模型構(gòu)建過(guò)程的學(xué)習(xí)階段期間對(duì)最佳數(shù)量的成分的計(jì)算搜索而變化。然而,確定最佳數(shù)量的成分通常是啟發(fā)式過(guò)程。對(duì)最佳確定的標(biāo)準(zhǔn)啟發(fā)旨在將模型質(zhì)量與模型大小進(jìn)行權(quán)衡并且包含眾所周知的度量,例如Akaike信息準(zhǔn)則、Bayesian信息準(zhǔn)則和偏差信息準(zhǔn)則。在該上下文中,模型質(zhì)量通常指模型是數(shù)據(jù)的良好生成器。換言之,從模型采樣的數(shù)據(jù)將會(huì)與訓(xùn)練數(shù)據(jù)類似。模型質(zhì)量和模型大小需要交易(trade)來(lái)防止數(shù)據(jù)的過(guò)擬合。即,如果在它的大小上沒(méi)有約束,則模型可完美地表示訓(xùn)練數(shù)據(jù);然而,這種模型將會(huì)未很好地歸納或形成生成數(shù)據(jù)的真實(shí)概率模型的良好表示。
[0029]從L去除成分潛在地是在計(jì)算上模型構(gòu)建的最昂貴階段。計(jì)算時(shí)間隨模型大小(即,L成分的數(shù)量)按指數(shù)規(guī)律增長(zhǎng)。為了減輕該指數(shù)增長(zhǎng),初始可執(zhí)行附加計(jì)算并且定義簿記的方法,其節(jié)省重復(fù)的不必要計(jì)算。
[0030]處理器在L中檢測(cè)成分,其被視為與其他成分最不類似,并且這些成分然后假設(shè)為最可能與訓(xùn)練數(shù)據(jù)中反常關(guān)聯(lián)的成分。這些成分是去除的候選。處理器使用距離計(jì)量測(cè)量成分之間的類似性。在去除過(guò)程期間,檢查每個(gè)成分并且計(jì)算它的距離。在已對(duì)所有成分計(jì)算距離時(shí),成分按距離的降序排序。在列表頂部的成分被去除。
[0031]因?yàn)槟P碗S著成分的去除而改變,去除成分潛在地改變?nèi)匀辉谀P椭械某煞值娜烤嚯x。通常,默認(rèn)位置要在成分去除后對(duì)所有剩余成分重新計(jì)算距離。該默認(rèn)方法對(duì)于大的模型在計(jì)算上是非常昂貴的。
[0032]簡(jiǎn)單的備選方法是要在初始距離計(jì)算后以單次(singleshot)去除多于一個(gè)成分,其包含去除初始確定被刪除的所有成分的可能性。盡管該方法對(duì)于一些應(yīng)用可以是足夠的,這可導(dǎo)致被掩蓋和未檢測(cè)的反常成分。例如,多個(gè)反常成分可在計(jì)算它們的距離時(shí)對(duì)彼此提供支持,因?yàn)樗鼈冋紦?jù)特征空間的相同區(qū)域。因此,方法可未將一些反常成分作為刪除的目標(biāo)。
[0033]將要計(jì)算其距離的成分指示為P,處理器通過(guò)將P與指示為Q的一組其他成分比較來(lái)計(jì)算距離。Q的成員關(guān)系通過(guò)子集變量來(lái)確定。
[0034]如果沒(méi)有子集變量,則Q的默認(rèn)成員關(guān)系是除P以外的所有成分。在該情形中,處理器使用所有其他成分對(duì)P計(jì)算距離。然而,在存在子集變量時(shí),通過(guò)對(duì)每個(gè)子集變量輸入證據(jù)來(lái)定義子集H1。默認(rèn)位置要輸入硬證據(jù),其具有出將與L的一個(gè)或多個(gè)成分關(guān)聯(lián)并且這些成分將未被任何其他子集共享的結(jié)果。換言之,H1與所有其他子集的交集是零(或空)集。Q集將是不在H1中的L的所有成分。處理器將P設(shè)置成H1中的第一成分并且P將總是包含單個(gè)成分。在計(jì)算它的距離時(shí),H1中的每個(gè)成分將進(jìn)而被賦給P。為了總結(jié)該情況,通過(guò)將P與未共享與P相同的子集的所有其他成分比較來(lái)計(jì)算對(duì)于成分P的距離。
[0035]如先前描述的,關(guān)于子集變量的證據(jù)通常是硬性的,但它能夠是軟性的。軟證據(jù)導(dǎo)致在子集變量值上的概率分布。假設(shè)變量S1具有值{a,b, c, d, e}。采用硬證據(jù),處理器僅選擇一個(gè)值;即,對(duì)Si賦予單值。采用軟證據(jù),處理器可賦予多個(gè)值,例如{a=0,b=0.5, c=0.3, d=0, e=0.2}。采用軟證據(jù),處理器對(duì)具有硬證據(jù)的情況執(zhí)行類似計(jì)算,但Q的每個(gè)成員具有被計(jì)入距離計(jì)算中的關(guān)聯(lián)加權(quán)。
[0036]使用似然得分來(lái)計(jì)算距離。通過(guò)輸入關(guān)于特征的證據(jù)(回想起特征是圖1中的X變量12、14、16 )來(lái)執(zhí)行模型中的推斷。證據(jù)的似然性是概率模型中的標(biāo)準(zhǔn)度量并且在C.M.BishopiSiPaiier/3 Recognit1n and Machine Learning, Spinger(2006)的章節(jié)8中進(jìn)——步詳細(xì)描述。
[0037]通過(guò)在步驟110處在隨機(jī)樣本計(jì)數(shù)上循環(huán),處理器在步驟112處從成分P生成η個(gè)樣本。參數(shù)η是可配置的,但優(yōu)選默認(rèn)值是100。樣本生成對(duì)特征產(chǎn)生仿真值。處理器在步驟128處通過(guò)從P的角度(perspective)計(jì)算樣本數(shù)據(jù)的似然性并且將其與從Q的角度計(jì)算的似然性比較來(lái)計(jì)算距離。
[0038]具體地,如在步驟110處示出的,處理器進(jìn)而采取每個(gè)樣本,從而在樣本計(jì)數(shù)上循環(huán)。處理器通過(guò)在步驟114處設(shè)置關(guān)于X變量的證據(jù)并且選擇對(duì)應(yīng)于P的L值來(lái)計(jì)算P—似然性。通過(guò)在步驟116處循環(huán)通過(guò)除H1以外的所有子集以及在步驟118處循環(huán)通過(guò)子集中的所有Q成分,處理器通過(guò)去除關(guān)于L的證據(jù)并且輸入關(guān)于每個(gè)S變量的證據(jù)使得在L中僅Q變量有效來(lái)計(jì)算Q—似然性。Q—似然性通過(guò)將它的似然性除以Q的基數(shù)(即,Q成員的數(shù)量)而歸一化。Q的對(duì)數(shù)減去P的對(duì)數(shù)。處理器對(duì)于剩下的樣本重復(fù)步驟112-126并且將對(duì)數(shù)差求和以在步驟128處確定對(duì)于P的距離。
[0039]不存在用于決定從L要去除多少成分的固定方法。對(duì)于一些應(yīng)用,先驗(yàn)知識(shí)將確定模型的質(zhì)量。用于對(duì)要去除的成分?jǐn)?shù)量作出決定的默認(rèn)方法是要通過(guò)探索或了解來(lái)對(duì)與反常關(guān)聯(lián)的訓(xùn)練數(shù)據(jù)的百分比進(jìn)行估計(jì)。關(guān)于L的每個(gè)成分具有支持度量,其指定與成分關(guān)聯(lián)的訓(xùn)練情況(case)的數(shù)量。稱為‘去除百分比’的參數(shù)在從模型去除成分時(shí)被跟蹤。每當(dāng)去除成分時(shí),將它的支持添加到‘去除百分比’。成分去除在該‘去除百分比’與反常的估計(jì)數(shù)量相同或超過(guò)它時(shí)停止。
[0040]如先前解釋的,默認(rèn)位置要迭代去除成分。為了在模型大小增長(zhǎng)時(shí)節(jié)省計(jì)算時(shí)間中的指數(shù)增長(zhǎng),處理器采用簿記方法來(lái)識(shí)別潛在冗余計(jì)算。
[0041]對(duì)于大多數(shù)模型,期望Q中的大部分成分將對(duì)P中成分的距離沒(méi)有或具有可忽略影響。因此,處理器確定在去除Q成分后是否需要重新計(jì)算P成分的距離。處理器在步驟124處維持P成分與Q成分之間的關(guān)聯(lián)表。如果關(guān)聯(lián)是弱的,則處理器在步驟108處確定不要求重新計(jì)算。弱的定義在步驟108中在稱作‘關(guān)聯(lián)閾值’(指示為T(mén))的參數(shù)中聲明。關(guān)聯(lián)閾值的值確定需要進(jìn)行多少計(jì)算以及因此構(gòu)建模型所花的時(shí)間。
[0042]閾值的實(shí)際值將取決于應(yīng)用以及要如何使用閾值。例如,處理器可使用關(guān)聯(lián)閾值來(lái)限制構(gòu)建模型所花的時(shí)間并且該類型的閾值目標(biāo)能夠通過(guò)構(gòu)建一些初始模型而自動(dòng)確定。如果關(guān)聯(lián)閾值的目的是要將識(shí)別對(duì)于去除的最佳候選成分與計(jì)算所花的時(shí)間進(jìn)行交易,這也能夠通過(guò)構(gòu)建一些初始模型而自動(dòng)確定。對(duì)于其中數(shù)據(jù)趨于集中在特征空間的若干截然不同的區(qū)上的應(yīng)用,一般將存在P與Q的成員之間的關(guān)聯(lián)的清晰分布(profile)。如果數(shù)據(jù)趨于集中在特定區(qū)中使得P與Q成員之間的關(guān)聯(lián)趨向于均一分布,則去除成分可幾乎不起任何作用或單次去除(如上文描述的)是足夠的。
[0043]P與Q的成員之間的關(guān)聯(lián)將在去除成分時(shí)潛在地改變??啥ㄆ诟玛P(guān)聯(lián),但優(yōu)選地,處理器在初始距離如在步驟122中示出的那樣計(jì)算時(shí)將計(jì)算它們一次。
[0044]關(guān)于在步驟124中關(guān)聯(lián)矩陣的構(gòu)造,關(guān)聯(lián)度量是簡(jiǎn)單的概率度量。從群集P生成的樣本用來(lái)找到P與Q的成員之間的關(guān)聯(lián)。關(guān)聯(lián)計(jì)算從用于距離的計(jì)算的子集構(gòu)造。對(duì)于由高斯和多項(xiàng)變量組成的成分的概率密度函數(shù)(pdf)被很好地定義。對(duì)由P和Q的每個(gè)成員生成的每個(gè)樣本計(jì)算pdfC3Q pdf然后通過(guò)使每個(gè)Q pdf除以Q pdf的總和來(lái)對(duì)Q的每個(gè)成員生成成員關(guān)系概率而歸一化。這在步驟118處對(duì)每個(gè)樣本重復(fù)并且Q概率在步驟120中被求和。樣本上的求和是P與Q的成員之間的關(guān)聯(lián)的度量。
[0045]因?yàn)槊總€(gè)成分迭代選擇為P成分,處理器計(jì)算每個(gè)成分與不占據(jù)與P成分相同子集的所有其他成分之間的關(guān)聯(lián)的矩陣??山M織關(guān)聯(lián)矩陣,其中Q作為列并且P作為行。每個(gè)成分將在行和列中出現(xiàn)。矩陣將具有空值,其中行和列值在相同子集上相交。在處理器去除成分時(shí),它識(shí)別關(guān)聯(lián)矩陣中與成分有關(guān)的Q列。處理器可重新計(jì)算其在該列中的條目超過(guò)關(guān)聯(lián)閾值的P成分的距離。處理器將未重新計(jì)算具有低于或等于關(guān)聯(lián)閾值的值的P成分。
[0046]因而,在確定第一成分去除所要求的距離計(jì)算期間生成完整的關(guān)聯(lián)矩陣。關(guān)聯(lián)矩陣然后對(duì)所有特征計(jì)算保持靜止,但對(duì)于一些應(yīng)用,模型可從該矩陣的偶爾更新中獲益。處理器對(duì)關(guān)聯(lián)矩陣編索引來(lái)確定是否必須重新計(jì)算距離值用于后續(xù)成分去除。
[0047]對(duì)于許多模型類型,構(gòu)建時(shí)間能夠顯著減少,通常約計(jì)算時(shí)間中的90%減少。時(shí)間節(jié)省對(duì)于大的應(yīng)用是明顯的。對(duì)于當(dāng)前技術(shù)水平的臺(tái)式計(jì)算機(jī),它可花若干小時(shí)一直到若干天來(lái)構(gòu)建模型。然而,使用上文描述的方法,這些模型現(xiàn)在可在少得多的時(shí)間構(gòu)建。通過(guò)使用并行處理已知的技術(shù)來(lái)實(shí)現(xiàn)附加時(shí)間節(jié)省。
[0048]為了更充分領(lǐng)會(huì)時(shí)間節(jié)省的重要性,考慮在典型應(yīng)用中發(fā)生什么。通常,應(yīng)用將依賴許多模型,或許100或更多。如果域(domain)具有許多資產(chǎn)類型;例如,不同類型的引擎,模型的數(shù)量能夠增長(zhǎng)為數(shù)千。在歷史數(shù)據(jù)更新時(shí),這些模型也將定期更新。對(duì)于新的應(yīng)用,通常存在探索許多不同模型(例如,使用特征的不同組合)來(lái)找到最佳集的要求。該探索僅在模型能夠相對(duì)快地構(gòu)建時(shí)是可行的。
[0049]采用子集變量構(gòu)造反常模型通常被證明是有用的并且可提供許多優(yōu)勢(shì)。子集模型的構(gòu)造是非??斓?即,計(jì)算高效的)。子集趨于迫使建模資源或成分到特征空間的通常被忽視的區(qū)域,并且因此對(duì)組件提供擬合反常數(shù)據(jù)的機(jī)會(huì)。因此,建模方法對(duì)于采用包含隱藏反常的數(shù)據(jù)來(lái)訓(xùn)練更魯棒。子集還對(duì)推斷提供大量靈活性。例如,考慮具有專用于與特定飛機(jī)尾號(hào)擬合的每個(gè)引擎的子集的模型。使用子集,推斷引擎/飛機(jī)與隊(duì)的余下相比如何表現(xiàn)是有可能的。使用相同模型來(lái)跟蹤個(gè)別引擎/飛機(jī)行為中的改變也是有可能的。子集還提供內(nèi)置平臺(tái)以在測(cè)試模型性能時(shí)執(zhí)行交叉驗(yàn)證。
[0050]本書(shū)面描述使用包含最佳模式的示例來(lái)公開(kāi)本發(fā)明,并且還使本領(lǐng)域內(nèi)技術(shù)人員能夠?qū)嵤┍景l(fā)明,包含制作和使用任何裝置或系統(tǒng)并且執(zhí)行任何包含的方法。本發(fā)明的可取得專利范圍由權(quán)利要求限定,并且可包含本領(lǐng)域內(nèi)技術(shù)人員想到的其他示例。如果這類其他示例具有與權(quán)利要求的文字語(yǔ)言完全相同的結(jié)構(gòu)單元,或者如果它們包括具有與權(quán)利要求的文字語(yǔ)言的非實(shí)質(zhì)差異的等效結(jié)構(gòu)單元,則預(yù)計(jì)它們處于權(quán)利要求的范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型(10)的方法,所述方法包括: 學(xué)習(xí)對(duì)于所述概率圖形模型(10)的結(jié)構(gòu)的參數(shù),其中所述結(jié)構(gòu)包含其他變量(12,14,16,18,20,22,24)以其為條件并且具有多個(gè)成分的至少一個(gè)潛在變量(26); 使所述潛在變量(26)的所述多個(gè)成分中的一個(gè)或多個(gè)與正常數(shù)據(jù)迭代地關(guān)聯(lián); 構(gòu)造所述關(guān)聯(lián)的矩陣; 基于與所述正常數(shù)據(jù)的低關(guān)聯(lián)或所述關(guān)聯(lián)矩陣的一個(gè)來(lái)檢測(cè)所述潛在變量(26)的異常成分;以及 從所述概率圖形模型(10)刪除所述潛在變量(26)的所述異常成分。2.如權(quán)利要求1所述的方法,其中學(xué)習(xí)所述結(jié)構(gòu)的所述參數(shù)的步驟通過(guò)預(yù)期最大化來(lái)執(zhí)行。3.如權(quán)利要求1或2所述的方法,其中使所述多個(gè)成分中的一個(gè)或多個(gè)迭代關(guān)聯(lián)的步驟通過(guò)計(jì)算所述一個(gè)或多個(gè)成分之間的類似性來(lái)執(zhí)行。4.如權(quán)利要求3所述的方法,其中所述一個(gè)或多個(gè)成分之間的所述類似性采用距離度量來(lái)計(jì)算。5.如權(quán)利要求4所述的方法,其中所述距離度量是似然函數(shù)。6.如任何前述權(quán)利要求所述的方法,其中使所述多個(gè)成分中的一個(gè)或多個(gè)迭代關(guān)聯(lián)的步驟在存在新數(shù)據(jù)時(shí)重復(fù)。7.如任何前述權(quán)利要求所述的方法,其中刪除所述異常成分的步驟進(jìn)一步包含對(duì)所述一個(gè)或多個(gè)成分中的每個(gè)之間的所述關(guān)聯(lián)矩陣編索引來(lái)確定是否需要重復(fù)使所述潛在變量的所述多個(gè)成分中的一個(gè)或多個(gè)與正常數(shù)據(jù)迭代關(guān)聯(lián)的所述步驟的步驟。
【文檔編號(hào)】G06K9/62GK105934765SQ201380082008
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2013年11月29日
【發(fā)明人】R.E.卡蘭, D.S.哈德維克
【申請(qǐng)人】通用電氣航空系統(tǒng)有限公司