專利名稱:信息處理裝置、信息處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本技術(shù)涉及信息處理裝置、信息處理方法和程序,更具體地,涉及能夠在基于數(shù)據(jù)估計概率函數(shù)時,在沒有設(shè)置參數(shù)等的情況下估計最佳概率函數(shù)的信息處理裝置、信息處理方法和程序。
背景技術(shù):
存在使用通過學(xué)習(xí)預(yù)先給定數(shù)據(jù)所獲得的分類規(guī)則,對隨后獲得的數(shù)據(jù)進(jìn)行分類的已知技術(shù)。在這種技術(shù)中,估計數(shù)據(jù)背后的數(shù)據(jù)產(chǎn)生源的真實概率分布或者與該真實概率分布接近的概率分布。為了估計概率分布,已經(jīng)研究了諸如混合高斯分布、隱馬爾可夫模型和貝葉斯網(wǎng)絡(luò)之類的許多模型。
發(fā)明內(nèi)容
在1992年東京大學(xué)出版社出版的東京大學(xué)文理學(xué)院的統(tǒng)計課文“ScientificStatistics”中,當(dāng)基于數(shù)據(jù)估計概率函數(shù)時,根據(jù)相對頻率計算出概率函數(shù)。然而,在這種方法中,當(dāng)數(shù)據(jù)量小時出現(xiàn)過多學(xué)習(xí)。因此,根據(jù)冗余的實驗已經(jīng)明顯的是,這種估計不是具有魯棒性的估計。在C. P. Robert 所著的“The Bayesian Choice:From Decision-TheoreticFoundations to Computational Implementation,,,Springer-Verlag, New York, NY,第二版,2007中,公開了使用先驗分布的貝葉斯(Bayesian)統(tǒng)計,其中將不是數(shù)據(jù)的分析者的先驗信念(也稱作先驗頻率或虛擬頻率)添加至一頻率。根據(jù)這種方法,可以避免過多的學(xué)習(xí)。然而,當(dāng)分析者沒有先驗知識或需要進(jìn)行客觀的分析時,難以量化地設(shè)置客觀的先驗信念或客觀的先驗頻率。在S. Yang 和 K. C. Chang 所著的 “Comparison of Score Metrics for BayesianNetwork Learning”,IEEE Transactions on Systems, Man, and Cybernetics PartA, Systems and Humans, Vol. 32, No. 3,頁數(shù) 419 428,2002 中,公開了在多變量貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的干擾的方面推薦特定值的方法。然而,對于S. Yang和K. C. Chang所著的“Comparison of Score Metrics for Bayesian Network Learning,,,IEEE Transactionson Systems, Man, and Cybernetics Part A, Systems and Humans, Vol. 32, No. 3,頁數(shù)419^428, 2002中推薦的值,不存在理論上的基礎(chǔ)。進(jìn)一步,由于沒有充分地檢查數(shù)據(jù)的各種集合,因此最佳性尚不清楚。在這些參數(shù)中,在多變量的情況下存在理論的不一致。為此原因,推薦稱作等效樣本大小(ESS)的另一參數(shù)。根據(jù)T. Silander P. Kontkane和P. Myllymaki所著的 “On sensitivity of the map Bayesian Network structure to the equivalentsample size parameter,,, Proceedings of Conference on Uncertainty in ArtificialIntelligence,頁數(shù)360 367,2007,參數(shù)的最佳值對于數(shù)據(jù)的每個集合而言相當(dāng)大地改變,并且優(yōu)化是困難的。在H. Steck所著的“Learning the Bayesian Networkstructure:Dirichlet prior versus data,,,Proceedings of Conference on Uncertaintyin Artificial Intelligence,頁數(shù) 511 518,2008 中建議了這種優(yōu)化方法。H. Steck 所著的“Learning the Bayesian Network structure:Dirichlet prior versus data,,,Proceedings of Conference on Uncertainty in Artificial Intelligence,頁數(shù)51 f 518,2008將稱作BDeu的貝葉斯統(tǒng)計的方法與稱作AIC的非貝葉斯統(tǒng)計的方法相組合,由此缺少理論的連貫性。然而,因為精度由于小的數(shù)據(jù)量而惡化,因此難以通過使用小的數(shù)據(jù)量來執(zhí)行最佳估計。進(jìn)一步,因為這種方法專于多變量網(wǎng)絡(luò)結(jié)構(gòu)的估計并且由此可能不能用于一般概率函數(shù)的估計,因此一般不使用這種方法。在日本待審專利申請公開No. 2008-299524以及T. I sozaki,N. Nato和M. Ueno所著的““Data Temperature” in Minimum Free Energies for Parameter Learningof Bayesian Networks^, International Journal on Artificial IntelligenceTools, Vol. 18,No. 5,頁數(shù)653 671,2009中,公開了通過使用自由能量最小化原理估計概率的方法。這種方法已知為相比于諸如貝葉斯估計之類的最大似然估計更加具有魯棒性的方法。然而,由于在假設(shè)正依賴于數(shù)據(jù)量的函數(shù)的情況下設(shè)置溫度,因此沒有實現(xiàn)最佳。進(jìn) 一步,由于存在使得最佳確定困難的參數(shù),因此這種方法類似于貝葉斯統(tǒng)計。期望提供這樣的技術(shù)當(dāng)基于數(shù)據(jù)估計概率函數(shù)時,在不設(shè)置參數(shù)等的情況下,在自由能量最小化方面估計最佳的概率函數(shù)。根據(jù)本技術(shù)的實施例,提供了一種信息處理裝置,包含第一計算單元,其基于數(shù)據(jù)計算具有最高似然的概率函數(shù);第二計算單元,其計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及估計單元,其使用由第一計算單元計算出的具有最高似然的概率函數(shù)、第二估計單元計算出的波動和所述正則分布來估計概率函數(shù)。所述第一計算單元可以計算經(jīng)驗分布函數(shù)。可以用貝葉斯后驗概率函數(shù)替代具有最高似然的概率函數(shù)。所述第二計算單元計算所述數(shù)據(jù)的波動作為與正則分布的溫度對應(yīng)的參數(shù)??梢允褂镁哂凶罡咚迫坏母怕屎瘮?shù)、經(jīng)驗分布函數(shù)、貝葉斯后驗概率函數(shù)和估計出的概率函數(shù)中的至少一個計算所述數(shù)據(jù)的波動。所述數(shù)據(jù)的波動可以不包括提前設(shè)置的另一參數(shù)或者針對數(shù)據(jù)的每個集合計算出的參數(shù)。所述第二計算單元可以使用庫爾貝克-萊布勒信息計算所述數(shù)據(jù)的波動。當(dāng)所述第二計算單元計算所述數(shù)據(jù)的波動時,可以使用n個數(shù)據(jù)條目,并且可以通過所述估計單元基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù)、以及基于n個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一來計算庫爾貝克-萊布勒信息??梢杂猛瑯拥鼗谏现羓 (其中0彡j彡n-1)個數(shù)據(jù)條目計算出的概率函數(shù)的幾何平均值替代基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù)。當(dāng)j = 0時,可以使用均勻分布函數(shù)??梢杂猛瑯拥鼗谏现羓個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一的幾何平均值替換基于n個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一,其中n-1。
可以通過使用利用以基于n個數(shù)據(jù)條目計算出的概率函數(shù)替換基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù)而計算出的正則分布和數(shù)據(jù)的波動執(zhí)行的遞歸計算,估計所述概率函數(shù)??梢允褂霉烙媶卧烙嫵龅母怕屎瘮?shù)執(zhí)行統(tǒng)計假說測試??梢允褂酶鶕?jù)所述估計單元估計出的概率函數(shù)計算的互信息量、G平方統(tǒng)計和概率函數(shù)比之一??梢允褂酶鶕?jù)所述估計單元估計出的概率函數(shù)計算的卡方統(tǒng)計??梢允褂盟龉烙媶卧烙嫵龅母怕屎瘮?shù)來選擇統(tǒng)計模型??梢赃x擇具有根據(jù)所述估計單元估計出的概率函數(shù)計算的最低熵的模型。所述估計單元估計的概率函數(shù)可以是多變量聯(lián)合概率函數(shù)或者條件概率函數(shù)。 所述信息處理裝置可以是檢測統(tǒng)計因和果的因果檢測裝置或分類器。所述多變量概率函數(shù)可以是貝葉斯網(wǎng)絡(luò)、因果貝葉斯網(wǎng)絡(luò)、馬爾科夫網(wǎng)絡(luò)和馬爾科夫邏輯網(wǎng)絡(luò)之一。根據(jù)本技術(shù)的另一方面,提供了一種信息處理方法,包含基于數(shù)據(jù)計算具有最高似然的概率函數(shù);計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及使用具有最高似然的概率函數(shù)、所述數(shù)據(jù)的波動和所述正則分布來估計概率函數(shù)。根據(jù)本技術(shù)的又一方面,提供了一種用于使得計算機(jī)運行處理的程序,所述處理包括基于數(shù)據(jù)計算具有最高似然的概率函數(shù);計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及使用具有最高似然的概率函數(shù)、所述數(shù)據(jù)的波動和所述正則分布來估計概率函數(shù)。根據(jù)本技術(shù)的方面,基于數(shù)據(jù)計算具有最高似然的概率函數(shù);計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;并且使用具有最高似然的概率函數(shù)、所述數(shù)據(jù)的波動和所述正則分布來估計概率函數(shù)。根據(jù)本技術(shù)的實施例,當(dāng)基于數(shù)據(jù)估計概率函數(shù)時,可以在不設(shè)置參數(shù)等的情況下估計最佳的概率函數(shù)。
圖I是圖示根據(jù)本技術(shù)的一實施例的估計概率函數(shù)的信息處理裝置的示圖;圖2是圖示根據(jù)本技術(shù)的另一實施例的估計概率函數(shù)的信息處理裝置的示圖;圖3是圖示根據(jù)本技術(shù)的又一實施例的估計概率函數(shù)的信息處理裝置的示圖;以及圖4是圖示記錄介質(zhì)的示圖。
具體實施例方式下文將參照附圖詳細(xì)描述本公開的優(yōu)選實施例。注意,在本說明書和附圖中,用相同的附圖標(biāo)記指示具有基本上相同功能和結(jié)構(gòu)的結(jié)構(gòu)要素,并且省略這些結(jié)構(gòu)要素的重復(fù)說明。信息處理裝置的配置圖I是圖示根據(jù)本技術(shù)的一實施例的信息處理裝置的配置的示圖。圖I中所示的信息處理裝置10包括輸入單元21、控制單元22、存儲單元23和輸出單元24??刂茊卧?2包括最大似然估計單元41、溫度確定單元42和概率函數(shù)估計單元43。這里將描述N個預(yù)定離散隨機(jī)變量的情況,但是假設(shè)也包括N=I的情況??刂茊卧?2是諸如中央處理單元(CPU)之類的程序控制設(shè)備,其根據(jù)存儲單元23中存儲的程序工作。將N個離散隨機(jī)變量和每個離散隨機(jī)變量的內(nèi)部狀態(tài)存儲在存儲單元23中。進(jìn)一步,數(shù)據(jù)作為數(shù)據(jù)庫存儲在存儲單元23中。將用于指定要計算的隨機(jī)變量的概率函數(shù)的參數(shù)輸入至輸入單元21??商鎿Q地,使用數(shù)據(jù)庫中該數(shù)據(jù)附近的m個數(shù)據(jù),或者可以輸入關(guān)于要使用的數(shù)據(jù)的詳細(xì)信息作為參數(shù)。概率函數(shù)可以指定包括多個變量的聯(lián)合概率函數(shù)或條件概率函數(shù)。輸入單元21將輸入信息輸出至控制單元22。當(dāng)將離散概率變量表示為{XJ (i=l, ...,n)時,預(yù)定變量Xi的內(nèi)部狀態(tài)j的概率在此被描述到P(\ = j)。當(dāng)聯(lián)合概率函數(shù)具有兩個變量時,可以將概率描述為P(Xi=k,Xfl)。進(jìn)一步,當(dāng)條件概率函數(shù)具有兩個變量時,可以將概率描述為 P (Xi=I Xj=IH, Xk=q)。基于到輸入單元21的輸入,證明要估計的概率函數(shù)或概率值。接下來,基于此信息,最大似然估計單元41從存儲單元23中存儲的數(shù)據(jù)庫計算對應(yīng)的頻率,并且計算經(jīng)歷最大似然估計的概率函數(shù)或概率值。接下來,溫度確定單元42整合最大似然信息和來自數(shù)據(jù)庫的信息并且確定溫度?;诖诵畔?,概率函數(shù)估計單元43計算最終的概率函數(shù)或最終的概率值,并且輸出單元24將計算結(jié)果輸出至外部。在本技術(shù)的實施例中,由于沒有未確定的參數(shù),因此用戶不需要調(diào)節(jié)和設(shè)置參數(shù)。因此,可以減輕用戶的負(fù)擔(dān)。進(jìn)一步,相比于最大似然估計器,可以實現(xiàn)更加魯棒(robust)的估計。根據(jù)本公開的實施例,可以獲得這種兼容性優(yōu)點。下文將進(jìn)行更加具體的描述。第一實施例將在根據(jù)第一實施例的具有一個變量的概率函數(shù)的估計的示例中描述圖I中所示的信息處理裝置10執(zhí)行的處理。首先,存儲單元23存儲{x}作為一個概率變量,并且還存儲概率變量的三個內(nèi)部狀態(tài)。假設(shè)將用于概率變量的數(shù)據(jù)的十種情況輸入至輸入單元21。可以將情況存儲在存儲單元23中。內(nèi)部狀態(tài)例如是指高、中或低狀態(tài)。作為狀態(tài),高狀態(tài)出現(xiàn)四次,中間狀態(tài)出現(xiàn)三次,低狀態(tài)出現(xiàn)三次。此信息輸入至輸入單元21并且存儲在存儲單元23中。接下來,最大似然估計單元41可以通過參照針對每三個狀態(tài)輸入的情況羅列每個狀態(tài)Xi (其中i=l,2和3)的頻率ni。接下來,通過最大似然估計,可以由下面的等式(I)使用數(shù)據(jù)數(shù)目n=10計算相對頻率(即,概率函數(shù))。[等式I]
Pn(Xi)=—
n... (I)在等式I中,[等式2]P下面將J3描述為P帽(hat)。最大似然估計單元41通過使用存儲單元23中存儲的上述信息,基于等式(I)中表示的概率函數(shù)P來執(zhí)行計算。接下來,溫度確定單元42量化數(shù)據(jù)的波動。下文將數(shù)據(jù)的波動稱為溫度。溫度為高的狀態(tài)是指數(shù)據(jù)波動大的狀態(tài)。溫度為低的狀態(tài)是指數(shù)據(jù)波動小的狀態(tài)。當(dāng)數(shù)據(jù)數(shù)目小的時候,估計的函數(shù)有可能不是合適的。然而,如稍后描述的,引入溫度的概念。因此,即使在數(shù)據(jù)數(shù)目小的時候,也可以使得估計的函數(shù)合適。如等式⑵中那樣,使用基于n個數(shù)據(jù)條目之中滿足“n>j”的j個數(shù)據(jù)條目估計出的概率函數(shù)h (X)定義幾何平均值。[等式3]
權(quán)利要求
1.一種信息處理裝置,包含 第一計算單元,其基于數(shù)據(jù)計算具有最高似然的概率函數(shù); 第二計算單元,其計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及 估計單元,其使用由第一計算單元計算出的具有最高似然的概率函數(shù)、由第二估計單元計算出的波動和所述正則分布來估計概率函數(shù)。
2.如權(quán)利要求I所述的信息處理裝置,其中,所述第一計算單元計算經(jīng)驗分布函數(shù)。
3.如權(quán)利要求I所述的信息處理裝置,其中,用貝葉斯后驗概率函數(shù)替代具有最高似然的概率函數(shù)。
4.如權(quán)利要求I所述的信息處理裝置,其中,所述第二計算單元使用具有最高似然的概率函數(shù)、經(jīng)驗分布函數(shù)、貝葉斯后驗概率函數(shù)和估計出的概率函數(shù)中的至少一個計算所述數(shù)據(jù)的波動。
5.如權(quán)利要求I所述的信息處理裝置,其中,所述數(shù)據(jù)的波動不包括提前設(shè)置的另一參數(shù)或者針對數(shù)據(jù)的每個集合計算出的參數(shù)。
6.如權(quán)利要求I所述的信息處理裝置,其中,所述第二計算單元使用庫爾貝克-萊布勒信息計算所述數(shù)據(jù)的波動。
7.如權(quán)利要求I所述的信息處理裝置,其中,當(dāng)所述第二計算單元計算所述數(shù)據(jù)的波動時,使用n個數(shù)據(jù)條目,并且通過所述估計單元基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù)、以及基于n個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一來計算庫爾貝克-萊布勒信息。
8.如權(quán)利要求7所述的信息處理裝置,其中,用同樣地基于上至j個數(shù)據(jù)條目計算出的概率函數(shù)的幾何平均值替代基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù),其中O彡j彡n-1。
9.如權(quán)利要求7所述的信息處理裝置,其中,用同樣地基于上至j個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一的幾何平均值替換基于n個數(shù)據(jù)條目計算出的具有最高似然的概率函數(shù)、貝葉斯后驗概率函數(shù)和經(jīng)驗分布函數(shù)之一,其中O≤j≤n-1。
10.如權(quán)利要求7所述的信息處理裝置,其中,通過使用利用以基于n個數(shù)據(jù)條目計算出的概率函數(shù)替換基于(n-1)個數(shù)據(jù)條目計算出的概率函數(shù)而計算出的正則分布和數(shù)據(jù)的波動執(zhí)行的遞歸計算,估計所述概率函數(shù)。
11.如權(quán)利要求I所述的信息處理裝置,其中,使用由估計單元估計出的概率函數(shù)執(zhí)行統(tǒng)計假說測試。
12.如權(quán)利要求11所述的信息處理裝置,其中,使用從由所述估計單元估計出的概率函數(shù)計算的互信息量、G平方統(tǒng)計量和概率函數(shù)比之一。
13.如權(quán)利要求11所述的信息處理裝置,其中,使用從由所述估計單元估計出的概率函數(shù)計算的卡方統(tǒng)計量。
14.如權(quán)利要求I所述的信息處理裝置,其中,使用由所述估計單元估計出的概率函數(shù)來選擇統(tǒng)計模型。
15.如權(quán)利要求14所述的信息處理裝置,其中,選擇具有從由所述估計單元估計出的概率函數(shù)計算的最小熵的模型。
16.如權(quán)利要求I所述的信息處理裝置,其中,由所述估計單元估計出的概率函數(shù)是多變量聯(lián)合概率函數(shù)或者條件概率函數(shù)。
17.如權(quán)利要求16所述的信息處理裝置,其中,所述信息處理裝置是檢測統(tǒng)計因和果的因果檢測裝置或分類器。
18.如權(quán)利要求16所述的信息處理裝置,其中,所述多變量概率函數(shù)是貝葉斯網(wǎng)絡(luò)、因果貝葉斯網(wǎng)絡(luò)、馬爾科夫網(wǎng)絡(luò)和馬爾科夫邏輯網(wǎng)絡(luò)之一。
19.一種信息處理方法,包含 基于數(shù)據(jù)計算具有最高似然的概率函數(shù); 計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及 使用具有最高似然的概率函數(shù)、所述數(shù)據(jù)的波動和所述正則分布來估計概率函數(shù)。
20.一種用于使得計算機(jī)運行處理的程序,所述處理包括 基于數(shù)據(jù)計算具有最高似然的概率函數(shù); 計算統(tǒng)計物理學(xué)中的正則分布和正則分布的參數(shù)作為所述數(shù)據(jù)的波動;以及 使用具有最高似然的概率函數(shù)、所述數(shù)據(jù)的波動和所述正則分布來估計概率函數(shù)。
全文摘要
在此公開信息處理裝置、信息處理方法和程序?;跀?shù)據(jù)計算具有最高似然的概率函數(shù)。計算統(tǒng)計物理學(xué)中的正則分布和正則分布的溫度參數(shù)作為所述數(shù)據(jù)的波動。使用具有最高似然的概率函數(shù)、計算出的波動和所述正則分布來估計概率函數(shù)。本公開可應(yīng)用于估計和使用概率函數(shù)的裝置。
文檔編號G06F17/18GK102799567SQ20121015320
公開日2012年11月28日 申請日期2012年5月17日 優(yōu)先權(quán)日2011年5月24日
發(fā)明者磯崎隆司 申請人:索尼公司