方法的流程圖;
[0020] 圖3描述了根據(jù)本發(fā)明一實(shí)施例的橫向劃分方案;
[0021] 圖4顯示了描述根據(jù)本發(fā)明一實(shí)施例的分布式處理方案的網(wǎng)絡(luò)圖;
[0022] 圖5為描述利用分布式處理系統(tǒng)的發(fā)現(xiàn)統(tǒng)計(jì)模式的方法的流程圖。
【具體實(shí)施方式】
[0023] 在本發(fā)明中,對(duì)給定要素的描述或者在具體附圖中對(duì)具體要素標(biāo)號(hào)的考慮和使 用,或者在對(duì)應(yīng)描述性內(nèi)容中對(duì)附圖的參考均包括同樣的、等同的或者類似的要素,或者在 另一附圖中確定的要素的標(biāo)號(hào),或者與其相關(guān)的描述性內(nèi)容。除特別說(shuō)明外,附圖或相關(guān)文 本中使用的"/"應(yīng)理解為"和/或"。
[0024] 模式發(fā)現(xiàn)過(guò)程包括或包含兩個(gè)相互關(guān)聯(lián)的行為:第一個(gè)行為是生成模式候選項(xiàng), 而第二個(gè)行為是根據(jù)它們的統(tǒng)計(jì)顯著性確定候選項(xiàng)是否為模式候選項(xiàng)。候選項(xiàng)生成行為執(zhí) 行問(wèn)題域搜索策略,而模式確定行為執(zhí)行統(tǒng)計(jì)顯著性檢驗(yàn)。本發(fā)明對(duì)兩種行為均進(jìn)行論述。
[0025] 根據(jù)本發(fā)明一實(shí)施例,描述了一種發(fā)現(xiàn)統(tǒng)計(jì)顯著性模式或者統(tǒng)計(jì)模式的方法。根 據(jù)本發(fā)明一實(shí)施例的模式發(fā)現(xiàn)過(guò)程基本可以公式化為兩步程序,即模式候選項(xiàng)生成以及候 選項(xiàng)顯著性檢驗(yàn)。模式候選項(xiàng)生成的目的在于找到原始事件,或者達(dá)到特定階的復(fù)合事件 的所有組合,而候選項(xiàng)顯著性檢驗(yàn)是用于驗(yàn)證模式候選項(xiàng)是否滿足預(yù)先確定的標(biāo)準(zhǔn)(如下 文描述的Tc),并且值得進(jìn)一步進(jìn)行統(tǒng)計(jì)顯著性模式檢驗(yàn)。
[0026] 作為本發(fā)明的出發(fā)點(diǎn),對(duì)一些基本概念進(jìn)行介紹。根據(jù)本發(fā)明,提供了一種包含 大量觀察數(shù)據(jù)的大數(shù)據(jù)集合,模式發(fā)現(xiàn)在該大數(shù)據(jù)集合中或大數(shù)據(jù)集合上執(zhí)行。大數(shù)據(jù)集 合的非限制性的代表性實(shí)例包括:在過(guò)去十年里書店的交易記錄;在過(guò)去十年里加拿大的 Visa信用卡交易;或者在2014年或者自2014年以來(lái)通過(guò)中國(guó)移動(dòng)手機(jī)用戶發(fā)出的文本信 息。
[0027] 可以通過(guò)從數(shù)據(jù)源中文本挖掘和/或提取有意義的數(shù)據(jù),從數(shù)據(jù)源中形成數(shù)據(jù)集 合。該數(shù)據(jù)源可由機(jī)器和/或人類行為生成。該數(shù)據(jù)集合可能是大數(shù)據(jù)集合,該大數(shù)據(jù)集 合利用傳統(tǒng)數(shù)據(jù)分析技術(shù)無(wú)法處理,或者處理效率極低。
[0028] 該數(shù)據(jù)集合可包括Μ個(gè)觀察數(shù)據(jù)或樣本。該數(shù)據(jù)集合中的每個(gè)觀察數(shù)據(jù)或樣本可 用Ν個(gè)屬性、特征或變量表述;每個(gè)屬性、特征或變量可以取有限集合中的一個(gè)值。令X= {Xu·*·,Χη}表示該屬性集合。則來(lái)自該有限集合的任意屬性Xi均可以取定義為屬性域內(nèi)的 一個(gè)值,并用Di表示。因而該N個(gè)屬性形成了N維空間D,該N維空間為整個(gè)數(shù)據(jù)空間,在 該數(shù)據(jù)空間內(nèi)生成觀察數(shù)據(jù)集合,并且從該數(shù)據(jù)空間中將會(huì)發(fā)現(xiàn)模式。
[0029] 例如,假定該數(shù)據(jù)集合為某一書店在近10年來(lái)的交易觀察數(shù)據(jù)集合。觀察數(shù)據(jù)可 包括或者為從該書店購(gòu)書的人的身高、發(fā)色、性別以及年齡。
[0030] 觀察數(shù)據(jù)的屬性可具有對(duì)應(yīng)的名稱與值。對(duì)于一觀察數(shù)據(jù),身高可具有值,如 170cm、175cm和 180cm,或者范圍,如 160 ~165cm、165 ~170cm以及 170 ~175cm。該 屬性集合或該屬性的域,身高Di可表示為0;= {170cm, 175cm, 180cm···}或0;= {160~ 165cm, 165 ~170cm, 170 ~175cm, ···} 〇
[0031] 僅為了協(xié)助理解本說(shuō)明的目的,本實(shí)例僅考慮少量屬性,然而在大數(shù)據(jù)的實(shí)際操 作時(shí),需要考慮大量的觀察數(shù)據(jù)及其屬性。
[0032] 根據(jù)本發(fā)明,屬性&的原始事件或者原子事件Xi實(shí)現(xiàn)從Di中取值。即X1=X^為 原始事件,其中Di。例如,身高=170cm或者身高=160~165cm為原始事件或者該 屬性的實(shí)現(xiàn)。
[0033] 可以從數(shù)據(jù)集合或數(shù)據(jù)源中采集、給出、導(dǎo)出或者提取出原始事件。任何見于數(shù)據(jù) 集合或者數(shù)據(jù)源的屬性-值對(duì)均可為原始事件??梢允褂萌魏喂臄?shù)據(jù)采集算法從數(shù)據(jù) 集合或數(shù)據(jù)源中采集原始事件。如下文將要描述的,原始事件將用作起始點(diǎn)或者基本單元, 以發(fā)現(xiàn)根據(jù)本發(fā)明一實(shí)施例的統(tǒng)計(jì)模式或者統(tǒng)計(jì)顯著性模式。
[0034] 根據(jù)一實(shí)施例,復(fù)合事件可被定義為不同屬性的兩個(gè)或多個(gè)原始事件的集合。該 復(fù)合事件的階可被定義為在該復(fù)合事件內(nèi)的原始事件的個(gè)數(shù)。例如,(xn,x21,x31)為屬性 XpX;;和X3的第三階復(fù)合事件。即(身高=170cm,發(fā)色=黑色,性別=男)為屬性即身高、 發(fā)色和性別的第三階復(fù)合事件。
[0035] 根據(jù)本發(fā)明一實(shí)施例,模式候選項(xiàng)可以被定義為滿足若干預(yù)先確定標(biāo)準(zhǔn),即Tc的 復(fù)合事件。在本發(fā)明一實(shí)施例中,該預(yù)先確定標(biāo)準(zhǔn)可以是復(fù)合事件的發(fā)生期望值或 者發(fā)生概率的值高于給定閾值。可以根據(jù)來(lái)自數(shù)據(jù)集合的復(fù)合事件內(nèi)含有的原始事件的概 率,計(jì)算該發(fā)生期望值或發(fā)生概率。
[0036] 根據(jù)本發(fā)明一實(shí)施例,具有i個(gè)獨(dú)立模型的原始事件{xn,x21,…,xd的復(fù)合事件 的發(fā)生期望值可被定義為數(shù)據(jù)集合的觀察數(shù)據(jù)的數(shù)量Μ與構(gòu)成該復(fù)合事件的每個(gè)原 始事件的概率的乘積,并且可計(jì)算如下:
[0037]Eoccur=M·ΠxP(Xij) (1)
[0038] 對(duì)于具有三個(gè)原始事件{xn,x21,…,Xu}的復(fù)合事件,
[0039]Eoccur =Μ·P(Xη) ·Ρ(χ21) ·P(x31) · (2)
[0040] 在這里,P(xij)為數(shù)據(jù)集合中的原始事件xij的邊緣概率,并且可通過(guò)數(shù)據(jù)集合 直接計(jì)算如下:
[0041 ]
[0042] 在本發(fā)明一實(shí)施例中,如果根據(jù)公式(1)的獨(dú)立模型下的發(fā)生期望值大于期望閾 值,例如25,則該復(fù)合事件(Xll,X21,x31)為模式候選項(xiàng)。該用于確定模式候選項(xiàng)的程序可即 時(shí)執(zhí)行,以確定該復(fù)合事件是否值得統(tǒng)計(jì)顯著性檢驗(yàn)。考慮到多種因素,如應(yīng)用的計(jì)算環(huán)境 和要求精度,應(yīng)該根據(jù)應(yīng)用去選擇、確定或改變?cè)撻撝怠?br>[0043] 對(duì)于滿足發(fā)生期望值標(biāo)準(zhǔn)的模式候選項(xiàng),或者有效模式候選項(xiàng),可采用檢驗(yàn)以確 定它是否為統(tǒng)計(jì)顯著性模式。只有通過(guò)該檢驗(yàn)的模式候選項(xiàng)才有可能被歸類為統(tǒng)計(jì)顯著性 模式。在一實(shí)施例中,統(tǒng)計(jì)顯著性模式或者統(tǒng)計(jì)模式被定義為通過(guò)統(tǒng)計(jì)顯著性檢驗(yàn)Tp的模 式候選項(xiàng)。
[0044] 根據(jù)本發(fā)明一實(shí)施例,統(tǒng)計(jì)顯著性檢驗(yàn)Tp可以是利用調(diào)整殘差的顯 著性假設(shè)檢驗(yàn),該調(diào)整殘差如"A.K.CWongandYWang.Highorderpattern discoveryfromdiscrete-valueddata.IEEETans.OnKnowledgeandData Engineering, 9(6) :877-893, 1997"中所描述。殘差為實(shí)際發(fā)生次數(shù)與發(fā)生期望值的差值。 如果該復(fù)合事件(Xll,X21,x31)的調(diào)整殘差大于1.96,則該復(fù)合事件可被歸類為置信度為 95 %的統(tǒng)計(jì)顯著性模式。在本發(fā)明的若干個(gè)實(shí)施例中,該統(tǒng)計(jì)顯著性檢驗(yàn)Tp可以是任何形 式的統(tǒng)計(jì)顯著性檢驗(yàn),以從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)或提取有意義的統(tǒng)計(jì)模式。
[0045] 例如,假設(shè)提供給我們近十年來(lái)加拿大內(nèi)的Visa信用卡交易的數(shù)據(jù)集合。進(jìn)一步 假設(shè)在該數(shù)據(jù)集合中共有1〇〇〇個(gè)交易,并且原始事件xn為該Visa信用卡用于購(gòu)買電子產(chǎn) 品,而x21為該Visa信用卡由一名女性使用。X^和X21的邊緣概率分別為P(xn) = 0. 2以 及P(x21) =0.5。由于購(gòu)買電子產(chǎn)品和卡持有者的性別是獨(dú)立的,則一個(gè)女性購(gòu)買電子產(chǎn) 品的交易的期望數(shù)量被計(jì)算為1000*0. 2*0. 5 = 100。既然100要高于閾值,例如25,因此 可以米用Tp檢驗(yàn)。
[0046] 然而,我們從1000例交易中觀察到實(shí)際只有10個(gè)女性卡持有者購(gòu)買電子產(chǎn)品的 交易。則殘差為(10-100) =-90?,F(xiàn)在,需要知道-90在統(tǒng)計(jì)上是否為顯著的。所以,我 們通過(guò)將-90與變量SQRT(1000*0. 2*0. 5*(l-0. 2M1-0. 5))相除計(jì)算調(diào)整殘差。結(jié)果 為-14. 23。假定一調(diào)整殘差的漸近正態(tài)分布,在95%的置信度上,由于14. 23〈-1. 96,因此 其不具有顯著性。這意味著女性卡持有者不太可能使用Visa購(gòu)買電子產(chǎn)品。
[0047] 在若干個(gè)實(shí)施例中,該統(tǒng)計(jì)顯著性檢驗(yàn)Tp可以包括或者可以是已知顯著性檢驗(yàn) (一種或多種)中的任何一種類型。例如,除了調(diào)節(jié)殘差,可以使用簡(jiǎn)單閾值和/或雙側(cè) 檢驗(yàn)