專利名稱:一種采用多核集群的lda模型的訓(xùn)練方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種采用多核集群的LDA模型的訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
LDA(Latent Dirichlet Allocation)是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),是一種被大家關(guān)注的聚類工具,它能夠識(shí)別大規(guī)模文檔集中的潛在主題信息,同時(shí)它還能夠預(yù)測(cè)推斷(inference) —篇新文檔和哪些主題(topic)相關(guān)。LDA采用的是詞袋(bag of words)的方法,將每一篇文檔看成一個(gè)詞頻向量,如果兩個(gè)不同詞經(jīng)常一起出現(xiàn)在文檔中,那么LDA的訓(xùn)練算法傾向于把這兩個(gè)詞歸于同一類,亦稱同一主題。LDA模型是一種生成模型(generative model), LDA首先假設(shè)了一個(gè)產(chǎn)生文檔的過(guò)程,然后根據(jù)現(xiàn)實(shí)的大量文檔集,來(lái)學(xué)習(xí)背后的產(chǎn)生過(guò)程是怎么樣的。LDA假設(shè)所有的文檔存在K個(gè)主題(每個(gè)主題可以認(rèn)為是詞的分布),要生成一篇文檔,首先生成該文檔的一個(gè)主題分布,然后生成詞的集合;要生成一個(gè)詞,需要根據(jù)文檔的主題分布隨機(jī)選擇一個(gè)主題,然后根據(jù)該主題中詞的分布隨機(jī)生成一個(gè)詞。一般來(lái)說(shuō)LDA的實(shí)現(xiàn)包括訓(xùn)練算法和預(yù)測(cè)算法兩個(gè)部分。訓(xùn)練算法是指基于已有的文檔集,學(xué)習(xí)出LDA模型,LDA模型的效果和模型收斂情況有較大影響,一般迭代次數(shù)成百上千;預(yù)測(cè)算法是指利用已學(xué)習(xí)出來(lái)LDA模型去推斷一篇新文檔的主題分布。由于LDA的訓(xùn)練需要大量迭代,每次迭代需要遍歷所有訓(xùn)練文檔的所有詞,并且不斷更新其中的文檔-主題矩陣(大小為DXK,其中D為文檔個(gè)數(shù)、K為主題個(gè)數(shù))、主題-詞矩陣(大小為KXV,其中V為詞數(shù)),計(jì)算量較大,耗時(shí)較多。
發(fā)明內(nèi)容
針對(duì)上述問(wèn)題,本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練方法、系統(tǒng)。在第一方面,本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練方法,所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地,在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。優(yōu)選地,所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
優(yōu)選地,每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地,所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。在第二方面,本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練系統(tǒng),所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊,用于所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;進(jìn)程矩陣生成模塊,用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;模型更新模塊,用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地,所述系統(tǒng)還包括預(yù)處理模塊,用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。優(yōu)選地,所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地,所述系統(tǒng)還包括線程同步模塊,用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地,所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。本發(fā)明實(shí)施例采用多核并行處理,提高了主題-詞矩陣的計(jì)算速度,有利于更快地更新LDA模型。
以下結(jié)合附圖以舉例方式對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述后,本發(fā)明的其他特征、特點(diǎn)和優(yōu)點(diǎn)將會(huì)更加明顯。
圖1是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練方法示意圖;圖2是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)示意圖;圖3是本發(fā)明實(shí)施例的多核集群示意圖;圖4是本發(fā)明實(shí)施例的多核集群上的多核并行處理流程示意圖;圖5是本發(fā)明實(shí)施例的消息傳遞接口函數(shù)工作示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)、清楚、完整的說(shuō)明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。圖1是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練方法示意圖。如圖1所示,所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地,在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。優(yōu)選地,所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地,每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地,所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。圖2是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)示意圖。如圖2所示,所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊,用于所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;進(jìn)程矩陣生成模塊,用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;模型更新模塊,用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地,所述系統(tǒng)還包括預(yù)處理模塊,用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。優(yōu)選地,所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地,所述系統(tǒng)還包括線程同步模塊,用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地,所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。下面對(duì)本發(fā)明實(shí)施例方案進(jìn)行更加詳細(xì)細(xì)致的描述,以便本領(lǐng)域人員更好地理解本發(fā)明實(shí)施例方案的原理以及具體實(shí)施細(xì)節(jié)。本發(fā)明實(shí)施例實(shí)質(zhì)上可以視為一種面向多核集群的LDA并行算法。其包括預(yù)處理/后處理、并行算法。預(yù)處理/后處理所有訓(xùn)練文檔被分布到各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都有一份主題-詞矩陣的副本,每次迭代都會(huì)對(duì)該矩陣進(jìn)行更新。文檔-主題矩陣在每個(gè)節(jié)點(diǎn)所占的空間隨著節(jié)點(diǎn)數(shù)的增加而減少;但是主題-詞矩陣在每個(gè)節(jié)點(diǎn)占用存儲(chǔ)空間固定。為了降低相關(guān)數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)負(fù)載,對(duì)輸入(即訓(xùn)練文檔)和輸出文件(即主題-詞矩陣)進(jìn)行預(yù)處理和后處理操作,具體如下去除詞頻過(guò)低的詞。對(duì)出現(xiàn)頻率過(guò)低的詞并不關(guān)注,比如從文檔集合中去除出現(xiàn)次數(shù)少于10次的詞。在輸入文件中增加單詞唯一編號(hào)項(xiàng)。由以前2元組變?yōu)?元組〈詞(字符串),詞唯一編號(hào)(整數(shù)),文檔中詞出現(xiàn)的次數(shù)(整數(shù))>,在程序處理過(guò)程中用詞的唯一編號(hào)來(lái)代替詞(字符串)以降低程序運(yùn)行中的存儲(chǔ)空間。在后處理中將單詞唯一編號(hào)對(duì)應(yīng)代回實(shí)際的詞。并行算法圖3是本發(fā)明實(shí)施例的多核集群示意圖。所述的核即為一個(gè)處理單元。多核集群具有節(jié)點(diǎn)內(nèi)共享存儲(chǔ)和節(jié)點(diǎn)間分布式存儲(chǔ)的特點(diǎn),節(jié)點(diǎn)內(nèi)共享存儲(chǔ)是指多個(gè)核共享內(nèi)存,節(jié)點(diǎn)間分布式存儲(chǔ)是指節(jié)點(diǎn)間的核間訪問(wèn)必須通過(guò)網(wǎng)絡(luò)進(jìn)行。在多核集群上采用的執(zhí)行模型如圖4所示,其中實(shí)線代表進(jìn)程/線程執(zhí)行,虛線表示循環(huán)迭代。并行LDA算法分布D個(gè)訓(xùn)練文檔到P個(gè)進(jìn)程上,每個(gè)進(jìn)程啟動(dòng)T個(gè)線程。為了負(fù)載均衡,每個(gè)進(jìn)程分到D/P個(gè)文檔,進(jìn)程內(nèi)每個(gè)線程共享D/P個(gè)文檔相關(guān)的數(shù)據(jù),每個(gè)線程 處理D/P/T個(gè)文檔。第P個(gè)進(jìn)程中的第t個(gè)線程處理的文檔集為W (P,t),相應(yīng)的主題集(文檔中詞對(duì)應(yīng)的主題集合)為Z(P,t),其中P e [l,P],te [l,T]。第ρ個(gè)進(jìn)程處理的文檔集為Wp=丨W(p,t)丨乙,相應(yīng)的主題集為Zp={Z(p,t)} I1。在每次吉布斯Gibbs采樣迭代過(guò)程中,每個(gè)線程t通過(guò)后驗(yàn)分布給z (p,t,i, j)賦
值,具體如下
P(z(p,t,ij)=k I Z-(p,t,i,j), W-(p,tij), w(p,t,i,j)=v) (C+c )=<
(C^j,+Py(C^uj)+V X β) 其中的“-(P,t, i, j) ”是不包含(p,t, i, j)的意思。a、β都是可調(diào)參數(shù),根據(jù)實(shí)際需要進(jìn)行調(diào)整,a的值可以為50/Κ、β可以為O. 01。其中k e [1,K]是K個(gè)主題詞中的一個(gè);V e [1,V]是詞典中的一個(gè)詞;w(p, t, i, j)是第P個(gè)進(jìn)程中第t個(gè)線程處理的第i個(gè)文檔中的第j個(gè)詞,Z (P, t, i, j)是w(p, t, i, j)其所對(duì)應(yīng)的主題是第ρ個(gè)進(jìn)程中第t個(gè)線程處理的第i個(gè)文檔中主題k出現(xiàn)的次數(shù)(除去w (ρ, t, i, j)和z (ρ, t, i, j) ) (p'UJ)是詞V的主題被賦成k的次數(shù)(除去 w(p, t, i, j)和 z (p, t, i, j) );C^d(P,u,,)= Σ ν=ι Ccmod 是模型 model 的英文簡(jiǎn)寫。具體處理過(guò)程如下(I)啟動(dòng)P個(gè)進(jìn)程執(zhí)行,讀取輸入文件,通過(guò)采樣對(duì)Z(p,t) e Z(P, t)進(jìn)行初始賦值;(2)每個(gè)進(jìn)程進(jìn)行文檔相關(guān)數(shù)據(jù)結(jié)構(gòu)(包括文檔-主題矩陣Sd。。等)和模型相關(guān)數(shù)據(jù)結(jié)構(gòu)(包括主題-詞矩陣8^等)初始化;(3)每個(gè)進(jìn)程通過(guò)MPI_Allreduce將局部的S ^^進(jìn)行累計(jì);所述MPI_A1 Ireduce是消息傳遞接口函數(shù),執(zhí)行allreduce操作。可以參見(jiàn)圖5。(4)每個(gè)進(jìn)程創(chuàng)建T個(gè)線程執(zhí)行;(5)線程/進(jìn)程涉及的時(shí)間步迭代;(5.1)每個(gè)線程處理D/P/T個(gè)文檔,對(duì)于文檔d中每個(gè)詞;(5. 1.1)對(duì)C;^—(p,tA,)、C1^dlpxuj加鎖;注意這是必須的步驟,因?yàn)?br>
對(duì)于整個(gè)LDA模型而言是全局變量,可以為所有線程共享,所以在某個(gè)線程對(duì)其進(jìn)行處理時(shí),需要獲得獨(dú)占權(quán),否則將會(huì)造成變量訪問(wèn)的紊亂,使得數(shù)據(jù)出現(xiàn)偏差。(5.1.2)通過(guò)CShp-W,、C S(陶和進(jìn)行樣本采集獲得新的
z (P, t, i, j) ; (5.1. 3)重新計(jì)算Cdfrti;(5.1. 4)解鎖;(5.1.5)重新計(jì)算<^)(1^;注意優(yōu)選地,(5.1)步驟由各核并行處理。(5. 2)線程同步;(5.3)每個(gè)進(jìn)程的主線程執(zhí)行得到本地主題-詞矩陣S7d ;(5. 4)每個(gè)進(jìn)程通過(guò)MPI_AllredUCe將局部的Sf進(jìn)行累計(jì);(5. 5)進(jìn)程同步。注意(I)——(4)對(duì)應(yīng)圖3中①;(5.1)對(duì)應(yīng)圖3中②;(5. 2)對(duì)應(yīng)圖3中③;(5. 3)和(5. 4)對(duì)應(yīng)圖3中④;(5. 5)對(duì)應(yīng)圖3中⑤。為了驗(yàn)證本發(fā)明實(shí)施例的效果,做了大量的測(cè)試,主要測(cè)試方案以及數(shù)據(jù)如下測(cè)試環(huán)境與結(jié)果測(cè)試采用的數(shù)據(jù)如表1:表I
權(quán)利要求
1.一種采用多核集群的LDA模型的訓(xùn)練方法,其特征在于,所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。
2.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法,其特征在于在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。
3.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法,其特征在于所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
4.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法,其特征在于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。
5.如權(quán)利要求1-4之一所述的采用多核集群的LDA模型的訓(xùn)練方法,其特征在于所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。
6.一種采用多核集群的LDA模型的訓(xùn)練系統(tǒng),其特征在于,所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊,用于所述多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;進(jìn)程矩陣生成模塊,用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;模型更新模塊,用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。
7.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng),其特征在于所述系統(tǒng)還包括預(yù)處理模塊,用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理,即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào),在統(tǒng)計(jì)詞頻時(shí),用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞,并去除詞頻過(guò)低的詞。
8.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng),其特征在于所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
9.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng),其特征在于所述系統(tǒng)還包括線程同步模塊,用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。
10.如權(quán)利要求6-9之一所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng),其特征在于所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。
全文摘要
本發(fā)明實(shí)施例涉及一種采用多核集群的LDA模型的訓(xùn)練方法、系統(tǒng)。方法包括多核產(chǎn)生多個(gè)進(jìn)程,每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程,用于分擔(dān)處理多個(gè)訓(xùn)練文檔;每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔,每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣,該進(jìn)程依據(jù)其所有線程給出的主題-矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣;根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣,并用該主題-詞矩陣更新所述的LDA模型。本發(fā)明實(shí)施例采用多核并行處理,提高了主題-詞矩陣的計(jì)算速度,有利于更快地更新LDA模型。
文檔編號(hào)G06F17/30GK103020258SQ201210564600
公開日2013年4月3日 申請(qǐng)日期2012年12月21日 優(yōu)先權(quán)日2012年12月21日
發(fā)明者陸忠華, 王玨, 周莼葆, 郎顯宇, 聶寧明 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心