一種采用多核集群的lda模型的訓(xùn)練方法及系統(tǒng)的制作方法

文檔序號(hào)：6385186閱讀：173來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種采用多核集群的lda模型的訓(xùn)練方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域，尤其涉及一種采用多核集群的LDA模型的訓(xùn)練方法及系統(tǒng)。
背景技術(shù)：
LDA(Latent Dirichlet Allocation)是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，是一種被大家關(guān)注的聚類工具，它能夠識(shí)別大規(guī)模文檔集中的潛在主題信息，同時(shí)它還能夠預(yù)測(cè)推斷(inference) —篇新文檔和哪些主題(topic)相關(guān)。LDA采用的是詞袋(bag of words)的方法，將每一篇文檔看成一個(gè)詞頻向量，如果兩個(gè)不同詞經(jīng)常一起出現(xiàn)在文檔中，那么LDA的訓(xùn)練算法傾向于把這兩個(gè)詞歸于同一類，亦稱同一主題。LDA模型是一種生成模型(generative model), LDA首先假設(shè)了一個(gè)產(chǎn)生文檔的過(guò)程，然后根據(jù)現(xiàn)實(shí)的大量文檔集，來(lái)學(xué)習(xí)背后的產(chǎn)生過(guò)程是怎么樣的。LDA假設(shè)所有的文檔存在K個(gè)主題(每個(gè)主題可以認(rèn)為是詞的分布)，要生成一篇文檔，首先生成該文檔的一個(gè)主題分布，然后生成詞的集合；要生成一個(gè)詞，需要根據(jù)文檔的主題分布隨機(jī)選擇一個(gè)主題，然后根據(jù)該主題中詞的分布隨機(jī)生成一個(gè)詞。一般來(lái)說(shuō)LDA的實(shí)現(xiàn)包括訓(xùn)練算法和預(yù)測(cè)算法兩個(gè)部分。訓(xùn)練算法是指基于已有的文檔集，學(xué)習(xí)出LDA模型，LDA模型的效果和模型收斂情況有較大影響，一般迭代次數(shù)成百上千；預(yù)測(cè)算法是指利用已學(xué)習(xí)出來(lái)LDA模型去推斷一篇新文檔的主題分布。由于LDA的訓(xùn)練需要大量迭代，每次迭代需要遍歷所有訓(xùn)練文檔的所有詞，并且不斷更新其中的文檔-主題矩陣(大小為DXK，其中D為文檔個(gè)數(shù)、K為主題個(gè)數(shù))、主題-詞矩陣(大小為KXV，其中V為詞數(shù))，計(jì)算量較大，耗時(shí)較多。

發(fā)明內(nèi)容
針對(duì)上述問(wèn)題，本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練方法、系統(tǒng)。在第一方面，本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練方法，所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地，在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。優(yōu)選地，所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
優(yōu)選地，每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地，所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。在第二方面，本發(fā)明實(shí)施例提出一種采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊，用于所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；進(jìn)程矩陣生成模塊，用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；模型更新模塊，用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地，所述系統(tǒng)還包括預(yù)處理模塊，用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。優(yōu)選地，所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地，所述系統(tǒng)還包括線程同步模塊，用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地，所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。本發(fā)明實(shí)施例采用多核并行處理，提高了主題-詞矩陣的計(jì)算速度，有利于更快地更新LDA模型。
以下結(jié)合附圖以舉例方式對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述后，本發(fā)明的其他特征、特點(diǎn)和優(yōu)點(diǎn)將會(huì)更加明顯。

圖1是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練方法示意圖；圖2是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)示意圖；圖3是本發(fā)明實(shí)施例的多核集群示意圖；圖4是本發(fā)明實(shí)施例的多核集群上的多核并行處理流程示意圖；圖5是本發(fā)明實(shí)施例的消息傳遞接口函數(shù)工作示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)、清楚、完整的說(shuō)明。顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。圖1是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練方法示意圖。如圖1所示，所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地，在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。優(yōu)選地，所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地，每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地，所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。圖2是本發(fā)明實(shí)施例的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)示意圖。如圖2所示，所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊，用于所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；進(jìn)程矩陣生成模塊，用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；模型更新模塊，用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。優(yōu)選地，所述系統(tǒng)還包括預(yù)處理模塊，用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。優(yōu)選地，所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。優(yōu)選地，所述系統(tǒng)還包括線程同步模塊，用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。優(yōu)選地，所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。下面對(duì)本發(fā)明實(shí)施例方案進(jìn)行更加詳細(xì)細(xì)致的描述，以便本領(lǐng)域人員更好地理解本發(fā)明實(shí)施例方案的原理以及具體實(shí)施細(xì)節(jié)。本發(fā)明實(shí)施例實(shí)質(zhì)上可以視為一種面向多核集群的LDA并行算法。其包括預(yù)處理/后處理、并行算法。預(yù)處理/后處理所有訓(xùn)練文檔被分布到各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)都有一份主題-詞矩陣的副本，每次迭代都會(huì)對(duì)該矩陣進(jìn)行更新。文檔-主題矩陣在每個(gè)節(jié)點(diǎn)所占的空間隨著節(jié)點(diǎn)數(shù)的增加而減少；但是主題-詞矩陣在每個(gè)節(jié)點(diǎn)占用存儲(chǔ)空間固定。為了降低相關(guān)數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)負(fù)載，對(duì)輸入(即訓(xùn)練文檔)和輸出文件(即主題-詞矩陣)進(jìn)行預(yù)處理和后處理操作，具體如下去除詞頻過(guò)低的詞。對(duì)出現(xiàn)頻率過(guò)低的詞并不關(guān)注，比如從文檔集合中去除出現(xiàn)次數(shù)少于10次的詞。在輸入文件中增加單詞唯一編號(hào)項(xiàng)。由以前2元組變?yōu)?元組〈詞(字符串)，詞唯一編號(hào)(整數(shù))，文檔中詞出現(xiàn)的次數(shù)(整數(shù))>，在程序處理過(guò)程中用詞的唯一編號(hào)來(lái)代替詞(字符串)以降低程序運(yùn)行中的存儲(chǔ)空間。在后處理中將單詞唯一編號(hào)對(duì)應(yīng)代回實(shí)際的詞。并行算法圖3是本發(fā)明實(shí)施例的多核集群示意圖。所述的核即為一個(gè)處理單元。多核集群具有節(jié)點(diǎn)內(nèi)共享存儲(chǔ)和節(jié)點(diǎn)間分布式存儲(chǔ)的特點(diǎn)，節(jié)點(diǎn)內(nèi)共享存儲(chǔ)是指多個(gè)核共享內(nèi)存，節(jié)點(diǎn)間分布式存儲(chǔ)是指節(jié)點(diǎn)間的核間訪問(wèn)必須通過(guò)網(wǎng)絡(luò)進(jìn)行。在多核集群上采用的執(zhí)行模型如圖4所示，其中實(shí)線代表進(jìn)程/線程執(zhí)行，虛線表示循環(huán)迭代。并行LDA算法分布D個(gè)訓(xùn)練文檔到P個(gè)進(jìn)程上，每個(gè)進(jìn)程啟動(dòng)T個(gè)線程。為了負(fù)載均衡，每個(gè)進(jìn)程分到D/P個(gè)文檔，進(jìn)程內(nèi)每個(gè)線程共享D/P個(gè)文檔相關(guān)的數(shù)據(jù)，每個(gè)線程處理D/P/T個(gè)文檔。第P個(gè)進(jìn)程中的第t個(gè)線程處理的文檔集為W (P，t)，相應(yīng)的主題集(文檔中詞對(duì)應(yīng)的主題集合)為Z(P，t)，其中P e [l，P]，te [l，T]。第ρ個(gè)進(jìn)程處理的文檔集為Wp=丨W(p，t)丨乙，相應(yīng)的主題集為Zp={Z(p，t)} I1。在每次吉布斯Gibbs采樣迭代過(guò)程中，每個(gè)線程t通過(guò)后驗(yàn)分布給z (p，t，i, j)賦
值，具體如下
P(z(p,t,ij)=k I Z-(p,t，i，j), W-(p,tij), w(p,t，i,j)=v) (C+c )=<
(C^j,+Py(C^uj)+V X β) 其中的“-(P，t, i, j) ”是不包含(p，t, i, j)的意思。a、β都是可調(diào)參數(shù)，根據(jù)實(shí)際需要進(jìn)行調(diào)整，a的值可以為50/Κ、β可以為O. 01。其中k e [1，K]是K個(gè)主題詞中的一個(gè)；V e [1，V]是詞典中的一個(gè)詞；w(p, t, i, j)是第P個(gè)進(jìn)程中第t個(gè)線程處理的第i個(gè)文檔中的第j個(gè)詞，Z (P, t, i, j)是w(p, t, i, j)其所對(duì)應(yīng)的主題是第ρ個(gè)進(jìn)程中第t個(gè)線程處理的第i個(gè)文檔中主題k出現(xiàn)的次數(shù)(除去w (ρ, t, i, j)和z (ρ, t, i, j) ) (p'UJ)是詞V的主題被賦成k的次數(shù)(除去 w(p, t, i, j)和 z (p, t, i, j) )；C^d(P,u,,)= Σ ν=ι Ccmod 是模型 model 的英文簡(jiǎn)寫。具體處理過(guò)程如下(I)啟動(dòng)P個(gè)進(jìn)程執(zhí)行，讀取輸入文件，通過(guò)采樣對(duì)Z(p，t) e Z(P, t)進(jìn)行初始賦值；(2)每個(gè)進(jìn)程進(jìn)行文檔相關(guān)數(shù)據(jù)結(jié)構(gòu)(包括文檔-主題矩陣Sd。。等)和模型相關(guān)數(shù)據(jù)結(jié)構(gòu)(包括主題-詞矩陣8^等)初始化；(3)每個(gè)進(jìn)程通過(guò)MPI_Allreduce將局部的S ^^進(jìn)行累計(jì)；所述MPI_A1 Ireduce是消息傳遞接口函數(shù)，執(zhí)行allreduce操作。可以參見(jiàn)圖5。(4)每個(gè)進(jìn)程創(chuàng)建T個(gè)線程執(zhí)行；(5)線程/進(jìn)程涉及的時(shí)間步迭代；(5.1)每個(gè)線程處理D/P/T個(gè)文檔，對(duì)于文檔d中每個(gè)詞；(5. 1.1)對(duì)C；^—(p,tA,)、C1^dlpxuj加鎖；注意這是必須的步驟，因?yàn)?br> 對(duì)于整個(gè)LDA模型而言是全局變量，可以為所有線程共享，所以在某個(gè)線程對(duì)其進(jìn)行處理時(shí)，需要獲得獨(dú)占權(quán)，否則將會(huì)造成變量訪問(wèn)的紊亂，使得數(shù)據(jù)出現(xiàn)偏差。(5.1.2)通過(guò)CShp-W,、C S(陶和進(jìn)行樣本采集獲得新的
z (P, t, i, j) ； (5.1. 3)重新計(jì)算Cdfrti；(5.1. 4)解鎖；(5.1.5)重新計(jì)算<^)(1^;注意優(yōu)選地，(5.1)步驟由各核并行處理。(5. 2)線程同步；(5.3)每個(gè)進(jìn)程的主線程執(zhí)行得到本地主題-詞矩陣S7d ;(5. 4)每個(gè)進(jìn)程通過(guò)MPI_AllredUCe將局部的Sf進(jìn)行累計(jì)；(5. 5)進(jìn)程同步。注意(I)——(4)對(duì)應(yīng)圖3中①；(5.1)對(duì)應(yīng)圖3中②;(5. 2)對(duì)應(yīng)圖3中③;(5. 3)和(5. 4)對(duì)應(yīng)圖3中④;(5. 5)對(duì)應(yīng)圖3中⑤。為了驗(yàn)證本發(fā)明實(shí)施例的效果，做了大量的測(cè)試，主要測(cè)試方案以及數(shù)據(jù)如下測(cè)試環(huán)境與結(jié)果測(cè)試采用的數(shù)據(jù)如表1:表I
權(quán)利要求
1.一種采用多核集群的LDA模型的訓(xùn)練方法，其特征在于，所述方法包括所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。
2.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法，其特征在于在所述多核產(chǎn)生多個(gè)進(jìn)程之前還包括對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。
3.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法，其特征在于所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
4.如權(quán)利要求1所述的采用多核集群的LDA模型的訓(xùn)練方法，其特征在于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。
5.如權(quán)利要求1-4之一所述的采用多核集群的LDA模型的訓(xùn)練方法，其特征在于所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。
6.一種采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，其特征在于，所述系統(tǒng)包括進(jìn)程產(chǎn)生模塊，用于所述多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；進(jìn)程矩陣生成模塊，用于每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-詞矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；模型更新模塊，用于根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。
7.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，其特征在于所述系統(tǒng)還包括預(yù)處理模塊，用于對(duì)所述多個(gè)訓(xùn)練文檔進(jìn)行預(yù)處理，即對(duì)所述多個(gè)訓(xùn)練文檔中的不同單詞賦予唯一編號(hào)，在統(tǒng)計(jì)詞頻時(shí)，用所述唯一編號(hào)來(lái)代替相應(yīng)的單詞，并去除詞頻過(guò)低的詞。
8.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，其特征在于所述每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，具體為每個(gè)線程根據(jù)其負(fù)責(zé)處理的文檔中的單詞的主題被認(rèn)定的次數(shù)給出所述主題-詞矩陣。
9.如權(quán)利要求6所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，其特征在于所述系統(tǒng)還包括線程同步模塊，用于每個(gè)進(jìn)程的所有線程在更新LDA模型的主題-詞矩陣之前或者之后進(jìn)行同步。
10.如權(quán)利要求6-9之一所述的采用多核集群的LDA模型的訓(xùn)練系統(tǒng)，其特征在于所述多核分布于多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)，每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包括一個(gè)或多個(gè)核。
全文摘要
本發(fā)明實(shí)施例涉及一種采用多核集群的LDA模型的訓(xùn)練方法、系統(tǒng)。方法包括多核產(chǎn)生多個(gè)進(jìn)程，每個(gè)進(jìn)程均啟動(dòng)多個(gè)線程，用于分擔(dān)處理多個(gè)訓(xùn)練文檔；每個(gè)進(jìn)程中的多個(gè)線程共同處理該進(jìn)程負(fù)責(zé)處理的文檔，每個(gè)線程給出其負(fù)責(zé)處理的文檔的主題-詞矩陣，該進(jìn)程依據(jù)其所有線程給出的主題-矩陣得到該進(jìn)程負(fù)責(zé)處理的文檔的主題-詞矩陣；根據(jù)所有的進(jìn)程提供的主題-詞矩陣得到所述多個(gè)訓(xùn)練文檔的主題-詞矩陣，并用該主題-詞矩陣更新所述的LDA模型。本發(fā)明實(shí)施例采用多核并行處理，提高了主題-詞矩陣的計(jì)算速度，有利于更快地更新LDA模型。
文檔編號(hào)G06F17/30GK103020258SQ201210564600
公開日2013年4月3日申請(qǐng)日期2012年12月21日優(yōu)先權(quán)日2012年12月21日
發(fā)明者陸忠華, 王玨, 周莼葆, 郎顯宇, 聶寧明申請(qǐng)人:中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸忠華;王玨;周莼葆;郎顯宇;聶寧明
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多核cpu相關(guān)技術(shù)

多核多線程相關(guān)技術(shù)

amd多核cpu優(yōu)化補(bǔ)丁相關(guān)技術(shù)

多核多線程技術(shù)相關(guān)技術(shù)

多核細(xì)胞相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種采用多核集群的lda模型的訓(xùn)練方法及系統(tǒng)的制作方法