欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種計(jì)算文本主題模型的方法及裝置與流程

文檔序號(hào):12550846閱讀:192來(lái)源:國(guó)知局
一種計(jì)算文本主題模型的方法及裝置與流程

本申請(qǐng)涉及虛擬機(jī)技術(shù)領(lǐng)域,特別涉及一種計(jì)算文本主題模型的方法及裝置。



背景技術(shù):

在自然語(yǔ)言處理過(guò)程中,文檔對(duì)于計(jì)算機(jī)來(lái)說(shuō)通常被當(dāng)做是一個(gè)無(wú)限維度的向量,而這種無(wú)限維度的向量對(duì)于計(jì)算機(jī)本身又是不可被計(jì)算的,因此,需要對(duì)文檔中的文本進(jìn)行一些處理后,讓它以一定維度的數(shù)學(xué)向量存儲(chǔ)在計(jì)算機(jī)中以便計(jì)算。

在現(xiàn)有計(jì)算中,主題模型(topic model)是一種常見(jiàn)的文檔降維方法。主題模型可以不同于普通詞頻而在語(yǔ)義上做出一些語(yǔ)言含義的抽取。通常主題模型通過(guò)詞袋的形式,將表達(dá)同一含義或者相同狀況的描述的詞的集合來(lái)表示某一個(gè)主題topic。

而主題模型在業(yè)內(nèi)通常被運(yùn)用于長(zhǎng)文本上,即字?jǐn)?shù)較多的文本,計(jì)算主題模型的方案原理上是基于現(xiàn)有的基于詞的共現(xiàn)來(lái)抽取相同含義的詞來(lái)實(shí)現(xiàn),使得計(jì)算效果較好,但由于字?jǐn)?shù)較少的文本的詞量過(guò)少,采用現(xiàn)有的主題模型的計(jì)算方案對(duì)字?jǐn)?shù)較少的文本進(jìn)行主題模型計(jì)算時(shí),由于詞的共現(xiàn)次數(shù)較小,會(huì)導(dǎo)致主題模型的計(jì)算不準(zhǔn)確的情況。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本申請(qǐng)的目的在于提供一種計(jì)算文本主題模型的方法及裝置,用以解決現(xiàn)有技術(shù)中對(duì)短文本的主題模型計(jì)算不準(zhǔn)確的技術(shù)問(wèn)題。

本申請(qǐng)?zhí)峁┝艘环N計(jì)算文本主題模型的方法,包括:

獲取目標(biāo)文本,所述目標(biāo)文本中含有多個(gè)目標(biāo)詞;

獲取訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d);

獲取所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t);

基于所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t),獲取每個(gè)所述訓(xùn)練主題中每個(gè)所述目標(biāo)詞的分布概率P2(w|t),P2(w|t)中的目標(biāo)詞為出現(xiàn)在所述訓(xùn)練詞中的詞;

利用P(t)=∑d∈DP(t|d)P(d),獲取所述訓(xùn)練文本集合各個(gè)所述訓(xùn)練主題的分布概率P(t),D為所述訓(xùn)練文本集合,P(d)預(yù)設(shè)為1;

利用獲取所述目標(biāo)文本中每個(gè)所述目標(biāo)詞為各個(gè)所述訓(xùn)練主題的分布概率P(t|w),P(w)是每個(gè)所述目標(biāo)詞在所述訓(xùn)練文本集合中的分布概率;

利用獲取所述目標(biāo)文本中各個(gè)訓(xùn)練主題的分布概率,以得到所述目標(biāo)文本的主題模型,wi為所述目標(biāo)文本中第i個(gè)目標(biāo)詞,P(t|wi)為目標(biāo)詞wi為訓(xùn)練主題t的分布概率,d為所述目標(biāo)詞的集合。

上述方法,優(yōu)選的,所述獲取訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d),包括:

利用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中關(guān)于各個(gè)訓(xùn)練主題的分布概率。

上述方法,優(yōu)選的,所述獲取所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P(w|t),包括:

利用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中每個(gè)訓(xùn)練主題中訓(xùn)練詞的分布概率。

上述方法,優(yōu)選的,所述文本主題模型計(jì)算方法為:PLSA主題模型計(jì)算方法、LDA主題模型計(jì)算方法或SVD主題模型計(jì)算方法。

上述方法,優(yōu)選的,還包括:

利用所述目標(biāo)文本的主題模型,對(duì)文本進(jìn)行主題的計(jì)算。

本申請(qǐng)還提供了一種計(jì)算文本主題模型的裝置,包括:

目標(biāo)獲取單元,用于獲取目標(biāo)文本,所述目標(biāo)文本中含有多個(gè)目標(biāo)詞;

第一訓(xùn)練單元,用于獲取訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d);

第二訓(xùn)練單元,用于獲取所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t);

第一概率獲取單元,用于基于所述訓(xùn)練文本集合中每個(gè)所述訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t),獲取每個(gè)所述訓(xùn)練主題中每個(gè)所述目標(biāo)詞的分布概率P2(w|t),其中,P2(w|t)中的目標(biāo)詞為出現(xiàn)在所述訓(xùn)練詞中的詞;

第二概率獲取單元,用于利用P(t)=∑d∈DP(t|d)P(d),獲取所述訓(xùn)練文本集合各個(gè)所述訓(xùn)練主題的分布概率P(t),D為所述訓(xùn)練文本集合,P(d)預(yù)設(shè)為1;

第三概率獲取單元,用于利用獲取所述目標(biāo)文本中每個(gè)所述目標(biāo)詞為各個(gè)所述訓(xùn)練主題的分布概率P(t|w),P(w)是每個(gè)所述目標(biāo)詞在所述訓(xùn)練文本集合中的分布概率;

模型獲取單元,用于利用獲取所述目標(biāo)文本中各個(gè)訓(xùn)練主題的分布概率,以得到所述目標(biāo)文本的主題模型,wi為所述目標(biāo)文本中第i個(gè)目標(biāo)詞,P(t|wi)為目標(biāo)詞wi為訓(xùn)練主題t的分布概率,d為所述目標(biāo)詞的集合。

上述裝置,優(yōu)選的,所述第一訓(xùn)練單元具體用于:利用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中關(guān)于各個(gè)訓(xùn)練主題的分布概率。

上述裝置,優(yōu)選的,所述第二訓(xùn)練單元具體用于:利用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中每個(gè)訓(xùn)練主題中訓(xùn)練詞的分布概率。

上述裝置,優(yōu)選的,所述文本主題模型計(jì)算方法為:PLSA主題模型計(jì)算方法、LDA主題模型計(jì)算方法或SVD主題模型計(jì)算方法。

上述裝置,優(yōu)選的,還包括:

主題計(jì)算單元,用于在模型獲取單元得到所述目標(biāo)文本的主題模型之后,利用所述目標(biāo)文本的主題模型,對(duì)文本進(jìn)行主題的計(jì)算。

由上述方案可知,本申請(qǐng)?zhí)峁┑囊环N計(jì)算文本主題模型的方法及裝置,利用貝葉斯理論,基于訓(xùn)練語(yǔ)料的主題模型來(lái)計(jì)算文本的主題模型,從而能夠基于計(jì)算的主題模型實(shí)現(xiàn)文本的向量化處理,而這種主題模型的計(jì)算方案中,由于文本都是在一個(gè)范圍內(nèi)的詞構(gòu)建主題模型,相應(yīng)的主題范圍自然在同一維度,因此本申請(qǐng)所得到的主題模型在適用于字?jǐn)?shù)較多的文本主題計(jì)算的同時(shí),同樣不會(huì)因?yàn)樽謹(jǐn)?shù)較少的文本中詞的共現(xiàn)次數(shù)較小,會(huì)導(dǎo)致主題模型的計(jì)算不準(zhǔn)確的情況,由此,本申請(qǐng)所計(jì)算出的主題模型的準(zhǔn)確性會(huì)更高。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本申請(qǐng)實(shí)施例一提供的一種計(jì)算文本主題模型的方法的流程圖;

圖2為本申請(qǐng)實(shí)施例一的另一流程圖;

圖3為本申請(qǐng)實(shí)施例的應(yīng)用示例圖;

圖4為本申請(qǐng)實(shí)施例二提供的一種計(jì)算文本主題模型的裝置的結(jié)構(gòu)示意圖;

圖5為本申請(qǐng)實(shí)施例二的另一結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本申請(qǐng)中利用貝葉斯理論,基于訓(xùn)練語(yǔ)料的主題模型來(lái)計(jì)算短文本的主題模型,從而能夠基于計(jì)算的主題模型實(shí)現(xiàn)文本的向量化處理,具體如下:

參考圖1,為本申請(qǐng)實(shí)施例一提供的一種計(jì)算文本主題模型的方法的流程圖,其中,適用于對(duì)文本的主題模型的計(jì)算,特別是能夠準(zhǔn)確計(jì)算字?jǐn)?shù)較少的文本如字?jǐn)?shù)少于140字的文本的主題模型,以便于對(duì)字?jǐn)?shù)較少的文本進(jìn)行主題計(jì)算。

具體的,本實(shí)施例中,該方法可以包括以下步驟:

步驟101:獲取目標(biāo)文本。

其中,目標(biāo)文本中含有多個(gè)目標(biāo)詞。目標(biāo)文本可以為twiter、微博、公司通知或法院判決書等文本內(nèi)容,文本中包含多個(gè)目標(biāo)詞,如足球、球員、貸款、貨幣等詞。

本實(shí)施例中的目標(biāo)文本可以為字?jǐn)?shù)較多的長(zhǎng)文本,如公司通知或法院判決書等;也可以為字?jǐn)?shù)較少的短文本,如twiter、微博、INS或影評(píng)的狀態(tài)文本等。

步驟102:獲取訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d)。

其中,本實(shí)施例中可以采用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)訓(xùn)練文本中關(guān)于各個(gè)訓(xùn)練主題的分布概率。

需要說(shuō)明的是,訓(xùn)練文本集合中的訓(xùn)練文本可以為歷史優(yōu)良的語(yǔ)料文本,以便于計(jì)算出高質(zhì)量的P(t|d)。如字?jǐn)?shù)較多的公司通知或法院判決書等。

其中,訓(xùn)練是指基于現(xiàn)有的主題模型計(jì)算方法通過(guò)迭代運(yùn)算得到主題模型的過(guò)程。也就是說(shuō),本實(shí)施例中是基于訓(xùn)練得到的主題模型來(lái)對(duì)目標(biāo)文本的主題模型進(jìn)行計(jì)算,而計(jì)算得到的主題模型可以用來(lái)對(duì)文本的主題進(jìn)行獲取。

具體的,本實(shí)施例中在對(duì)訓(xùn)練文本進(jìn)行訓(xùn)練獲取P(t|d)時(shí),可以采用PLSA(probabilistic latent semantic analysis)主題模型計(jì)算方法或LDA(Latent Dirichlet Allocation)主題模型計(jì)算方法,也可以采用其他長(zhǎng)文本的主題模型計(jì)算方法。

其中,訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d)可以用矩陣來(lái)標(biāo)識(shí):

以訓(xùn)練文本集合中的兩篇訓(xùn)練文本d1和d2為例,將d1和d2分詞之后,一共有5個(gè)詞:w1、w2、w3、w4、w5,并且有3個(gè)主題t1、t2、t3,于是P(t|d)用矩陣表示為:

其中,v表示一個(gè)數(shù)值,也就是出現(xiàn)概率值,每一行代表一個(gè)文本d,并且每一行所有的概率值加在一起的和為1;每一列表示一個(gè)主題t,比如說(shuō):v13表示主題t3在文本d1的出現(xiàn)概率值。這個(gè)值表示的實(shí)際意義就是為了構(gòu)建文本d1內(nèi)容時(shí),主題t3的出現(xiàn)概率值。

步驟103:獲取所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)。

其中,本實(shí)施例中可以采用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中每個(gè)訓(xùn)練主題中訓(xùn)練詞的分布概率。

具體的,本實(shí)施例中在對(duì)訓(xùn)練文本進(jìn)行訓(xùn)練獲取P1(w|t)時(shí),可以采用PLSA(probabilistic latent semantic analysis)主題模型計(jì)算方法、LDA(Latent Dirichlet Allocation)主題模型計(jì)算方法或SVD(Singular value decomposition)主題模型計(jì)算方法,也可以采用其他長(zhǎng)文本的主題模型計(jì)算方法。

其中,訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)可以用矩陣來(lái)標(biāo)識(shí):

以訓(xùn)練文本集合中的兩篇訓(xùn)練文本d1和d2為例,將d1和d2分詞之后,一共有5個(gè)詞:w1、w2、w3、w4、w5,并且有3個(gè)主題t1、t2、t3,于是P1(w|t)用矩陣表示為:

其中,v表示一個(gè)數(shù)值,也就是出現(xiàn)概率值,每一行代表一個(gè)主題t,并且每一行所有的概率值加在一起的和為1;每一列表示一個(gè)詞w,比如說(shuō),v32表示詞w2在主題t3的出現(xiàn)概率值。這個(gè)值表示的實(shí)際意義就是為了表示當(dāng)前主題t3的含義,詞w2的出現(xiàn)概率值。

步驟104:基于所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t),獲取每個(gè)所述訓(xùn)練主題中每個(gè)所述目標(biāo)詞的分布概率P2(w|t),P2(w|t)中的目標(biāo)詞為出現(xiàn)在所述訓(xùn)練詞中的詞。

具體的,本實(shí)施例中,可以在每個(gè)訓(xùn)練主題的訓(xùn)練詞中,查找與目標(biāo)文本中的目標(biāo)詞相同的詞,并提取出查找到的詞對(duì)應(yīng)的分布概率P1(w|t),由此得到查找到的與目標(biāo)詞相同的詞的分布概率P2(w|t),即每個(gè)訓(xùn)練主題中每個(gè)目標(biāo)詞的分布概率。

也就是說(shuō),本實(shí)施例中將P1(w|t)中與目標(biāo)詞不相同的詞對(duì)應(yīng)的分布概率值剔除,剩下與目標(biāo)詞相同的詞對(duì)應(yīng)的分布概率值,得到P2(w|t)。P2(w|t)為P1(w|t)的至少一部分。例如,訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)中為5個(gè)訓(xùn)練詞:w1、w2、w3、w4、w5分別為3個(gè)訓(xùn)練主題t1、t2、t3的概率集合,如前文中P1(w|t)矩陣所示,如果目標(biāo)文本中的目標(biāo)詞有w2、w3、w4,由此,P2(w|t)中為3個(gè)目標(biāo)詞:w2、w3、w4分別為3個(gè)訓(xùn)練主題t1、t2、t3的概率集合,其矩陣表示如下:

由此可知,P2(w|t)為P1(w|t)的一部分,而如果目標(biāo)文本中的目標(biāo)詞有w1、w2、w3、w4、w5,那么P2(w|t)則與P1(w|t)相同。

步驟105:利用P(t)=∑d∈DP(t|d)P(d),獲取所述訓(xùn)練文本集合各個(gè)所述訓(xùn)練主題的分布概率P(t)。

其中,D為所述訓(xùn)練文本集合,P(d)預(yù)設(shè)為1。也就是說(shuō),本實(shí)施例中將訓(xùn)練文本集合中的每個(gè)訓(xùn)練文本中各個(gè)主題的分布概率以訓(xùn)練文本d為單位進(jìn)行加和,即將D中的所有訓(xùn)練文本中針對(duì)每個(gè)訓(xùn)練主題進(jìn)行分布概率值的疊加,得到整個(gè)訓(xùn)練文本集合中各個(gè)訓(xùn)練主題的分布概率P(t)。

需要說(shuō)明的是,P(d)表示訓(xùn)練文本的出現(xiàn)概率,而本實(shí)施例中,可以先驗(yàn)的認(rèn)為,所有文本的出現(xiàn)概率服從獨(dú)立同分布(independent and identically distributed),簡(jiǎn)寫為(i.i.d)。也就是說(shuō),本實(shí)施例可以將此值賦值為相同數(shù)值。為了方便計(jì)算,統(tǒng)一在此將P(d)賦值為1。

步驟106:利用獲取所述目標(biāo)文本中每個(gè)所述目標(biāo)詞在各個(gè)所述訓(xùn)練主題的分布概率P(t|w)。

其中的P2(w|t)為每個(gè)訓(xùn)練主題的每個(gè)目標(biāo)詞的分布概率,P(w)是每個(gè)所述目標(biāo)詞在所述訓(xùn)練文本集合中的分布概率,即目標(biāo)詞在訓(xùn)練文本集合中的詞頻。

步驟107:利用獲取所述目標(biāo)文本中各個(gè)訓(xùn)練主題的分布概率,以得到所述目標(biāo)文本的主題模型。

其中,wi為所述目標(biāo)文本中第i個(gè)目標(biāo)詞,P(t|wi)為目標(biāo)詞wi為訓(xùn)練主題t的分布概率,d為所述目標(biāo)詞的集合。

也就是說(shuō),本實(shí)施例中將每個(gè)目標(biāo)詞w在訓(xùn)練主題t的分布概率進(jìn)行加積計(jì)算,即可得到目標(biāo)文本中各個(gè)訓(xùn)練主題t的分布概率,即為目標(biāo)文本的主題模型,達(dá)到本實(shí)施例的目的。

由上述方案可知,本申請(qǐng)實(shí)施例一提供的一種計(jì)算文本主題模型的方法,利用貝葉斯理論,基于訓(xùn)練語(yǔ)料的主題模型來(lái)計(jì)算文本的主題模型,從而能夠基于計(jì)算的主題模型實(shí)現(xiàn)文本的向量化處理,而這種主題模型的計(jì)算方案中,由于文本都是在一個(gè)范圍內(nèi)的詞構(gòu)建主題模型,相應(yīng)的主題范圍自然在同一維度,因此本申請(qǐng)所得到的主題模型在適用于字?jǐn)?shù)較多的文本主題計(jì)算的同時(shí),同樣不會(huì)因?yàn)樽謹(jǐn)?shù)較少的短文本中詞的共現(xiàn)次數(shù)較小,會(huì)導(dǎo)致主題模型的計(jì)算不準(zhǔn)確的情況,由此,本申請(qǐng)所計(jì)算出的主題模型的準(zhǔn)確性會(huì)更高。

在利用本實(shí)施例方案獲得目標(biāo)文本的主題模型之后,可以用來(lái)計(jì)算文本的主題,如圖2中所示,在所述步驟107之后,所述方法還可以包括以下步驟:

步驟108:利用目標(biāo)文本的主題模型,對(duì)文本進(jìn)行主題的計(jì)算。

其中,本實(shí)施例中需要計(jì)算主題的文本可以為目標(biāo)文本,也可以為其他的文本。而這些文本即可以為字?jǐn)?shù)較少的短文本,也可以為字?jǐn)?shù)較多的長(zhǎng)文本。也就是說(shuō),雖然本實(shí)施例中計(jì)算出的主題模型可能是短文本的主題模型,但是由于這種計(jì)算方案中,所有的文本都是在一個(gè)范圍內(nèi)的詞構(gòu)建主題模型,相應(yīng)的主題范圍自然也在同一緯度,因此,本實(shí)施例所得到的主題模型適用于長(zhǎng)文本主題計(jì)算中。

由前文可知,本實(shí)施例中的方案不僅適用于對(duì)字?jǐn)?shù)較少的文本的主題模型的計(jì)算,也適用于對(duì)字?jǐn)?shù)較多的文本的主題模型的計(jì)算。

因?yàn)橛?xùn)練主題模型是一個(gè)計(jì)算量很大的運(yùn)算,尤其是大規(guī)模文本時(shí)以天計(jì)算時(shí)間也是有可能的。并且對(duì)于主題模型訓(xùn)練之前的參數(shù)設(shè)計(jì)本身也是一個(gè)很難確定的過(guò)程。多數(shù)情況下都是通過(guò)設(shè)定不同的參數(shù)得到多個(gè)模型結(jié)果之后再通過(guò)一些運(yùn)算確定一個(gè)質(zhì)量好一些的結(jié)果。而這樣通常就會(huì)花費(fèi)更多的時(shí)間。因此,在對(duì)字?jǐn)?shù)較多的文本進(jìn)行主題模型的計(jì)算時(shí),可以不采用現(xiàn)有技術(shù)中的LDA或者PLSA等算法進(jìn)行較為負(fù)載的計(jì)算流程,而是直接基于本實(shí)施例中歷史優(yōu)良語(yǔ)料訓(xùn)練得到的主題模型計(jì)算文本的主題模型。也就是說(shuō),將一個(gè)內(nèi)容足夠豐富的語(yǔ)料庫(kù)訓(xùn)練一個(gè)質(zhì)量?jī)?yōu)良的主題模型,之后可以對(duì)其他語(yǔ)料集中的文本計(jì)算主題分布,這樣可以大大縮短提取其他語(yǔ)料庫(kù)主題模型的時(shí)間,提高效率。

為了證明本實(shí)施例所計(jì)算出的主題模型的質(zhì)量的可靠性,可以基于信息熵的困惑度來(lái)證明當(dāng)前結(jié)果和正常計(jì)算出的主題模型的差異,例如以以下計(jì)算公式計(jì)算信息熵的困惑度:

以600個(gè)電影的22萬(wàn)條評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),在初始的訓(xùn)練文本集合模型計(jì)算中,將每個(gè)電影的所有評(píng)論作為一個(gè)大文本來(lái)計(jì)算主題模型。之后,通過(guò)這個(gè)結(jié)果結(jié)合本實(shí)施例中的方法計(jì)算每條評(píng)論的主題分布。之后作為baseline,直接講每條評(píng)論作為獨(dú)立文本計(jì)算主題模型。

如圖3中所示,為以上三種結(jié)果計(jì)算困惑度的值的圖示:

最左邊A為將每個(gè)電影的所有評(píng)論作為一個(gè)大文本計(jì)算主題模型的整體困惑度。中間B為本實(shí)施例中的方案計(jì)算的每條評(píng)論的整體困惑度。最右邊C為每條評(píng)論作為獨(dú)立文本計(jì)算主題模型之后計(jì)算的困惑度。由困惑度定義所說(shuō),困惑度越小,主題模型質(zhì)量越好的理論,由實(shí)驗(yàn)證明出本實(shí)施例中的方案計(jì)算的短文本主題模型質(zhì)量是優(yōu)良的,彌補(bǔ)了短文本主題模型的計(jì)算的實(shí)現(xiàn)空白。

參考圖4,為本申請(qǐng)實(shí)施例二提供的一種計(jì)算文本主題模型的裝置的結(jié)構(gòu)示意圖,其中,適用于對(duì)文本的主題模型的計(jì)算,特別是能夠準(zhǔn)確計(jì)算字?jǐn)?shù)較少的文本如字?jǐn)?shù)少于140字的文本的主題模型,以便于對(duì)字?jǐn)?shù)較少的文本進(jìn)行主題計(jì)算。

具體的,本實(shí)施例中,該裝置可以包括以下結(jié)構(gòu):

目標(biāo)獲取單元401,用于獲取目標(biāo)文本。

其中,目標(biāo)文本中含有多個(gè)目標(biāo)詞。目標(biāo)文本可以為twiter、微博、公司通知或法院判決書等文本內(nèi)容,文本中包含多個(gè)目標(biāo)詞,如足球、球員、貸款、貨幣等詞。

本實(shí)施例中的目標(biāo)文本可以為字?jǐn)?shù)較多的長(zhǎng)文本,如公司通知或法院判決書等;也可以為字?jǐn)?shù)較少的短文本,如twiter、微博、INS或影評(píng)的狀態(tài)文本等。

第一訓(xùn)練單元402,用于獲取訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d)。

其中,本實(shí)施例中,第一訓(xùn)練單元402可以采用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)訓(xùn)練文本中關(guān)于各個(gè)訓(xùn)練主題的分布概率。

需要說(shuō)明的是,訓(xùn)練文本集合中的訓(xùn)練文本可以為歷史優(yōu)良的語(yǔ)料文本,以便于計(jì)算出高質(zhì)量的P(t|d)。如字?jǐn)?shù)較多的公司通知或法院判決書等。

其中,訓(xùn)練是指基于現(xiàn)有的主題模型計(jì)算方法通過(guò)迭代運(yùn)算得到主題模型的過(guò)程。也就是說(shuō),本實(shí)施例中是基于訓(xùn)練得到的主題模型來(lái)對(duì)目標(biāo)文本的主題模型進(jìn)行計(jì)算,而計(jì)算得到的主題模型可以用來(lái)對(duì)文本的主題進(jìn)行獲取。

具體的,本實(shí)施例中第一訓(xùn)練單元402在對(duì)訓(xùn)練文本進(jìn)行訓(xùn)練獲取P(t|d)時(shí),可以采用PLSA(probabilistic latent semantic analysis)主題模型計(jì)算方法或LDA(Latent Dirichlet Allocation)主題模型計(jì)算方法,也可以采用其他長(zhǎng)文本的主題模型計(jì)算方法。

其中,訓(xùn)練文本集合中每個(gè)訓(xùn)練文本的訓(xùn)練主題的分布概率P(t|d)可以用矩陣來(lái)標(biāo)識(shí):

以訓(xùn)練文本集合中的兩篇訓(xùn)練文本d1和d2為例,將d1和d2分詞之后,一共有5個(gè)詞:w1、w2、w3、w4、w5,并且有3個(gè)主題t1、t2、t3,于是P(t|d)用矩陣表示為:

其中,v表示一個(gè)數(shù)值,也就是出現(xiàn)概率值,每一行代表一個(gè)文本d,并且每一行所有的概率值加在一起的和為1;每一列表示一個(gè)主題t,比如說(shuō):v13表示主題t3在文本d1的出現(xiàn)概率值。這個(gè)值表示的實(shí)際意義就是為了構(gòu)建文本d1內(nèi)容時(shí),主題t3的出現(xiàn)概率值。

第二訓(xùn)練單元403,用于獲取所述訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)。

其中,本實(shí)施例中,第二訓(xùn)練單元403可以采用預(yù)設(shè)的文本主題模型計(jì)算方法,對(duì)訓(xùn)練文本集合中的訓(xùn)練文本進(jìn)行主題模型的計(jì)算,得到每個(gè)所述訓(xùn)練文本中每個(gè)訓(xùn)練主題中訓(xùn)練詞的分布概率。

具體的,本實(shí)施例中,第二訓(xùn)練單元403在對(duì)訓(xùn)練文本進(jìn)行訓(xùn)練獲取P1(w|t)時(shí),可以采用PLSA(probabilistic latent semantic analysis)主題模型計(jì)算方法、LDA(Latent Dirichlet Allocation)主題模型計(jì)算方法或SVD(Singular value decomposition)主題模型計(jì)算方法,也可以采用其他長(zhǎng)文本的主題模型計(jì)算方法。

其中,訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)可以用矩陣來(lái)標(biāo)識(shí):

以訓(xùn)練文本集合中的兩篇訓(xùn)練文本d1和d2為例,將d1和d2分詞之后,一共有5個(gè)詞:w1、w2、w3、w4、w5,并且有3個(gè)主題t1、t2、t3,于是P1(w|t)用矩陣表示為:

其中,v表示一個(gè)數(shù)值,也就是出現(xiàn)概率值,每一行代表一個(gè)主題t,并且每一行所有的概率值加在一起的和為1;每一列表示一個(gè)詞w,比如說(shuō),v32表示詞w2在主題t3的出現(xiàn)概率值。這個(gè)值表示的實(shí)際意義就是為了表示當(dāng)前主題t3的含義,詞w2的出現(xiàn)概率值。

第一概率獲取單元404,用于基于所述訓(xùn)練文本集合中每個(gè)所述訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t),獲取每個(gè)所述訓(xùn)練主題中每個(gè)所述目標(biāo)詞的分布概率P2(w|t)。

具體的,本實(shí)施例中,可以在每個(gè)訓(xùn)練主題的訓(xùn)練詞中,查找與目標(biāo)文本中的目標(biāo)詞相同的詞,并提取出查找到的詞對(duì)應(yīng)的分布概率P1(w|t),由此得到查找與目標(biāo)詞相同的詞的分布概率P2(w|t),即每個(gè)訓(xùn)練主題中每個(gè)目標(biāo)詞的分布概率。

也就是說(shuō),本實(shí)施例中將P1(w|t)中與目標(biāo)詞不相同的詞對(duì)應(yīng)的分布概率值剔除,剩下與目標(biāo)詞相同的詞對(duì)應(yīng)的分布概率值,得到P2(w|t)。P2(w|t)為P1(w|t)的至少一部分。例如,訓(xùn)練文本集合中每個(gè)訓(xùn)練主題的訓(xùn)練詞的分布概率P1(w|t)中為5個(gè)訓(xùn)練詞:w1、w2、w3、w4、w5分別為3個(gè)訓(xùn)練主題t1、t2、t3的概率集合,如前文中P1(w|t)矩陣所示,如果目標(biāo)文本中的目標(biāo)詞有w2、w3、w4,由此,P2(w|t)中為3個(gè)目標(biāo)詞:w2、w3、w4分別為3個(gè)訓(xùn)練主題t1、t2、t3的概率集合,其矩陣表示如下:

由此可知,P2(w|t)為P1(w|t)的一部分,而如果目標(biāo)文本中的目標(biāo)詞有w1、w2、w3、w4、w5,那么P2(w|t)則與P1(w|t)相同。

第二概率獲取單元405,用于利用P(t)=∑d∈DP(t|d)P(d),獲取所述訓(xùn)練文本集合各個(gè)所述訓(xùn)練主題的分布概率P(t)。

其中,D為所述訓(xùn)練文本集合,P(d)預(yù)設(shè)為1。也就是說(shuō),本實(shí)施例中將訓(xùn)練文本集合中的每個(gè)訓(xùn)練文本中各個(gè)主題的分布概率以訓(xùn)練文本d為單位進(jìn)行加和,即將D中的所有訓(xùn)練文本中針對(duì)每個(gè)訓(xùn)練主題進(jìn)行分布概率值的疊加,得到整個(gè)訓(xùn)練文本集合中各個(gè)訓(xùn)練主題的分布概率P(t)。

需要說(shuō)明的是,P(d)表示訓(xùn)練文本的出現(xiàn)概率,而本實(shí)施例中,可以先驗(yàn)的認(rèn)為,所有文本的出現(xiàn)概率服從獨(dú)立同分布(independent and identically distributed),簡(jiǎn)寫為(i.i.d)。也就是說(shuō),本實(shí)施例可以將此值賦值為相同數(shù)值。為了方便計(jì)算,統(tǒng)一在此將P(d)賦值為1。

第三概率獲取單元406,用于利用獲取所述目標(biāo)文本中每個(gè)所述目標(biāo)詞在各個(gè)所述訓(xùn)練主題的分布概率P(t|w)。

其中的P2(w|t)為每個(gè)訓(xùn)練主題的每個(gè)目標(biāo)詞的分布概率,P(w)是每個(gè)所述目標(biāo)詞在所述訓(xùn)練文本集合中的分布概率,即目標(biāo)詞在訓(xùn)練文本集合中的詞頻。

模型獲取單元407,用于利用獲取所述目標(biāo)文本中各個(gè)訓(xùn)練主題的分布概率,以得到所述目標(biāo)文本的主題模型。

其中,wi為所述目標(biāo)文本中第i個(gè)目標(biāo)詞,P(t|wi)為目標(biāo)詞wi為訓(xùn)練主題t的分布概率,d為所述目標(biāo)詞的集合。

也就是說(shuō),本實(shí)施例中將每個(gè)目標(biāo)詞w在訓(xùn)練主題t的分布概率進(jìn)行加積計(jì)算,即可得到目標(biāo)文本中各個(gè)訓(xùn)練主題t的分布概率,即為目標(biāo)文本的主題模型,達(dá)到本實(shí)施例的目的。

由上述方案可知,本申請(qǐng)實(shí)施例二提供的一種計(jì)算文本主題模型的裝置,利用貝葉斯理論,基于訓(xùn)練語(yǔ)料的主題模型來(lái)計(jì)算文本的主題模型,從而能夠基于計(jì)算的主題模型實(shí)現(xiàn)文本的向量化處理,而這種主題模型的計(jì)算方案中,由于文本都是在一個(gè)范圍內(nèi)的詞構(gòu)建主題模型,相應(yīng)的主題范圍自然在同一維度,因此本申請(qǐng)所得到的主題模型在適用于字?jǐn)?shù)較多的長(zhǎng)文本主題計(jì)算的同時(shí),同樣不會(huì)因?yàn)樽謹(jǐn)?shù)較少的短文本中詞的共現(xiàn)次數(shù)較小,會(huì)導(dǎo)致主題模型的計(jì)算不準(zhǔn)確的情況,由此,本申請(qǐng)所計(jì)算出的主題模型的準(zhǔn)確性會(huì)更高。

在利用本實(shí)施例中的裝置獲得目標(biāo)文本的主題模型之后,可以用來(lái)計(jì)算文本的主題,如圖5中所示,該裝置還可以包括以下結(jié)構(gòu):

主題計(jì)算單元408,用于在模型獲取單元407得到所述目標(biāo)文本的主題模型之后,利用所述目標(biāo)文本的主題模型,對(duì)新的目標(biāo)文本進(jìn)行主題的計(jì)算。

其中,本實(shí)施例中需要計(jì)算主題的文本可以為目標(biāo)文本,也可以為其他的文本。而這些文本即可以為字?jǐn)?shù)較少的短文本,也可以為字?jǐn)?shù)較多的長(zhǎng)文本。也就是說(shuō),雖然本實(shí)施例中計(jì)算出的主題模型可能是短文本的主題模型,但是由于這種計(jì)算方案中,所有的文本都是在一個(gè)范圍內(nèi)的詞構(gòu)建主題模型,相應(yīng)的主題范圍自然也在同一緯度,因此,本實(shí)施例所得到的主題模型在適用于長(zhǎng)文本主題計(jì)算中。

需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。

以上對(duì)本申請(qǐng)所提供的一種計(jì)算文本主題模型的方法及裝置進(jìn)行了詳細(xì)介紹,對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請(qǐng)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本申請(qǐng)的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請(qǐng)將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
鹤壁市| 东方市| 阿克陶县| 普格县| 敦煌市| 宜丰县| 皋兰县| 南丹县| 辽源市| 德钦县| 宿州市| 永春县| 拉萨市| 乐清市| 宽城| 夏津县| 山东| 务川| 东乡族自治县| 三河市| 砚山县| 城市| 合水县| 珲春市| 克什克腾旗| 额敏县| 铜山县| 南京市| 印江| 绥中县| 新田县| 普定县| 贺州市| 策勒县| 马边| 界首市| 滁州市| 丰县| 平凉市| 宝坻区| 凯里市|