該文本所涉及的一個或更多個主題,情感特征表示該文本所 反映的發(fā)布者的情感傾向,而疑問標(biāo)記特征指的是文本中表示發(fā)問的詞或符號等。將在以 下的描述中詳細說明如何獲取文本的這些特征。
[0035] 下面首先參照圖2至5來詳細描述主題特征獲取單元101和情感特征獲取單元 102的結(jié)構(gòu)和功能。
[0036] 〈主題特征獲取單元〉
[0037] 如圖2所示,主題特征獲取單元101包括分詞模塊1001,被配置為對文本進行分 詞;關(guān)鍵詞提取模塊1002,被配置為提取文本中的一個或更多個實詞作為反映文本的主題 的關(guān)鍵詞;以及主題特征計算模塊1003,被配置為基于關(guān)鍵詞利用主題模型計算文本的主 題特征,其中,主題模型包括以下概率的至少一部分:文本、關(guān)鍵詞和主題,以及前述各項的 各種組合的概率、聯(lián)合概率或者條件概率。
[0038] 其中,分詞模塊1001可以使用已有的各種技術(shù)來對待處理的文本進行分詞。針對 分詞后的文本,關(guān)鍵詞提取模塊1002提取文本的名詞、動詞、形容詞等實詞作為反映文本 的主題的關(guān)鍵詞,這些關(guān)鍵詞可以用于計算文本的主題特征。
[0039] 在有些文本中,存在稱為主題標(biāo)記的部分,例如兩個#號之間的內(nèi)容被約定作為 主題標(biāo)記。因此,關(guān)鍵詞提取模塊1002還被配置為提取具有主題標(biāo)記的內(nèi)容的至少一部分 作為反映文本的主題的關(guān)鍵詞。
[0040] 如前所述,主題特征計算模塊1003基于所提取的關(guān)鍵詞利用預(yù)先訓(xùn)練的主題模 型來計算文本的主題特征。其中,主題模型是通過對專家知識語料庫進行訓(xùn)練獲得的。專家 知識語料庫是具有一定的知識性從而可以用來幫助有問題的用戶解決問題的語料的集合, 這些語料例如可以是專家達人的知識微博等,這些專家包括某一領(lǐng)域內(nèi)提供知識的達人或 者某些品牌、公司的客服代表等。
[0041] 針對專家知識語料庫中的每一條語料(文本),首先進行分詞,然后提取名詞、動 詞、形容詞等實詞作為關(guān)鍵詞。由于每條文本都是為了表達一個或多個主題,或者為了解決 一類問題,或者提供一種技術(shù)支持,因此,這些關(guān)鍵詞反映了文本的主題。換言之,在文本層 和關(guān)鍵詞層之間,存在主題層。該主題層可以不是明確指出而是隱含表達的,因此主題可以 是隱藏變量。
[0042] 在一個實施例中,可以對文本、主題和關(guān)鍵詞建立產(chǎn)生式模型,例如使用PLSA或 LDA模型等。例如,在PLSA模型中,選定一個文本的概率p(d),每個文本以概率p(t|d)屬 于一個主題t,而給定一個主題t,每個關(guān)鍵詞w以概率p(w|t)產(chǎn)生,如圖3所示。通過使 用各個語料對該產(chǎn)生式模型進行訓(xùn)練,可以得到如下概率的至少一部分作為主題模型:文 本(d)、關(guān)鍵詞(w)和主題(t),以及前述各項的各種組合的概率、聯(lián)合概率或者條件概率。
[0043] 下面以PLSA模型為例來具體說明如何獲得主題模型。如上所述,語料庫中的每個 文本表達一個或更多個主題,而對于每一個主題,都需要關(guān)鍵詞來填充,結(jié)合圖3所示的產(chǎn) 生過程,可以獲得如下聯(lián)合概率表達式:
[0044]
【主權(quán)項】
1. 一種用于判斷社會性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文本是否是問題的數(shù)據(jù)處理裝置,包 括: 主題特征獲取單元,被配置為利用預(yù)先訓(xùn)練的主題模型獲取所述文本的主題特征; 情感特征獲取單元,被配置為利用預(yù)先訓(xùn)練的情感模型獲取所述文本的情感特征; 疑問標(biāo)記特征提取單元,被配置為獲取所述文本的疑問標(biāo)記特征;W及 分類器,被配置為利用所述主題特征、所述情感特征和所述疑問標(biāo)記特征對所述文本 進行分類。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述主題特征獲取單元包括: 分詞模塊,被配置為對所述文本進行分詞; 關(guān)鍵詞提取模塊,被配置為提取所述文本中的一個或更多個實詞作為反映所述文本的 主題的關(guān)鍵詞;W及 主題特征計算模塊,被配置為基于所述關(guān)鍵詞利用所述主題模型計算所述文本的主題 特征, 其中,所述主題模型包括W下概率的至少一部分:文本、關(guān)鍵詞和主題,W及前述各項 的各種組合的概率、聯(lián)合概率或者條件概率。
3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述情感特征獲取單元包括: 分詞模塊,被配置為對所述文本進行分詞; 情感詞和/或符號提取模塊,被配置為提取所述文本中的一個或更多個非名詞和/或 符號作為反映所述文本的情感傾向的情感詞和/或符號;W及 情感特征計算模塊,被配置為基于所述情感詞和/或符號利用所述情感模型計算所述 文本的情感特征, 其中,所述情感模型包括W下概率的至少一部分:文本、情感詞和/或符號和情感傾 向,W及前述各項的各種組合的概率、聯(lián)合概率或者條件概率。
4. 根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理裝置,其中,所述主題特征計算模塊被配置為計算 W所述文本為前提的各個主題的條件概率。
5. 根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理裝置,其中,所述情感特征計算模塊被配置為計算 W所述文本為前提的各個情感傾向的條件概率。
6. 根據(jù)權(quán)利要求4所述的數(shù)據(jù)處理裝置,其中,W所述文本為前提的主題的條件概率 為W該主題為前提的各個關(guān)鍵詞的條件概率與該主題的先驗概率的乘積。
7. 根據(jù)權(quán)利要求5所述的數(shù)據(jù)處理裝置,其中,W所述文本為前提的情感傾向的條件 概率為W該情感傾向為前提的各個情感詞和/或符號的條件概率與該情感傾向的先驗概 率的乘積。
8. -種用于判斷社會性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文本是否是問題的數(shù)據(jù)處理方法,包 括: 利用預(yù)先訓(xùn)練的主題模型獲取所述文本的主題特征; 利用預(yù)先訓(xùn)練的情感模型獲取所述文本的情感特征; 獲取所述文本的疑問標(biāo)記特征;W及 使用分類器利用所述主題特征、所述情感特征和所述疑問標(biāo)記特征對所述文本進行分 類。
9. 一種訓(xùn)練用于判斷社會性服務(wù)網(wǎng)絡(luò)中的文本是否是問題的主題模型的方法,包括: 準備專家知識語料庫; 對所述專家知識語料庫中的每個文本進行分詞; 提取文本中的一個或更多個實詞作為反映所述文本的主題的關(guān)鍵詞;W及 計算W下概率的至少一部分作為所述主題模型:文本、關(guān)鍵詞和主題,W及前述各項的 各種組合的概率、聯(lián)合概率或者條件概率。
10. 根據(jù)權(quán)利要求9所述的方法,其中,所述主題模型包括:各個文本的概率、W各個文 本為前提的該文本的主題的條件概率、W各個文本的主題為前提的該文本中的關(guān)鍵詞的概 率、W及各個文本、文本的主題和文本中的關(guān)鍵詞的聯(lián)合概率。
【專利摘要】本申請公開了一種用于判斷社會性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文本是否是問題的數(shù)據(jù)處理裝置,包括:主題特征獲取單元,被配置為利用預(yù)先訓(xùn)練的主題模型獲取文本的主題特征;情感特征獲取單元,被配置為利用預(yù)先訓(xùn)練的情感模型獲取文本的情感特征;疑問標(biāo)記特征提取單元,被配置為獲取文本的疑問標(biāo)記特征;以及分類器,被配置為利用主題特征、情感特征和疑問標(biāo)記特征對文本進行分類。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104572613
【申請?zhí)枴緾N201310495278
【發(fā)明人】孫健, 夏迎炬, 王云芝, 李中華
【申請人】富士通株式會社
【公開日】2015年4月29日
【申請日】2013年10月21日