數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和程序的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及數(shù)據(jù)處理領(lǐng)域,具體地涉及,涉及一種用于判斷社會(huì)性服務(wù)網(wǎng)絡(luò)中用 戶發(fā)布的文本是否是問題的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和程序。此外,本公開還涉及一種 訓(xùn)練用于上述數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法或程序中的主題模型的方法,以及一種訓(xùn)練用 于其中的情感模型的方法。
【背景技術(shù)】
[0002] 在社會(huì)性服務(wù)網(wǎng)絡(luò)中,比如在微博、facebook等社交網(wǎng)絡(luò)中,用戶常常發(fā)布一些針 對(duì)某個(gè)話題的觀點(diǎn)、評(píng)論、評(píng)價(jià)等。例如,用戶可能發(fā)布一些針對(duì)身體健康問題的看法或情 緒表達(dá)。因此,需要提供一種識(shí)別問題的方法。
【發(fā)明內(nèi)容】
[0003] 在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概 念,以此作為稍后論述的更詳細(xì)描述的前序。
[0004] 鑒于【背景技術(shù)】部分所述的需求,本發(fā)明關(guān)注于對(duì)社會(huì)性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文 本是否問題進(jìn)行識(shí)別的裝置和方法。具體地,本發(fā)明提出了一種通過使用預(yù)先訓(xùn)練的模型 來獲取文本中的相關(guān)特征從而基于這些相關(guān)特征來判斷該文本是否是問題的數(shù)據(jù)處理裝 置和方法。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于判斷社會(huì)性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文本 是否是問題的數(shù)據(jù)處理裝置,包括:主題特征獲取單元,被配置為利用預(yù)先訓(xùn)練的主題模型 獲取文本的主題特征;情感特征獲取單元,被配置為利用預(yù)先訓(xùn)練的情感模型獲取文本的 情感特征;疑問標(biāo)記特征提取單元,被配置為獲取文本的疑問標(biāo)記特征;以及分類器,被配 置為利用主題特征、情感特征和疑問標(biāo)記特征對(duì)文本進(jìn)行分類。
[0006] 根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于判斷社會(huì)性服務(wù)網(wǎng)絡(luò)中用戶發(fā)布的文 本是否是問題的數(shù)據(jù)處理方法,包括:利用預(yù)先訓(xùn)練的主題模型獲取文本的主題特征;利 用預(yù)先訓(xùn)練的情感模型獲取文本的情感特征;獲取文本的疑問標(biāo)記特征;以及使用分類器 利用主題特征、情感特征和疑問標(biāo)記特征對(duì)文本進(jìn)行分類。
[0007] 根據(jù)本發(fā)明的又一個(gè)方面,還提供了一種訓(xùn)練用于判斷社會(huì)性服務(wù)網(wǎng)絡(luò)中的文本 是否是問題的主題模型的方法,包括:準(zhǔn)備專家知識(shí)語料庫;對(duì)專家知識(shí)語料庫中的每個(gè) 文本進(jìn)行分詞;提取文本中的一個(gè)或更多個(gè)實(shí)詞作為反映文本的主題的關(guān)鍵詞;以及計(jì)算 以下概率的至少一部分作為主題模型:文本、關(guān)鍵詞和主題,以及前述各項(xiàng)的各種組合的概 率、聯(lián)合概率或者條件概率。
[0008] 根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種訓(xùn)練用于判斷社會(huì)性服務(wù)網(wǎng)絡(luò)中的文本 是否是問題的情感模型的方法,包括:準(zhǔn)備針對(duì)是否是問題標(biāo)注過的問題數(shù)據(jù)集;對(duì)問題 數(shù)據(jù)集中的每個(gè)文本進(jìn)行分詞;提取文本中的一個(gè)或更多個(gè)非名詞和/或符號(hào)作為反映文 本的情感傾向的情感詞和/或符號(hào);計(jì)算以下概率的至少一部分作為情感模型:文本、情感 詞和/或符號(hào)和情感傾向,以及前述各項(xiàng)的各種組合的概率、聯(lián)合概率或者條件概率。
[0009] 依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計(jì)算機(jī)程序代碼、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) 和計(jì)算機(jī)程序產(chǎn)品。
[0010] 通過以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0011] 為了進(jìn)一步闡述本申請(qǐng)的以上和其它優(yōu)點(diǎn)和特征,下面結(jié)合附圖對(duì)本申請(qǐng)的具體 實(shí)施方式作進(jìn)一步詳細(xì)的說明。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且 形成本說明書的一部分。具有相同的功能和結(jié)構(gòu)的元件用相同的參考標(biāo)號(hào)表示。應(yīng)當(dāng)理解, 這些附圖僅描述本申請(qǐng)的典型示例,而不應(yīng)看作是對(duì)本申請(qǐng)的范圍的限定。在附圖中:
[0012] 圖1是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖;
[0013] 圖2是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的數(shù)據(jù)處理裝置中的主題特征獲取單元 的結(jié)構(gòu)框圖;
[0014] 圖3是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的主題模型的產(chǎn)生過程的示意圖;
[0015] 圖4是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的數(shù)據(jù)處理裝置中的情感特征獲取單元 的結(jié)構(gòu)框圖;
[0016] 圖5是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的情感模型的產(chǎn)生過程的示意圖;
[0017] 圖6是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的數(shù)據(jù)處理方法的流程圖;
[0018] 圖7是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的處理處理方法中的主題特征獲取步驟 的流程圖;
[0019] 圖8是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的處理處理方法中的情感特征獲取步驟 的流程圖;
[0020] 圖9是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的主題模型訓(xùn)練方法的流程圖;
[0021] 圖10是示出了根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的情感模型訓(xùn)練方法的流程圖;以及
[0022] 圖11是其中可以實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的方法和/或裝置的通用個(gè)人計(jì)算機(jī) 的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0023] 在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施 例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開 內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0024] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。
[0025] 下文中的描述按如下順序進(jìn)行:
[0026] 1.數(shù)據(jù)處理裝置
[0027] 2.數(shù)據(jù)處理方法
[0028] 3?主題模型訓(xùn)練方法
[0029] 4.情感模型訓(xùn)練方法
[0030] 5.用以實(shí)施本申請(qǐng)的裝置和方法的計(jì)算設(shè)備
[0031] [1?數(shù)據(jù)處理裝置]
[0032] 首先參照?qǐng)D1描述根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的數(shù)據(jù)處理裝置100的結(jié)構(gòu)。如圖1 所示,數(shù)據(jù)處理裝置1〇〇包括:主題特征獲取單元101,被配置為利用預(yù)先訓(xùn)練的主題模型 獲取文本的主題特征;情感特征獲取單元102,被配置為利用預(yù)先訓(xùn)練的情感模型獲取文 本的情感特征;疑問標(biāo)記特征提取單元103,被配置為獲取文本的疑問標(biāo)記特征;以及分類 器104,被配置為利用主題特征、情感特征和疑問標(biāo)記特征對(duì)文本進(jìn)行分類。
[0033] 具體地,當(dāng)使用數(shù)據(jù)處理裝置100來判斷用戶發(fā)布的文本是否是問題時(shí),主題特 征獲取單元101、情感特征獲取單元102和疑問詞標(biāo)記特征提取單元103分別從該文本中獲 取其主題特征、情感特征和疑問標(biāo)記特征,然后分類器使用所獲取的這些特征對(duì)該文本進(jìn) 行分類,即判斷該文本是否是問題。
[0034] 其中,主題特征表示