文本分析方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種文本分析方法及裝置,屬于信息檢索領(lǐng)域。所述方法包括:獲得目標(biāo)文本的一種或者多種特征信息;對所述目標(biāo)文本的每種特征信息分別計算量化得分;對所述目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得所述目標(biāo)文本的總得分。本發(fā)明通過對目標(biāo)文本的各種特征信息分別計算量化得分,以及根據(jù)各自對應(yīng)的權(quán)重來累計各個量化得分以得到最終得分,并且可在應(yīng)用場景下自適應(yīng)修正特征權(quán)重及特征項自適應(yīng)擴(kuò)展的效果,解決了現(xiàn)有技術(shù)中沒有合適的方法對論壇中的帖子進(jìn)行質(zhì)量分析的問題,達(dá)到了可以對論壇帖子類文本的文本質(zhì)量進(jìn)行準(zhǔn)確分析的效果。
【專利說明】文本分析方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索領(lǐng)域,特別涉及一種文本分析方法及裝置。
【背景技術(shù)】
[0002]文本分析廣泛應(yīng)用于信息檢索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計以及計算語言學(xué)等領(lǐng)域。
[0003]現(xiàn)有的文本分析方法主要包括有語言概率模型分析方法、PageRank (頁面等級)分析方法和分類分析方法等。其中,語言概率模型分析方法主要利用基于語料庫的語言模型來分析文本中的句子是否為自然生成,而非人為的篡改,比如人為的堆砌關(guān)鍵詞來惡意獲得較高排名;PageRank分析方法主要利用網(wǎng)頁的入鏈和出鏈信息來計算頁面的有效性,從而實現(xiàn)對網(wǎng)頁的排名以作為檢索結(jié)果等用途;分類分析方法則用于對文本內(nèi)容進(jìn)行分類標(biāo)記,主要用來做文本類別方面的相關(guān)推薦或計算。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:網(wǎng)絡(luò)論壇中的帖子作為一類型特殊的文本,采用上述幾種分析方法無法取得較好的質(zhì)量分析效果。具體地講,首先,論壇中的帖子都是版主維護(hù),大部分都是行文流暢的自然語言,采用語言概率模型分析方法來分析行文的流暢基本毫無意義;其次,論壇中的帖子更新快,時新性強,入鏈出鏈信息都沒有,無法采用PageRank類分析方法來獲得帖子的特征;再者,論壇中通常原生劃分有各個不同主題的版本,也無需專門進(jìn)行分類。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)中沒有合適的方法對論壇中的帖子進(jìn)行質(zhì)量分析的問題,本發(fā)明實施例提供了一種文本分析方法及裝置。所述技術(shù)方案如下:
[0006]一個方面,提供了一種文本分析方法,所述方法包括:
[0007]獲得目標(biāo)文本的一種或者多種特征信息;
[0008]對所述目標(biāo)文本的每種特征信息分別計算量化得分;
[0009]對所述目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得所述目標(biāo)文本的總得分。
[0010]另一方面,提供了一種文本分析裝置,所述裝置包括:
[0011]信息獲取模塊,用于獲得目標(biāo)文本的一種或者多種特征信息;
[0012]得分計算模塊,用于對所述目標(biāo)文本的每種特征信息分別計算量化得分;
[0013]權(quán)重累計模塊,用于對所述目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得所述目標(biāo)文本的總得分。
[0014]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0015]通過對目標(biāo)文本的各種特征信息分別計算量化得分,以及根據(jù)各自對應(yīng)的權(quán)重來累計各個量化得分以得到最終得分,解決了現(xiàn)有技術(shù)中沒有合適的方法對論壇中的帖子進(jìn)行質(zhì)量分析的問題,達(dá)到了可以對論壇帖子類文本的文本質(zhì)量進(jìn)行準(zhǔn)確分析的效果。【專利附圖】
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0017]圖1是本發(fā)明實施例一提供的文本分析方法的方法流程圖;
[0018]圖2是本發(fā)明實施例二提供的文本分析方法的方法流程圖;
[0019]圖3是本發(fā)明實施例三提供的文本分析裝置的結(jié)構(gòu)示意圖;
[0020]圖4是本發(fā)明實施例四提供的文本分析裝置的結(jié)構(gòu)示意圖;
[0021]圖5是本發(fā)明實施例四提供的得分計算模塊的結(jié)構(gòu)方框圖;
[0022]圖6是本發(fā)明實施例四提供的權(quán)重修正模塊的結(jié)構(gòu)方框圖;
[0023]圖7是本發(fā)明實施例四提供的期望輸出計算單元的結(jié)構(gòu)方框圖。
【具體實施方式】
[0024]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進(jìn)一步地詳細(xì)描述。
[0025]實施例一
[0026]請參考圖1,其示出了本發(fā)明實施例一提供的文本分析方法的方法流程圖。本實施例主要以該文本分析方法應(yīng)用于對論壇中的帖子進(jìn)行質(zhì)量分析來舉例說明。該文本分析方法,包括:
[0027]步驟101,獲得目標(biāo)文本的一種或者多種特征信息;
[0028]目標(biāo)文本可以是論壇中的帖子,目標(biāo)文本的特征信息包括標(biāo)題字?jǐn)?shù)、標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵、正文獨立詞性數(shù)、正文詞性信息熵、正文段落數(shù)、正文圖文混排性、帖子時新性、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、正文是否為主貼、帖子精華等級、帖子作者等級和帖子版塊等級中的一種或者幾種;
[0029]步驟102,對目標(biāo)文本的每種特征信息分別計算量化得分;
[0030]步驟103,對目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得目標(biāo)文本的總得分。
[0031]綜上所述,本實施例提供的文本分析方法,通過對目標(biāo)文本的各種特征信息分別計算量化得分,以及根據(jù)各自對應(yīng)的權(quán)重來累計各個量化得分以得到最終得分,解決了現(xiàn)有技術(shù)中沒有合適的方法對論壇中的帖子進(jìn)行質(zhì)量分析的問題,達(dá)到了可以對論壇帖子類文本的文本質(zhì)量進(jìn)行準(zhǔn)確分析的效果。
[0032]實施例二
[0033]請參考圖2,其示出了本發(fā)明實施例二提供的文本分析方法的方法流程圖。本實施例主要以該文本分析方法應(yīng)用于對論壇中的帖子進(jìn)行質(zhì)量分析來舉例說明。該文本分析方法,包括:[0034]步驟201,獲得目標(biāo)文本的一種或者多種特征信息;
[0035]當(dāng)目標(biāo)文本是一個論壇中的帖子時,目標(biāo)文本的特征信息可以包括標(biāo)題字?jǐn)?shù)、標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵、正文獨立詞性數(shù)、正文詞性信息熵、正文段落數(shù)、正文圖文混排性、帖子時新性、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、正文是否為主貼、帖子精華等級、帖子作者等級和帖子版塊等級中的一種或者幾種。
[0036]需要說明的是,目標(biāo)文本的特征信息通常都包括上述21種特征信息中的幾種,包括的特征信息越多,質(zhì)量分析的結(jié)果越準(zhǔn)確。為此,可以獲取目標(biāo)文本的至少5種、8種、10種特征信息來進(jìn)行質(zhì)量分析,以保證分析質(zhì)量,優(yōu)選可以包括上述全部21種特征信息。當(dāng)然,目標(biāo)文本的特征信息也可以不局限于上述21種特征信息,還可以包括其它第22種特征信息,第23種特征信息等。
[0037]步驟202,對目標(biāo)文本的每種特征信息分別計算量化得分;
[0038]由于目標(biāo)文本中的每種特征信息都不相同,在計算每個特征信息的量化得分時也可以采用不同的方式。具體地講,可以采用下述幾種方式的一種或者幾種的組合:
[0039]第一,若特征信息包括正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵和正文詞性熵中的一種或者幾種,則通過第一類型函數(shù)對正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵或正文詞性熵各自計算量化得分,第一類型函數(shù)為兩端衰減的函數(shù)。因為這一類特征信息,數(shù)值過大或者過小均為不合適,只有中間部分的取值符合優(yōu)秀帖子的特征。
[0040]第二,若特征信息包括標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、帖子作者等級和帖子版塊等級中的一種或者幾種,則通過第二類型函數(shù)對標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、帖子作者等級或帖子版塊等級各自計算量化得分,第二類型函數(shù)為單向遞增的函數(shù)。因為這一類特征信息,數(shù)值越大越好,數(shù)值越大越有可能是優(yōu)秀帖子。
[0041]第三,若特征信息包括標(biāo)題字?jǐn)?shù)、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文獨立詞性數(shù)、正文段落數(shù)和正文是否為主貼中的一種或者幾種,則計算標(biāo)題字?jǐn)?shù)、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文獨立詞性數(shù)、正文段落數(shù)或正文是否為主貼的量化得分為兩值量化中的第一預(yù)定值或者第二預(yù)定值。這一類特征信息的具體數(shù)值無法很直觀地代表特征,所以采用二值量化方法,其中第一預(yù)定值通常為1,第二預(yù)定值通常為O。第一預(yù)定值為I時,更符合優(yōu)秀帖子的特征。
[0042]第四,若特征信息包括圖文混排性,則計算圖文混排性的量化得分為圖片與正文的間隔序列方差與圖片數(shù)的乘積。此時,圖片與正文的間隔越均勻,圖片數(shù)越多,圖文混排性的量化得分越高,越符合優(yōu)秀帖子的特征。
[0043]第五,若特征信息包括帖子時新性,則根據(jù)第三類型函數(shù)對帖子存在時間進(jìn)行計算來得到所述帖子時新性的量化得分,第三類型函數(shù)為單向遞減的函數(shù)。也即,帖子的存在時間越長,越不符合優(yōu)秀帖子的特征。
[0044]第六,若特征信息包括帖子精華等級,則根據(jù)精華等級與權(quán)重之間的預(yù)定對應(yīng)關(guān)系,計算當(dāng)前精華等級與對應(yīng)的權(quán)重的乘積為帖子精華等級的量化得分。通常,精華等級與權(quán)重之間的預(yù)定對應(yīng)關(guān)系為正相關(guān)關(guān)系,也即精華等級越高,越符合優(yōu)秀帖子的特征,計算得到的量化得分也越高。
[0045]為了更好地描述上述第一至第六方式,下述以一種具體的實現(xiàn)方式來詳細(xì)闡述。在該具體的實現(xiàn)方式中,設(shè)第一類型函數(shù)為:
[0046]f (χ) =exp (_d* (χ- μ )2);
[0047]其中,μ控制橫移特性,d控制兩端衰減特性且d不等于O ;
[0048]第二類型函數(shù)為:
[0049]
【權(quán)利要求】
1.一種文本分析方法,其特征在于,所述方法包括: 獲得目標(biāo)文本的一種或多種特征信息; 對所述目標(biāo)文本的每種特征信息分別計算量化得分; 對所述目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得所述目標(biāo)文本的總得分。
2.根據(jù)權(quán)利要求1所述的文本分析方法,其特征在于,所述特征信息包括標(biāo)題字?jǐn)?shù)、標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵、正文獨立詞性數(shù)、正文詞性信息熵、正文段落數(shù)、正文圖文混排性、帖子時新性、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、正文是否為主貼、帖子精華等級、帖子作者等級和帖子版塊等級中的一種或者幾種。
3.根據(jù)權(quán)利要求2所述的文本分析方法,其特征在于,所述對所述目標(biāo)文本的每種特征信息分別計算量化得分,具體包括: 若所述特征信息包括所述正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、所述正文中連接詞數(shù)與句子數(shù)的比例、所述正文詞匯信息熵和所述正文詞性熵中的一種或者幾種,則通過第一類型函數(shù)對所述正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、所述正文中連接詞數(shù)與句子數(shù)的比例、所述正文詞匯信息熵或所述正文詞性熵各自計算量化得分,所述第一類型函數(shù)為兩端衰減的函數(shù); 和/或,若所述特征信息 包括所述標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、所述標(biāo)題中類別興趣詞匯的數(shù)量、所述標(biāo)題中熱點詞匯的數(shù)量、所述帖子回復(fù)數(shù)、所述帖子回復(fù)趨勢、所述帖子瀏覽數(shù)、所述帖子作者等級和所述帖子版塊等級中的一種或者幾種,則通過第二類型函數(shù)對所述標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、所述標(biāo)題中類別興趣詞匯的數(shù)量、所述標(biāo)題中熱點詞匯的數(shù)量、所述帖子回復(fù)數(shù)、所述帖子回復(fù)趨勢、所述帖子瀏覽數(shù)、所述帖子作者等級或所述帖子版塊等級各自計算量化得分,所述第二類型函數(shù)為單向遞增的函數(shù); 和/或,若所述特征信息包括所述標(biāo)題字?jǐn)?shù)、所述標(biāo)題中是否包含廣告詞、所述正文字?jǐn)?shù)、所述正文獨立詞性數(shù)、所述正文段落數(shù)和所述正文是否為主貼中的一種或者幾種,則計算所述標(biāo)題字?jǐn)?shù)、所述標(biāo)題中是否包含廣告詞、所述正文字?jǐn)?shù)、所述正文獨立詞性數(shù)、所述正文段落數(shù)或所述正文是否為主貼的量化得分為兩值量化中的第一預(yù)定值或者第二預(yù)定值; 和/或,若所述特征信息包括所述圖文混排性,則計算所述圖文混排性的量化得分為所述圖片與正文的間隔序列方差與圖片數(shù)的乘積; 和/或,若所述特征信息包括所述帖子時新性,則根據(jù)第三類型函數(shù)對帖子存在時間進(jìn)行計算來得到所述帖子時新性的量化得分,所述第三類型函數(shù)為單向遞減的函數(shù); 和/或,若所述特征信息包括所述帖子精華等級,則根據(jù)精華等級與權(quán)重之間的預(yù)定對應(yīng)關(guān)系,計算當(dāng)前精華等級與對應(yīng)的權(quán)重的乘積為所述帖子精華等級的量化得分。
4.根據(jù)權(quán)利要求3所述的文本分析方法,其特征在于,所述第一類型函數(shù)為:
f (x) =exp (-d* (χ- μ )2); 其中,P控制橫移特性,d控制兩端衰減特性且d不等于O;所述第二類型函數(shù)為:
5.根據(jù)權(quán)利要求1至4任一所述的文本分析方法,其特征在于,所述方法還包括: 根據(jù)每個目標(biāo)文本的總得分生成推薦列表; 根據(jù)所述推薦列表的用戶點擊日志對目標(biāo)文本的每種特征信息各自對應(yīng)的權(quán)重進(jìn)行修正。
6.根據(jù)權(quán)利要求5所述的文本分析方法,其特征在于,所述根據(jù)所述推薦列表的用戶點擊日志對目標(biāo)文本的每種特征信息各自對應(yīng)的權(quán)重進(jìn)行修正,具體包括: 根據(jù)所述推薦列表的用戶點擊日志來計算目標(biāo)文本j的期待輸出Clj ; 設(shè)目標(biāo)文本j的特征向量為Xj=U11, Xj,2,…,Xj,n);對應(yīng)的特征權(quán)重為^(WpW2,…,O,其中,η表示第η項特征信息; 設(shè)當(dāng)前輸出為yt(t),t為迭代次數(shù),迭代計算下述兩個步驟:
yt(t)=f [w(t).Xj] =f [w0 (t) +W1 (t) Xj- !+W2 (t) xJ; 2+...+Wn (t) Xj- J ;
Wi (t+1) =Wi (t) + a (dj-yj (t)) xJ; i ; 直至所述
7.根據(jù)權(quán)利要求6所述的文本分析方法,其特征在于,所述根據(jù)所述推薦列表的用戶點擊日志來計算目標(biāo)文本j的期待輸出4,具體包括: 根據(jù)所述用戶點擊日志將所述推薦列表中最后被點擊的第r個文本以及之前的所有文本設(shè)為訓(xùn)練集D,其中,所述訓(xùn)練集D中被點擊的文本作為點擊訓(xùn)練集W,所述訓(xùn)練集中未被點擊的文本作為未點擊訓(xùn)練集Dm; 獲得所述訓(xùn)練集中原始文本順序與所述總得分之間的第一對應(yīng)關(guān)系; 保持所述第一對應(yīng)關(guān)系中的總得分順序不變,將所述原始文本順序按照排序規(guī)則重新排序,獲得重新排序后的文本順序與所述總得分之間的第二對應(yīng)關(guān)系,所述排序規(guī)則包括將所有被點擊的文本排序在所有未被點擊的文本之前,所有被點擊的文本之間的前后順序保持不變,所有未被點擊的文本之間的前后順序保持不變; 設(shè)所述目標(biāo)文本j為所述點擊訓(xùn)練集W中的一個文本,根據(jù)第二對應(yīng)關(guān)系可知,所述目標(biāo)文本j對應(yīng)的總得分為81,0〈1〈1',且所述點擊訓(xùn)練集1\中的最小總得分為Smin,則所述目標(biāo)文本j的期望輸出為:
8.一種文本分析裝置,其特征在于,所述裝置包括: 信息獲取模塊,用于獲得目標(biāo)文本的一種或者多種特征信息; 得分計算模塊,用于對所述目標(biāo)文本的每種特征信息分別計算量化得分; 權(quán)重累計模塊,用于對所述目標(biāo)文本的每種特征信息的量化得分與各自對應(yīng)的權(quán)重相乘后進(jìn)行累計獲得所述目標(biāo)文本的總得分。
9.根據(jù)權(quán)利要求8所述的文本分析裝置,其特征在于,所述信息獲取模塊獲取到的特征信息,包括標(biāo)題字?jǐn)?shù)、標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、標(biāo)題中類別興趣詞匯的數(shù)量、標(biāo)題中熱點詞匯的數(shù)量、標(biāo)題中是否包含廣告詞、正文字?jǐn)?shù)、正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、正文中連接詞數(shù)與句子數(shù)的比例、正文詞匯信息熵、正文獨立詞性數(shù)、正文詞性信息熵、正文段落數(shù)、正文圖文混排性、帖子時新性、帖子回復(fù)數(shù)、帖子回復(fù)趨勢、帖子瀏覽數(shù)、正文是否為主貼、帖子精華等級、帖子作者等級和帖子版塊等級中的一種或者幾種。
10.根據(jù)權(quán)利要求9所述的文本分析裝置,其特征在于,所述得分計算模塊,具體包括:第一計算單元、第二計算單元、第三計算單元、第四計算單元、第五計算單元和第六計算單元中的至少一個; 所述第一計算單元,用于若所述特征信息包括所述正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、所述正文中連接詞數(shù)與句子數(shù)的比例、所述正文詞匯信息熵和所述正文獨立詞性數(shù)中的一種或者幾種,則通過第一類型函數(shù)對所述正文中標(biāo)點數(shù)與正文字?jǐn)?shù)的比例、所述正文中連接詞數(shù)與句子數(shù)的比例、所述正文詞匯信息熵或所述正文獨立詞性數(shù)各自計算量化得分,所述第一類型函數(shù)為兩端衰減的函數(shù); 所述第二計算單元,用于 若所述特征信息包括所述標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、所述標(biāo)題中類別興趣詞匯的數(shù)量、所述標(biāo)題中熱點詞匯的數(shù)量、所述帖子回復(fù)數(shù)、所述帖子回復(fù)趨勢、所述帖子瀏覽數(shù)、所述帖子作者等級和所述帖子版塊等級中的一種或者幾種,則通過第二類型函數(shù)對所述標(biāo)題中關(guān)鍵詞字?jǐn)?shù)與標(biāo)題字?jǐn)?shù)的比例、所述標(biāo)題中類別興趣詞匯的數(shù)量、所述標(biāo)題中熱點詞匯的數(shù)量、所述帖子回復(fù)數(shù)、所述帖子回復(fù)趨勢、所述帖子瀏覽數(shù)、所述帖子作者等級或所述帖子版塊等級各自計算量化得分,所述第二類型函數(shù)為單向遞增的函數(shù); 所述第三計算單元,用于若所述特征信息包括所述標(biāo)題字?jǐn)?shù)、所述標(biāo)題中是否包含廣告詞、所述正文字?jǐn)?shù)、所述正文獨立詞性數(shù)、所述正文段落數(shù)和所述正文是否為主貼中的一種或者幾種,則計算所述標(biāo)題字?jǐn)?shù)、所述標(biāo)題中是否包含廣告詞、所述正文字?jǐn)?shù)、所述正文獨立詞性數(shù)、所述正文段落數(shù)或所述正文是否為主貼的量化得分為兩值量化中的第一預(yù)定值或者第二預(yù)定值; 所述第四計算單元,用于若所述特征信息包括所述圖文混排性,則計算所述圖文混排性的量化得分為所述圖片與正文的間隔序列方差與圖片數(shù)的乘積; 所述第五計算單元,用于若所述特征信息包括所述帖子時新性,則根據(jù)第三類型函數(shù)對帖子存在時間進(jìn)行計算來得到所述帖子時新性的量化得分,所述第三類型函數(shù)為單向遞減的函數(shù); 所述第六計算單元,用于若所述特征信息包括所述帖子精華等級,則根據(jù)精華等級與權(quán)重之間的預(yù)定對應(yīng)關(guān)系,計算當(dāng)前精華等級與對應(yīng)的權(quán)重的乘積為所述帖子精華等級的量化得分。
11.根據(jù)權(quán)利要求10所述的文本分析裝置,其特征在于,所述第一類型函數(shù)為:
12.根據(jù)權(quán)利要求8至11任一所述的文本分析裝置,其特征在于,所述裝置還包括:列表生成模塊和權(quán)重修正模塊; 所述列表生成模塊,用于根據(jù)每個目標(biāo)文本的總得分生成推薦列表; 所述權(quán)重修正模塊,用于根據(jù)所述推薦列表的用戶點擊日志對每種特征信息各自對應(yīng)的權(quán)重進(jìn)行修正。
13.根據(jù)權(quán)利要求12所述的文本分析裝置,其特征在于,所述權(quán)重修正模塊,具體包括: 期待輸出計算單元和權(quán)重修正單元; 所述期待輸出計算單元,用于根據(jù)所述推薦列表的用戶點擊日志來計算目標(biāo)文本j的期待輸出Clj ; 所述權(quán)重修正單元,用于設(shè)目標(biāo)文本j的特征向量為Xj=(Xj,i,Xj,2.…,xj,n);對應(yīng)的特征權(quán)重為:w=(Wi,W2,…,Wn),其中,η表示第η項特征信息; 設(shè)當(dāng)前輸出為yt(t),t為迭代次數(shù),迭代計算下述兩個步驟:
yt(t)=f [w(t).Xj] =f [w0 (t) +W1 (t) Xj- !+W2 (t) xJ; 2+...+Wn (t) Xj- J ;
Wi (t+1) =Wi (t) + a (dj-yj (t)) xJ; i ; 直至所述+tk, -Α',ω]小于第三預(yù)定值,或者所述迭代次數(shù)t達(dá)到第四預(yù)定值,則將初始特征權(quán)重修正為當(dāng)前特征權(quán)重。
14.根據(jù)權(quán)利要求13所述的文本分析裝置,其特征在于,所述期待輸出計算單元,具體包括: 訓(xùn)練集抽取子單元、第一生成子單元、第二生成子單元和期望輸出子單元; 所述訓(xùn)練集抽取子單元,用于根據(jù)所述用戶點擊日志將所述推薦列表中最后被點擊的第r個文本以及之前的所有文本設(shè)為訓(xùn)練集D,其中,所述訓(xùn)練集D中被點擊的文本作為點擊訓(xùn)練集化,所述訓(xùn)練集中未被點擊的文本作為未點擊訓(xùn)練集Dnr; 所述第一生成子單元,用于獲得所述訓(xùn)練集中原始文本順序與所述總得分之間的第一對應(yīng)關(guān)系; 所述第二生成子單元,用于保持所述第一對應(yīng)關(guān)系中的總得分順序不變,將所述原始文本順序按照排序規(guī)則重新排序,獲得重新排序后的文本順序與所述總得分之間的第二對應(yīng)關(guān)系,所述排序規(guī)則包括將所有被點擊的文本排序在所有未被點擊的文本之前,所有被點擊的文本之間的前后順序保持不變,所有未被點擊的文本之間的前后順序保持不變;所述期望輸出子單元,用于設(shè)所述目標(biāo)文本j為點擊訓(xùn)練集W中的一個文本,根據(jù)第二對應(yīng)關(guān)系可知,所述目標(biāo)文本j對應(yīng)的總得分為Si,0〈i〈r,且點擊訓(xùn)練集^中的最小總得分為Smin,則所述目標(biāo)文本j的期望輸出為:
【文檔編號】G06F17/30GK103699521SQ201210374329
【公開日】2014年4月2日 申請日期:2012年9月27日 優(yōu)先權(quán)日:2012年9月27日
【發(fā)明者】翟俊杰, 姚從磊, 王亮, 溫泉, 李亞楠 申請人:騰訊科技(深圳)有限公司