微博熱點話題自動檢測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別涉及一種微博熱點話題自動檢測方法及裝置。
【背景技術】
[0002] 隨著Twitter和新浪微博用戶群體規(guī)模的迅速擴大,由用戶生成的短消息也呈現(xiàn) 爆炸式增長,信息的時效性也越來越強,通過瀏覽每條信息來了解當前的熱點事件已經(jīng)不 可能實現(xiàn)?,F(xiàn)有的微博熱點話題檢測方法通常采用基于語義擴展的方法。該方法針對微博 消息短小,能夠提取的特征詞項比較少的特點,通過語義相關性來擴展特征向量的維度,來 提高短文本之間相似度計算的準確性,進而提高微博中熱點話題檢測的效果。
[0003] 但對于基于語義擴展的方法,通過引入語義計算和提高特征向量的維度來提高 熱點話題檢測的準確性,造成了計算復雜度的大幅度提高,很難滿足海量微博數(shù)據(jù)分析的 實際需求;另外,潛在語義分析(LSI)本身也是基于概率統(tǒng)計的方法,并沒有考慮句子的結(jié) 構(gòu)、詞在句子中的位置關系等信息,還不能完全解決語義歧義的問題。
【發(fā)明內(nèi)容】
[0004](一)要解決的技術問題
[0005] 本發(fā)明要解決的技術問題是:如何減小熱點話題檢測的復雜度,并實現(xiàn)有效的熱 點話題檢測。
[0006](二)技術方案
[0007] 為解決上述技術問題,本發(fā)明提供了一種微博熱點話題自動檢測方法,所述方法 包括以下步驟:
[0008]S1 :抓取待檢測的微博文本;
[0009]S2 :對所述微博文本進行關鍵詞提??;
[0010]S3 :根據(jù)各個關鍵詞之間的相關性,獲取關鍵詞組;
[0011]S4 :根據(jù)各個關鍵詞組之間的相關性,對所述關鍵詞組進行聚類,以獲得候選關鍵 詞簇;
[0012]S5:計算每個候選關鍵詞簇所代表話題的熱度值,根據(jù)所述熱度值對所述候選關 鍵詞簇進行排序,按照所述熱度值從大到小順序在所述候選關鍵詞簇中選擇N個關鍵詞 簇,并將所述N個關鍵詞簇分別代表的話題作為熱點話題,所述N為不小于1的整數(shù)。
[0013] 其中,步驟S1和步驟S2之間還包括:對所述微博文本進行預處理,所述預處理包 括:噪聲過濾和/或文本去重。
[0014] 其中,步驟S2包括:
[0015]S201 :對所述微博文本進行分詞處理,以獲得所述微博文本中所有的詞語,對所述 詞語進行詞性標注,并統(tǒng)計所述詞語的頻次和文檔頻率;
[0016]S202 :根據(jù)所述詞語的頻次、文檔頻率及詞性計算每個詞語的權(quán)重值;
[0017]S203:根據(jù)所述權(quán)重值對所述詞語進行排序,選取為預設詞性并且不在停用詞表 中的詞語作為候選關鍵詞,所述預設詞性包括:形容詞、動詞、簡稱、地名、人名、機構(gòu)名和專 有名詞;
[0018]S204:按照權(quán)重值從大到小順序在所述候選關鍵詞中選擇預設個數(shù)m的關鍵詞。
[0019] 其中,步驟S202包括:
[0020]S2021:根據(jù)當前用戶所關注的領域獲取用戶詞典;
[0021]S2022:根據(jù)所述詞語的頻次、文檔頻率及詞性并結(jié)合所述用戶詞典計算每個詞語 的權(quán)重值。
[0022] 其中,步驟S204中,當所述候選關鍵詞的數(shù)量w小于所述預設個數(shù)m時,則將所述 候選關鍵詞作為關鍵詞,并按照權(quán)重值從大到小順序在除所述候選關鍵詞外的詞語中選擇 mi個詞語作為關鍵詞。
[0023] 其中,步驟S3包括:
[0024] S301 :遍歷所述微博文本,在當前微博文本內(nèi)具有兩個關鍵詞時,則將所述兩個關 鍵詞作為關鍵詞對,并依次判斷所述當前微博文本內(nèi)各個關鍵詞對之間的距離是否為預設 距離,每次判斷為是,則將該關鍵詞對的同現(xiàn)頻度加1,以獲得每個關鍵詞對的同現(xiàn)頻度;
[0025]S302:根據(jù)所述同現(xiàn)頻度計算每個關鍵詞對之間的卡方統(tǒng)計量;
[0026]S303:根據(jù)所述卡方統(tǒng)計量對所述關鍵詞對進行排序,按照卡方統(tǒng)計量從大到小 順序在所述關鍵詞對之中選擇預設個數(shù)q的關鍵詞對作為關鍵詞組。
[0027] 其中,步驟S303中,選擇關鍵詞對時,對于同一個關鍵詞,只能被選擇預設次數(shù)X。
[0028] 其中,步驟S4包括:
[0029]S401:設當前關鍵詞組中包括關鍵詞wl和《2,并將當前關鍵詞組的密度值設為關 鍵詞wl和關鍵詞w2的卡方統(tǒng)計值;
[0030]S402:分別遍歷關鍵詞wl和關鍵詞w2所在的其他關鍵詞組,設所述其他關鍵詞組 中的待并入關鍵詞為wi,對關鍵詞wi進行判斷,若滿足Ds(cwsUwi)彡Ds(cws)/2,則將 關鍵詞wi并入當如關鍵詞組;
[0031]其中,Ds(cwsUwi) =(Ds(cws)+max(cws,wi)) / (cws.size+1),cws為當前詞組, Ds(cwsUwi)為當前關鍵詞組中并入關鍵詞wi后的密度值,Ds(cws)為所述當前關鍵詞組 的密度值,cws.size為所述當前關鍵詞組中關鍵詞的個數(shù),max(cws,wi)為cws中所包含的 關鍵詞和關鍵詞wi之間的最大卡方統(tǒng)計值;
[0032]S403:遍歷已并入當前關鍵詞組中的關鍵詞wi所在的關鍵詞組,設所述關鍵詞組 中的待并入關鍵詞為wj,對關鍵詞wj進行判斷,若滿足Ds(cwsUwj)彡Ds(cws)/2,則將 關鍵詞wj并入當前關鍵詞組,直至沒有關鍵詞能夠并入所述當前關鍵詞組為止,將所述當 前關鍵詞組作為所述候選關鍵詞簇;
[0033]其中,Ds(cwsUwj) =(Ds(cws)+max(cws,wj))/(cws.size+1),Ds(cwsUwj)為 當前關鍵詞組中并入關鍵詞wj后的密度值,max(cws,wj)為cws中所包含的關鍵詞和關鍵 詞wj之間的最大卡方統(tǒng)計值;
[0034]S404:判斷是否已經(jīng)遍歷了除被并入的關鍵詞組外的所有關鍵詞組,若是,則執(zhí)行 步驟S5,否則返回步驟S401。
[0035] 其中,步驟S4和S5之間包括:
[0036] 遍歷所述微博文本,判斷當前微博文本是否滿足條件一或條件二,若是,則將所述 當前微博文本作為與所述候選關鍵詞簇T對應的微博文本,并將所述候選關鍵詞簇T對應 的微博文本的數(shù)量加1,以獲得每個候選關鍵詞簇對應的微博文本的數(shù)量,所述命名實體包 括:人名、地名和機構(gòu)名,所述條件一為包含某一候選關鍵詞簇T中的命名實體,所述條件 二為包含所述候選關鍵詞簇T中關鍵詞總數(shù)預設比例p的關鍵詞;
[0037]步驟S5中通過以下公式計算每個候選關鍵詞簇所代表話題的熱度值,
【主權(quán)項】
1. 一種微博熱點話題自動檢測方法,其特征在于,所述方法包括以下步驟: 51 :抓取待檢測的微博文本; 52 :對所述微博文本進行關鍵詞提??; 53 :根據(jù)各個關鍵詞之間的相關性,獲取關鍵詞組; 54 :根據(jù)各個關鍵詞組之間的相關性,對所述關鍵詞組進行聚類,以獲得候選關鍵詞 簇; S5:計算每個候選關鍵詞簇所代表話題的熱度值,根據(jù)所述熱度值對所述候選關鍵詞 簇進行排序,按照所述熱度值從大到小順序在所述候選關鍵詞簇中選擇N個關鍵詞簇,并 將所述N個關鍵詞簇分別代表的話題作為熱點話題,所述N為不小于1的整數(shù)。
2. 如權(quán)利要求1所述的方法,其特征在于,步驟S1和步驟S2之間還包括:對所述微博 文本進行預處理,所述預處理包括:噪聲過濾和/或文本去重。
3. 如權(quán)利要求1所述的方法,其特征在于,步驟S2包括: 5201 :對所述微博文本進行分詞處理,以獲得所述微博文本中所有的詞語,對所述詞語 進行詞性標注,并統(tǒng)計所述詞語的頻次和文檔頻率; 5202 :根據(jù)所述詞語的頻次、文檔頻率及詞性計算每個詞語的權(quán)重值; 5203 :根據(jù)所述權(quán)重值對所述詞語進行排序,選取為預設詞性并且不在停用詞表中的 詞語作為候選關鍵詞,所述預設詞性包括:形容詞、動詞、簡稱、地名、人名、機構(gòu)名和專有名 詞; 5204 :按照權(quán)重值從大到小順序在所述候選關鍵詞中選擇預設個數(shù)m的關鍵詞。
4. 如權(quán)利要求3所述的方法,其特征在于,步驟S202包括: S2021 :根據(jù)當前用戶所關注的領域獲取用戶詞典; S2022:根據(jù)所述詞語的頻次、文檔頻率及詞性并結(jié)合所述用戶詞典計算每個詞語的權(quán) 重值。
5. 如權(quán)利要求3所述的方法,其特征在于,步驟S204中,當所述候選關鍵詞的數(shù)量w小 于所述預設個數(shù)m時,則將所述候選關鍵詞作為關鍵詞,并按照權(quán)重值從大到小順序在除 所述候選關鍵詞外的詞語中選擇mi個詞語作為關鍵詞。
6. 如權(quán)利要求1所述的方法,其特征在于,步驟S3包括: 5301 :遍歷所述微博文本,在當前微博文本內(nèi)具有兩個關鍵詞時,則將所述兩個關鍵 詞作為關鍵詞對,并依次判斷所述當前微博文本內(nèi)各個關鍵詞對之間的距離是否為預設距 離,每次判斷為是,則將該關鍵詞對的同現(xiàn)頻度加1,以獲得每個關鍵詞對的同現(xiàn)頻度; 5302 :根據(jù)所述同現(xiàn)頻度計算每個關鍵詞對之間的卡方統(tǒng)計量; 5303 :根據(jù)所述卡方統(tǒng)計量對所述關鍵詞對進行排序,按照卡方統(tǒng)計量從大到小順序 在所述關鍵詞對之中選擇預設個數(shù)q的關鍵詞對作為關鍵詞組。
7. 如權(quán)利要求6所述的方法,其特征在于,步驟S303中,選擇關鍵詞對時,對于同一個 關鍵詞,只能被選擇預設次數(shù)X。
8. 如權(quán)利要求1所述的方法,其特征在于,步驟S4包括: 5401 :設當前關鍵詞組中包括關鍵詞wl和《2,并將當前關鍵詞組的密度值設為關鍵詞 wl和關鍵詞w2的卡方統(tǒng)計值; 5402 :分別遍歷關鍵詞wl和關鍵詞w2所在的其他關鍵詞組,設所述其他關鍵詞組中的 待并入關鍵詞為wi,對關鍵詞wi進行判斷,若滿足Ds(cws U wi)彡Ds(cws)/2,則將關鍵 詞wi并入當前關鍵詞組; 其中,Ds(cws U wi) = (Ds (cws)+max (cws,wi)) / (cws. size+1),cws 為當前詞組, Ds(cws U wi)為當前關鍵詞組中并入關鍵詞wi后的密度值,Ds(cws)為所述當前關鍵詞組 的密度值,cws. size為所述當前關鍵詞組中關鍵詞的個數(shù),max(cws,wi)為cws中所包含的 關鍵詞和關鍵詞wi之間的最大卡方統(tǒng)計值; S403 :遍歷已并入當前關鍵詞組中的關鍵詞wi所在的關鍵詞組,設所述關鍵詞組中的 待并入關鍵詞為wj,對關鍵詞wj進行