微博熱點話題自動檢測方法及裝置的制造方法

文檔序號：8299019閱讀：513來源：國知局

微博熱點話題自動檢測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術領域，特別涉及一種微博熱點話題自動檢測方法及裝置。
【背景技術】
[0002] 隨著Twitter和新浪微博用戶群體規(guī)模的迅速擴大，由用戶生成的短消息也呈現(xiàn) 爆炸式增長，信息的時效性也越來越強，通過瀏覽每條信息來了解當前的熱點事件已經(jīng)不可能實現(xiàn)?，F(xiàn)有的微博熱點話題檢測方法通常采用基于語義擴展的方法。該方法針對微博消息短小，能夠提取的特征詞項比較少的特點，通過語義相關性來擴展特征向量的維度，來提高短文本之間相似度計算的準確性，進而提高微博中熱點話題檢測的效果。
[0003] 但對于基于語義擴展的方法，通過引入語義計算和提高特征向量的維度來提高熱點話題檢測的準確性，造成了計算復雜度的大幅度提高，很難滿足海量微博數(shù)據(jù)分析的實際需求；另外，潛在語義分析（LSI)本身也是基于概率統(tǒng)計的方法，并沒有考慮句子的結(jié) 構(gòu)、詞在句子中的位置關系等信息，還不能完全解決語義歧義的問題。

【發(fā)明內(nèi)容】

[0004](一）要解決的技術問題
[0005] 本發(fā)明要解決的技術問題是：如何減小熱點話題檢測的復雜度，并實現(xiàn)有效的熱點話題檢測。
[0006](二）技術方案
[0007] 為解決上述技術問題，本發(fā)明提供了一種微博熱點話題自動檢測方法，所述方法包括以下步驟：
[0008]S1 :抓取待檢測的微博文本；
[0009]S2 :對所述微博文本進行關鍵詞提??；
[0010]S3 :根據(jù)各個關鍵詞之間的相關性，獲取關鍵詞組；
[0011]S4 :根據(jù)各個關鍵詞組之間的相關性，對所述關鍵詞組進行聚類，以獲得候選關鍵詞簇；
[0012]S5:計算每個候選關鍵詞簇所代表話題的熱度值，根據(jù)所述熱度值對所述候選關鍵詞簇進行排序，按照所述熱度值從大到小順序在所述候選關鍵詞簇中選擇N個關鍵詞簇，并將所述N個關鍵詞簇分別代表的話題作為熱點話題，所述N為不小于1的整數(shù)。
[0013] 其中，步驟S1和步驟S2之間還包括：對所述微博文本進行預處理，所述預處理包括：噪聲過濾和/或文本去重。
[0014] 其中，步驟S2包括：
[0015]S201 :對所述微博文本進行分詞處理，以獲得所述微博文本中所有的詞語，對所述詞語進行詞性標注，并統(tǒng)計所述詞語的頻次和文檔頻率；
[0016]S202 :根據(jù)所述詞語的頻次、文檔頻率及詞性計算每個詞語的權(quán)重值；
[0017]S203:根據(jù)所述權(quán)重值對所述詞語進行排序，選取為預設詞性并且不在停用詞表中的詞語作為候選關鍵詞，所述預設詞性包括：形容詞、動詞、簡稱、地名、人名、機構(gòu)名和專有名詞；
[0018]S204:按照權(quán)重值從大到小順序在所述候選關鍵詞中選擇預設個數(shù)m的關鍵詞。
[0019] 其中，步驟S202包括：
[0020]S2021:根據(jù)當前用戶所關注的領域獲取用戶詞典；
[0021]S2022:根據(jù)所述詞語的頻次、文檔頻率及詞性并結(jié)合所述用戶詞典計算每個詞語的權(quán)重值。
[0022] 其中，步驟S204中，當所述候選關鍵詞的數(shù)量w小于所述預設個數(shù)m時，則將所述候選關鍵詞作為關鍵詞，并按照權(quán)重值從大到小順序在除所述候選關鍵詞外的詞語中選擇 mi個詞語作為關鍵詞。
[0023] 其中，步驟S3包括：
[0024] S301 :遍歷所述微博文本，在當前微博文本內(nèi)具有兩個關鍵詞時，則將所述兩個關鍵詞作為關鍵詞對，并依次判斷所述當前微博文本內(nèi)各個關鍵詞對之間的距離是否為預設距離，每次判斷為是，則將該關鍵詞對的同現(xiàn)頻度加1，以獲得每個關鍵詞對的同現(xiàn)頻度；
[0025]S302:根據(jù)所述同現(xiàn)頻度計算每個關鍵詞對之間的卡方統(tǒng)計量；
[0026]S303:根據(jù)所述卡方統(tǒng)計量對所述關鍵詞對進行排序，按照卡方統(tǒng)計量從大到小順序在所述關鍵詞對之中選擇預設個數(shù)q的關鍵詞對作為關鍵詞組。
[0027] 其中，步驟S303中，選擇關鍵詞對時，對于同一個關鍵詞，只能被選擇預設次數(shù)X。
[0028] 其中，步驟S4包括：
[0029]S401:設當前關鍵詞組中包括關鍵詞wl和《2,并將當前關鍵詞組的密度值設為關鍵詞wl和關鍵詞w2的卡方統(tǒng)計值；
[0030]S402:分別遍歷關鍵詞wl和關鍵詞w2所在的其他關鍵詞組，設所述其他關鍵詞組中的待并入關鍵詞為wi，對關鍵詞wi進行判斷，若滿足Ds(cwsUwi)彡Ds(cws)/2,則將關鍵詞wi并入當如關鍵詞組；
[0031]其中，Ds(cwsUwi) =(Ds(cws)+max(cws，wi)) / (cws.size+1)，cws為當前詞組， Ds(cwsUwi)為當前關鍵詞組中并入關鍵詞wi后的密度值，Ds(cws)為所述當前關鍵詞組的密度值，cws.size為所述當前關鍵詞組中關鍵詞的個數(shù)，max(cws，wi)為cws中所包含的關鍵詞和關鍵詞wi之間的最大卡方統(tǒng)計值；
[0032]S403:遍歷已并入當前關鍵詞組中的關鍵詞wi所在的關鍵詞組，設所述關鍵詞組中的待并入關鍵詞為wj，對關鍵詞wj進行判斷，若滿足Ds(cwsUwj)彡Ds(cws)/2,則將關鍵詞wj并入當前關鍵詞組，直至沒有關鍵詞能夠并入所述當前關鍵詞組為止，將所述當前關鍵詞組作為所述候選關鍵詞簇；
[0033]其中，Ds(cwsUwj) =(Ds(cws)+max(cws,wj))/(cws.size+1)，Ds(cwsUwj)為當前關鍵詞組中并入關鍵詞wj后的密度值，max(cws,wj)為cws中所包含的關鍵詞和關鍵詞wj之間的最大卡方統(tǒng)計值；
[0034]S404:判斷是否已經(jīng)遍歷了除被并入的關鍵詞組外的所有關鍵詞組，若是，則執(zhí)行步驟S5，否則返回步驟S401。
[0035] 其中，步驟S4和S5之間包括：
[0036] 遍歷所述微博文本，判斷當前微博文本是否滿足條件一或條件二，若是，則將所述當前微博文本作為與所述候選關鍵詞簇T對應的微博文本，并將所述候選關鍵詞簇T對應的微博文本的數(shù)量加1，以獲得每個候選關鍵詞簇對應的微博文本的數(shù)量，所述命名實體包括：人名、地名和機構(gòu)名，所述條件一為包含某一候選關鍵詞簇T中的命名實體，所述條件二為包含所述候選關鍵詞簇T中關鍵詞總數(shù)預設比例p的關鍵詞；
[0037]步驟S5中通過以下公式計算每個候選關鍵詞簇所代表話題的熱度值，
【主權(quán)項】
1. 一種微博熱點話題自動檢測方法，其特征在于，所述方法包括以下步驟： 51 :抓取待檢測的微博文本； 52 :對所述微博文本進行關鍵詞提??； 53 :根據(jù)各個關鍵詞之間的相關性，獲取關鍵詞組； 54 :根據(jù)各個關鍵詞組之間的相關性，對所述關鍵詞組進行聚類，以獲得候選關鍵詞簇； S5:計算每個候選關鍵詞簇所代表話題的熱度值，根據(jù)所述熱度值對所述候選關鍵詞簇進行排序，按照所述熱度值從大到小順序在所述候選關鍵詞簇中選擇N個關鍵詞簇，并將所述N個關鍵詞簇分別代表的話題作為熱點話題，所述N為不小于1的整數(shù)。
2. 如權(quán)利要求1所述的方法，其特征在于，步驟S1和步驟S2之間還包括：對所述微博文本進行預處理，所述預處理包括：噪聲過濾和/或文本去重。
3. 如權(quán)利要求1所述的方法，其特征在于，步驟S2包括： 5201 :對所述微博文本進行分詞處理，以獲得所述微博文本中所有的詞語，對所述詞語進行詞性標注，并統(tǒng)計所述詞語的頻次和文檔頻率； 5202 :根據(jù)所述詞語的頻次、文檔頻率及詞性計算每個詞語的權(quán)重值； 5203 :根據(jù)所述權(quán)重值對所述詞語進行排序，選取為預設詞性并且不在停用詞表中的詞語作為候選關鍵詞，所述預設詞性包括：形容詞、動詞、簡稱、地名、人名、機構(gòu)名和專有名詞； 5204 :按照權(quán)重值從大到小順序在所述候選關鍵詞中選擇預設個數(shù)m的關鍵詞。
4. 如權(quán)利要求3所述的方法，其特征在于，步驟S202包括： S2021 :根據(jù)當前用戶所關注的領域獲取用戶詞典； S2022:根據(jù)所述詞語的頻次、文檔頻率及詞性并結(jié)合所述用戶詞典計算每個詞語的權(quán) 重值。
5. 如權(quán)利要求3所述的方法，其特征在于，步驟S204中，當所述候選關鍵詞的數(shù)量w小于所述預設個數(shù)m時，則將所述候選關鍵詞作為關鍵詞，并按照權(quán)重值從大到小順序在除所述候選關鍵詞外的詞語中選擇mi個詞語作為關鍵詞。
6. 如權(quán)利要求1所述的方法，其特征在于，步驟S3包括： 5301 :遍歷所述微博文本，在當前微博文本內(nèi)具有兩個關鍵詞時，則將所述兩個關鍵詞作為關鍵詞對，并依次判斷所述當前微博文本內(nèi)各個關鍵詞對之間的距離是否為預設距離，每次判斷為是，則將該關鍵詞對的同現(xiàn)頻度加1，以獲得每個關鍵詞對的同現(xiàn)頻度； 5302 :根據(jù)所述同現(xiàn)頻度計算每個關鍵詞對之間的卡方統(tǒng)計量； 5303 :根據(jù)所述卡方統(tǒng)計量對所述關鍵詞對進行排序，按照卡方統(tǒng)計量從大到小順序在所述關鍵詞對之中選擇預設個數(shù)q的關鍵詞對作為關鍵詞組。
7. 如權(quán)利要求6所述的方法，其特征在于，步驟S303中，選擇關鍵詞對時，對于同一個關鍵詞，只能被選擇預設次數(shù)X。
8. 如權(quán)利要求1所述的方法，其特征在于，步驟S4包括： 5401 :設當前關鍵詞組中包括關鍵詞wl和《2,并將當前關鍵詞組的密度值設為關鍵詞 wl和關鍵詞w2的卡方統(tǒng)計值； 5402 :分別遍歷關鍵詞wl和關鍵詞w2所在的其他關鍵詞組，設所述其他關鍵詞組中的待并入關鍵詞為wi，對關鍵詞wi進行判斷，若滿足Ds(cws U wi)彡Ds(cws)/2,則將關鍵詞wi并入當前關鍵詞組；其中，Ds(cws U wi) = (Ds (cws)+max (cws，wi)) / (cws. size+1)，cws 為當前詞組， Ds(cws U wi)為當前關鍵詞組中并入關鍵詞wi后的密度值，Ds(cws)為所述當前關鍵詞組的密度值，cws. size為所述當前關鍵詞組中關鍵詞的個數(shù)，max(cws，wi)為cws中所包含的關鍵詞和關鍵詞wi之間的最大卡方統(tǒng)計值； S403 :遍歷已并入當前關鍵詞組中的關鍵詞wi所在的關鍵詞組，設所述關鍵詞組中的待并入關鍵詞為wj，對關鍵詞wj進行

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：趙立永;于曉明;楊建武;
技術所有人：北大方正集團有限公司;北京大學;北京北大方正電子有限公司;
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)更新方法及裝置的制造方法
上一篇：移動終端和控制該終端的方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

微博熱點話題相關技術

2017微博熱點話題相關技術

2017年微博熱點話題相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

微博熱點話題自動檢測方法及裝置的制造方法