判斷,若滿足Ds(cws U wj)彡Ds(cws)/2,則將關(guān)鍵 詞wj并入當(dāng)前關(guān)鍵詞組,直至沒有關(guān)鍵詞能夠并入所述當(dāng)前關(guān)鍵詞組為止,將所述當(dāng)前關(guān) 鍵詞組作為所述候選關(guān)鍵詞簇; 其中,Ds (cws U wj) = (Ds (cws)+max (cws, wj))/(cws. size+1),Ds (cws U wj)為當(dāng)前 關(guān)鍵詞組中并入關(guān)鍵詞wj后的密度值,max (cws, wj)為cws中所包含的關(guān)鍵詞和關(guān)鍵詞wj 之間的最大卡方統(tǒng)計值; S404:判斷是否已經(jīng)遍歷了除被并入的關(guān)鍵詞組外的所有關(guān)鍵詞組,若是,則執(zhí)行步驟 S5,否則返回步驟S401。
9. 如權(quán)利要求1所述的方法,其特征在于,步驟S4和S5之間包括: 遍歷所述微博文本,判斷當(dāng)前微博文本是否滿足條件一或條件二,若是,則將所述當(dāng)前 微博文本作為與所述候選關(guān)鍵詞簇T對應(yīng)的微博文本,并將所述候選關(guān)鍵詞簇T對應(yīng)的微 博文本的數(shù)量加1,以獲得每個候選關(guān)鍵詞簇對應(yīng)的微博文本的數(shù)量,所述命名實(shí)體包括: 人名、地名和機(jī)構(gòu)名,所述條件一為包含某一候選關(guān)鍵詞簇T中的命名實(shí)體,所述條件二為 包含所述候選關(guān)鍵詞簇T中關(guān)鍵詞總數(shù)預(yù)設(shè)比例p的關(guān)鍵詞; 步驟S5中通過以下公式計算每個候選關(guān)鍵詞簇所代表話題的熱度值,
其中,H(topic)為熱度值,n為與候選關(guān)鍵詞簇對應(yīng)的微博文本的數(shù)量,d〇Ci為第i個 與候選關(guān)鍵詞簇對應(yīng)的微博文本,len(*)為文本長度,f?為轉(zhuǎn)發(fā)數(shù),c為評論數(shù)。
10. 如權(quán)利要求1?9中任一項(xiàng)所述的方法,其特征在于,步驟S5之后還包括: S6 :獲取每個熱點(diǎn)話題的話題摘要; 步驟S6包括: 5601 :將所述熱點(diǎn)話題所對應(yīng)的微博文本通過下式根據(jù)文本長度和所包含關(guān)鍵詞的個 數(shù)進(jìn)行打分, Score (doc;) = log (len (doc;)) *count (keyword) 其中,ScoreWoCi)為第i個微博文本的得分,lenWoCi)為第i個微博文本的長度, count (keyword)為第i個微博文本所包含關(guān)鍵詞的個數(shù); 5602 :選擇每個熱點(diǎn)話題所對應(yīng)的微博文本中打分最高的微博文本; 5603 :判斷當(dāng)前打分最高的微博文本中是否具有標(biāo)題標(biāo)識符【】,若是,則將所述標(biāo) 題標(biāo)識符所包含的內(nèi)容作為當(dāng)前熱點(diǎn)話題的話題摘要,并執(zhí)行步驟S606,否則執(zhí)行步驟 S604 ; S604:判斷當(dāng)前打分最高的微博文本中是否具有話題標(biāo)識符□,若是,則將所述話 題標(biāo)識符所包含的內(nèi)容作為當(dāng)前熱點(diǎn)話題的話題摘要,并執(zhí)行步驟S606,否則執(zhí)行步驟 S605 ; 5605 :計算當(dāng)前打分最高的微博文本中的每個句子的權(quán)重,并選取所有微博中權(quán)重最 大的句子作為當(dāng)前熱點(diǎn)話題的話題摘要; 5606 :判斷所有熱點(diǎn)話題的話題摘要是否均已獲得,若是,則結(jié)束流程,否則返回步驟 S603。
11. 一種微博熱點(diǎn)話題自動檢測裝置,其特征在于,所述裝置包括: 文本抓取模塊,用于抓取待檢測的微博文本; 關(guān)鍵詞提取模塊,用于對所述微博文本進(jìn)行關(guān)鍵詞提?。? 關(guān)鍵詞組獲取模塊,用于根據(jù)各個關(guān)鍵詞之間的相關(guān)性,獲取關(guān)鍵詞組; 關(guān)鍵詞組聚類模塊,用于根據(jù)各個關(guān)鍵詞組之間的相關(guān)性,對所述關(guān)鍵詞組進(jìn)行聚類, 以獲得候選關(guān)鍵詞族; 熱點(diǎn)話題獲取模塊,用于計算每個候選關(guān)鍵詞簇所代表話題的熱度值,根據(jù)所述熱度 值對所述候選關(guān)鍵詞簇進(jìn)行排序,按照所述熱度值從大到小順序在所述候選關(guān)鍵詞簇中選 擇N個關(guān)鍵詞簇,并將所述N個關(guān)鍵詞簇分別代表的話題作為熱點(diǎn)話題,所述N為不小于1 的整數(shù)。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:預(yù)處理模塊,用于對所 述微博文本進(jìn)行預(yù)處理,所述預(yù)處理包括:噪聲過濾和/或文本去重。
13. 如權(quán)利要求11所述的裝置,其特征在于,所述關(guān)鍵詞提取模塊包括: 分詞處理子模塊,用于對所述微博文本進(jìn)行分詞處理,以獲得所述微博文本中所有的 詞語,對所述詞語進(jìn)行詞性標(biāo)注,并統(tǒng)計所述詞語的頻次和文檔頻率; 第一權(quán)重值計算子模塊,用于根據(jù)所述詞語的頻次、文檔頻率及詞性計算每個詞語的 權(quán)重值; 排序子模塊,用于根據(jù)所述權(quán)重值對所述詞語進(jìn)行排序,選取為預(yù)設(shè)詞性并且不在停 用詞表中的詞語作為候選關(guān)鍵詞,所述預(yù)設(shè)詞性包括:形容詞、動詞、簡稱、地名、人名、機(jī)構(gòu) 名和專有名詞; 關(guān)鍵詞選擇子模塊,用于按照權(quán)重值從大到小順序在所述候選關(guān)鍵詞中選擇預(yù)設(shè)個數(shù) m的關(guān)鍵詞。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述權(quán)重值計算子模塊包括: 用戶詞典獲取單元,用于根據(jù)當(dāng)前用戶所關(guān)注的領(lǐng)域獲取用戶詞典; 權(quán)重值計算單元,用于根據(jù)所述詞語的頻次、文檔頻率及詞性并結(jié)合所述用戶詞典計 算每個詞語的權(quán)重值。
15. 如權(quán)利要求13所述的裝置,其特征在于,所述關(guān)鍵詞選擇子模塊中,當(dāng)所述候選關(guān) 鍵詞的數(shù)量w小于所述預(yù)設(shè)個數(shù)m時,則將所述候選關(guān)鍵詞作為關(guān)鍵詞,并按照權(quán)重值從大 到小順序在除所述候選關(guān)鍵詞外的詞語中選擇mi個詞語作為關(guān)鍵詞。
16. 如權(quán)利要求11所述的裝置,其特征在于,所述關(guān)鍵詞組獲取模塊包括: 距離判斷子模塊,用于遍歷所述微博文本,在當(dāng)前微博文本內(nèi)具有兩個關(guān)鍵詞時,則將 所述兩個關(guān)鍵詞作為關(guān)鍵詞對,并依次判斷所述當(dāng)前微博文本內(nèi)各個關(guān)鍵詞對之間的距離 是否為預(yù)設(shè)距離,每次判斷為是,則將該關(guān)鍵詞對的同現(xiàn)頻度加1,以獲得每個關(guān)鍵詞對的 同現(xiàn)頻度; 卡方計算子模塊,用于根據(jù)所述同現(xiàn)頻度計算每個關(guān)鍵詞對之間的卡方統(tǒng)計量; 關(guān)鍵詞組選擇子模塊,用于根據(jù)所述卡方統(tǒng)計量對所述關(guān)鍵詞對進(jìn)行排序,按照卡方 統(tǒng)計量從大到小順序在所述關(guān)鍵詞對之中選擇預(yù)設(shè)個數(shù)q的關(guān)鍵詞對作為關(guān)鍵詞組。
17. 如權(quán)利要求16所述的裝置,其特征在于,所述關(guān)鍵詞組選擇子模塊中,選擇關(guān)鍵詞 對時,對于同一個關(guān)鍵詞,只能被選擇預(yù)設(shè)次數(shù)x。
18. 如權(quán)利要求11所述的裝置,其特征在于,所述關(guān)鍵詞組聚類模塊包括: 初始子模塊,用于設(shè)當(dāng)前關(guān)鍵詞組中包括關(guān)鍵詞和《2,并將當(dāng)前關(guān)鍵詞組的密度值 設(shè)為關(guān)鍵詞wl和關(guān)鍵詞w2的卡方統(tǒng)計值; 第一并入子模塊,用于分別遍歷關(guān)鍵詞和關(guān)鍵詞所在的其他關(guān)鍵詞 組,設(shè)所述其他關(guān)鍵詞組中的待并入關(guān)鍵詞為wi,對關(guān)鍵詞wi進(jìn)行判斷,若滿足 Ds (cws U wi)彡Ds (cws)/2,則將關(guān)鍵詞wi并入當(dāng)前關(guān)鍵詞組; 其中,Ds (cws U wi) = (Ds (cws) +max (cws,wi)) / (cws. size+1),cws 為當(dāng)前詞組, Ds(cws U wi)為當(dāng)前關(guān)鍵詞組中并入關(guān)鍵詞wi后的密度值,Ds(cws)為所述當(dāng)前關(guān)鍵詞組 的密度值,cws. size為所述當(dāng)前關(guān)鍵詞組中關(guān)鍵詞的個數(shù),max(cws,wi)為cws中所包含的 關(guān)鍵詞和關(guān)鍵詞wi之間的最大卡方統(tǒng)計值; 第二并入子模塊,用于遍歷已并入當(dāng)前關(guān)鍵詞組中的關(guān)鍵詞wi所在的關(guān)鍵 詞組,設(shè)所述關(guān)鍵詞組中的待并入關(guān)鍵詞為Wj,對關(guān)鍵詞wj進(jìn)行判斷,若滿足 Ds(cws U wj)彡Ds(cws)/2,則將關(guān)鍵詞wj并入當(dāng)前關(guān)鍵詞組,直至沒有關(guān)鍵詞能夠并入 所述當(dāng)前關(guān)鍵詞組為止,將所述當(dāng)前關(guān)鍵詞組作為所述候選關(guān)鍵詞簇; 其中,Ds (cws U wj) = (Ds (cws)+max (cws, wj))/(cws. size+1),Ds (cws U wj)為當(dāng)前 關(guān)鍵詞組中并入關(guān)鍵詞wj后的密度值,max (cws, wj)為cws中所包含的關(guān)鍵詞和關(guān)鍵詞wj 之間的最大卡方統(tǒng)計值; 第一判斷子模塊,用于判斷是否已經(jīng)遍歷了除被并入的關(guān)鍵詞組外的所有關(guān)鍵詞組。
19. 如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括: 文本對應(yīng)模塊,用于遍歷所述微博文本,判斷當(dāng)前微博文本是否滿足條件一或條件二, 若是,則將所述當(dāng)前微博文本作為與所述候選關(guān)鍵詞簇T對應(yīng)的微博文本,并將所述候選 關(guān)鍵詞簇T對應(yīng)的微博文本的數(shù)量加1,以獲得每個候選關(guān)鍵詞簇對應(yīng)的微博文本的數(shù)量, 所述命名實(shí)體包括:人名、地名和機(jī)構(gòu)名,所述條件一為包含某一候選關(guān)鍵詞簇T中的命名 實(shí)體,所述條件二為包含所述候選關(guān)鍵詞簇T中關(guān)鍵詞總數(shù)預(yù)設(shè)比例p的關(guān)鍵詞; 所述熱點(diǎn)話題獲取模塊中通過以下公式計算每個候選關(guān)鍵詞簇所代表話題的熱度值,
其屮,H(topic)為熱度值,n為與候選夫鍵詞簇對應(yīng)的微博文本的數(shù)量,d〇Ci為第i個 與候選關(guān)鍵詞簇對應(yīng)的微博文本,len(*)為文本長度,f?為轉(zhuǎn)發(fā)數(shù),c為評論數(shù)。
20. 如權(quán)利要求11?19中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 話題摘要獲取模塊,用于獲取每個熱點(diǎn)話題的話題摘要; 所述話題摘要獲取模塊包括: 打分子模塊,用于將所述熱點(diǎn)話題所對應(yīng)的微博文本通過下式根據(jù)文本長度和所包含 關(guān)鍵詞的個數(shù)進(jìn)行打分, Score (doc;) = log (len (doc;)) *count (keyword) 其中,ScoreWoCi)為第i個微博文本的得分,lenWoCi)為第i個微博文本的長度, count (keyword)為第i個微博文本所包含關(guān)鍵詞的個數(shù); 選擇子模塊,用于選擇每個熱點(diǎn)話題所對應(yīng)的微博文本中打分最高的微博文本; 第二判斷子模塊,用于判斷當(dāng)前打分最高的微博文本中是否具有標(biāo)題標(biāo)識符【】,若是, 則將所述標(biāo)題標(biāo)識符所包含的內(nèi)容作為當(dāng)前熱點(diǎn)話題的話題摘要; 第三判斷子模塊,用于判斷當(dāng)前打分最高的微博文本中是否具有話題標(biāo)識符□,若是, 則將所述話題標(biāo)識符所包含的內(nèi)容作為當(dāng)前熱點(diǎn)話題的話題摘要; 第二權(quán)重值計算子模塊,用于計算當(dāng)前打分最高的微博文本中的每個句子的權(quán)重,并 選取所有微博中權(quán)重最大的句子作為當(dāng)前熱點(diǎn)話題的話題摘要; 第四判斷子模塊,用于判斷所有熱點(diǎn)話題的話題摘要是否均已獲得。
【專利摘要】本發(fā)明公開了一種微博熱點(diǎn)話題自動檢測方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,本發(fā)明通過對待檢測的微博文本依次進(jìn)行關(guān)鍵詞提取、關(guān)鍵詞組獲取及關(guān)鍵詞組聚類,以獲得候選關(guān)鍵詞簇,最后計算各個候選關(guān)鍵詞簇所對應(yīng)話題的熱度值并根據(jù)熱度值選擇熱點(diǎn)話題,減小了熱點(diǎn)話題檢測的復(fù)雜度,并實(shí)現(xiàn)有效的熱點(diǎn)話題檢測。
【IPC分類】G06F17-30
【公開號】CN104615593
【申請?zhí)枴緾N201310536067
【發(fā)明人】趙立永, 于曉明, 楊建武
【申請人】北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
【公開日】2015年5月13日
【申請日】2013年11月1日