專(zhuān)利名稱(chēng):微博熱點(diǎn)話題挖掘裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)通信領(lǐng)域,特別是涉及一種微博熱點(diǎn)話題挖掘裝置及方法。
背景技術(shù):
在現(xiàn)有技術(shù)中,隨著互聯(lián)網(wǎng)的發(fā)展,微博成為人們獲取信息、交流信息的重要渠道,大量網(wǎng)民在微博中發(fā)表自己的意見(jiàn)和爆料各類(lèi)新聞,每天有成千上萬(wàn)的話題從微博上產(chǎn)生,如何更快速的從微博海量信息中獲取網(wǎng)民熱點(diǎn)將對(duì)了解社會(huì)發(fā)展形勢(shì)、掌握輿論動(dòng)態(tài)起到指導(dǎo)性作用。目前普遍采用的微博熱點(diǎn)挖掘方法是通過(guò)對(duì)特定時(shí)間段內(nèi)微博話題下的微博數(shù)量進(jìn)行對(duì)比,通過(guò)數(shù)量排序得到最熱微博話題,微博數(shù)量越多說(shuō)明話題越活躍。但是,上述 技術(shù)方案存在以下問(wèn)題由于上述技術(shù)方案僅對(duì)單一話題的微博數(shù)量進(jìn)行統(tǒng)計(jì),因此容易對(duì)水軍暴力發(fā)布的話題誤判為熱點(diǎn)話題;并且,上述技術(shù)方案沒(méi)有考慮為微博轉(zhuǎn)發(fā)數(shù)和微博評(píng)論數(shù)對(duì)微博話題的因素,導(dǎo)致有些評(píng)論熱烈的微博話題被忽略,此外,上述技術(shù)方案也沒(méi)有考慮微博認(rèn)證用戶(即,加V用戶)的因素,認(rèn)證用戶參與越多的事件越是熱門(mén)話題,綜上,現(xiàn)有技術(shù)中的上述技術(shù)方案并不能夠全面準(zhǔn)確的挖掘出微博熱點(diǎn)話題。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的微博熱點(diǎn)話題挖掘裝置及方法。本發(fā)明提供一種微博熱點(diǎn)話題挖掘裝置,包括采集模塊,適于通過(guò)開(kāi)放接口采集微博信息,其中,微博信息包括微博內(nèi)容、以及微博參數(shù);抽取模塊,適于對(duì)采集的微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;計(jì)算模塊,適于對(duì)涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取熱門(mén)關(guān)鍵詞組的熱度值;排序模塊,適于對(duì)熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行??蛇x地,采集模塊進(jìn)一步適于通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息??蛇x地,上述裝置還包括分類(lèi)模塊,適于根據(jù)采集的微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別??蛇x地,上述抽取模塊進(jìn)一步適于對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。可選地,上述抽取模塊進(jìn)一步適于從采集的各微博類(lèi)別下的微博內(nèi)容中提取一個(gè)或多個(gè)中心詞;對(duì)從同一微博內(nèi)容中提取的中心詞進(jìn)行排序,并將排序后的中心詞進(jìn)行組合,獲取中心詞組;統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)微博數(shù)量從中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。可選地,上述抽取模塊進(jìn)一步包括過(guò)濾子模塊,適于根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從中心詞組中過(guò)濾垃圾詞組。
可選地,上述計(jì)算模塊進(jìn)一步適于對(duì)同一微博類(lèi)別下涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值??蛇x地,上述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)??蛇x地,上述計(jì)算模塊進(jìn)一步適于根據(jù)以下公式分別獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系
數(shù)。 可選地,上述排序模塊進(jìn)一步適于對(duì)各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行??蛇x地,上述裝置還包括獲取模塊,適于獲取微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;顯示模塊,適于根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。本發(fā)明還提供了一種微博熱點(diǎn)話題挖掘方法,包括通過(guò)開(kāi)放接口采集微博信息,其中,微博信息包括微博內(nèi)容、以及微博參數(shù);對(duì)采集的微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;對(duì)涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取熱門(mén)關(guān)鍵詞組的熱度值;對(duì)熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行??蛇x地,上述采集微博信息進(jìn)一步包括通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息。可選地,采集微博信息之后,上述方法還包括根據(jù)采集的微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別??蛇x地,上述對(duì)采集的微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組進(jìn)一步包括對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組??蛇x地,上述對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組進(jìn)一步包括從采集的各微博類(lèi)別下的微博內(nèi)容中提取一個(gè)或多個(gè)中心詞;對(duì)從同一微博內(nèi)容中提取的中心詞進(jìn)行排序,并將排序后的中心詞進(jìn)行組合,獲取中心詞組;統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)微博數(shù)量從中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。可選地,將排序后的中心詞進(jìn)行組合,獲取中心詞組之后,上述方法還包括根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從中心詞組中過(guò)濾垃圾詞組。可選地,上述對(duì)涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括對(duì)同一微博類(lèi)別下涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值。可選地,上述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)??蛇x地,上述根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括根據(jù)以下公式分別獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)??蛇x地,上述對(duì)熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行進(jìn)一步包括對(duì)各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行。可選地,獲取微博熱點(diǎn)話題排行之后,上述方法還包括獲取微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。
·
本發(fā)明有益效果如下通過(guò)根據(jù)采集的微博內(nèi)容進(jìn)行熱詞計(jì)算,并根據(jù)獲取的微博參數(shù)對(duì)計(jì)算出的熱詞進(jìn)行熱度計(jì)算,從而能夠準(zhǔn)確地判斷出微博的熱門(mén)話題,使挖掘結(jié)果更能反映互聯(lián)網(wǎng)輿論的客觀事實(shí)。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式
。
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I是本發(fā)明一個(gè)實(shí)施例的微博熱點(diǎn)話題挖掘裝置的結(jié)構(gòu)示意圖;圖2是本發(fā)明一個(gè)實(shí)施例的抽取模塊的處理流程的示意圖;圖3是本發(fā)明一個(gè)實(shí)施例的微博參數(shù)和權(quán)重系數(shù)對(duì)應(yīng)關(guān)系的示意圖;圖4是本發(fā)明一個(gè)實(shí)施例的微博熱點(diǎn)話題挖掘方法的流程圖。
具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。為了快速挖掘微博上近期發(fā)生的熱點(diǎn)話題,解決從海量微博數(shù)據(jù)中挖掘出微博熱點(diǎn)的難題,本發(fā)明提供了一種微博熱點(diǎn)話題挖掘裝置及方法,本發(fā)明實(shí)施例利用文本自動(dòng)分類(lèi)技術(shù)、熱詞計(jì)算技術(shù)、以及熱度計(jì)算技術(shù)進(jìn)行微博熱點(diǎn)話題的挖掘。其中,文本自動(dòng)分類(lèi)是指利用機(jī)器學(xué)習(xí)的原理依靠小樣本學(xué)習(xí)后的模型參數(shù)對(duì)文本集(或其他實(shí)體或物件)按照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記;熱詞計(jì)算技術(shù)是指自動(dòng)對(duì)實(shí)時(shí)采集的網(wǎng)頁(yè)文本進(jìn)行分詞、分組歸并,計(jì)算高頻熱點(diǎn)關(guān)鍵詞,并按照預(yù)定義的詞庫(kù)和預(yù)設(shè)規(guī)則進(jìn)行過(guò)濾,輸出實(shí)時(shí)互聯(lián)網(wǎng)熱點(diǎn)詞匯。熱度計(jì)算技術(shù)是指自動(dòng)對(duì)微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、加V參與人數(shù)等參數(shù)進(jìn)行統(tǒng)計(jì)計(jì)算,并按照預(yù)定義規(guī)則,輸出話題的熱度值。以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。根據(jù)本發(fā)明的實(shí)施例,提供了一種微博熱點(diǎn)話題挖掘裝置,圖I是本發(fā)明一個(gè)實(shí)施例的微博熱點(diǎn)話題挖掘裝置的結(jié)構(gòu)示意圖,如圖I所示,根據(jù)本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘裝置包括采集模塊10、抽取模塊12、計(jì)算模塊14、以及排序模塊16,以下對(duì)本發(fā)明實(shí)施例的各個(gè)模塊進(jìn)行詳細(xì)的說(shuō)明。采集模塊10,適于通過(guò)開(kāi)放接口采集微博信息,其中,微博信息包括微博內(nèi)容、以及微博參數(shù);上述微博參數(shù)可以包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶(即加V用戶)轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。在實(shí)際應(yīng)用中,微博參 數(shù)還可以包括微博博主信息、微博發(fā)布時(shí)間信息等。具體地,采集模塊10可以通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微
博信息。在實(shí)際應(yīng)用中,不同的微博分類(lèi)有不同的熱門(mén)話題,不同分類(lèi)的話題熱度也不同,例如,財(cái)經(jīng)領(lǐng)域微博的熱門(mén)話題熱度比娛樂(lè)八卦類(lèi)微博的熱門(mén)話題熱度要低很多。這就需要對(duì)微博話題進(jìn)行分類(lèi),使用戶能夠按照不同的微博分類(lèi)查看微博熱點(diǎn)。優(yōu)選地,在本發(fā)明實(shí)施例中,為了夠更有針對(duì)性的反映某一領(lǐng)域(例如,軍事、政治、民生、社會(huì)、國(guó)際、娛樂(lè)等)的微博熱點(diǎn)話題,根據(jù)本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘裝置還包括分類(lèi)模塊,適于根據(jù)采集的微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。以便其他模塊在進(jìn)行后續(xù)處理時(shí),可以針對(duì)不同類(lèi)型的微博分別進(jìn)行熱點(diǎn)話題的挖掘。如上所述,本發(fā)明實(shí)施例采用自動(dòng)聚類(lèi)的方法來(lái)微博分類(lèi),其中,自動(dòng)聚類(lèi)是指由計(jì)算機(jī)按照被考察對(duì)象的內(nèi)部或外部特征,根據(jù)一定的要求(例如,類(lèi)別的數(shù)量限制,同類(lèi)對(duì)象的親近程度等),將相近、相似或相同特征的對(duì)象聚合在一起的過(guò)程。對(duì)微博內(nèi)容進(jìn)行自動(dòng)分類(lèi)可以分成汽車(chē)類(lèi)微博、娛樂(lè)類(lèi)微博、財(cái)經(jīng)類(lèi)微博等。抽取模塊12,適于對(duì)采集的微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;基于分類(lèi)模塊的分類(lèi)處理,抽取模塊12需要對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。具體地,抽取模塊12需要進(jìn)行如下處理首先從采集的各微博類(lèi)別下的微博內(nèi)容中提取一個(gè)或多個(gè)中心詞,也就是說(shuō),一個(gè)微博可能有多個(gè)中心詞;隨后,對(duì)從同一微博內(nèi)容中提取的中心詞進(jìn)行排序,例如,一個(gè)微博抽出的中心詞是bca,排序后變成abc ;在排序后,將中心詞進(jìn)行組合,獲取中心詞組;其中,進(jìn)行中心詞組合是指根據(jù)G將屬于同一個(gè)微博內(nèi)容的排序后的中心詞進(jìn)行組合,其中,η為屬于同一個(gè)文本標(biāo)題的中心詞的總個(gè)數(shù),!■彡η且2彡!■彡5,例如,組合公式為C +C+Cl +Cl,可以只保留2-5個(gè)中心詞組;最后,抽取模塊12需要統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)微博數(shù)量從中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。例如,抽取模塊12在匯總統(tǒng)計(jì)分析所有的中心詞組時(shí),可以按小時(shí)統(tǒng)計(jì)中心詞組的出現(xiàn)數(shù)量,找出熱門(mén)關(guān)鍵詞組,這些熱門(mén)關(guān)鍵詞組背后就是微博的熱門(mén)話題。抽取模塊12在匯總統(tǒng)計(jì)分析所有的關(guān)鍵詞組時(shí),可以形成一個(gè)熱門(mén)關(guān)鍵詞組排行榜,統(tǒng)計(jì)每個(gè)熱門(mén)關(guān)鍵詞組背后的微博數(shù)量并按微博數(shù)量降序排列。在本發(fā)明實(shí)施例中,抽取模塊12還可以進(jìn)一步包括過(guò)濾子模塊,適于根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從中心詞組中過(guò)濾垃圾詞組。例如,去掉如中獎(jiǎng)、咨詢(xún)類(lèi)的垃圾詞組,其中,上述垃圾詞組數(shù)據(jù)庫(kù)由運(yùn)維人員在管理后臺(tái)維護(hù)。以下結(jié)合附圖,對(duì)上述抽取模塊12的處理進(jìn)行舉例說(shuō)明。圖2是本發(fā)明一個(gè)實(shí)施例的抽取模塊的處理流程的示意圖,如圖2所示微博一抽出中心詞b、a、c,排序后a、b、c,形成詞組ab、be、ac、abc ;微博二 抽出中心詞C、b、d,排序后b、C、d,形成詞組be、cd、bd、bed ; 微博三抽出中心詞b、c形成詞組be ;那么這三個(gè)微博形成的詞組排行就是be (3)、ab (l)、ac (l)、cd (l)、bd (I)、abc (l)、bcd (I),從而確定熱門(mén)關(guān)鍵詞組為b+c。計(jì)算模塊14,適于對(duì)涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取熱門(mén)關(guān)鍵詞組的熱度值;具體地,計(jì)算模塊14需要對(duì)同一微博類(lèi)別下涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值。也就是說(shuō),通過(guò)熱詞計(jì)算得到熱門(mén)關(guān)鍵詞組后,計(jì)算模塊14需要計(jì)算這些熱門(mén)關(guān)鍵詞組背后的微博參數(shù),綜合微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、加V參與人數(shù)等微博參數(shù)進(jìn)行統(tǒng)計(jì)計(jì)算,并按照預(yù)定義規(guī)則,輸出話題的熱度值。具體地,在微博參數(shù)包括微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶(即加V用戶)轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)的情況下,計(jì)算模塊14根據(jù)以下公式分別獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。以下結(jié)合附圖,對(duì)計(jì)算模塊14計(jì)算熱門(mén)關(guān)鍵詞組的熱度值的處理過(guò)程進(jìn)行舉例說(shuō)明。圖3是本發(fā)明一個(gè)實(shí)施例的微博參數(shù)和權(quán)重系數(shù)對(duì)應(yīng)關(guān)系的示意圖,如圖3所示,計(jì)算模塊14的熱門(mén)關(guān)鍵詞組的熱度值計(jì)算公式如下話題熱度=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量+微博總轉(zhuǎn)發(fā)數(shù)+微博總評(píng)論數(shù)X2+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)X 10+微博認(rèn)證用戶評(píng)論數(shù)X20。例如釣魚(yú)島反日游行事件,抽取到的中心詞組是“釣魚(yú)島+反日游行”,背后共有10000篇微博,這些微博轉(zhuǎn)數(shù)累計(jì)是300000,評(píng)論數(shù)累計(jì)是200000,其中加V轉(zhuǎn)發(fā)數(shù)是2000,加V評(píng)論數(shù)是1000,則釣魚(yú)島話題熱度=10000+300000+200000X2+2000X10+1000X20 ;需要說(shuō)明的是,不同分類(lèi)的話題也是同樣的計(jì)算方法,S卩,將所屬分類(lèi)的熱門(mén)關(guān)鍵詞組背后的微博參數(shù)進(jìn)行統(tǒng)計(jì)。
排序模塊16,適于對(duì)熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。具體地,排序模塊16需要對(duì)各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行。優(yōu)選地,為了便于用戶查看每個(gè)熱門(mén)話題背后的微博內(nèi)容、看到討論該微博話題的各個(gè)微博、以及查看加V用戶發(fā)布的微博,本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘裝置還可以包括獲取模塊,適于獲取微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;顯示模塊,適于根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。綜上所述,借助于本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)根據(jù)采集的微博內(nèi)容進(jìn)行熱詞 計(jì)算,并根據(jù)獲取的微博參數(shù)對(duì)計(jì)算出的熱詞進(jìn)行熱度計(jì)算,從而能夠準(zhǔn)確地判斷出微博的熱門(mén)話題,使挖掘結(jié)果更能反映互聯(lián)網(wǎng)輿論的客觀事實(shí),此外,通過(guò)自動(dòng)分類(lèi)技術(shù)對(duì)微博進(jìn)行分類(lèi),能夠更有針對(duì)性的反映某一領(lǐng)域(如軍事、政治、民生、社會(huì)、國(guó)際、娛樂(lè)等)的微博熱點(diǎn)話題。根據(jù)本發(fā)明的實(shí)施例,提供了一種微博熱點(diǎn)話題挖掘方法,圖4是本發(fā)明一個(gè)實(shí)施例的微博熱點(diǎn)話題挖掘方法的流程圖,如圖4所示,根據(jù)本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘方法包括如下處理步驟401,通過(guò)開(kāi)放接口采集微博信息,其中,所述微博信息包括微博內(nèi)容、以及微博參數(shù);上述微博參數(shù)可以包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶(即加V用戶)轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。在實(shí)際應(yīng)用中,微博參數(shù)還可以包括微博博主信息、微博發(fā)布時(shí)間信息等。具體地,在步驟401中,可以通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的
微博信息。在實(shí)際應(yīng)用中,不同的微博分類(lèi)有不同的熱門(mén)話題,不同分類(lèi)的話題熱度也不同,例如,財(cái)經(jīng)領(lǐng)域微博的熱門(mén)話題熱度比娛樂(lè)八卦類(lèi)微博的熱門(mén)話題熱度要低很多。這就需要對(duì)微博話題進(jìn)行分類(lèi),使用戶能夠按照不同的微博分類(lèi)查看微博熱點(diǎn)。優(yōu)選地,在本發(fā)明實(shí)施例中,為了夠更有針對(duì)性的反映某一領(lǐng)域(例如,軍事、政治、民生、社會(huì)、國(guó)際、娛樂(lè)等)的微博熱點(diǎn)話題,采集微博信息之后,可以根據(jù)采集的所述微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。以便在進(jìn)行后續(xù)處理時(shí),可以針對(duì)不同類(lèi)型的微博分別進(jìn)行熱點(diǎn)話題的挖掘。如上所述,本發(fā)明實(shí)施例采用自動(dòng)聚類(lèi)的方法來(lái)微博分類(lèi),其中,自動(dòng)聚類(lèi)是指由計(jì)算機(jī)按照被考察對(duì)象的內(nèi)部或外部特征,根據(jù)一定的要求(例如,類(lèi)別的數(shù)量限制,同類(lèi)對(duì)象的親近程度等),將相近、相似或相同特征的對(duì)象聚合在一起的過(guò)程。對(duì)微博內(nèi)容進(jìn)行自動(dòng)分類(lèi)可以分成汽車(chē)類(lèi)微博、娛樂(lè)類(lèi)微博、財(cái)經(jīng)類(lèi)微博等。步驟402,對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;基于上述微博分類(lèi)處理,在步驟402中,需要對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。具體地,步驟402需要進(jìn)行如下處理首先從采集的各微博類(lèi)別下的微博內(nèi)容中提取一個(gè)或多個(gè)中心詞,也就是說(shuō),一個(gè)微博可能有多個(gè)中心詞;隨后,對(duì)從同一微博內(nèi)容中提取的中心詞進(jìn)行排序,例如,一個(gè)微博抽出的中心詞是bca,排序后變成abc ;在排序后,將中心詞進(jìn)行組合,獲取中心詞組;其中,進(jìn)行中心詞組合是指根據(jù)Q將屬于同一個(gè)微博內(nèi)容的排序后的中心詞進(jìn)行組合,其中,η為屬于同一個(gè)文本標(biāo)題的中心詞的總個(gè)數(shù),r彡η且2彡!■彡5,例如,組合公式為C +C+C^ + Cf,可以只保留2-5個(gè)中心詞組;最后,
需要統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)微博數(shù)量從中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。例如,在匯總統(tǒng)計(jì)分析所有的中心詞組時(shí),可以按小時(shí)統(tǒng)計(jì)中心詞組的出現(xiàn)數(shù)量,找出熱門(mén)關(guān)鍵詞組,這些熱門(mén)關(guān)鍵詞組背后就是微博的熱門(mén)話題。步驟402中,在匯總統(tǒng)計(jì)分析所有的關(guān)鍵詞組時(shí),可以形成一個(gè)熱門(mén)關(guān)鍵詞組排行榜,統(tǒng)計(jì)每個(gè)熱門(mén)關(guān)鍵詞組背后的微博數(shù)量并按微博數(shù)量降序排列。在本發(fā)明實(shí)施例中,將排序后的所述中心詞進(jìn)行組合,獲取中心詞組之后,還可以根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從所述中心詞組中過(guò)濾垃圾詞組。例如,去掉如中獎(jiǎng)、咨詢(xún)類(lèi)的垃圾詞組,其中,上述垃圾詞組數(shù)據(jù)庫(kù)由運(yùn)維人員在管理后臺(tái)維護(hù)。
以下結(jié)合附圖,對(duì)上述步驟402的處理進(jìn)行舉例說(shuō)明。如圖2所示微博一抽出中心詞b、a、c,排序后a、b、c,形成詞組ab、be、ac、abc ;微博二 抽出中心詞C、b、d,排序后b、C、d,形成詞組be、cd、bd、bed ;微博三抽出中心詞b、c形成詞組be ;那么這三個(gè)微博形成的詞組排行就是be (3)、ab (l)、ac (l)、cd (l)、bd (I)、abc (l)、bcd (I),從而確定熱門(mén)關(guān)鍵詞組為b+c。步驟403,對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值;具體地,在步驟403中,需要對(duì)同一微博類(lèi)別下涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值。也就是說(shuō),通過(guò)熱詞計(jì)算得到熱門(mén)關(guān)鍵詞組后,需要計(jì)算這些熱門(mén)關(guān)鍵詞組背后的微博參數(shù),綜合微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、加V參與人數(shù)等微博參數(shù)進(jìn)行統(tǒng)計(jì)計(jì)算,并按照預(yù)定義規(guī)則,輸出話題的熱度值。具體地,在微博參數(shù)包括微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶(即加V用戶)轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)的情況下,可以根據(jù)以下公式分別獲取各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。以下結(jié)合附圖,對(duì)步驟403中計(jì)算熱門(mén)關(guān)鍵詞組的熱度值的處理過(guò)程進(jìn)行舉例說(shuō)明。如圖3所示,熱門(mén)關(guān)鍵詞組的熱度值計(jì)算公式如下話題熱度=涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量+微博總轉(zhuǎn)發(fā)數(shù)+微博總評(píng)論數(shù)X2+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)X 10+微博認(rèn)證用戶評(píng)論數(shù)X20。例如釣魚(yú)島反日游行事件,抽取到的中心詞組是“釣魚(yú)島+反日游行”,背后共有10000篇微博,這些微博轉(zhuǎn)數(shù)累計(jì)是300000,評(píng)論數(shù)累計(jì)是200000,其中加V轉(zhuǎn)發(fā)數(shù)是2000,加V評(píng)論數(shù)是1000,則釣魚(yú)島話題熱度=10000+300000+200000X2+2000X10+1000X20 ;需要說(shuō)明的是,不同分類(lèi)的話題也是同樣的計(jì)算方法,S卩,將所屬分類(lèi)的熱門(mén)關(guān)鍵詞組背后的微博參數(shù)進(jìn)行統(tǒng)計(jì)。步驟404,對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。具體地,在步驟404中,需要對(duì)各微博類(lèi)別下熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行。優(yōu)選地,為了便于用戶查看每個(gè)熱門(mén)話題背后的微博內(nèi)容、看到討論該微博話題的各個(gè)微博、以及查看加V用戶發(fā)布的微博,在獲取微博熱點(diǎn)話題排行之后,根據(jù)本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘方法還包括
·
獲取所述微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。綜上所述,借助于本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)根據(jù)采集的微博內(nèi)容進(jìn)行熱詞計(jì)算,并根據(jù)獲取的微博參數(shù)對(duì)計(jì)算出的熱詞進(jìn)行熱度計(jì)算,從而能夠準(zhǔn)確地判斷出微博的熱門(mén)話題,使挖掘結(jié)果更能反映互聯(lián)網(wǎng)輿論的客觀事實(shí),此外,通過(guò)自動(dòng)分類(lèi)技術(shù)對(duì)微博進(jìn)行分類(lèi),能夠更有針對(duì)性的反映某一領(lǐng)域(如軍事、政治、民生、社會(huì)、國(guó)際、娛樂(lè)等)的微博熱點(diǎn)話題。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式
的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式
,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP )來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的微博熱點(diǎn)話題挖掘裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。 應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱(chēng)。本文公開(kāi)了 Al、一種微博熱點(diǎn)話題挖掘裝置,其特征在于,包括采集模塊,適于通過(guò)開(kāi)放接口采集微博信息,其中,所述微博信息包括微博內(nèi)容、以及微博參數(shù);抽取模塊,適于對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;計(jì)算模塊,適于對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值;排序模塊,適于對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。A2、如Al所述的裝置,其特征在于,所述采集模塊進(jìn)一步適于通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息。A3、如Al所述的裝置,其特征在于,所述裝置還包括分類(lèi)模塊,適于根據(jù)采集的所述微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。A4、如A3所述的裝置,其特征在于,所述抽取模塊進(jìn)一步適于對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。A5、如A4所述的裝置,其特征在于,所述抽取模塊進(jìn)一步適于從米集的各微博類(lèi)別下的所述微博內(nèi)容中提取一個(gè)或多個(gè)中心詞;對(duì)從同一微博內(nèi)容中提取的所述中心詞進(jìn)行排序,并將排序后的所述中心詞進(jìn)行組合,獲取中心詞組;統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)所述微博數(shù)量從所述中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。A6、如A5所述的裝置,其特征在于,所述抽取模塊進(jìn)一步包括過(guò)濾子模塊,適于根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從所述中心詞組中過(guò)濾垃圾詞組。A7、如A4所述的裝置,其特征在于,所述計(jì)算模塊進(jìn)一步適于對(duì)同一微博類(lèi)別下涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值。AS、如A7所述的裝置,其特征在于,所述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。A9、如AS所述的裝置,其特征在于,所述計(jì)算模塊進(jìn)一步適于根據(jù)以下公式分別獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。AlO^n A7所述的裝置,其特征在于,所述排序模塊進(jìn)一步適于對(duì)各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行。AU、如Al所述的裝置,其特征在于,所述裝置還包括獲取模塊,適于獲取所述微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;顯示模塊,適于根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。本文公開(kāi)了 B12、一種微博熱點(diǎn)話題挖掘方法,其特征在于,包括通過(guò)開(kāi)放接口采集微博信息,其中,所述微博信息包括微博內(nèi)容、以及微博參數(shù);對(duì)采集的所述微博內(nèi) 容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值;對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。B13、如B12所述的方法,其特征在于,所述采集微博信息進(jìn)一步包括通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息。B14、如B12所述的方法,其特征在于,所述采集微博信息之后,所述方法還包括根據(jù)采集的所述微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。B15、如B14所述的方法,其特征在于,對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組進(jìn)一步包括對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。B16、如B15所述的方法,其特征在于,對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組進(jìn)一步包括從采集的各微博類(lèi)別下的所述微博內(nèi)容中提取一個(gè)或多個(gè)中心詞;對(duì)從同一微博內(nèi)容中提取的所述中心詞進(jìn)行排序,并將排序后的所述中心詞進(jìn)行組合,獲取中心詞組;統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)所述微博數(shù)量從所述中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。B17、如B16所述的方法,其特征在于,將排序后的所述中心詞進(jìn)行組合,獲取中心詞組之后,所述方法還包括根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從所述中心詞組中過(guò)濾垃圾詞組。B18、如B15所述的方法,其特征在于,對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括對(duì)同一微博類(lèi)別下涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值。B19、如B18所述的方法,其特征在于,所述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。B20、如B19所述的方法,其特征在于,根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括根據(jù)以下公式分別獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。B21、如B18所述的方法,其特征在于,對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行進(jìn)一步包括對(duì)各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以 及總的微博熱點(diǎn)話題排行。B22、如B12所述的方法,其特征在于,獲取微博熱點(diǎn)話題排行之后,所述方法還包括獲取所述微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。
權(quán)利要求
1.一種微博熱點(diǎn)話題挖掘裝置,其特征在于,包括 采集模塊,適于通過(guò)開(kāi)放接口采集微博信息,其中,所述微博信息包括微博內(nèi)容、以及微博參數(shù); 抽取模塊,適于對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組; 計(jì)算模塊,適于對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值; 排序模塊,適于對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。
2.如權(quán)利要求I所述的裝置,其特征在于,所述采集模塊進(jìn)一步適于通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息。
3.如權(quán)利要求I所述的裝置,其特征在于,所述裝置還包括 分類(lèi)模塊,適于根據(jù)采集的所述微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。
4.如權(quán)利要求3所述的裝置,其特征在于,所述抽取模塊進(jìn)一步適于 對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。
5.如權(quán)利要求4所述的裝置,其特征在于,所述抽取模塊進(jìn)一步適于 從采集的各微博類(lèi)別下的所述微博內(nèi)容中提取一個(gè)或多個(gè)中心詞; 對(duì)從同一微博內(nèi)容中提取的所述中心詞進(jìn)行排序,并將排序后的所述中心詞進(jìn)行組合,獲取中心詞組; 統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)所述微博數(shù)量從所述中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。
6.如權(quán)利要求5所述的裝置,其特征在于,所述抽取模塊進(jìn)一步包括 過(guò)濾子模塊,適于根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從所述中心詞組中過(guò)濾垃圾詞組。
7.如權(quán)利要求4所述的裝置,其特征在于,所述計(jì)算模塊進(jìn)一步適于 對(duì)同一微博類(lèi)別下涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值。
8.如權(quán)利要求7所述的裝置,其特征在于,所述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。
9.如權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算模塊進(jìn)一步適于 根據(jù)以下公式分別獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值 熱門(mén)關(guān)鍵詞組的熱度值=涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。
10.如權(quán)利要求7所述的裝置,其特征在于,所述排序模塊進(jìn)一步適于 對(duì)各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行降序排序,分別獲取各微博類(lèi)別下的微博熱點(diǎn)話題排行、以及總的微博熱點(diǎn)話題排行。
11.如權(quán)利要求I所述的裝置,其特征在于,所述裝置還包括 獲取模塊,適于獲取所述微博熱點(diǎn)話題排行中每個(gè)微博熱點(diǎn)話題所涉及的微博內(nèi)容;顯示模塊,適于根據(jù)用戶請(qǐng)求或者主動(dòng)向用戶顯示相應(yīng)微博熱點(diǎn)話題所涉及的微博內(nèi)容。
12.—種微博熱點(diǎn)話題挖掘方法,其特征在于,包括 通過(guò)開(kāi)放接口采集微博信息,其中,所述微博信息包括微博內(nèi)容、以及微博參數(shù); 對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組; 對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值; 對(duì)所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。
13.如權(quán)利要求12所述的方法,其特征在于,所述采集微博信息進(jìn)一步包括通過(guò)一門(mén)戶微博指定的開(kāi)放接口采集該門(mén)戶微博的微博信息。
14.如權(quán)利要求12所述的方法,其特征在于,所述采集微博信息之后,所述方法還包括 根據(jù)采集的所述微博內(nèi)容采用自動(dòng)聚類(lèi)的方法對(duì)微博進(jìn)行分類(lèi),獲取不同的微博類(lèi)別。
15.如權(quán)利要求14所述的方法,其特征在于,對(duì)采集的所述微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組進(jìn)一步包括 對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。
16.如權(quán)利要求15所述的方法,其特征在于,對(duì)采集的各微博類(lèi)別下的微博內(nèi)容分別進(jìn)行分詞,并分別抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組進(jìn)一步包括 從采集的各微博類(lèi)別下的所述微博內(nèi)容中提取一個(gè)或多個(gè)中心詞; 對(duì)從同一微博內(nèi)容中提取的所述中心詞進(jìn)行排序,并將排序后的所述中心詞進(jìn)行組合,獲取中心詞組; 統(tǒng)計(jì)各微博類(lèi)別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)所述微博數(shù)量從所述中心詞組中抽取出各微博類(lèi)別下的熱門(mén)關(guān)鍵詞組。
17.如權(quán)利要求16所述的方法,其特征在于,將排序后的所述中心詞進(jìn)行組合,獲取中心詞組之后,所述方法還包括 根據(jù)垃圾詞組數(shù)據(jù)庫(kù)從所述中心詞組中過(guò)濾垃圾詞組。
18.如權(quán)利要求15所述的方法,其特征在于,對(duì)涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括 對(duì)同一微博類(lèi)別下涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值。
19.如權(quán)利要求18所述的方法,其特征在于,所述微博參數(shù)進(jìn)一步包括以下一種或幾種組合微博總轉(zhuǎn)發(fā)數(shù)、微博總評(píng)論數(shù)、微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)、以及微博認(rèn)證用戶評(píng)論數(shù)。
20.如權(quán)利要求19所述的方法,其特征在于,根據(jù)所述微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值進(jìn)一步包括 根據(jù)以下公式分別獲取各微博類(lèi)別下所述熱門(mén)關(guān)鍵詞組的熱度值熱門(mén)關(guān)鍵詞組的熱度值=涉及所述熱門(mén)關(guān)鍵詞組的微博數(shù)量*微博數(shù)量權(quán)重系數(shù)+微博總轉(zhuǎn)發(fā)數(shù)*總轉(zhuǎn)發(fā)數(shù)權(quán)重系數(shù)+微博總評(píng)論數(shù)*總評(píng)論數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶轉(zhuǎn)發(fā)數(shù)*認(rèn)證用戶轉(zhuǎn) 發(fā)數(shù)權(quán)重系數(shù)+微博認(rèn)證用戶評(píng)論數(shù)*認(rèn)證用戶評(píng)論數(shù)權(quán)重系數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種微博熱點(diǎn)話題挖掘裝置及方法。該裝置包括采集模塊,適于通過(guò)開(kāi)放接口采集微博信息,其中,微博信息包括微博內(nèi)容、以及微博參數(shù);抽取模塊,適于對(duì)采集的微博內(nèi)容進(jìn)行分詞,并抽取出熱門(mén)關(guān)鍵詞組;計(jì)算模塊,適于對(duì)涉及熱門(mén)關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量、以及相應(yīng)微博的微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取熱門(mén)關(guān)鍵詞組的熱度值;排序模塊,適于對(duì)熱門(mén)關(guān)鍵詞組的熱度值進(jìn)行排序,獲取微博熱點(diǎn)話題排行。借助于本發(fā)明的技術(shù)方案,能夠準(zhǔn)確地判斷出微博的熱門(mén)話題,使挖掘結(jié)果更能反映互聯(lián)網(wǎng)輿論的客觀事實(shí)。
文檔編號(hào)G06F17/30GK102945290SQ20121050786
公開(kāi)日2013年2月27日 申請(qǐng)日期2012年12月3日 優(yōu)先權(quán)日2012年12月3日
發(fā)明者劉曉麗, 林英杰 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司