本發(fā)明涉及網(wǎng)絡(luò)熱點(diǎn)挖掘
技術(shù)領(lǐng)域:
,具體涉及一種高效的網(wǎng)絡(luò)熱點(diǎn)挖掘系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,如何快速?gòu)幕ヂ?lián)網(wǎng)海量信息中獲取網(wǎng)絡(luò)熱點(diǎn),對(duì)于了解社會(huì)發(fā)展形勢(shì)、掌握輿論動(dòng)態(tài)起到指導(dǎo)性作用?,F(xiàn)有熱點(diǎn)挖掘技術(shù)存在挖掘效率低等問(wèn)題。技術(shù)實(shí)現(xiàn)要素:針對(duì)上述問(wèn)題,本發(fā)明旨在提供一種高效的網(wǎng)絡(luò)熱點(diǎn)挖掘系統(tǒng)。本發(fā)明的目的采用以下技術(shù)方案來(lái)實(shí)現(xiàn):提供了一種高效的網(wǎng)絡(luò)熱點(diǎn)挖掘系統(tǒng),包括推薦子系統(tǒng)、存儲(chǔ)子系統(tǒng)、過(guò)濾子系統(tǒng)和熱點(diǎn)挖掘子系統(tǒng),所述推薦子系統(tǒng)采用微博用戶進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)推薦,所述存儲(chǔ)子系統(tǒng)對(duì)微博用戶推薦的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行存儲(chǔ),所述過(guò)濾子系統(tǒng)根據(jù)過(guò)濾規(guī)則對(duì)所述網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行過(guò)濾,并從過(guò)濾后的網(wǎng)絡(luò)數(shù)據(jù)中提取中心詞,所述熱點(diǎn)挖掘子系統(tǒng)用于統(tǒng)計(jì)中心詞的出現(xiàn)次數(shù),出現(xiàn)次數(shù)多的中心詞為網(wǎng)絡(luò)熱點(diǎn)。本發(fā)明的有益效果為:實(shí)現(xiàn)了網(wǎng)絡(luò)熱點(diǎn)高效挖掘。附圖說(shuō)明利用附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明的任何限制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得其它的附圖。圖1是本發(fā)明的結(jié)構(gòu)示意圖;附圖標(biāo)記:推薦子系統(tǒng)1、存儲(chǔ)子系統(tǒng)2、過(guò)濾子系統(tǒng)3、熱點(diǎn)挖掘子系統(tǒng)4。具體實(shí)施方式結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。參見(jiàn)圖1,本實(shí)施例的一種高效的網(wǎng)絡(luò)熱點(diǎn)挖掘系統(tǒng),包括推薦子系統(tǒng)1、存儲(chǔ)子系統(tǒng)2、過(guò)濾子系統(tǒng)3和熱點(diǎn)挖掘子系統(tǒng)4,所述推薦子系統(tǒng)1采用微博用戶進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)推薦,所述存儲(chǔ)子系統(tǒng)2對(duì)微博用戶推薦的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行存儲(chǔ),所述過(guò)濾子系統(tǒng)3根據(jù)過(guò)濾規(guī)則對(duì)所述網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行過(guò)濾,并從過(guò)濾后的網(wǎng)絡(luò)數(shù)據(jù)中提取中心詞,所述熱點(diǎn)挖掘子系統(tǒng)4用于統(tǒng)計(jì)中心詞的出現(xiàn)次數(shù),出現(xiàn)次數(shù)多的中心詞為網(wǎng)絡(luò)熱點(diǎn)。本實(shí)施例實(shí)現(xiàn)了網(wǎng)絡(luò)熱點(diǎn)高效挖掘。優(yōu)選的,所述網(wǎng)絡(luò)數(shù)據(jù)包括文本標(biāo)題、與文本標(biāo)題對(duì)應(yīng)的文本內(nèi)容和文本的發(fā)布時(shí)間。本優(yōu)選實(shí)施例獲取的網(wǎng)絡(luò)數(shù)據(jù)更為全面。優(yōu)選的,所述過(guò)濾規(guī)則為:對(duì)文本標(biāo)題不符合字?jǐn)?shù)和發(fā)布時(shí)間不符合規(guī)定的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行剔除。本優(yōu)選實(shí)施例對(duì)不符合條件數(shù)據(jù)進(jìn)行過(guò)濾,進(jìn)一步提高了熱點(diǎn)挖掘效率。優(yōu)選的,所述推薦子系統(tǒng)1包括垃圾用戶發(fā)現(xiàn)模塊、垃圾用戶剔除模塊和推薦模塊,所述垃圾用戶發(fā)現(xiàn)模塊用于確定微博垃圾用戶,所述垃圾用戶剔除模塊用于對(duì)垃圾用戶進(jìn)行剔除,所述推薦模塊采用剔除垃圾用戶后的微博用戶進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)推薦,所述垃圾用戶發(fā)現(xiàn)模塊包括第一建模子模塊、第二用戶分類(lèi)子模塊和第三垃圾用戶確定子模塊,所述第一建模子模塊用于建立微博用戶網(wǎng)絡(luò)模型,所述第二用戶分類(lèi)子模塊基于微博用戶網(wǎng)絡(luò)模型對(duì)微博用戶進(jìn)行分類(lèi),所述第三垃圾用戶確定子模塊基于用戶分類(lèi)確定微博用戶中的垃圾用戶;所述微博用戶網(wǎng)絡(luò)模型基于用戶關(guān)注關(guān)系建立,具體為:將微博中用戶關(guān)注關(guān)系形成的有向圖h=(w,b)作為微博用戶網(wǎng)絡(luò)模型,其中,b為邊集,如果用戶存在關(guān)注關(guān)系,則用戶之間存在邊,w為微博用戶集合。本實(shí)施例推薦子系統(tǒng)基于微博用戶的關(guān)注關(guān)系對(duì)微博用戶網(wǎng)絡(luò)進(jìn)行建模,能夠有效地發(fā)現(xiàn)微博中的垃圾用戶,有助于提高后續(xù)推薦準(zhǔn)確性。優(yōu)選的,所述第二用戶分類(lèi)子模塊包括第一分類(lèi)特征確定單元和第二分類(lèi)單元,所述第一分類(lèi)特征確定單元用于確定用于分類(lèi)的特征,所述第二分類(lèi)單元用于根據(jù)分類(lèi)特征確定用戶類(lèi)別;所述第一分類(lèi)特征確定單元包括第一垃圾用戶分類(lèi)特征確定子單元和第二正常用戶分類(lèi)特征確定子單元,所述第一垃圾用戶分類(lèi)特征確定子單元用于確定判定垃圾用戶的特征,所述第二正常用戶分類(lèi)特征確定子單元用于確定判定正常用戶的特征;所述判定垃圾用戶的特征包括第一垃圾用戶特征eh1和第二垃圾用戶特征eh2;采用以下方式確定所述第一垃圾用戶特征:計(jì)算用戶的第一垃圾用戶特征指數(shù):上述式子中,p(xi)表示將用戶的時(shí)間序列劃分為m個(gè)子序列,第xi個(gè)子序列發(fā)表消息數(shù)目占總時(shí)間序列的比值,若yw1≥cs1,則該用戶滿足第一垃圾用戶特征,cs1為設(shè)定閾值;采用以下方式確定所述第二垃圾用戶特征:計(jì)算用戶的第二垃圾用戶特征指數(shù):上述式子中,d1表示用戶發(fā)表消息中包含“@”的消息數(shù)目,l1表示用戶發(fā)表消息中包含“http//”的消息數(shù)目,d表示用戶發(fā)表的消息總數(shù);若yw2≥cs2,則表示用戶滿足第二垃圾用戶特征,cs2為設(shè)定閾值。所述判定正常用戶的特征包括第一正常用戶特征em1和第二正常用戶特征em2:采用以下方式確定所述第一正常用戶特征:計(jì)算用戶的第一正常用戶特征指數(shù):若lg1≤cs3,則該用戶滿足第一正常用戶特征,cs3為設(shè)定閾值;采用以下方式確定所述第二正常用戶特征:計(jì)算用戶的第二正常用戶特征指數(shù):若lg2≤cs4,則表示用戶滿足第二正常用戶特征,cs4為設(shè)定閾值。本優(yōu)選實(shí)施例推薦子系統(tǒng)通過(guò)建立多種分類(lèi)判斷特征,具體而言,第一垃圾用戶特征指數(shù)和第一正常用戶特征指數(shù)反映了用戶的發(fā)帖規(guī)律,第二垃圾用戶特征指數(shù)合第二正常用戶特征指數(shù)反映了用戶的發(fā)送垃圾信息情況,為后續(xù)用戶分類(lèi)奠定了基礎(chǔ)。優(yōu)選的,所述第二分類(lèi)單元采用以下方式確定用戶類(lèi)別:(1)對(duì)于任意用戶w∈w,給定判定正常用戶的特征集合em={emj},j=1,2,如果滿足正常用戶的第j個(gè)特征,則其成為正常用戶的概率會(huì)高,如果僅存在一個(gè)特征,使得用戶w有更高的概率為正常用戶,則該用戶為疑似正常用戶,如果存在兩個(gè)特征,使得用戶w有更高的概率為正常用戶,則該用戶為近似正常用戶;(2)對(duì)于任意用戶w∈w,給定判定垃圾用戶的特征集合eh={ehi},i=1,2,如果滿足垃圾用戶的第i個(gè)特征,則其成為垃圾用戶的概率會(huì)高,如果僅存在一個(gè)特征,使得用戶w有更高的概率為垃圾用戶,則該用戶為疑似垃圾用戶,如果存在兩個(gè)特征,使得用戶w有更高的概率為垃圾用戶,則該用戶為近似垃圾用戶;(3)對(duì)于任意用戶w∈w,如果既不滿足垃圾用戶判定特征,也不滿足正常用戶判定特征,則用戶w為不確定用戶。本優(yōu)選實(shí)施例推薦子系統(tǒng)通過(guò)確定垃圾用戶的特征和正常用戶的特征確定用戶類(lèi)別,實(shí)現(xiàn)了用戶的準(zhǔn)確分類(lèi),為后續(xù)確定垃圾用戶打下了良好的基礎(chǔ)。優(yōu)選的,所述第三垃圾用戶確定子模塊采用以下方式確定垃圾用戶:(1)計(jì)算用戶得分zc:上述式子中,b1表示用戶關(guān)注疑似垃圾用戶的數(shù)目,b2表示用戶關(guān)注近似垃圾用戶的數(shù)目,a1表示用戶被疑似正常用戶關(guān)注的數(shù)目,a2表示用戶被近似正常用戶關(guān)注的數(shù)目;(2)若用戶為近似垃圾用戶且滿足用戶得分zc>0.2,若用戶為疑似垃圾用戶且滿足用戶得分zc>0.5,若用戶為不確定用戶且滿足用戶得分zc>1,若用戶為疑似正常用戶且滿足用戶得分zc>2,若用戶為近似正常用戶且滿足用戶得分zc>4,則將用戶確定為垃圾用戶,否則為正常用戶。本優(yōu)選實(shí)施例采用用戶得分與特征相結(jié)合的方式確定垃圾用戶,降低了垃圾用戶發(fā)現(xiàn)的誤判率,提高了垃圾用戶的發(fā)現(xiàn)準(zhǔn)確率。用戶采用本發(fā)明高效的網(wǎng)絡(luò)熱點(diǎn)挖掘系統(tǒng)進(jìn)行網(wǎng)絡(luò)熱點(diǎn)挖掘,挖掘的熱點(diǎn)數(shù)目分別為10、20、30、40、50時(shí),對(duì)挖掘時(shí)間和用戶滿意度進(jìn)行統(tǒng)計(jì),同現(xiàn)有垃圾用戶發(fā)現(xiàn)系統(tǒng)相比,產(chǎn)生的有益效果如下表所示:熱點(diǎn)數(shù)目挖掘時(shí)間縮短用戶滿意度提高1023%21%2025%20%3024%25%4026%22%5024%23%最后應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。當(dāng)前第1頁(yè)12