互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)信息采集和分析方法,具體涉及互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,本發(fā)明提供的互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,是基于目前資訊信息熱點(diǎn)預(yù)測的廣泛需求及遇到的瓶頸,針對Web2.0下互聯(lián)網(wǎng)信息活動中用戶高度參與的特點(diǎn),建立了熱點(diǎn)資訊信息評價模型,并給出了互聯(lián)網(wǎng)熱度評價算法。實(shí)驗(yàn)結(jié)果表明算法能夠綜合利用用戶反饋和網(wǎng)頁等信息來準(zhǔn)確的評價信息熱度。
【專利說明】互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息采集和分析方法,具體涉及互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法?!颈尘凹夹g(shù)】
[0002]互聯(lián)網(wǎng)上每時每刻都有數(shù)十億條的資訊信息被用戶發(fā)布、獲取、評價與傳播,如何在這動態(tài)而分散信息活動中挖掘其中的熱點(diǎn)話題成為互聯(lián)網(wǎng)的研究重點(diǎn),在互聯(lián)網(wǎng)信息輿情監(jiān)控和引導(dǎo)方面有著重要的意義,傳統(tǒng)的互聯(lián)網(wǎng)熱點(diǎn)資訊的挖掘方法主要針對資訊數(shù)據(jù)本身進(jìn)行挖掘,如基于基本資訊內(nèi)容進(jìn)行分類和聚類,然后基于熱點(diǎn)或敏感的關(guān)鍵字的進(jìn)行分析和預(yù)測,但網(wǎng)民才是互聯(lián)網(wǎng)的主角,缺少用戶對資訊信息的反饋數(shù)據(jù)的深入挖掘,熱點(diǎn)預(yù)測的精確性較低,但熱點(diǎn)的資訊信息容易引起了大量網(wǎng)民的關(guān)注和討論,話題參與者集思廣益,紛紛提出了自己的觀點(diǎn)和看法,往往可以延伸到很多其它的社會問題。正因如此,有很多不良或不法的言論就會借機(jī)滋生出來,如不加以扼制,可能會對社會造成不良的影響。輿情調(diào)控要實(shí)現(xiàn)因地制宜,有的放矢,所以就需要對這種“熱點(diǎn)資訊”進(jìn)行重點(diǎn)和有力度的調(diào)控。
【發(fā)明內(nèi)容】
[0003]針對上述技術(shù)問題,本發(fā)明提供一種熱點(diǎn)資訊信息評價模型,具體的技術(shù)方案為:
[0004]互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,包括以下步驟,
[0005](I)通過網(wǎng)絡(luò)爬蟲定期采集互聯(lián)網(wǎng)上的資訊信息及該資訊信息相關(guān)的網(wǎng)民的參與情況,所述資訊信息包括標(biāo)題、關(guān)鍵字、摘要、正文內(nèi)容,所述的資訊信息相關(guān)的網(wǎng)民參與情況包括參與數(shù)和點(diǎn)擊時間,所述的參與數(shù)包括點(diǎn)擊數(shù)、評論數(shù);
[0006](2)對上述采集到的資訊信息進(jìn)行預(yù)處理,所述的預(yù)處理包括過濾垃圾信息和數(shù)據(jù)排重,最后將預(yù)處理后的資訊信息保存到數(shù)據(jù)庫中;
[0007](3)對預(yù)處理后的資訊信息進(jìn)行聚類分析,把內(nèi)容有關(guān)聯(lián)的信息運(yùn)用聚類算法聚合到一起形成一個事件,最終輸出為一系列事件集合;
[0008](4)循環(huán)第(3)步驟輸出的結(jié)果事件集合,匯總每一個事件中資訊信息的點(diǎn)擊數(shù)和評論數(shù),把匯總后的點(diǎn)擊數(shù)和評論數(shù)作為該事件的點(diǎn)擊數(shù)和評論數(shù),保存到數(shù)據(jù)庫;
[0009](5)循環(huán)第(3)步驟輸出的結(jié)果事件集合,計(jì)算每一個事件的得分,然后保存到數(shù)據(jù)庫;
[0010](6)循環(huán)第(5)步驟輸出的結(jié)果事件集合,按照事件得分的高低進(jìn)行倒序排序,其中得分最聞的為最熱事件;
[0011](7)選擇第(6)步驟計(jì)算的結(jié)果中排序靠前的η條事件,然后根據(jù)預(yù)測模型預(yù)測事件未來的發(fā)展趨勢和熱度,如果事件的熱度處于上升趨勢則作為重點(diǎn)事件進(jìn)行分析和監(jiān)控。
[0012]具體的,第(3)步驟所述的聚類算法使用single-pass算法,具體步驟如下:[0013](a)接收一篇互聯(lián)網(wǎng)資訊信息的文本向量d ;
[0014](b)文本向量d逐一與已有的事件中的各資訊信息進(jìn)行相似度計(jì)算,并取最大者作為與該話題的相似度;
[0015](c)在所有事件間選出與文本向量d相似度最大的一個,以及此時的相似度值;
[0016](d)如果相似度大于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)資訊信息被分配給這個事件,跳轉(zhuǎn)至步驟(f);
[0017](e)如果相似度小于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)資訊信息不屬于已有的事件,創(chuàng)建新事件,同時把這篇資訊歸屬創(chuàng)建的新的事件下;
[0018](f)本次聚類結(jié)束,等待新的資訊信息到來。
[0019]具體的,第(5)步驟所述計(jì)算每一個事件的得分步驟為:
[0020](a)從數(shù)據(jù)庫中獲取事件的點(diǎn)擊數(shù)、評論數(shù),其中點(diǎn)擊數(shù)標(biāo)記為C,評論數(shù)標(biāo)記為R;
[0021](b)循環(huán)計(jì)算事件集合中所有事件的點(diǎn)擊數(shù)平均值、評論數(shù)平均值,其中點(diǎn)擊數(shù)平均值標(biāo)記為average (C),評論數(shù)平均值標(biāo)記為average (R);
[0022](c)循環(huán)計(jì)算事件集合中所有事件的評論數(shù)和點(diǎn)擊數(shù)比值,然后以比值大小排序比較,計(jì)算出最大的比值,其中評論數(shù)和點(diǎn)擊數(shù)最大比值標(biāo)記為max(R/C);
[0023](d)計(jì)算每一個事件的得分的公式為:
[0024]S (E) = al (C/average (C)) +a2 (R/average (R)) +a3 ((R/C) /max (R/C))
[0025]其中S(E)為事件的總分,al、a2、a3為權(quán)重因子,al的值是0.2,a2的值是0.3,a3的值是0.8,/符號表示兩個數(shù)字相除。
[0026]具體的,第(7)步驟所述的預(yù)測模型的預(yù)測算法包括以下步驟:
[0027](a)按第⑴步驟采集間隔的時間,每段間隔時間劃分為一個槽,從數(shù)據(jù)庫中獲取這段時間中事件點(diǎn)擊的總數(shù),對應(yīng)到這個槽中,用數(shù)組這種數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),其中數(shù)組的下標(biāo)是時間,表示距離最新點(diǎn)擊查看事件的時間;數(shù)組元素的值是點(diǎn)擊數(shù),表示間隔時間內(nèi)的點(diǎn)擊數(shù),最后把數(shù)組對應(yīng)到平面直角坐標(biāo)系中,其中數(shù)組的下標(biāo)做為橫坐標(biāo),數(shù)組元素的值作為縱坐標(biāo),在平面直角坐標(biāo)系中得到離散的點(diǎn),使用高斯函數(shù)擬合經(jīng)過這些離散點(diǎn)的曲線;
[0028]以上所述的高斯函數(shù)公式為:
[0029]y(x) =a* e-(乞V
[0030]經(jīng)過每條事件的實(shí)際數(shù)據(jù)可推導(dǎo)出高斯函數(shù)公式a, b, c的值;
[0031](b)對y = f (X)關(guān)于自變量X求導(dǎo),得y ' (χ),令y ' (χ) = O,求出最大的極值點(diǎn),設(shè)其為Xm ;如果滿足以下兩種情況之一,則認(rèn)為該事件在未來一定時間內(nèi)很有可能變得活躍:
[0032](l)y = f(x)沒有極值點(diǎn),且3X>0,使得 J 丨(χ) >0 ;
[0033](2)若3Χ>Χηι,使 y ' (X) >0 ;
[0034]當(dāng)條件(I)成立時,說明y ' 00>0,即700單調(diào)性遞增,表示事件的活躍度上升;
[0035]當(dāng)條件⑵成立時,說明當(dāng)?shù)竭_(dá)xm后的某時刻χ時,y丨(x)>0, y(x)開始單調(diào)遞增,同樣以說明事件熱度正處于上升的狀態(tài);[0036]如果存在點(diǎn)xn,使得J丨(Xn) = O,說明Xn是熱度走勢中的一個轉(zhuǎn)折點(diǎn),此時,找出最大的使得I ' (X) = O成立的點(diǎn)Xmax,考察滿足xt>xmax的xt,如果I ' (Xt)〈O,說明該事件熱度正處于下降的狀態(tài);相反地,如果y' OO >0,說明熱度正處于上升的狀態(tài)。
[0037]本發(fā)明提供的互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,是基于目前資訊信息熱點(diǎn)預(yù)測的廣泛需求及遇到的瓶頸,針對Web2.0下互聯(lián)網(wǎng)信息活動中用戶高度參與的特點(diǎn),建立了熱點(diǎn)資訊信息評價模型,并給出了互聯(lián)網(wǎng)熱度評價算法。實(shí)驗(yàn)結(jié)果表明算法能夠綜合利用用戶反饋和網(wǎng)頁等信息來準(zhǔn)確的評價信息熱度。
【專利附圖】
【附圖說明】
[0038]圖1是本發(fā)明的流程圖。
[0039]圖2是本發(fā)明高斯函數(shù)擬合離散點(diǎn)的曲線。
【具體實(shí)施方式】
[0040]結(jié)合實(shí)施例說明本發(fā)明的【具體實(shí)施方式】。
[0041]互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,本實(shí)施例以資訊信息中的新聞信息為例,如圖1所示,包括以下步驟,
[0042](I)通過網(wǎng)絡(luò)爬蟲定期采集互聯(lián)網(wǎng)上的新聞信息及該新聞信息相關(guān)的網(wǎng)民的參與情況,所述新聞信息包括標(biāo)題、關(guān)鍵字、摘要、正文內(nèi)容,所述的新聞信息相關(guān)的網(wǎng)民參與情況包括參與數(shù)和點(diǎn)擊時間,所述的參與數(shù)包括點(diǎn)擊數(shù)、評論數(shù),所述的點(diǎn)擊數(shù)標(biāo)記為C,所述的評論數(shù)標(biāo)記為R ;
[0043](2)對上述采集到的新聞信息進(jìn)行預(yù)處理,所述的預(yù)處理包括過濾垃圾信息和數(shù)據(jù)排重,最后將預(yù)處理后的新聞信息保存到數(shù)據(jù)庫中;
[0044](3)對預(yù)處理后的新聞信息進(jìn)行聚類分析,把內(nèi)容有關(guān)聯(lián)的信息運(yùn)用聚類算法聚合到一起形成一個事件,最終輸出為一系列事件集合;所述事件標(biāo)記為E,事件集合標(biāo)記為N;
[0045]所述的聚類算法使用single-pass算法,具體步驟如下:
[0046](a)接收一篇互聯(lián)網(wǎng)新聞信息的文本向量d ;
[0047](b)文本向量d逐一與已有的事件中的各新聞信息進(jìn)行相似度計(jì)算,并取最大者作為與該話題的相似度;
[0048]所述的相似度計(jì)算是對新聞信息的標(biāo)題、關(guān)鍵字、摘要的智能分詞,提取文本特征詞,然后用文本特征詞的權(quán)重組合為一個空間向量來數(shù)值化文本,進(jìn)行相似計(jì)算。
[0049](C)在所有事件間選出與文本向量d相似度最大的一個,以及此時的相似度值;
[0050](d)如果相似度大于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)新聞信息被分配給這個事件,跳轉(zhuǎn)至步驟(f);
[0051](e)如果相似度小于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)新聞信息不屬于已有的事件,創(chuàng)建新事件,同時把這篇新聞歸屬創(chuàng)建的新的事件下;
[0052](f)本次聚類結(jié)束,等待新的新聞信息到來。
[0053](4)循環(huán)第(3)步驟輸出的結(jié)果事件集合,匯總每一個事件中新聞信息的點(diǎn)擊數(shù)和評論數(shù),把匯總后的點(diǎn)擊數(shù)和評論數(shù)作為該事件的點(diǎn)擊數(shù)和評論數(shù),保存到數(shù)據(jù)庫;[0054](5)循環(huán)第(3)步驟輸出的結(jié)果事件集合,計(jì)算每一個事件的得分,然后保存到數(shù)據(jù)庫;
[0055]其中,所述計(jì)算每一個事件得分的步驟為:
[0056](a)從數(shù)據(jù)庫中獲取事件的點(diǎn)擊數(shù)、評論數(shù),其中點(diǎn)擊數(shù)標(biāo)記為C,評論數(shù)標(biāo)記為R;
[0057](b)循環(huán)計(jì)算事件集合中所有事件的點(diǎn)擊數(shù)平均值、評論數(shù)平均值,其中點(diǎn)擊數(shù)平均值標(biāo)記為average (C),評論數(shù)平均值標(biāo)記為average (R);
[0058](c)循環(huán)計(jì)算事件集合中所有事件的評論數(shù)和點(diǎn)擊數(shù)比值,然后以比值大小排序比較,計(jì)算出最大的比值,其中評論數(shù)和點(diǎn)擊數(shù)最大比值標(biāo)記為max(R/C);
[0059](d)計(jì)算每一個事件的得分的公式為:
[0060]S (E) = al (C/average (C)) +a2 (R/average (R)) +a3 ((R/C) /max (R/C))
[0061]其中S(E)為事件的總分,al、a2、a3為權(quán)重因子,al的值是0.2,a2的值是0.3,a3的值是0.8,/符號表示兩個數(shù)字相除。
[0062](6)循環(huán)第(5)步驟輸出的結(jié)果事件集合,按照事件得分的高低進(jìn)行倒序排序,其中得分最聞的為最熱事件;
[0063](7)選擇第(6)步驟計(jì)算的結(jié)果中排序靠前的η條事件,然后根據(jù)預(yù)測模型預(yù)測事件未來的發(fā)展趨勢和熱度,如果事件的熱度處于上升趨勢則作為重點(diǎn)事件進(jìn)行分析和監(jiān)控。
[0064]以上所述的每一個事件的預(yù)測算法包括以下步驟:
[0065](a)按第(I)步驟采集間隔的時間,每段間隔30分鐘劃分為一個槽,從數(shù)據(jù)庫中獲取這段時間中事件點(diǎn)擊的總數(shù),對應(yīng)到這個槽中,用數(shù)組這種數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),其中數(shù)組的下標(biāo)是時間,表示距離最新點(diǎn)擊查看事件的時間;數(shù)組元素的值是點(diǎn)擊數(shù),表示間隔時間內(nèi)的點(diǎn)擊數(shù),最后把數(shù)組對應(yīng)到平面直角坐標(biāo)系中,如圖2所示,其中數(shù)組的下標(biāo)作為橫坐標(biāo),數(shù)組元素的值作為縱坐標(biāo),在平面直角坐標(biāo)系中得到離散的點(diǎn),使用高斯函數(shù)擬合經(jīng)過這些離散點(diǎn)的曲線;
[0066]以上所述的高斯函數(shù)公式為:
[0067]
【權(quán)利要求】
1.互聯(lián)網(wǎng)資訊信息熱點(diǎn)預(yù)測方法,其特征在于:包括以下步驟, (1)通過網(wǎng)絡(luò)爬蟲定期采集互聯(lián)網(wǎng)上的資訊信息及該資訊信息相關(guān)的網(wǎng)民的參與情況,所述資訊信息包括標(biāo)題、關(guān)鍵字、摘要、正文內(nèi)容,所述的資訊信息相關(guān)的網(wǎng)民參與情況包括參與數(shù)和點(diǎn)擊時間,所述的參與數(shù)包括點(diǎn)擊數(shù)、評論數(shù); (2)對上述采集到的資訊信息進(jìn)行預(yù)處理,所述的預(yù)處理包括過濾垃圾信息和數(shù)據(jù)排重,最后將預(yù)處理后的資訊信息保存到數(shù)據(jù)庫中; (3)對預(yù)處理后的資訊信息進(jìn)行聚類分析,把內(nèi)容有關(guān)聯(lián)的信息運(yùn)用聚類算法聚合到一起形成一個事件,最終輸出為一系列事件集合; (4)循環(huán)第(3)步驟輸出的結(jié)果事件集合,匯總每一個事件中資訊信息的點(diǎn)擊數(shù)和評論數(shù),把匯總后的點(diǎn)擊數(shù)和評論數(shù)作為該事件的點(diǎn)擊數(shù)和評論數(shù),保存到數(shù)據(jù)庫; (5)循環(huán)第(3)步驟輸出的結(jié)果事件集合,計(jì)算每一個事件的得分,然后保存到數(shù)據(jù)庫; (6)循環(huán)第(5)步驟輸出的結(jié)果事件集合,按照事件得分的高低進(jìn)行倒序排序,其中得分最聞的為最熱事件; (7)選擇第(6)步驟計(jì)算的結(jié)果中排序靠前的η條事件,然后根據(jù)預(yù)測模型預(yù)測事件未來的發(fā)展趨勢和熱度,如果事件的熱度處于上升趨勢則作為重點(diǎn)事件進(jìn)行分析和監(jiān)控。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)資訊信息的熱點(diǎn)預(yù)測方法,其特征在于:第(3)步驟所述的聚類算法使用single-pass算法,具體步驟如下: (a)接收一篇互聯(lián)網(wǎng)資訊信息的文本向量d; (b)文本向量d逐一與已有的事件中的各資訊信息進(jìn)行相似度計(jì)算,并取最大者作為與該話題的相似度; (C)在所有事件間選出與文本向量d相似度最大的一個,以及此時的相似度值; (d)如果相似度大于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)資訊信息被分配給這個事件,跳轉(zhuǎn)至步驟(f); (e)如果相似度小于閾值TC,文本向量d所對應(yīng)的互聯(lián)網(wǎng)資訊信息不屬于已有的事件,創(chuàng)建新事件,同時把這篇資訊歸屬創(chuàng)建的新的事件下; (f)本次聚類結(jié)束,等待新的資訊信息到來。
3.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)資訊信息的熱點(diǎn)預(yù)測方法,其特征在于:第(5)步驟所述計(jì)算每一個事件的得分步驟為: (a)從數(shù)據(jù)庫中獲取事件的點(diǎn)擊數(shù)、評論數(shù),其中點(diǎn)擊數(shù)標(biāo)記為C,評論數(shù)標(biāo)記為R; (b)循環(huán)計(jì)算事件集合中所有事件的點(diǎn)擊數(shù)平均值、評論數(shù)平均值,其中點(diǎn)擊數(shù)平均值標(biāo)記為average (C),評論數(shù)平均值標(biāo)記為average (R); (c)循環(huán)計(jì)算事件集合中所有事件的評論數(shù)和點(diǎn)擊數(shù)比值,然后以比值大小排序比較,計(jì)算出最大的比值,其中評論數(shù)和點(diǎn)擊數(shù)最大比值標(biāo)記為max(R/C); (d)計(jì)算每一個事件的得分的公式為:
S (E) = al (C/average (C))+a2(R/average (R))+a3((R/C)/max(R/C)) 其中S(E)為事件的總分,al、a2、a3為權(quán)重因子,al的值是0.2,a2的值是0.3,a3的值是0.8,/符號表示兩個數(shù)字相除。
4.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)資訊信息的熱點(diǎn)預(yù)測方法,其特征在于:第(7)步驟所述的預(yù)測模型的預(yù)測算法包括以下步驟: (a)按第(I)步驟采集間隔的時間,每段間隔時間劃分為一個槽,從數(shù)據(jù)庫中獲取這段時間中事件點(diǎn)擊的總數(shù),對應(yīng)到這個槽中,用數(shù)組這種數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),其中數(shù)組的下標(biāo)是時間,表示距離最新點(diǎn)擊查看事件的時間;數(shù)組元素的值是點(diǎn)擊數(shù),表示間隔時間內(nèi)的點(diǎn)擊數(shù),最后把數(shù)組對應(yīng)到平面直角坐標(biāo)系中,其中數(shù)組的下標(biāo)做為橫坐標(biāo),數(shù)組元素的值作為縱坐標(biāo),在平面直角坐標(biāo)系中得到離散的點(diǎn),使用高斯函數(shù)擬合經(jīng)過這些離散點(diǎn)的曲線.以上所述的高斯函數(shù)公式為:
【文檔編號】G06F17/30GK104035960SQ201410192780
【公開日】2014年9月10日 申請日期:2014年5月8日 優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】郗旻, 張金領(lǐng) 申請人:東莞市巨細(xì)信息科技有限公司