專利名稱::網(wǎng)絡(luò)熱點和輿情的檢測方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及的是一種網(wǎng)絡(luò)信息處理
技術(shù)領(lǐng)域:
的方法,具體是一種網(wǎng)絡(luò)熱點和輿情的檢測方法。
背景技術(shù):
:互聯(lián)網(wǎng)已成為人們獲取和交流信息的最重要的平臺之一?;ヂ?lián)網(wǎng)與傳統(tǒng)媒體相比,最大的特點之一是自由、開放、及時,任何人都可以通過博客、論壇系統(tǒng)在互聯(lián)網(wǎng)上發(fā)布觀點和評論。這就使得互聯(lián)網(wǎng)上容易散布不良信息,如欺騙性的言論或是危害國家安全的言論,嚴重的會引發(fā)群體性事件。同時,博客、論壇系統(tǒng)的文本中包含了大量反映民意的輿情信息,有必要對這些輿情信息進行分析、監(jiān)控和預(yù)測,從中發(fā)現(xiàn)熱點信息。目前習(xí)慣的做法是使用人工對互聯(lián)網(wǎng)輿情信息進行監(jiān)控并分析熱點信息。但這樣做有兩個問題,一是面對海量的信息,需要耗費大量的人力、物力,且人工處理速度慢,實效性差;二是每個人通常只能監(jiān)控某幾個互聯(lián)網(wǎng)站點的文本信息,信息匯總、整理困難,容易忽略某些熱點信息。還有一種做法是利用計算機對特定互聯(lián)網(wǎng)站點的文本進行關(guān)鍵詞提取,提取出熱點關(guān)鍵詞,再由人工分析出與這些熱點關(guān)鍵詞相對應(yīng)的熱點信息。但是單個關(guān)鍵詞包含的信息太少,且包含不同信息的文本可能包含相同的關(guān)鍵詞,影響對熱點信息的判斷。經(jīng)過對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn),中國專利公開號為CN101408883,
專利名稱:為一種網(wǎng)絡(luò)輿情觀點收集方法,該申請案中實現(xiàn)輿情信息的發(fā)現(xiàn)是基于計算熱點詞詞頻和詞頻變化的方法,以關(guān)鍵句中的動詞和名詞作為特征值進行聚類。其具體方法是在網(wǎng)絡(luò)論壇中根據(jù)詞頻和詞頻的變化情況來提取熱點詞,根據(jù)熱點詞從爬蟲數(shù)據(jù)庫中提取相關(guān)的信息文檔,搜索出其中含有熱點詞的句子形成關(guān)鍵句集,并以關(guān)鍵句中的動詞和名詞作為特征詞,以每個特征值為特征向量的一維。如果關(guān)鍵句中含有該特征詞,則該維特征值取l;否則取0。再通過計算各關(guān)鍵句特征向量間的余弦相似度對關(guān)鍵句進行聚類,得到多個觀點主題句集。最后采用帶權(quán)重的情感詞庫和手工判別相結(jié)合的方法來計算各個觀點主題句網(wǎng)絡(luò)情感傾向,從而得到網(wǎng)絡(luò)的輿情觀點。但這種方法以詞為單位進行熱點詞提取和關(guān)鍵句聚類,遇到一詞多義或多詞一義的情況會影響準(zhǔn)確率,且運算復(fù)雜。同時,這種方法沒有考慮到互聯(lián)網(wǎng)上除了眾多主題文檔外,關(guān)于這些主題文檔的評論文檔也包含了網(wǎng)民的觀點,也是網(wǎng)絡(luò)輿情傾向的重要組成部分。
發(fā)明內(nèi)容本發(fā)明針對上述現(xiàn)有技術(shù)的不足,提供了一種網(wǎng)絡(luò)熱點和輿情的檢測方法,通過在文檔的特征概念空間內(nèi)進行聚類,解決了一詞多義和多詞一義情況下熱點的分析,并綜合主題文檔的評論文本進行輿情分析。本發(fā)明是通過如下技術(shù)方案實現(xiàn)的,本發(fā)明包括如下步驟第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。所述的信息文檔包括網(wǎng)絡(luò)論壇的主貼和博客的網(wǎng)絡(luò)日志正文,該文檔是純文本格式的文檔。所述的評論文檔包括網(wǎng)絡(luò)論壇的回帖和博客的評論內(nèi)容,該文檔是純文本格式的文檔第二步,對數(shù)據(jù)庫中的文檔進行概念映射和概念消歧處理,最終使得每個詞語映射成唯一的概念。所述的文檔包括信息文檔及相應(yīng)的評論文檔。所述的處理,是將文檔分解成為詞序列,并且對詞序列中每一個詞語進行詞性標(biāo)注。所述的概念映射,就是將分好的每個詞的概念用《知網(wǎng)》中若干個義元的組合表示出來所述的《知網(wǎng)》,是一個以漢語和英語的詞語所代表的概念的數(shù)據(jù)庫,其描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,知識庫包括1500多個義元,每個概念就是由若干個義元的組合標(biāo)注的,其中所述的義元分為基本義元和關(guān)系義元。所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進行聚類,形成多個信息文檔集,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集。所述的本征特征,就是能反映整篇信息文檔的概念且定義于《知網(wǎng)》中的一組義元。所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有義元各自的權(quán)重值與權(quán)重閾值進行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取l,否則取0,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度,相似度大于相似度閾值的兩篇文檔就被歸屬于同一個信息文檔集中,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集。第四步,建立網(wǎng)絡(luò)用語庫,對每個熱點事件進行褒貶傾向分析,得到每個熱點事件的網(wǎng)絡(luò)輿情傾向。所述的網(wǎng)絡(luò)用語庫,包括網(wǎng)絡(luò)指代詞表和網(wǎng)絡(luò)評論詞表,其中網(wǎng)絡(luò)評論詞表包含網(wǎng)絡(luò)評論文檔中帶感情色彩的詞語及其詞性和褒貶傾向性。所述的褒貶傾向分析,包括信息文檔對熱點事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析。所述的網(wǎng)絡(luò)輿情傾向是結(jié)合了熱點事件信息文檔集中的信息文檔對熱點事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,根據(jù)評論文檔對信息文檔熱點事件的褒貶傾向得到的各個熱點事件信息文檔集中所有信息文檔的相應(yīng)評論文檔對熱點事件的褒貶傾向。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果使用概念作為文檔的本征特征,可以很好處理一詞多義和多詞一義的情況,運算簡單;以整篇文檔為單位進行網(wǎng)絡(luò)熱點發(fā)現(xiàn)和輿情分析,且充分考慮了評論文檔包含的輿情信息,提高了網(wǎng)絡(luò)熱點發(fā)現(xiàn)和輿情分析的準(zhǔn)確率。圖l是本發(fā)明的流程示意框圖。具體實施例方式下面結(jié)合附圖對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。本實施例包括步驟如下第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。所述的從網(wǎng)絡(luò)論壇中抓取網(wǎng)頁,具體為通過鏈接分析的方式,獲得指定的網(wǎng)絡(luò)論壇的所有板塊的網(wǎng)絡(luò)地址,再通過鏈接分析方式用HTTP協(xié)議下載所有板塊在指定時間范圍內(nèi)發(fā)表7的主貼以及主貼對應(yīng)的回貼,同時記錄主貼作者的網(wǎng)絡(luò)名和回貼作者的網(wǎng)絡(luò)名,以及主貼和回貼間的對應(yīng)關(guān)系。所述的從博客中抓取網(wǎng)頁,具體為通過網(wǎng)絡(luò)爬蟲的方式,獲得包含有指定博客系統(tǒng)的一定數(shù)量用戶的網(wǎng)絡(luò)名的數(shù)據(jù)庫。通過網(wǎng)絡(luò)名,可以得到相應(yīng)用戶博客空間的網(wǎng)絡(luò)日志列表頁面的地址。對網(wǎng)絡(luò)日志列表頁面進行鏈接分析,用HTTP協(xié)議下載網(wǎng)絡(luò)名數(shù)據(jù)庫中所有用戶在指定時間范圍內(nèi)發(fā)表的網(wǎng)絡(luò)日志正文以及網(wǎng)絡(luò)日志對應(yīng)的評論,同時記錄網(wǎng)絡(luò)日志正文作者的網(wǎng)絡(luò)名和評論作者的網(wǎng)絡(luò)名,以及網(wǎng)絡(luò)日志正文和評論間的對應(yīng)關(guān)系。所述的文檔包括信息文檔及相應(yīng)的評論文檔。所述的信息文檔包括網(wǎng)絡(luò)論壇的主貼和博客的網(wǎng)絡(luò)日志正文,該文檔是純文本格式的文檔。所述的評論文檔包括網(wǎng)絡(luò)論壇的回帖和博客的評論內(nèi)容,該文檔是純文本格式的文檔通過HTTP協(xié)議下載到的文檔一般是超文本標(biāo)記語言(HTML)的文檔,需要過濾轉(zhuǎn)換為純文本格式的文檔。本實施例從搜狐博客(blog.sohu.com)、新浪博客(blog.sina.com.cn)以及上海交通大學(xué)BBS系統(tǒng)(bbs.sjtu.edu.cn)抓取了2009年10月1日到2009年10月5日之間共8314篇信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。本實施例使用boost庫中的正則表達模塊從抓取到的文檔中過濾HTML標(biāo)簽,以提取純文本內(nèi)容,具體的正則表達式為"〈[">]+>"。文檔保存到數(shù)據(jù)庫中;第二步,對數(shù)據(jù)庫中的文檔進行概念映射和概念消歧處理,最終使得每個詞語映射成唯一的概念。所述的處理,是將文檔分解成為詞序列,并且對詞序列中每一個詞語進行詞性標(biāo)注,本實施例使用了中科院計算所的ICTCLAS分詞系統(tǒng)對信息文檔進行分詞。所述的概念映射,就是將分好的每個詞的概念用《知網(wǎng)》中若干個義元的組合表示出來所述的《知網(wǎng)》,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,知識庫包括1500多個義元,每個概念就是由若干個義元的組合標(biāo)注的,其中所述的義元包括基本義元和關(guān)系義元。所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。所述的概念相似度,具體公式為W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中W附,d,2)是概念^和概念w2的概念相似度,《"必(^,萬尸2)是概念¥1的基本義元和概念W2的基本義元的相似度,是概念Wi的關(guān)系義元和概念W2的關(guān)系義元的相似度,""'"^w(s^,^)是概念w^n概念W2的基本義元和關(guān)系義元的相似度,A、^和A分別為扁,W'^)、扁萬(^,萬尸2)和^柳朋(,,iP)的權(quán)重系數(shù),且"|+^+^=1。設(shè)概念W!有nu個基本義元,概念W2有ni2個基本義元,概念W!有m個關(guān)系義元,概念沐2有!12個關(guān)系義元,7'£^,"^"1,ye"2,dij表示概念W說第i個基本義元和概念W2的第j個基本義元在義元樹上的距離,dxy表示概念W^勺第x個關(guān)系義元和概念W2的第y個關(guān)系義元在義元樹上的距離,diy表示概念W^勺第i個基本義元和概念W2的第y個關(guān)系義元在義元樹上的距離,dxj表示概念W^勺第x個關(guān)系義元和概念W2的第j個基本義元在義元樹上的距離,a是一個調(diào)節(jié)參數(shù),且在各種義元相似度計算時取同一值。貝!J:所述的W"^(^^5^的計算方法為a'/附丑CB^,丑只)=maxotw(^A,.,£^,)其中^"(^^UA》是概念&的第i個基本義元和概念W2的第j個基本義元的相似度,'一"7a+《■所述的扁^^,朋。的計算方法為:5/7^(7^,2)=2二">m,ip2,v)其中"是概念Wi的第X個關(guān)系義元和概念W2的第y個關(guān)系義的相似度,,—'.a+《,,。所述的W"^W(^3,^)的計算方法為=max(W"!朋OSA,朋2),w'附朋阿,S尸2))其中W'^i(^^iP2)是概念&的基本義元和概念W2的關(guān)系義元的相似度,^",(^',2)是概念W說關(guān)系義元和概念W2的基本義元的相似度,且一Z柳(《,恥,)其中、"^是概念Wi的第i個基本義元和概念W2的第y個關(guān)系義元的相似度,^m(^"B7^)是概念W的第x個關(guān)系義元和概念W2的第j個基本義元的相似度,且扁(《,萬尸2;):aa+義當(dāng)句子中含有兩個或者多個一詞多義的詞語時,分別計算該句中每個一詞多義的詞語的每一個概念與其它詞語的概念的相似度,在處理一詞多義詞語的一個概念與另一個一詞多義的詞語的概念相似度時,將后者一詞多義詞語的概念取為該詞語在《知網(wǎng)》中第一個概念來計算。第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進行聚類,形成多個信息文檔集,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集。所述的本征特征,就是能反映整篇信息文檔的概念且定義于《知網(wǎng)》中的一組義元。所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有不同的義元各自的權(quán)重值與權(quán)重閾值進行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。對于整篇信息文檔中只出現(xiàn)一次的義元的權(quán)重值是該義元與該信息文檔中其它所有義元的相似度之和;對于整篇信息文檔中出現(xiàn)N次的義元的權(quán)重值是該義元與該信息文檔中其它所有不同義元的相似度之和的N倍,其中計算基本義元和關(guān)系義元間的相似度時,由于它們之間并不是直接的相似而是通過聯(lián)系相互關(guān)聯(lián)的,因此在計算相似度后要乘上可調(diào)節(jié)的參數(shù)£再累加到待計算的義元的權(quán)重值中。所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取i,否則取o,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度&"CJ),相似度大于相似度閾值的兩篇文檔就被歸屬于同一個信息文檔集中,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集,其中<formula>formulaseeoriginaldocumentpage11</formula>其中7和7分別表示第i篇信息文檔和第j篇信息文檔的特征向量。兩篇信息文檔間的相似度越大,說明這兩篇信息文檔屬于同一個熱點事件的可能性就越大。通過控制相似度閾值",可以盡量保證同一個熱點事件信息文檔集中的信息文檔都是關(guān)于同一個事件或同一個觀點的。本實施例提取本征特征后,進行聚類,形成的信息文檔數(shù)目最多的信息文檔集共包含873篇信息文檔,從這些信息文檔中提取出的本征特征義元大多包含"timel時間,day|日,congratulateI祝賀,ttco皿tryl國家,factl事情,check|査,ttarmyl軍隊,military|軍"。這個信息文檔集的主題是2009年中國國慶節(jié)閱兵式。第四步,建立網(wǎng)絡(luò)用語庫,對每個熱點事件信息文檔集中所有信息文檔的相應(yīng)評論文檔進行褒貶傾向分析,綜合每個熱點事件信息文檔集內(nèi)所有評論的褒貶傾向,得到該熱點事件信息文檔集所代表的事件的網(wǎng)絡(luò)輿情傾向。所述網(wǎng)絡(luò)用語庫,包括網(wǎng)絡(luò)指代詞表和網(wǎng)絡(luò)評論詞表,其中網(wǎng)絡(luò)評論詞表包含網(wǎng)絡(luò)評論文檔中帶感情色彩的詞語及其詞性和褒貶傾向性。所述的褒貶傾向分析,包括信息文檔對熱點事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析。所述的信息文檔對熱點事件的褒貶傾向分析,具體為利用網(wǎng)絡(luò)評論詞表的詞分別在熱點事件信息文檔集中的信息文檔中搜索,將搜索到的詞性相符的網(wǎng)絡(luò)評論詞所在的句子稱為信息文檔中心句,該網(wǎng)絡(luò)評論詞稱為信息關(guān)鍵詞,所有信息文檔中心句稱為信息文檔中心句集,根據(jù)信息文檔中心句集中每個信息文檔中心句的信息關(guān)鍵詞所對應(yīng)的義元組合,得到該義元組合與該句子所在的信息文檔的本征特征義元的相似度^"0,將^"G與信息文檔褒貶傾向閾值相比較,若^"0大于信息文檔褒貶傾向閾值,則認為該句子對信息文檔熱點事件的褒貶傾向與該句子的關(guān)鍵詞的褒貶傾向相同,該句子稱為褒貶傾向相同的信息文檔中心句;否則該句子稱為褒貶傾向相反的信息文檔中心句。當(dāng)信息文檔中心句集中褒貶傾向相同的信息文檔中心句與褒貶傾向相反的信息文檔中心句的個數(shù)之比超過了信息文檔褒貶一致性閾值,則認為該信息文檔熱點事件的褒貶傾向與多數(shù)信息文檔中心句相同;否則就需要人工進行判別。所述的信息關(guān)鍵詞的褒貶傾向從網(wǎng)絡(luò)評論詞表中査出。所述的相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,具體為利用網(wǎng)絡(luò)評論詞表的詞分別在熱點事件信息文檔集信息文檔相應(yīng)的評論文檔中搜索,將搜索到的詞性相符的網(wǎng)11絡(luò)評論詞所在的句子稱為評論文檔中心句集,該網(wǎng)絡(luò)評論語稱為評論關(guān)鍵詞,所有評論文檔中心句稱為評論文檔中心句集。若評論文檔中心句只有評論關(guān)鍵詞,則認為該評論關(guān)鍵詞的褒貶傾向就是發(fā)表該評論的網(wǎng)民對該信息文檔的褒貶傾向。若評論文檔中心句包括評論關(guān)鍵詞以外的評論指代詞語,若網(wǎng)絡(luò)指代此表中包括該評論指代詞語,則可得到評論褒貶的對象;否則,得到該評論文檔中心句中表示對象的詞語所對應(yīng)的義元組合,進而得到該義元組合與信息文檔的本征特征的相似度sim'0,若sim'O大于評論文檔褒貶對象閾值,則認為該評論文檔中心句中的評論關(guān)鍵詞的褒貶對象是相應(yīng)的信息文檔熱點事件,否則褒貶對象就是信息文檔本身。所述的評論關(guān)鍵詞的褒貶傾向從網(wǎng)絡(luò)評論詞表中査出。所述的網(wǎng)絡(luò)輿情分析是結(jié)合了熱點事件信息文檔集中的信息文檔對熱點事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,得到評論文檔對信息文檔熱點事件的褒貶傾向,通過統(tǒng)計各個熱點事件信息文檔集中所有信息文檔的相應(yīng)評論文檔對熱點事件的褒貶傾向,就是網(wǎng)絡(luò)對該熱點事件的輿情傾向,具體如表l所示。<table>tableseeoriginaldocumentpage12</column></row><table>本實施例對關(guān)于2009年中國國慶節(jié)閱兵式的信息文檔集中的873篇信息文檔的相應(yīng)評論文檔進行處理,結(jié)果表明,包括信息文檔在內(nèi),共有96.37%的網(wǎng)民對2009年中國國慶節(jié)閱兵式持褒獎、肯定的態(tài)度;有0.83%的網(wǎng)民對2009年中國國慶節(jié)閱兵式持批評、否定態(tài)度;另有2.80%的網(wǎng)民沒有表達明顯的褒貶傾向。本實施例使用概念作為文檔的本征特征,可以很好處理一詞多義和多詞一義的情況,運算簡單;以整篇文檔為單位進行網(wǎng)絡(luò)熱點發(fā)現(xiàn)和輿情分析,且充分考慮了評論文檔包含的輿情信息,提高了網(wǎng)絡(luò)熱點發(fā)現(xiàn)和輿情分析的準(zhǔn)確率。權(quán)利要求1.一種網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征在于,包括如下步驟第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中;第二步,對數(shù)據(jù)庫中的文檔進行概念映射和概念消歧處理,使得每個詞語映射成唯一的概念;第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進行聚類,形成多個信息文檔集,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集;第四步,建立網(wǎng)絡(luò)用語庫,對每個熱點事件信息文檔集中所有信息文檔的相應(yīng)評論文檔進行褒貶傾向分析,綜合每個熱點事件信息文檔集內(nèi)所有評論的褒貶傾向,得到該熱點事件信息文檔集所代表的事件的網(wǎng)絡(luò)輿情傾向。2根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征是,第二步中所述的概念映射,就是將分好的每個詞的概念用《知網(wǎng)》中若干個義元的組合表示出來。3根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征是,第二步中所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。4根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征是,所述的概念相似度,具體公式為W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中扁,dW)是概念W和概念K的概念相似度,扁萬(糾,2)是概念^的基本義元和概念,2的基本義元的相似度,W"'W^'^)是概念'W的關(guān)系義元和概念,2的關(guān)系義元的相似度,W'"^W(SP'^)是概念'W和概念,2的基本義元和關(guān)系義元的相似度,A、A和A分別為扁,W,眠).、扁萬(^,,2)和^柳朋(,,iP)的權(quán)重系數(shù),且設(shè)概念'^有^^個基本義元,概念,2有^2個基本義元,概念'^有巧個關(guān)系義元,概念^有^個關(guān)系義元,^,""2,《表示概念^的第i個基本義元和概念,2的第j個基本義元在義元樹上的距離,《'表示概念^的第x個關(guān)系義元和概念,2的第y個關(guān)系義元在義元樹上的距離,《表示概念'^的第i個基本義元和概念^2的第y個關(guān)系義元在義元樹上的距離,""表示概念'^的第x個關(guān)系義元和概念,2的第j個基本義元在義元樹上的距離,a是一個調(diào)節(jié)參數(shù),且在各種義元相似度計算時取同一值,貝IJ:所述的'""^(^^,^^的計算方法為扁,S,朋2)=max扁(氣.,朋2j)其中^"(^^',2'》是概念^的第i個基本義元和概念,2的第j個基本義元的相似度—萬化.,朋2,)<formula>formulaseeoriginaldocumentpage3</formula>所述的W滅(M,2)的計算方法為:X*少'其中""《^"^^^》是概念W的第x個關(guān)系義元和概念^的第y個關(guān)系義的相似度,^附(氣,^丄a+義所述的'W"^W^P,^)的計算方法為w力必/(8尸.^P)=max(,w附fii(S^,iP2),'w附萬W(/^,5尸2))其中WW^H^'^^是概念K。的基本義元和概念"2的關(guān)系義元的相似度,概念^的關(guān)i',."'d.'《,)^"Bi(i^'^)是概念^的關(guān)系義元和概念,2的基本義元的相似度,且其中w^(S^l'^^")是概念'W的第i個基本義元和概念^2的第y個關(guān)系義元的相似度,wm(M"B^)是概念W的第x個關(guān)系義元和概念^的第j個基本義元的相似度,且<formula>formulaseeoriginaldocumentpage4</formula>5.根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征是,第三步中所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有義元各自的權(quán)重值與權(quán)重閾值進行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。6.根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點和輿情的檢測方法,其特征是,第三步中所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取i,否則取o,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度,相似度大于相似度閾值的兩篇文檔就被歸屬于同一個信息文檔集中,取包含信息文檔數(shù)量最多的前若干個信息文檔集作為熱點事件信息文檔集。全文摘要本發(fā)明提供了網(wǎng)絡(luò)信息處理
技術(shù)領(lǐng)域:
的一種網(wǎng)絡(luò)熱點和輿情的檢測方法,通過搜集指定時間范圍內(nèi)的網(wǎng)絡(luò)論壇、博客系統(tǒng)的正文信息文檔和評論信息文檔,并進行分詞、概念映射、概念消歧,再提取出能夠表達正文信息文檔內(nèi)容的本征特征,利用這些本征特征進行聚類,形成若干個包含不等數(shù)量的信息文檔的信息文檔集,根據(jù)各信息文檔集中信息文檔的數(shù)目可以知道指定時間范圍內(nèi)網(wǎng)絡(luò)上討論的熱點事件,再對熱點事件信息文檔集進行褒貶傾向分析,從而獲知網(wǎng)民對該熱點事件的輿情觀點。本發(fā)明消除了以往輿情系統(tǒng)以詞為單位、不夠靈活的不足,同時增強了對評論文本進行輿情分析的能力。文檔編號G06F17/30GK101661513SQ20091030854公開日2010年3月3日申請日期2009年10月21日優(yōu)先權(quán)日2009年10月21日發(fā)明者張月國,李生紅,昆梁,銘陳申請人:上海交通大學(xué)