專利名稱::一種自適應(yīng)的網(wǎng)絡(luò)輿情識(shí)別方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)信息處理
技術(shù)領(lǐng)域:
,具體來講,涉及一種網(wǎng)絡(luò)輿情識(shí)別方法。
背景技術(shù):
:網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn),主要通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等實(shí)現(xiàn)并加以強(qiáng)化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來越多的網(wǎng)民樂意通過這種渠道來表達(dá)觀點(diǎn)、傳播思想。網(wǎng)絡(luò)輿情是一股強(qiáng)大的輿論力量,會(huì)反作用于熱點(diǎn)事件并對社會(huì)發(fā)展和事態(tài)進(jìn)程產(chǎn)生一定的影響。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對社會(huì)公共安全形成較大威脅。對相關(guān)政府部門來說,如何準(zhǔn)確的識(shí)別網(wǎng)絡(luò)輿情信息并加于及時(shí)監(jiān)測和有效引導(dǎo),對維護(hù)社會(huì)穩(wěn)定、促進(jìn)國家發(fā)展具有重要的現(xiàn)實(shí)意義,也是構(gòu)建和諧網(wǎng)絡(luò)的應(yīng)有內(nèi)涵。因此,對網(wǎng)絡(luò)信息中的輿情信息進(jìn)行及時(shí)準(zhǔn)確的識(shí)別具有重要的意義,如何將處在萌發(fā)狀態(tài)的輿情信息識(shí)別出來具有至關(guān)重要的作用,甚至可以被認(rèn)為是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的核心。目前國內(nèi)的輿情監(jiān)控系統(tǒng)大多側(cè)重于從海量網(wǎng)絡(luò)信息中發(fā)現(xiàn)熱點(diǎn)話題為出發(fā)點(diǎn)來實(shí)現(xiàn)對網(wǎng)絡(luò)輿情的識(shí)別和監(jiān)控,其熱點(diǎn)話題發(fā)現(xiàn)的實(shí)現(xiàn)通常采用關(guān)鍵詞匹配、統(tǒng)計(jì)詞頻的方式,根據(jù)新聞出處權(quán)威度、發(fā)言時(shí)間密集程度等參數(shù),識(shí)別出給定時(shí)間段內(nèi)的熱門話題,再利用內(nèi)容主題詞和敏感詞庫進(jìn)行綜合語義分析,識(shí)別出熱門話題中的敏感話題。這些監(jiān)控系統(tǒng)對于社會(huì)熱門事件引起的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)具有一定的效果,適合給有關(guān)機(jī)構(gòu)提供分析和參考。但是由于熱點(diǎn)發(fā)現(xiàn)的速度一般比較慢,往往是需要流行了一段時(shí)間才能發(fā)現(xiàn)出來,而且發(fā)現(xiàn)出來的熱點(diǎn)話題也僅僅是印證當(dāng)前社會(huì)的熱點(diǎn),容易失去網(wǎng)絡(luò)輿情識(shí)別的時(shí)效性,因此采用熱點(diǎn)話題發(fā)現(xiàn)技術(shù)來識(shí)別網(wǎng)絡(luò)輿情具有一定的滯后性,如何及時(shí)準(zhǔn)確地識(shí)別網(wǎng)絡(luò)中的輿情信息成為一個(gè)亟待解決的問題。
發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種能及時(shí)準(zhǔn)確地了解網(wǎng)絡(luò)輿論的網(wǎng)絡(luò)輿情識(shí)別方法。為實(shí)現(xiàn)本發(fā)明目的,本發(fā)明的網(wǎng)絡(luò)輿情識(shí)別方法,包括以下步驟(1)、從互聯(lián)網(wǎng)中采集網(wǎng)頁文檔并對其預(yù)處理,得到的信息文檔存放到網(wǎng)頁數(shù)據(jù)庫;(2)、導(dǎo)出網(wǎng)頁數(shù)據(jù)庫中的信息文檔進(jìn)行文檔向量化,對所有的信息文檔進(jìn)行分類,結(jié)果分別寫入輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫,該步驟從內(nèi)容方面識(shí)別已知輿情信息類別的信息文檔;(3)、分類失敗的信息文檔聚類,判斷聚類結(jié)果所屬類別并將其寫入相應(yīng)的信息類別庫;(4)、對候選輿情信息類別庫的信息文檔進(jìn)行行為識(shí)別,基于同一類別相關(guān)文檔之間的關(guān)系建立社會(huì)網(wǎng)絡(luò)并對其進(jìn)行社會(huì)網(wǎng)絡(luò)分析,關(guān)系行為符合輿情行為特征的識(shí)別為新的輿情,把新的輿情類別信息寫入輿情信息類別庫。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟1中,通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中采集網(wǎng)頁;通過信息提取單元對網(wǎng)頁進(jìn)行解析預(yù)處理,獲取到的標(biāo)題、正文等信息組裝成網(wǎng)頁信息文檔。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟2中,所述的信息文檔分類做法是首先構(gòu)建輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫,然后基于各個(gè)信息類別庫的分類模型對所有的信息文檔分類,分類結(jié)果寫入相應(yīng)信息類別庫以更新其分類模型。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟3中,分類失敗的剩余文檔按事件進(jìn)行聚類;聚類結(jié)果通過卡方計(jì)算的方式判斷其所屬類別。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的行為識(shí)別是通過社會(huì)網(wǎng)絡(luò)分析的方式實(shí)現(xiàn)的,做法是定期對候選輿情類別庫中的信息文檔進(jìn)行檢測,當(dāng)某個(gè)事件小類的相關(guān)信息文檔數(shù)量達(dá)到一定規(guī)模,抽取這個(gè)事件的信息文檔集合建立社會(huì)網(wǎng)絡(luò)并分析社會(huì)網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)行為符合輿情行為特征的則識(shí)別為輿情,識(shí)別結(jié)果寫入輿情信息類別庫以完善其分類模型。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的構(gòu)建社會(huì)網(wǎng)絡(luò)是以圖的形式來表述網(wǎng)絡(luò)上信息文檔之間的關(guān)系結(jié)構(gòu),所述的圖可以是有向圖或者無向圖。本發(fā)明通過未知輿情事件發(fā)現(xiàn)技術(shù)和已知輿情信息類別識(shí)別技術(shù)相結(jié)合的方式,可以在未知輿情事件萌發(fā)階段就對其進(jìn)行有效的識(shí)別,然后再采用已知輿情信息類別識(shí)別技術(shù)對其進(jìn)行監(jiān)控,從而達(dá)到及時(shí)而又準(zhǔn)確的識(shí)別網(wǎng)絡(luò)輿情,彌補(bǔ)了以往輿情識(shí)別方法采用熱點(diǎn)話題發(fā)現(xiàn)技術(shù)識(shí)別網(wǎng)絡(luò)輿情所帶來的時(shí)間滯后的不足。圖1是本發(fā)明一種網(wǎng)絡(luò)輿情識(shí)別方法的具體實(shí)施方式的整體流程圖;圖2是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST2內(nèi)容識(shí)別的流程圖;圖3是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST3建立候選輿情信息類別庫的流程圖;圖4是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST4行為識(shí)別的流程圖;圖5是步驟ST4行為識(shí)別方法中,構(gòu)建輿情信息行為特征庫的流程圖;圖6是具體實(shí)例中的實(shí)驗(yàn)結(jié)果具體實(shí)施例方式下面對本發(fā)明的具體實(shí)施方式進(jìn)行描述,需要特別提醒注意的是,在以下的描述中,當(dāng)采用已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這兒將被省略。圖1是本發(fā)明一種網(wǎng)絡(luò)輿情識(shí)別方法具體實(shí)施方式的整體流程圖。在本實(shí)施方式中,一種網(wǎng)絡(luò)輿情識(shí)別方法包括以下步驟(1)、利用網(wǎng)絡(luò)爬蟲工具對互聯(lián)網(wǎng)中的網(wǎng)頁文檔信息進(jìn)行實(shí)時(shí)采集,采集的網(wǎng)頁包括新聞網(wǎng)頁文檔、論壇網(wǎng)頁文檔和博客網(wǎng)頁文檔,由于網(wǎng)頁文檔包含很多HTML標(biāo)記,以及公告、導(dǎo)航等無關(guān)信息,因此需要對采集的網(wǎng)頁文檔進(jìn)行HTML標(biāo)記過濾和文檔標(biāo)題、正文內(nèi)容提取等預(yù)處理過程,然后將預(yù)處理結(jié)果組裝成信息文檔并保存到網(wǎng)頁數(shù)據(jù)庫中。該步驟為圖1中的步驟ST1,目的是采集互聯(lián)網(wǎng)中的網(wǎng)頁信息文檔;(2)、導(dǎo)出網(wǎng)頁數(shù)據(jù)庫中的信息文檔并進(jìn)行文檔向量化,建立輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫以存放信息文檔的輿情類別信息,然后基于各個(gè)信息類別庫的小類類別對文檔向量流分類,分類結(jié)果寫入相應(yīng)的信息類別庫。該步驟為圖1中的步驟ST2,經(jīng)過該步驟從內(nèi)容方面識(shí)別出輿情信息類別庫里已有記錄的已知輿情信息文檔,同時(shí)識(shí)別出非輿情信息類別庫已有記錄的非輿情信息文檔和候選輿情信息類別庫已有記錄的候選輿情信息文檔;(3)、內(nèi)容識(shí)別失敗的信息文檔按事件聚類,聚類結(jié)果通過卡方計(jì)算的方式判斷所屬類別,結(jié)果寫入相應(yīng)的信息類別庫以更新分類模型;該步驟為圖1中的步驟ST3,經(jīng)過該步驟主要是建立候選輿情信息類別庫;(4)、對候選輿情信息庫的信息文檔進(jìn)行行為識(shí)別,當(dāng)某個(gè)事件的相關(guān)文檔數(shù)量達(dá)到一定規(guī)模則抽取這個(gè)事件的相關(guān)信息文檔集,針對文檔集中相關(guān)文檔之間的關(guān)系建立社會(huì)網(wǎng)絡(luò)并進(jìn)行社會(huì)網(wǎng)絡(luò)分析,關(guān)系行為符合輿情行為特征的識(shí)別為新的輿情,把新的輿情類別信息寫入輿情信息類別庫以完善分類模型。該步驟為圖1中的步驟ST4,經(jīng)過該步驟從行為方面識(shí)別出輿情信息類別庫里面沒有記錄的新的輿情類別信息。圖2是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST2內(nèi)容識(shí)別的流程圖。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟ST2內(nèi)容識(shí)別主要包括如下步驟步驟ST201文檔向量化把所有的信息文檔都按照特征詞進(jìn)行文檔向量化,其中向量的維數(shù)為所有文檔選取的特征詞的個(gè)數(shù)之和,向量每一維上的值即為該維所對應(yīng)的特征詞的權(quán)重,特征詞主要從文章標(biāo)題和內(nèi)容中提取,文檔向量化流程如下1)對文章標(biāo)題和文章內(nèi)容進(jìn)行分詞;2)統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),其中參與統(tǒng)計(jì)可包括名詞、動(dòng)詞、形容詞等;3)結(jié)合搜狗詞庫計(jì)算每個(gè)詞的權(quán)重,文章標(biāo)題中的特征詞權(quán)重計(jì)算公式TitlePara*FileF/(float)(l+Math.log(l+SogouF))*F_MAX*σ⑴文章正文中的特征詞權(quán)重計(jì)算公式TextPara*FileF/(float)(1+Math.log(1+SogouF))*o(2)其中TitlePara和TextPara為人為設(shè)置參數(shù),取值范圍為[1,3],TitlePara值一般為TextPara值的兩倍,F(xiàn)ileF為該特征詞在文檔中出現(xiàn)的次數(shù),SogouF為該特征詞在搜狗詞庫里面記錄的詞頻,F(xiàn)_MAX為文檔中出現(xiàn)次數(shù)最多的特征詞的出現(xiàn)次數(shù),σ為衰減因子,取值范圍為W,1],對于搜狗詞庫里面沒有記錄的個(gè)別特征詞,這樣的特征詞一般比較關(guān)鍵,權(quán)重計(jì)算公式<formula>formulaseeoriginaldocumentpage7</formula>Pre_T為該特征詞在文檔中出現(xiàn)的次數(shù),Value_Max文檔中權(quán)重最大的特征詞的權(quán)重,Max_T為文檔中權(quán)重最大的特征詞的出現(xiàn)次數(shù);4)對權(quán)重計(jì)算結(jié)果排序,取前S個(gè)為文檔的特征詞。然后把每個(gè)特征詞作為特征向量的一維,如果文檔中含有該特征詞,則該維值為特征詞權(quán)重,否則取0。由此得到每篇文檔的特征向量。步驟ST202構(gòu)建網(wǎng)頁文檔信息類別庫1)網(wǎng)頁文檔信息類別庫主要來存放信息文檔的輿情類別信息,信息類別庫采用小類和大類兩級(jí)數(shù)據(jù)結(jié)構(gòu),其中小類類別代表針對同一事件相關(guān)信息文檔的類別信息集,而把具有同性質(zhì)、同領(lǐng)域的小類類別歸結(jié)為一個(gè)大類類別;2)構(gòu)建小類的分類模型統(tǒng)計(jì)該類中所有特征詞權(quán)重的平均值,取權(quán)值最大的T個(gè)特征詞作為該類的類別選取特征詞,T個(gè)特征詞的權(quán)重組成的向量作為類中心向量,然后計(jì)算該類中每個(gè)文檔與類中心向量的距離,取最小距離作為該類的類半徑,將類別選取特征詞、類中心向量和類半徑作為分類模型信息保存到信息類別庫;3)基于系統(tǒng)管理員自身關(guān)注的信息類別把信息類別庫分成輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫,其中輿情信息類別庫用來存放現(xiàn)有已知輿情的信息文檔類別信息,非輿情信息類別庫用來存放系統(tǒng)管理員自身不關(guān)注可判斷為非輿情的信息文檔類別信息,候選輿情信息類別庫用來存放需要特殊識(shí)別步驟處理的待識(shí)別的信息文檔類別信息。三種信息類別庫采用一樣的數(shù)據(jù)結(jié)構(gòu)。步驟ST203基于輿情信息類別庫中小類類別對信息文檔分類1)加載輿情信息類別庫所有分類模型信息,包括類別選取的特征詞、類中心向量以及類半徑,分類模型的建立方式可查看步驟ST202的第(2)小步。2)進(jìn)行文檔分類首先對信息文檔向量流基于輿情信息類別庫中已有的小類類別進(jìn)行分類,做法是用文檔特征詞向量與所有分類模型的類中心向量兩兩計(jì)算距離,向量之間距離為向量之間余弦相似度的倒數(shù),計(jì)算公式如下<formula>formulaseeoriginaldocumentpage7</formula>兩個(gè)向量之間的余弦相似度越大,表明兩者之間越相似,則兩者之間距離而喊,乃越小。接下來選取距離最小的分類模型,判斷文檔向量與該分類模型類中心向量之間的距離^(『,/)是否在類半徑以內(nèi),如果在則分類成功,屬于同一事件的文檔分到已有的小類類別中,成功識(shí)別出輿情信息類別庫已有記錄的輿情,并把該輿情信息文檔的相應(yīng)類別信息寫入輿情信息類別庫以更新分類模型,作法包括把新特征詞寫入類別的特征詞庫、調(diào)整小類類半徑;如果不在則分類不成功,轉(zhuǎn)如下步驟處理。步驟ST204基于非輿情信息類別庫中小類類別對剩余信息文檔分類基于非輿情信息類別庫的小類類別對剩余信息文檔向量流分類,做法和步驟ST203一樣,識(shí)別出非輿情信息類別庫中已有記錄的非輿情信息文檔并把該非輿情信息文檔的相應(yīng)更新信息寫入非輿情信息類別庫;步驟ST205基于候選輿情信息類別庫中小類類別對剩余信息文檔分類基于候選輿情信息類別庫的小類類別對剩余信息文檔向量流分類,做法和步驟ST203一樣,識(shí)別出候選輿情信息類別庫中已有記錄的候選輿情信息文檔并把該候選輿情信息文檔的相應(yīng)更新信息寫入候選輿情信息類別庫。圖3是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST3建立候選輿情信息類別庫的流程圖。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟ST3建立候選輿情信息類別庫包括如下步驟步驟ST301剩余信息文檔聚類對基于各個(gè)信息類別庫中小類類別分類失敗的剩余文檔進(jìn)行聚類,聚類流程如下1)加載所有文檔的特征詞及特征詞對應(yīng)權(quán)重;2)采用公式4計(jì)算所有文檔相互之間的距離,并求出距離的平均值;3)對距離的值進(jìn)行排序并記錄對應(yīng)的文檔ID,對于那些距離在平均值以內(nèi)的相似文檔進(jìn)行合并若文檔A與B的距離在平均值以內(nèi),B與C的距離也在平均值以內(nèi),則文檔A,B,C合并為一類。循環(huán)進(jìn)行這樣的合并操作,直到不能合并為止。這樣便得到若干個(gè)類。4)查看聚類的結(jié)果,若某個(gè)小類的文檔個(gè)數(shù)超過某一閾值,則建立該類的分類模型,分類模型的建立方式可查看步驟ST202的第(2)小步。步驟ST302卡方計(jì)算聚類結(jié)果中所有小類所屬的大類通過步驟ST301剩余文檔聚類得到的若干新的小類,接下來采用卡方計(jì)算的方法把這些小類分配給輿情信息類別庫、非輿情信息類別庫、候選輿情信息類別庫這三個(gè)信息類別庫中的某個(gè)大類。其具體步驟是計(jì)算一個(gè)小類中的某個(gè)關(guān)鍵詞在所有大類中的卡方值,如果這個(gè)關(guān)鍵詞在某個(gè)大類中的卡方值最大,那么就認(rèn)為這個(gè)關(guān)鍵詞投了這個(gè)大類一票,按這樣的方法計(jì)算這個(gè)小類中的每一個(gè)關(guān)鍵詞在所有大類中的卡方值,最后把這個(gè)小類分給得票數(shù)最多的那個(gè)大類,直至所有小類都分到所屬大類??ǚ街当硎咎卣髟~與所在類的關(guān)聯(lián)度,特征詞的卡方值計(jì)算公式為<formula>formulaseeoriginaldocumentpage8</formula>⑶其中,A代表特征詞t在c類別文檔中所占的權(quán)重,B代表特征詞t在非c類別文檔中所占的權(quán)重,C代表非t特征詞在c類別文檔中所占的權(quán)重,D代表所有非t特征詞在非c類文檔中所占的權(quán)重,N代表整個(gè)文檔集含有的文檔數(shù)目。步驟ST303系統(tǒng)管理員糾正錯(cuò)誤分類或添加新的大類采用任何分類模型都無法做到完全正確,經(jīng)過步驟ST302分類后的結(jié)果可能存在一些錯(cuò)誤,系統(tǒng)管理員可選擇性的查看卡方計(jì)算結(jié)果,對于分類錯(cuò)誤的操作進(jìn)行調(diào)整。如果發(fā)現(xiàn)卡方計(jì)算歸類錯(cuò)誤的小類并不屬于任何一個(gè)已有的大類,則也可以直接增加新的大類,把計(jì)算錯(cuò)誤的小類標(biāo)識(shí)為屬于新增的大類。步驟ST304文檔類別信息寫入類庫把新的小類的文檔類別信息寫入各個(gè)相應(yīng)的信息類別庫,以在信息類別庫建立新的小類的分類模型信息,文檔類別信息包括類別選取的特征詞、類中心向量以及類半徑,分類模型的建立方式可查看步驟ST202的第(2)小步。同時(shí)把步驟ST303新增大類的小類的文檔類別信息寫入候選輿情信息類別庫,以在候選輿情信息類別庫建立新的分類模型信息。這樣當(dāng)下一批信息文檔到來時(shí)同一事件的文檔就可以基于這些新的小類類別信息進(jìn)行正確識(shí)別處理。圖4是圖1所示的網(wǎng)絡(luò)輿情識(shí)別方法中,步驟ST4行為識(shí)別的流程圖。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟ST2行為識(shí)別主要包括如下步驟步驟ST401構(gòu)建輿情行為特征庫輿情信息行為特征庫用來保存網(wǎng)絡(luò)輿情行為識(shí)別過程中使用的行為參數(shù)規(guī)則的數(shù)據(jù)庫。行為識(shí)別是結(jié)合輿情信息行為特征庫通過判斷網(wǎng)絡(luò)信息是否符合輿情信息的行為特征來實(shí)現(xiàn)的。輿情行為特征庫構(gòu)建步驟具體如下步驟ST4011收集網(wǎng)絡(luò)中典型輿情事件的文檔首先收集網(wǎng)絡(luò)上已發(fā)生的典型輿情事件,并用文檔的形式保存下來以進(jìn)行后續(xù)的分析。步驟ST4012構(gòu)建社會(huì)網(wǎng)絡(luò)考慮到網(wǎng)絡(luò)中輿情信息傳播的特點(diǎn)和途徑,對步驟ST4011收集到的輿情事件文檔建立一個(gè)兩層的網(wǎng)絡(luò),用兩層圖模型來表示。網(wǎng)絡(luò)的建立步驟如下1)下層網(wǎng)絡(luò)的建立。網(wǎng)絡(luò)中的節(jié)點(diǎn)表示主題貼,每個(gè)主題貼節(jié)點(diǎn)都有一個(gè)一個(gè)質(zhì)量屬性M,該值是用網(wǎng)民對該主題帖的回復(fù)數(shù)和點(diǎn)擊數(shù)的比計(jì)算而來的。若兩個(gè)主題帖之間存在相互引用或鏈接,那么就在這兩個(gè)主題帖間建立一條邊。2)上層網(wǎng)絡(luò)的建立。網(wǎng)絡(luò)中的節(jié)點(diǎn)表示論壇。若兩個(gè)論壇中存在相互引用或鏈接的主題帖,則在兩個(gè)論壇節(jié)點(diǎn)間連一條線。3)層次關(guān)系的建立。將每個(gè)論壇節(jié)點(diǎn)和該論壇下的主題貼節(jié)點(diǎn)連一條邊。步驟ST4013提取能刻畫輿情信息行為特征的社會(huì)網(wǎng)絡(luò)屬性并對其進(jìn)行量化計(jì)算對于建立的社會(huì)網(wǎng)絡(luò),通過分析發(fā)現(xiàn)網(wǎng)絡(luò)中的以下參數(shù)可以很好的對輿情信息的行為特征進(jìn)行刻畫,(1)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)目,下層網(wǎng)絡(luò)中的節(jié)點(diǎn)代表了與事件相關(guān)的新聞報(bào)道和論壇主題帖,其數(shù)目的變化反映了與事件相關(guān)的新聞報(bào)道和論壇主題帖數(shù)目的變化。(2)網(wǎng)絡(luò)直徑,網(wǎng)絡(luò)中每兩個(gè)點(diǎn)之間都有一條或多條最短路徑,把網(wǎng)絡(luò)中最長最短路徑的長度叫做網(wǎng)絡(luò)的直徑。上層網(wǎng)絡(luò)中網(wǎng)絡(luò)直徑的變化,反映了事件的傳播距離和傳播范圍的變化。(3)網(wǎng)絡(luò)節(jié)點(diǎn)質(zhì)量,下層網(wǎng)絡(luò)中的節(jié)點(diǎn)質(zhì)量網(wǎng)民對主題帖的回復(fù)數(shù)和點(diǎn)擊數(shù)的比,它的變化反映了網(wǎng)民對于事件的關(guān)注程度的變化。(4)網(wǎng)絡(luò)密度,密度是社會(huì)網(wǎng)絡(luò)分析中最常用的一種測度,是圖論中另外一個(gè)得到廣泛運(yùn)用的概念。對于一個(gè)具有η個(gè)節(jié)點(diǎn)的圖來說,節(jié)點(diǎn)之間的連線越多,該圖的密度就越大。具體地說,密度指的是一個(gè)圖中各個(gè)點(diǎn)之間聯(lián)絡(luò)的緊密程度。下層網(wǎng)絡(luò)的網(wǎng)絡(luò)密度的變化,反映了有關(guān)事件的報(bào)道或主題帖在不同網(wǎng)民間被引用次數(shù)的變化。然后根據(jù)上述構(gòu)建網(wǎng)絡(luò)的步驟,選取一類網(wǎng)絡(luò)信息中的所有信息文檔,根據(jù)文檔時(shí)間標(biāo)簽的不同分別建立社會(huì)網(wǎng)絡(luò),這樣一類別的網(wǎng)絡(luò)信息便對應(yīng)一系列的網(wǎng)絡(luò)參數(shù)時(shí)間序列,接下來基于參數(shù)時(shí)間系列對網(wǎng)絡(luò)屬性進(jìn)行量化。網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)目M1的計(jì)算公式<formula>formulaseeoriginaldocumentpage10</formula>(6)網(wǎng)絡(luò)直徑禮的計(jì)算公式:<formula>formulaseeoriginaldocumentpage10</formula>(7)網(wǎng)絡(luò)節(jié)點(diǎn)質(zhì)量M3的計(jì)算公式:<formula>formulaseeoriginaldocumentpage10</formula>(8)網(wǎng)絡(luò)密度M4的計(jì)算公式:<formula>formulaseeoriginaldocumentpage10</formula>(9)其中NodNumt為t時(shí)刻下層網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)目,NetDiamt為t時(shí)刻上層網(wǎng)絡(luò)的網(wǎng)絡(luò)直徑,NetMasst為t時(shí)刻下層網(wǎng)絡(luò)中所有節(jié)點(diǎn)的質(zhì)量之和,NetDenst為t時(shí)刻下層網(wǎng)絡(luò)的網(wǎng)絡(luò)密度。步驟ST4014實(shí)驗(yàn)獲取行為參數(shù)閾值并寫入輿情信息行為特征庫以上四個(gè)參數(shù)在短時(shí)間內(nèi)的急劇變化準(zhǔn)確地反映了輿情信息的行為特征。但是對于這些參數(shù),不能孤立地把其中一個(gè)參數(shù)的變化作為判斷某個(gè)事件是否成為輿情信息的依據(jù),因?yàn)橐恍┓禽浨樾畔⑹录谄洚a(chǎn)生的過程中也可能出現(xiàn)某個(gè)參數(shù)的變化與輿情信息行為特征相似的情況。所以,只有將上述參數(shù)結(jié)合起來,綜合地考慮才能夠準(zhǔn)確的描述輿情信息的行為特征。通過對大量輿情信息實(shí)驗(yàn)的分析發(fā)現(xiàn),以上四個(gè)參數(shù)在刻畫輿情信息的行為特征時(shí)所占的比重是不同的,它們之間的比重大致是0.40.10.20.3。為此,本發(fā)明提出下面的輿情指數(shù)計(jì)算公式作為從數(shù)量上判別輿情信息的依據(jù)M=O.4*M1+0.1*Μ2+0·2*Μ3+0·3Μ4(10)其中輿情指數(shù)M表示網(wǎng)絡(luò)信息的行為特征與典型輿情信息行為的相似程度,網(wǎng)絡(luò)信息的M值越大,說明它的產(chǎn)生、傳播過程與輿情信息的行為特征越相似,它就越可能成為輿情信息。同時(shí)實(shí)驗(yàn)也發(fā)現(xiàn),眾多輿情信息的M值一般都存在于區(qū)間[θ,ω]之中,因此把輿情閾值設(shè)置為區(qū)間下限θ,當(dāng)某網(wǎng)絡(luò)信息的M值超過θ即輿情閾值時(shí),該網(wǎng)絡(luò)信息被識(shí)別為輿情信息。最后把Μ,MIJM2,M3,M4的計(jì)算方法及M的閾值作為規(guī)則存入輿情信息行為特征庫中作為判斷網(wǎng)絡(luò)信息是否符合輿情信息的行為特征的依據(jù)。步驟ST402抽取屬于同一個(gè)事件小類的文檔,建立該類事件的社會(huì)網(wǎng)絡(luò)。當(dāng)候選輿情信息類別庫中某個(gè)事件相關(guān)文檔達(dá)到一定規(guī)模則從類別庫中抽取出屬于該小類事件的文檔組成該事件的文檔集,然后基于文檔集建立該類事件的社會(huì)網(wǎng)絡(luò)。建立方法同步驟ST4012。步驟ST403社會(huì)網(wǎng)絡(luò)參數(shù)分析結(jié)合輿情信息行為特征庫里面的規(guī)則分析該事件社會(huì)網(wǎng)絡(luò)中的網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、網(wǎng)絡(luò)直徑、網(wǎng)絡(luò)節(jié)點(diǎn)質(zhì)量、網(wǎng)絡(luò)密度參數(shù)。首先采用行為特征庫保存的各網(wǎng)絡(luò)屬性參數(shù)計(jì)算方法對各參數(shù)進(jìn)行計(jì)算,然后把參數(shù)計(jì)算結(jié)果代入公式(10)中計(jì)算出當(dāng)前時(shí)刻M的值。如果M的值超過θ即輿情閾值時(shí)則認(rèn)為該小類事件的社會(huì)網(wǎng)絡(luò)參數(shù)行為符合輿情行為特征,該小類事件將有可能引發(fā)輿情,對該小類事件進(jìn)行輿情標(biāo)注;否則小類事件還沒能構(gòu)成輿情,暫不處理。步驟ST404識(shí)別為輿情信息并寫入輿情信息類別庫把標(biāo)注為輿情的小類事件的相關(guān)文檔類別信息寫入輿情信息類別庫,以在信息類別庫建立新的小類的分類模型信息,文檔類別信息包括類別選取的特征詞、類中心向量以及類半徑,分類模型的建立方式可查看步驟ST301的第(4)小步。在本發(fā)明中,系統(tǒng)把輿情信息的識(shí)別分為內(nèi)容識(shí)別和行為識(shí)別兩部分,首先通過步驟ST202可以直接識(shí)別出與已知輿情小類的相關(guān)文檔類別信息加入輿情信息類別庫,接下來通過步驟ST302也可以識(shí)別出屬于已知輿情大類的事件小類的相關(guān)文檔類別信息加入輿情信息類別庫,前兩種方式主要是從內(nèi)容方面識(shí)別輿情;本發(fā)明最后還可以通過步驟ST403依靠社會(huì)網(wǎng)絡(luò)知識(shí)采用行為識(shí)別的方式從候選輿情信息類別庫中識(shí)別出未知的輿情事件文檔類別信息來加入輿情信息類別庫。通過上述的三種方式本發(fā)明所涉及的輿情信息類別庫能夠不斷的學(xué)習(xí)完善最終做到準(zhǔn)確高效的輿情識(shí)別。本發(fā)明的效果在于不但可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)中的已知輿情信息,還結(jié)合行為識(shí)別通過社會(huì)網(wǎng)絡(luò)分析的方式對可能引起輿情的未知事件進(jìn)行識(shí)別和處理,可以在未知輿情事件萌發(fā)階段就對其進(jìn)行有效的識(shí)別,彌補(bǔ)了以往輿情識(shí)別方法采用熱點(diǎn)話題發(fā)現(xiàn)技術(shù)識(shí)別網(wǎng)絡(luò)輿情所帶來的時(shí)間滯后的不足。具體實(shí)例為進(jìn)一步理解本發(fā)明的網(wǎng)絡(luò)輿情識(shí)別方法,下面舉一具體實(shí)例,包括如下步驟(一)通過爬蟲從新浪,網(wǎng)易,搜狐三大主流網(wǎng)站的論壇抓取網(wǎng)頁,網(wǎng)頁發(fā)布時(shí)間從09年5月1號(hào)開始,到09年8月15號(hào)截止,然后對抓取的網(wǎng)頁進(jìn)行網(wǎng)頁解析預(yù)處理,提取出標(biāo)題和正文保存在信息文檔中,再把信息文檔保存到爬蟲數(shù)據(jù)庫。(二)對信息文檔基于各個(gè)信息類別庫已有小類別進(jìn)行分類。首先對爬蟲數(shù)據(jù)庫中的信息文檔進(jìn)行向量化,向量化方法為1)對文章標(biāo)題和文章內(nèi)容進(jìn)行分詞,2)統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),其中參與統(tǒng)計(jì)可包括名詞、動(dòng)詞、形容詞等,3)然后結(jié)合搜狗詞庫計(jì)算每個(gè)詞的權(quán)重,其中TitlePara值設(shè)置為2,TextPara值設(shè)置為1,衰減因子σ設(shè)置為經(jīng)驗(yàn)值0.7。4)接下來對權(quán)重計(jì)算結(jié)果排序,取前15個(gè)為文檔的特征詞。然后把每個(gè)特征詞作為特征向量的一維,如果文檔中含有該特征詞,則該維值為特征詞權(quán)重,否則取0。由此得到每篇文檔的特征向量。接下來基于各個(gè)信息類別庫的分類模型對所有文檔進(jìn)行分類,因?yàn)橄到y(tǒng)一開始時(shí)三個(gè)信息類別庫均為空,第一批文檔無法基于信息類別庫中的小類類別分類,則對第一批文檔進(jìn)行聚類,聚類方法為1)加載所有文檔的特征詞及特征詞對應(yīng)權(quán)重;2)采用向量距離公式計(jì)算所有文檔相互之間的距離,并求出距離的平均值;3)對距離的值進(jìn)行排序并記錄對應(yīng)的文檔ID,對于那些距離在平均值以內(nèi)的相似文檔進(jìn)行合并,循環(huán)進(jìn)行這樣的合并操作,直到不能合并為止。這樣便得到若干個(gè)類。聚類結(jié)果包括浙江杭州市飆車案、湖北巴東縣鄧玉嬌案,河南靈寶市王帥案,四川成都公交車燃燒,綠壩軟件事件,股票行情等小類。4)查看聚類的結(jié)果,當(dāng)某個(gè)小類的文檔個(gè)數(shù)超過閾值50,則建立該類的分類模型,分類模型的建立方法為統(tǒng)計(jì)該類中所有特征詞權(quán)重的平均值,取權(quán)值最大的200個(gè)特征詞作為該類的類別選取特征詞,這200個(gè)特征詞的權(quán)重組成的向量作為類中心向量,然后計(jì)算該類中每個(gè)文檔與類中心向量的距離,取最小距離作為該類的類半徑,將類別選取特征詞、類中心向量和類半徑作為分類模型信息保存到信息類別庫。最后系統(tǒng)管理員對聚類結(jié)果中的所有小類標(biāo)注其所屬大類,結(jié)果如下<table>tableseeoriginaldocumentpage12</column></row><table>同時(shí)因?yàn)橄到y(tǒng)管理員自身對刑事案件、公權(quán)力形象和突發(fā)事件三個(gè)大類比較感興趣,而對經(jīng)濟(jì)安全不感興趣,因此把刑事案件、公權(quán)力形象和突發(fā)事件三個(gè)大類標(biāo)注為輿情,把經(jīng)濟(jì)安全大類標(biāo)注為非輿情,并把刑事案件大類、公權(quán)力形象和突發(fā)事件三個(gè)大類及各自相應(yīng)小類的相關(guān)文檔類別信息寫入輿情信息類別庫,把經(jīng)濟(jì)安全大類和股票行情小類的相應(yīng)文檔類別信息寫入非輿情信息類別庫,其余的則寫入候選輿情信息類別庫,作為各個(gè)信息類別庫的初始數(shù)據(jù)以建立分類模型。(三)爬蟲采集下來第二批文檔流,文檔向量化,然后依次基于輿情信息類別庫,非輿情信息類別庫,候選輿情信息類別庫中已有的小類類別對文檔流進(jìn)行分類。1)分類成功,屬于同一事件的文檔分到已有的小類類別中,比如新采集的四川成都公交車燃燒事件的相關(guān)文檔就分到突發(fā)事件大類下的四川成都公交車燃燒事件這個(gè)小類類別下,同時(shí)把新的文檔類別信息寫入輿情信息類別庫,以便擴(kuò)充和完善信息類別庫中關(guān)于甕安事件的文檔信息。其它的小類事件處理方式類似。2)分類不成功,(1)對剩余文檔進(jìn)行聚類,聚成若干小類,包含有湖北石首市騷亂事件,河南鄭州副局長“替誰說話”事件,新疆事件,臺(tái)風(fēng)莫拉克,成都女大學(xué)生村官被毆致死事件等小類。(2)計(jì)算特征詞的卡方值首先采用卡方公式計(jì)算所有小類中的特征詞與所有已有的大類類別的相關(guān)度,然后基于文檔特征詞的卡方計(jì)算結(jié)果采用投票的方式來決定每篇文檔所屬大類,同樣基于某個(gè)未標(biāo)識(shí)的小類所里面有文檔投票結(jié)果再次采用投票的方式來決定該未標(biāo)識(shí)的小類所屬大類。其中新疆事件聚類結(jié)果共有64篇文檔,每篇文檔取15個(gè)特征詞,首先采用特征詞投票的方式計(jì)算一篇文檔所屬大類,比如某文檔中有12個(gè)特征詞計(jì)算結(jié)果屬于突發(fā)事件大類,3個(gè)特征詞計(jì)算結(jié)果屬于食品安全大類,則該篇文檔屬于突發(fā)事件大類。依次計(jì)算所有64篇文檔,結(jié)果有52篇文檔計(jì)算結(jié)果屬于突發(fā)事件大類,12篇文檔計(jì)算結(jié)果屬于刑事案件大類,則最終得出新疆事件小類屬于突發(fā)事件大類。采用同樣方式依次計(jì)算得出湖北石首市騷亂事件,臺(tái)風(fēng)莫拉克,成都女大學(xué)生村官被毆致死事件屬于突發(fā)事件大類,河南鄭州副局長“替誰說話”事件屬于公權(quán)力形象大類。3)系統(tǒng)管理員查看卡方計(jì)算結(jié)果,把歸類不當(dāng)?shù)男☆愔匦職w類,或者標(biāo)識(shí)新增的大類。其中成都女大學(xué)生村官被毆致死事件的計(jì)算結(jié)果顯示屬于突發(fā)事件大類,這是文本采集不足造成的,所以管理員把它調(diào)整到刑事案件大類下;同時(shí)管理員認(rèn)為應(yīng)該添加群體性事件大類并標(biāo)識(shí)其為輿情類別,把湖北石首市騷亂事件和新疆事件調(diào)整到群體性事件大類下,這樣處理比較合理;而臺(tái)風(fēng)莫拉克因?yàn)樯婕暗酵话l(fā)的自然災(zāi)害的描述,計(jì)算結(jié)果屬于突發(fā)事件大類,這也不是很妥當(dāng),管理員新增自然災(zāi)害大類,并把臺(tái)風(fēng)莫拉克調(diào)整到自然災(zāi)害大類下寫入候選輿情信息類別庫進(jìn)行監(jiān)控。各個(gè)信息類別庫中文檔類別信息如下<table>tableseeoriginaldocumentpage13</column></row><table>(4)行為識(shí)別輿情信息系統(tǒng)經(jīng)過實(shí)時(shí)的監(jiān)控發(fā)現(xiàn),臺(tái)風(fēng)莫拉克的相關(guān)文檔數(shù)量達(dá)到了50篇閾值以上,接下來從候選輿情信息類別庫庫中抽取出臺(tái)風(fēng)莫拉克的相關(guān)文檔,建立該類事件的社會(huì)網(wǎng)絡(luò)。通過對該社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、網(wǎng)絡(luò)直徑、網(wǎng)絡(luò)節(jié)點(diǎn)質(zhì)量、網(wǎng)絡(luò)密度參數(shù)進(jìn)行計(jì)算。把參數(shù)計(jì)算結(jié)果代入公式(10)中計(jì)算出當(dāng)前時(shí)刻M的值。如圖6所示,發(fā)現(xiàn)M的值超過6即輿情閾值,則臺(tái)風(fēng)莫拉克小類事件有可能已經(jīng)形成了網(wǎng)絡(luò)輿情,把臺(tái)風(fēng)莫拉克小類標(biāo)注為輿情并把相關(guān)文檔類別信息移入輿情信息類別庫,接下來就可以采用前面的內(nèi)容識(shí)別步驟快速準(zhǔn)確的對其進(jìn)行監(jiān)控。通過上述步驟,我們得到了當(dāng)前監(jiān)測階段的輿情識(shí)別結(jié)果,下面將給出識(shí)別出來的輿情信息,這個(gè)階段的非輿情信息和候選輿情信息我們在這里就不逐一顯示了。輿情信息類別庫中文檔類別信息如下<table>tableseeoriginaldocumentpage14</column></row><table>(5)對爬蟲下一批信息文檔進(jìn)行輿情信息識(shí)別采用上述的步驟處理爬蟲采集下來的第三批文檔流,通過不斷循環(huán)的方式,隨著越來越多的事件文檔加入到輿情信息類別庫,信息類別庫中輿情信息類別得到不斷的豐富,同時(shí)信息類別庫中新特征詞的不斷加入和已有的特征詞施加的衰減因子,也保證了輿情信息類別庫中的分類模型信息能夠得到不斷的更新。盡管上面對本發(fā)明說明性的具體實(shí)施方式進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式的范圍,對本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化時(shí)顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。權(quán)利要求一種網(wǎng)絡(luò)輿情識(shí)別方法,包括以下步驟(1)、從互聯(lián)網(wǎng)中采集網(wǎng)頁文檔并對其預(yù)處理,得到的信息文檔存放到網(wǎng)頁數(shù)據(jù)庫;(2)、導(dǎo)出網(wǎng)頁數(shù)據(jù)庫中的信息文檔進(jìn)行文檔向量化,對所有的信息文檔進(jìn)行分類,結(jié)果分別寫入輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫,該步驟從內(nèi)容方面識(shí)別已知輿情信息類別的信息文檔;(3)、分類失敗的信息文檔聚類,判斷聚類結(jié)果所屬類別,將其寫入相應(yīng)的信息類別庫;(4)、對候選輿情信息類別庫的信息文檔進(jìn)行行為識(shí)別,基于同一類別相關(guān)文檔之間的關(guān)系建立社會(huì)網(wǎng)絡(luò)并對其進(jìn)行社會(huì)網(wǎng)絡(luò)分析,關(guān)系行為符合輿情行為特征的識(shí)別為輿情,把新的輿情類別信息寫入輿情信息類別庫。2.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,步驟(1)的具體實(shí)現(xiàn)方法為通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中采集網(wǎng)頁;通過信息提取單元對網(wǎng)頁進(jìn)行解析預(yù)處理,獲取到的標(biāo)題、正文等信息組裝成網(wǎng)頁信息文檔并保存到網(wǎng)頁數(shù)據(jù)庫。3.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,步驟(2)所述的文檔向量化,其步驟為首先對文章標(biāo)題和文章內(nèi)容進(jìn)行分詞,統(tǒng)計(jì)每個(gè)詞在文檔中出現(xiàn)的次數(shù),其中參與統(tǒng)計(jì)包括名詞、動(dòng)詞、形容詞,然后計(jì)算詞語權(quán)重并對計(jì)算結(jié)果排序,取前S個(gè)作為文檔的特征詞,接著把每個(gè)特征詞作為特征向量的一維,如果文檔中含有該特征詞,則該維值為特征詞權(quán)重,否則取0,由此得到每篇文檔的特征向量。4.根據(jù)權(quán)利要求1或3所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,所述的詞語權(quán)重計(jì)算方法為結(jié)合搜狗詞庫計(jì)算每個(gè)詞的權(quán)重,文章標(biāo)題中的特征詞權(quán)重計(jì)算公式<formula>formulaseeoriginaldocumentpage2</formula>文章正文中的特征詞權(quán)重計(jì)算公式<formula>formulaseeoriginaldocumentpage2</formula>其中TitlePara和TextPara為人為設(shè)置參數(shù),TitlePara值一般為TextPara值的兩倍,F(xiàn)ileF為該特征詞在文檔中出現(xiàn)的次數(shù),SogouF為該特征詞在搜狗詞庫里面記錄的詞頻,F(xiàn)_MAX為文檔中出現(xiàn)次數(shù)最多的特征詞的出現(xiàn)次數(shù),σ為衰減因子;搜狗詞庫里面沒有記錄的個(gè)別特征詞的權(quán)重計(jì)算公式<formula>formulaseeoriginaldocumentpage2</formula>其中Pre_T為該特征詞在文檔中出現(xiàn)的次數(shù),Value_Max文檔中權(quán)重最大的特征詞的權(quán)重,Max_T為文檔中權(quán)重最大的特征詞的出現(xiàn)次數(shù)。5.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,步驟(2)所述的信息文檔分類做法是首先構(gòu)建輿情信息類別庫、非輿情信息類別庫和候選輿情信息類別庫,然后基于各個(gè)信息類別庫的分類模型對所有的信息文檔分類,分類結(jié)果寫入相應(yīng)信息類別庫以更新其分類模型。6.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,步驟(3),分類失敗的剩余文檔按事件進(jìn)行聚類;聚類結(jié)果通過卡方計(jì)算的方式判斷其所屬類別。7.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,步驟(4),所述的行為識(shí)別是通過社會(huì)網(wǎng)絡(luò)分析的方式實(shí)現(xiàn)的,做法是定期對候選輿情類別庫中的信息文檔進(jìn)行檢測,當(dāng)某個(gè)事件小類的相關(guān)信息文檔數(shù)量達(dá)到一定規(guī)模,抽取這個(gè)事件的信息文檔集合建立社會(huì)網(wǎng)絡(luò)并分析社會(huì)網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)行為符合輿情行為特征的則識(shí)別為輿情,識(shí)別結(jié)果寫入輿情信息類別庫以完善其分類模型。8.根據(jù)權(quán)利要求1或7所述的一種網(wǎng)絡(luò)輿情識(shí)別方法,其特征在于,所述的構(gòu)建社會(huì)網(wǎng)絡(luò)是以圖的形式來表述網(wǎng)絡(luò)上信息文檔之間的關(guān)系結(jié)構(gòu),所述的圖可以是有向圖或者無向圖。全文摘要本發(fā)明公開了一種網(wǎng)絡(luò)輿情識(shí)別方法,首先通過爬蟲工具從互聯(lián)網(wǎng)中采集網(wǎng)頁文檔并對其預(yù)處理,得到的信息文檔進(jìn)行文檔向量化處理,然后基于信息類別庫對信息文檔向量流進(jìn)行分類,從內(nèi)容方面識(shí)別已知輿情,接下來對分類識(shí)別失敗的信息文檔按事件聚類,判斷聚類結(jié)果所屬類別并寫入各個(gè)信息類別庫,最后定期地對候選輿情信息庫的信息文檔進(jìn)行行為識(shí)別,識(shí)別出新的未知輿情寫入輿情信息類別庫以完善輿情分類模型。本發(fā)明通過內(nèi)容識(shí)別和行為識(shí)別相結(jié)合的方式不但可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)中的已知輿情信息,還可以在未知輿情事件萌發(fā)階段就對其進(jìn)行有效的識(shí)別,彌補(bǔ)了以往輿情識(shí)別方法采用熱點(diǎn)話題發(fā)現(xiàn)技術(shù)進(jìn)行識(shí)別網(wǎng)絡(luò)輿情所帶來的時(shí)間滯后的不足。文檔編號(hào)G06F17/30GK101819573SQ200910167639公開日2010年9月1日申請日期2009年9月15日優(yōu)先權(quán)日2009年9月15日發(fā)明者佘莉,傅彥,周民,曾奉堯,高輝申請人:電子科技大學(xué)