本發(fā)明涉及一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)成為繼報(bào)紙、廣播、電視之后的第四媒體,每天會產(chǎn)生大量的類似論壇、博客、微博、微信等媒體數(shù)據(jù)。網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對社會問題不同看法的網(wǎng)絡(luò)輿論,是社會輿論的一種表現(xiàn)形式,是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。隨著社交媒體的爆炸性增長,自動化輿情分析與監(jiān)控可為多個領(lǐng)域或行業(yè)提供決策支持。然而,現(xiàn)有技術(shù)主要通過文本匹配實(shí)現(xiàn)輿情監(jiān)測,缺乏語義支持,匹配后監(jiān)測結(jié)果的排序并不一定完全準(zhǔn)確。
大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)輔助內(nèi)容數(shù)據(jù)自動化分析技術(shù)是輿情監(jiān)測的關(guān)鍵?,F(xiàn)有技術(shù)主要存在三類內(nèi)容分析方法:
(1)基于情感詞典的內(nèi)容分析:該方法將搜索關(guān)鍵詞與預(yù)定義的標(biāo)準(zhǔn)詞典進(jìn)行匹配。然而,由于每個單詞組合可以僅具有用于所有文本的一個固定的含義,所以這些手工創(chuàng)建的單詞索引通常是不充分且有限的。除此之外,內(nèi)容匹配不能考慮到語義相似的同義詞;
(2)基于頭詞和修飾符共現(xiàn)的統(tǒng)計(jì)方法:不同于能夠理解語言細(xì)微差別的程序員,該方法從大量內(nèi)容文本中統(tǒng)計(jì)特定關(guān)鍵詞隱藏的真實(shí)含義。該方法的缺點(diǎn)是不能發(fā)現(xiàn)未知知識;
(3)基于分類的內(nèi)容分析:該方法使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、樸素貝葉斯、最大熵等建模對文本進(jìn)行分類。然而,分類方法也不能發(fā)現(xiàn)隱藏的主題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是對互聯(lián)網(wǎng)媒體內(nèi)容進(jìn)行監(jiān)測,及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情,提供一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng),本系統(tǒng)具有實(shí)時性,通過數(shù)據(jù)采集、主題計(jì)算與主題匹配實(shí)現(xiàn)輿情監(jiān)測。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種概率主題計(jì)算與匹配的輿情監(jiān)測方法,包括:
步驟(1):數(shù)據(jù)采集:
步驟(101):數(shù)據(jù)采集解析:利用爬蟲集群從數(shù)據(jù)源中采集頁面html,然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù);解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔,每篇文檔包括標(biāo)題、時間與內(nèi)容;
步驟(102):存儲推送:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng),采用同步方法將解析得到的文檔推送至步驟(3)進(jìn)行主題匹配;
步驟(2):主題計(jì)算:
步驟(201):中文分詞:從全文檢索系統(tǒng)中讀取文檔,將每個文檔的標(biāo)題與內(nèi)容合并,利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞,分詞后去掉停用詞;
步驟(202):主題估計(jì):采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集;
步驟(3):主題匹配:將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集,并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。
所述步驟(3)包括如下步驟:
步驟(301):文檔分發(fā):按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去;
步驟(302):中文分詞:將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后,用條件隨機(jī)場crf算法進(jìn)行分詞,然后去掉停用詞;
步驟(303):主題推斷:采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集;
步驟(304):關(guān)鍵詞匹配:將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配;
步驟(305):排序:按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。
一種概率主題計(jì)算與匹配的輿情監(jiān)測方法,還包括:
步驟(4):輿情監(jiān)測:根據(jù)步驟(3)得到的有序文檔集中的排序,得出輿情的監(jiān)控情況,排序越靠前的,越是當(dāng)前輿情關(guān)注的熱點(diǎn)。
所述數(shù)據(jù)源包括:論壇、博客、微博或微信。
所述爬蟲集群包括:爬蟲1、...、爬蟲n。
所述規(guī)則庫包括一組選擇器。
所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器包括三種,分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。
所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id或html標(biāo)簽類名選擇相應(yīng)的元素;
所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配或html標(biāo)簽屬性值正則匹配選擇相應(yīng)的元素;
所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素或相同父母元素的子元素等選擇相應(yīng)的元素。
主題計(jì)算中的主題估計(jì),將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算,步驟為:
map任務(wù),求解隱變量:為每個關(guān)鍵詞隨機(jī)生成一個主題,為每個文檔計(jì)算偽頻數(shù),計(jì)算主題的后驗(yàn)概率;
reduce任務(wù),求解模型參數(shù):將每個主題關(guān)鍵詞的偽頻數(shù)疊加后標(biāo)準(zhǔn)化,計(jì)算出每個主題的關(guān)鍵詞分布與每個文檔的主題分布;
主題存儲:由每個主題的關(guān)鍵詞分布?xì)w納出后驗(yàn)概率最大的前m個主題,形成主題庫。每個文檔的主題分布中選擇概率最大的前n個,形成文檔主題集。
所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。
所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度,先計(jì)算輿情監(jiān)測關(guān)鍵詞與實(shí)際文檔主題中的每個關(guān)鍵詞的近似度,然后計(jì)算每個近似度與域助推值乘積,然后對所有的乘積進(jìn)行求和。所述域助推值反映了文檔中每個主題的重要程度,其值為該文檔主題的后驗(yàn)概率。
所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積;
所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù),重復(fù)次數(shù)越高說明該文檔越熱門;
所述情感度為該文檔的情感評分,情感評分采用遞歸深度語義組合模型計(jì)算,情感評分越高說明該文檔越積極,情感評分越低說明該文檔越消極;情感評分五級制,-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極;
所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況,pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高,即該文檔越熱門。
一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),包括:數(shù)據(jù)采集模塊、主題計(jì)算模塊和主題匹配模塊;
所述數(shù)據(jù)采集模塊,包括:
數(shù)據(jù)采集解析單元:利用爬蟲集群從數(shù)據(jù)源中采集頁面html,然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù);解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔,每篇文檔包括標(biāo)題、時間與內(nèi)容;
存儲推送單元:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng),采用同步方法將解析得到的文檔推送至主題匹配模塊進(jìn)行主題匹配;
所述主題計(jì)算模塊,包括:
中文分詞單元:從全文檢索系統(tǒng)中讀取文檔,將每個文檔的標(biāo)題與內(nèi)容合并,利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞,分詞后去掉停用詞;
主題估計(jì)單元:采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集;
所述主題匹配模塊:將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集,并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。
所述主題匹配模塊包括:
文檔分發(fā)單元:按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去;
中文分詞單元:將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后,用條件隨機(jī)場crf算法進(jìn)行分詞,然后去掉停用詞;
主題推斷單元:采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集;
關(guān)鍵詞匹配單元:將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配;
排序單元:按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。
一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),還包括:
輿情監(jiān)測模塊:根據(jù)主題匹配模塊得到的有序文檔集中的排序,得出輿情的監(jiān)控情況,排序越靠前的,越是當(dāng)前輿情關(guān)注的熱點(diǎn)。
關(guān)于專業(yè)術(shù)語的解釋:
爬蟲,也稱作網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則自動地獲取網(wǎng)頁內(nèi)容的程序或者腳本。
gibbs抽樣,吉布斯抽樣,已知樣本中一個屬性在其它所有屬性下的條件概率,然后利用這個條件概率來分布產(chǎn)生各個屬性的樣本值。
流處理是一種實(shí)時處理,輸入和輸出均為數(shù)據(jù)流?;诹魈幚淼臄?shù)據(jù)緩存即時一致網(wǎng)絡(luò)拓?fù)浒喾N數(shù)據(jù)處理,每種數(shù)據(jù)處理并發(fā)運(yùn)行。
選擇器,也稱作html選擇器,是一種模式,用于從頁面html中選擇相應(yīng)的元素。
map任務(wù),mapreduce編程模型中的映射任務(wù),用來把一組鍵值對映射成一組新的鍵值對。
reduce任務(wù),mapreduce編程模型中的化簡任務(wù),將上述鍵值對按鍵進(jìn)行合并。
條件隨機(jī)場(conditionalrandomfields,簡稱crf,或crfs),是一種判別式概率模型,是隨機(jī)場的一種,常用于標(biāo)注或分析序列資料,如自然語言文字或是生物序列。
本發(fā)明的有益效果:
1、易擴(kuò)展:文檔爬取的規(guī)則庫基于多種選擇器,易擴(kuò)展;
2、主題估計(jì)批處理:主題計(jì)算中的主題估計(jì)通過調(diào)度批量任務(wù)來進(jìn)行映射、化簡,實(shí)現(xiàn)主題估計(jì)批處理;
3、主題匹配具有高實(shí)時性:本發(fā)明提供的主題匹配基于流處理的網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)中文分詞、主題推斷、主題匹配過程,數(shù)據(jù)處理不存儲中間結(jié)果,數(shù)據(jù)處理具有即時性。
附圖說明
圖1概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)結(jié)構(gòu)圖;
圖2基于選擇器的文檔爬取流程;
圖3主題估計(jì)流程圖。
具體實(shí)施方式
下面結(jié)合附圖與實(shí)施例對本發(fā)明作進(jìn)一步說明。
如圖1-3所示,一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),包括:數(shù)據(jù)采集、主題計(jì)算、主題匹配。
所述數(shù)據(jù)采集包括數(shù)據(jù)源、爬蟲集群、全文檢索系統(tǒng)、規(guī)則庫。所述數(shù)據(jù)采集主要是從數(shù)據(jù)源的頁面html中解析出媒體數(shù)據(jù)。所述數(shù)據(jù)源可能是論壇、博客、微博、微信等。所述爬蟲集群由爬蟲1、...、爬蟲n等一組爬蟲組成。爬蟲集群中的爬蟲1、...、爬蟲n實(shí)時采集數(shù)據(jù)源中媒體數(shù)據(jù),采集的一條媒體數(shù)據(jù)稱作一篇文檔,包含標(biāo)題、時間與內(nèi)容等屬性。所述爬蟲集群采用異步方式將采集到的文檔存儲在全文檢索系統(tǒng),采用同步方法將采集到的文檔推送至主題匹配。爬蟲集群中的爬蟲1、...、爬蟲n按照規(guī)則庫解析采集到的頁面html,所述規(guī)則庫由一組選擇器構(gòu)成。
所述主題計(jì)算包括中文分詞、主題估計(jì)、文檔主題集、主題庫。所述主題計(jì)算讀取全文檢索系統(tǒng)中的文檔,計(jì)算出所有主題構(gòu)成主題庫,計(jì)算出每個文檔的主題即文檔主題集。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞,分詞算法采用條件隨機(jī)場(crf),然后去掉常用停用詞。所述主題估計(jì)采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與文檔主題集。
所述主題匹配,基于流處理網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,包括文檔分發(fā)、中文分詞、主題推斷、主題匹配、有序文檔集。所述主題匹配將數(shù)據(jù)采集實(shí)時推送的文檔推斷出文檔主題集,并將該文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。所述文檔分發(fā)按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔分發(fā)到不同的中文分詞。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞,分詞算法采用條件隨機(jī)場(crf),然后去掉常用停用詞。所述主題推斷采用gibbs抽樣對分詞后的內(nèi)容和主題計(jì)算的主題庫推斷出文檔主題集。所述關(guān)鍵詞匹配將文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得出匹配的有序文檔集合。
所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器有三種,分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。
所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id、html標(biāo)簽類名等選擇相應(yīng)的元素;
所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配、html標(biāo)簽屬性值正則匹配等選擇相應(yīng)的元素;
所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素、相同父母元素的子元素等選擇相應(yīng)的元素。
主題計(jì)算中的主題估計(jì),將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算,步驟為:
map任務(wù),求解隱變量:為每個關(guān)鍵詞隨機(jī)生成一個主題,為每個文檔計(jì)算偽頻數(shù),計(jì)算主題的后驗(yàn)概率;
reduce任務(wù),求解模型參數(shù):將每個主題關(guān)鍵詞的偽頻數(shù)疊加后標(biāo)準(zhǔn)化,計(jì)算出每個主題的關(guān)鍵詞分布與每個文檔的主題分布;
主題存儲:由每個主題的關(guān)鍵詞分布?xì)w納出概率最大的前m個主題,形成主題庫。每個文檔的主題分布中選擇概率最大的前n個,形成文檔主題集。
主題匹配按照文檔評分對匹配后的文檔集進(jìn)行排序形成有序文檔集。所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度,即輿情監(jiān)測關(guān)鍵詞與文檔主題中的每個關(guān)鍵詞的近似度與域助推值乘積的求和。所述域助推值反映了文檔中每個主題的重要程度,其值為該文檔主題的后驗(yàn)概率。所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積。所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù),重復(fù)次數(shù)越高說明該文檔越熱門。所述情感度為該文檔的情感評分,情感評分采用遞歸深度語義組合模型計(jì)算,情感評分越高說明該文檔越積極,情感評分越低說明該文檔越消極。情感評分五級制,-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極。所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況,pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高,即該文檔越熱門。
上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。