一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)與流程

文檔序號：11519831閱讀：279來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)與流程

本發(fā)明涉及一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)。

背景技術(shù)：

互聯(lián)網(wǎng)成為繼報(bào)紙、廣播、電視之后的第四媒體，每天會產(chǎn)生大量的類似論壇、博客、微博、微信等媒體數(shù)據(jù)。網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對社會問題不同看法的網(wǎng)絡(luò)輿論，是社會輿論的一種表現(xiàn)形式，是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。隨著社交媒體的爆炸性增長，自動化輿情分析與監(jiān)控可為多個領(lǐng)域或行業(yè)提供決策支持。然而，現(xiàn)有技術(shù)主要通過文本匹配實(shí)現(xiàn)輿情監(jiān)測，缺乏語義支持，匹配后監(jiān)測結(jié)果的排序并不一定完全準(zhǔn)確。

大數(shù)據(jù)環(huán)境下，計(jì)算機(jī)輔助內(nèi)容數(shù)據(jù)自動化分析技術(shù)是輿情監(jiān)測的關(guān)鍵?，F(xiàn)有技術(shù)主要存在三類內(nèi)容分析方法：

(1)基于情感詞典的內(nèi)容分析：該方法將搜索關(guān)鍵詞與預(yù)定義的標(biāo)準(zhǔn)詞典進(jìn)行匹配。然而，由于每個單詞組合可以僅具有用于所有文本的一個固定的含義，所以這些手工創(chuàng)建的單詞索引通常是不充分且有限的。除此之外，內(nèi)容匹配不能考慮到語義相似的同義詞；

(2)基于頭詞和修飾符共現(xiàn)的統(tǒng)計(jì)方法：不同于能夠理解語言細(xì)微差別的程序員，該方法從大量內(nèi)容文本中統(tǒng)計(jì)特定關(guān)鍵詞隱藏的真實(shí)含義。該方法的缺點(diǎn)是不能發(fā)現(xiàn)未知知識；

(3)基于分類的內(nèi)容分析：該方法使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、樸素貝葉斯、最大熵等建模對文本進(jìn)行分類。然而，分類方法也不能發(fā)現(xiàn)隱藏的主題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的就是對互聯(lián)網(wǎng)媒體內(nèi)容進(jìn)行監(jiān)測，及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情，提供一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)，本系統(tǒng)具有實(shí)時性，通過數(shù)據(jù)采集、主題計(jì)算與主題匹配實(shí)現(xiàn)輿情監(jiān)測。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法，包括：

步驟(1)：數(shù)據(jù)采集：

步驟(101)：數(shù)據(jù)采集解析：利用爬蟲集群從數(shù)據(jù)源中采集頁面html，然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù)；解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔，每篇文檔包括標(biāo)題、時間與內(nèi)容；

步驟(102)：存儲推送：所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng)，采用同步方法將解析得到的文檔推送至步驟(3)進(jìn)行主題匹配；

步驟(2)：主題計(jì)算：

步驟(201)：中文分詞：從全文檢索系統(tǒng)中讀取文檔，將每個文檔的標(biāo)題與內(nèi)容合并，利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞，分詞后去掉停用詞；

步驟(202)：主題估計(jì)：采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集；

步驟(3)：主題匹配：將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集，并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配，得到有序文檔集。

所述步驟(3)包括如下步驟：

步驟(301)：文檔分發(fā)：按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去；

步驟(302)：中文分詞：將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后，用條件隨機(jī)場crf算法進(jìn)行分詞，然后去掉停用詞；

步驟(303)：主題推斷：采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集；

步驟(304)：關(guān)鍵詞匹配：將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配；

步驟(305)：排序：按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法，還包括：

步驟(4)：輿情監(jiān)測：根據(jù)步驟(3)得到的有序文檔集中的排序，得出輿情的監(jiān)控情況，排序越靠前的，越是當(dāng)前輿情關(guān)注的熱點(diǎn)。

所述數(shù)據(jù)源包括：論壇、博客、微博或微信。

所述爬蟲集群包括：爬蟲1、...、爬蟲n。

所述規(guī)則庫包括一組選擇器。

所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器包括三種，分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。

所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id或html標(biāo)簽類名選擇相應(yīng)的元素；

所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配或html標(biāo)簽屬性值正則匹配選擇相應(yīng)的元素；

所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素或相同父母元素的子元素等選擇相應(yīng)的元素。

主題計(jì)算中的主題估計(jì)，將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算，步驟為：

map任務(wù)，求解隱變量：為每個關(guān)鍵詞隨機(jī)生成一個主題，為每個文檔計(jì)算偽頻數(shù)，計(jì)算主題的后驗(yàn)概率；

reduce任務(wù)，求解模型參數(shù)：將每個主題關(guān)鍵詞的偽頻數(shù)疊加后標(biāo)準(zhǔn)化，計(jì)算出每個主題的關(guān)鍵詞分布與每個文檔的主題分布；

主題存儲：由每個主題的關(guān)鍵詞分布?xì)w納出后驗(yàn)概率最大的前m個主題，形成主題庫。每個文檔的主題分布中選擇概率最大的前n個，形成文檔主題集。

所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。

所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度，先計(jì)算輿情監(jiān)測關(guān)鍵詞與實(shí)際文檔主題中的每個關(guān)鍵詞的近似度，然后計(jì)算每個近似度與域助推值乘積，然后對所有的乘積進(jìn)行求和。所述域助推值反映了文檔中每個主題的重要程度，其值為該文檔主題的后驗(yàn)概率。

所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積；

所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù)，重復(fù)次數(shù)越高說明該文檔越熱門；

所述情感度為該文檔的情感評分，情感評分采用遞歸深度語義組合模型計(jì)算，情感評分越高說明該文檔越積極，情感評分越低說明該文檔越消極；情感評分五級制，-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極；

所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況，pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高，即該文檔越熱門。

一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)，包括：數(shù)據(jù)采集模塊、主題計(jì)算模塊和主題匹配模塊；

所述數(shù)據(jù)采集模塊，包括：

數(shù)據(jù)采集解析單元：利用爬蟲集群從數(shù)據(jù)源中采集頁面html，然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù)；解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔，每篇文檔包括標(biāo)題、時間與內(nèi)容；

存儲推送單元：所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng)，采用同步方法將解析得到的文檔推送至主題匹配模塊進(jìn)行主題匹配；

所述主題計(jì)算模塊，包括：

中文分詞單元：從全文檢索系統(tǒng)中讀取文檔，將每個文檔的標(biāo)題與內(nèi)容合并，利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞，分詞后去掉停用詞；

主題估計(jì)單元：采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集；

所述主題匹配模塊：將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集，并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配，得到有序文檔集。

所述主題匹配模塊包括：

文檔分發(fā)單元：按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去；

中文分詞單元：將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后，用條件隨機(jī)場crf算法進(jìn)行分詞，然后去掉停用詞；

主題推斷單元：采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集；

關(guān)鍵詞匹配單元：將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配；

排序單元：按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。

一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)，還包括：

輿情監(jiān)測模塊：根據(jù)主題匹配模塊得到的有序文檔集中的排序，得出輿情的監(jiān)控情況，排序越靠前的，越是當(dāng)前輿情關(guān)注的熱點(diǎn)。

關(guān)于專業(yè)術(shù)語的解釋：

爬蟲，也稱作網(wǎng)頁蜘蛛，是一種按照一定的規(guī)則自動地獲取網(wǎng)頁內(nèi)容的程序或者腳本。

gibbs抽樣，吉布斯抽樣，已知樣本中一個屬性在其它所有屬性下的條件概率，然后利用這個條件概率來分布產(chǎn)生各個屬性的樣本值。

流處理是一種實(shí)時處理，輸入和輸出均為數(shù)據(jù)流?；诹魈幚淼臄?shù)據(jù)緩存即時一致網(wǎng)絡(luò)拓?fù)浒喾N數(shù)據(jù)處理，每種數(shù)據(jù)處理并發(fā)運(yùn)行。

選擇器，也稱作html選擇器，是一種模式，用于從頁面html中選擇相應(yīng)的元素。

map任務(wù)，mapreduce編程模型中的映射任務(wù)，用來把一組鍵值對映射成一組新的鍵值對。

reduce任務(wù)，mapreduce編程模型中的化簡任務(wù)，將上述鍵值對按鍵進(jìn)行合并。

條件隨機(jī)場(conditionalrandomfields，簡稱crf，或crfs)，是一種判別式概率模型，是隨機(jī)場的一種，常用于標(biāo)注或分析序列資料，如自然語言文字或是生物序列。

本發(fā)明的有益效果：

1、易擴(kuò)展：文檔爬取的規(guī)則庫基于多種選擇器，易擴(kuò)展；

2、主題估計(jì)批處理：主題計(jì)算中的主題估計(jì)通過調(diào)度批量任務(wù)來進(jìn)行映射、化簡，實(shí)現(xiàn)主題估計(jì)批處理；

3、主題匹配具有高實(shí)時性：本發(fā)明提供的主題匹配基于流處理的網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)中文分詞、主題推斷、主題匹配過程，數(shù)據(jù)處理不存儲中間結(jié)果，數(shù)據(jù)處理具有即時性。

附圖說明

圖1概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)結(jié)構(gòu)圖；

圖2基于選擇器的文檔爬取流程；

圖3主題估計(jì)流程圖。

具體實(shí)施方式

下面結(jié)合附圖與實(shí)施例對本發(fā)明作進(jìn)一步說明。

如圖1-3所示，一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)，包括：數(shù)據(jù)采集、主題計(jì)算、主題匹配。

所述數(shù)據(jù)采集包括數(shù)據(jù)源、爬蟲集群、全文檢索系統(tǒng)、規(guī)則庫。所述數(shù)據(jù)采集主要是從數(shù)據(jù)源的頁面html中解析出媒體數(shù)據(jù)。所述數(shù)據(jù)源可能是論壇、博客、微博、微信等。所述爬蟲集群由爬蟲1、...、爬蟲n等一組爬蟲組成。爬蟲集群中的爬蟲1、...、爬蟲n實(shí)時采集數(shù)據(jù)源中媒體數(shù)據(jù)，采集的一條媒體數(shù)據(jù)稱作一篇文檔，包含標(biāo)題、時間與內(nèi)容等屬性。所述爬蟲集群采用異步方式將采集到的文檔存儲在全文檢索系統(tǒng)，采用同步方法將采集到的文檔推送至主題匹配。爬蟲集群中的爬蟲1、...、爬蟲n按照規(guī)則庫解析采集到的頁面html，所述規(guī)則庫由一組選擇器構(gòu)成。

所述主題計(jì)算包括中文分詞、主題估計(jì)、文檔主題集、主題庫。所述主題計(jì)算讀取全文檢索系統(tǒng)中的文檔，計(jì)算出所有主題構(gòu)成主題庫，計(jì)算出每個文檔的主題即文檔主題集。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞，分詞算法采用條件隨機(jī)場(crf)，然后去掉常用停用詞。所述主題估計(jì)采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與文檔主題集。

所述主題匹配，基于流處理網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理，包括文檔分發(fā)、中文分詞、主題推斷、主題匹配、有序文檔集。所述主題匹配將數(shù)據(jù)采集實(shí)時推送的文檔推斷出文檔主題集，并將該文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配，得到有序文檔集。所述文檔分發(fā)按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔分發(fā)到不同的中文分詞。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞，分詞算法采用條件隨機(jī)場(crf)，然后去掉常用停用詞。所述主題推斷采用gibbs抽樣對分詞后的內(nèi)容和主題計(jì)算的主題庫推斷出文檔主題集。所述關(guān)鍵詞匹配將文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配，得出匹配的有序文檔集合。

所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器有三種，分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。

所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id、html標(biāo)簽類名等選擇相應(yīng)的元素；

所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配、html標(biāo)簽屬性值正則匹配等選擇相應(yīng)的元素；

所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素、相同父母元素的子元素等選擇相應(yīng)的元素。

主題計(jì)算中的主題估計(jì)，將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算，步驟為：

map任務(wù)，求解隱變量：為每個關(guān)鍵詞隨機(jī)生成一個主題，為每個文檔計(jì)算偽頻數(shù)，計(jì)算主題的后驗(yàn)概率；

主題存儲：由每個主題的關(guān)鍵詞分布?xì)w納出概率最大的前m個主題，形成主題庫。每個文檔的主題分布中選擇概率最大的前n個，形成文檔主題集。

主題匹配按照文檔評分對匹配后的文檔集進(jìn)行排序形成有序文檔集。所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度，即輿情監(jiān)測關(guān)鍵詞與文檔主題中的每個關(guān)鍵詞的近似度與域助推值乘積的求和。所述域助推值反映了文檔中每個主題的重要程度，其值為該文檔主題的后驗(yàn)概率。所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積。所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù)，重復(fù)次數(shù)越高說明該文檔越熱門。所述情感度為該文檔的情感評分，情感評分采用遞歸深度語義組合模型計(jì)算，情感評分越高說明該文檔越積極，情感評分越低說明該文檔越消極。情感評分五級制，-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極。所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況，pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高，即該文檔越熱門。

上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述，但并非對本發(fā)明保護(hù)范圍的限制，所屬領(lǐng)域技術(shù)人員應(yīng)該明白，在本發(fā)明的技術(shù)方案的基礎(chǔ)上，本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬坤;周勁;于自強(qiáng);紀(jì)科
技術(shù)所有人：濟(jì)南大學(xué)
我是此專利的發(fā)明人

上一篇：音頻信號處理裝置和音頻信號濾波方法與流程
上一篇：MEMS換能器封裝件的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

網(wǎng)絡(luò)輿情監(jiān)測相關(guān)技術(shù)

輿情監(jiān)測平臺相關(guān)技術(shù)

輿情監(jiān)測相關(guān)技術(shù)

輿情監(jiān)測系統(tǒng)相關(guān)技術(shù)

免費(fèi)輿情監(jiān)測系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)與流程