欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)與流程

文檔序號:11519831閱讀:279來源:國知局
一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)與流程

本發(fā)明涉及一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng)。



背景技術(shù):

互聯(lián)網(wǎng)成為繼報(bào)紙、廣播、電視之后的第四媒體,每天會產(chǎn)生大量的類似論壇、博客、微博、微信等媒體數(shù)據(jù)。網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對社會問題不同看法的網(wǎng)絡(luò)輿論,是社會輿論的一種表現(xiàn)形式,是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。隨著社交媒體的爆炸性增長,自動化輿情分析與監(jiān)控可為多個領(lǐng)域或行業(yè)提供決策支持。然而,現(xiàn)有技術(shù)主要通過文本匹配實(shí)現(xiàn)輿情監(jiān)測,缺乏語義支持,匹配后監(jiān)測結(jié)果的排序并不一定完全準(zhǔn)確。

大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)輔助內(nèi)容數(shù)據(jù)自動化分析技術(shù)是輿情監(jiān)測的關(guān)鍵?,F(xiàn)有技術(shù)主要存在三類內(nèi)容分析方法:

(1)基于情感詞典的內(nèi)容分析:該方法將搜索關(guān)鍵詞與預(yù)定義的標(biāo)準(zhǔn)詞典進(jìn)行匹配。然而,由于每個單詞組合可以僅具有用于所有文本的一個固定的含義,所以這些手工創(chuàng)建的單詞索引通常是不充分且有限的。除此之外,內(nèi)容匹配不能考慮到語義相似的同義詞;

(2)基于頭詞和修飾符共現(xiàn)的統(tǒng)計(jì)方法:不同于能夠理解語言細(xì)微差別的程序員,該方法從大量內(nèi)容文本中統(tǒng)計(jì)特定關(guān)鍵詞隱藏的真實(shí)含義。該方法的缺點(diǎn)是不能發(fā)現(xiàn)未知知識;

(3)基于分類的內(nèi)容分析:該方法使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、樸素貝葉斯、最大熵等建模對文本進(jìn)行分類。然而,分類方法也不能發(fā)現(xiàn)隱藏的主題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就是對互聯(lián)網(wǎng)媒體內(nèi)容進(jìn)行監(jiān)測,及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情,提供一種概率主題計(jì)算與匹配的輿情監(jiān)測方法及系統(tǒng),本系統(tǒng)具有實(shí)時性,通過數(shù)據(jù)采集、主題計(jì)算與主題匹配實(shí)現(xiàn)輿情監(jiān)測。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法,包括:

步驟(1):數(shù)據(jù)采集:

步驟(101):數(shù)據(jù)采集解析:利用爬蟲集群從數(shù)據(jù)源中采集頁面html,然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù);解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔,每篇文檔包括標(biāo)題、時間與內(nèi)容;

步驟(102):存儲推送:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng),采用同步方法將解析得到的文檔推送至步驟(3)進(jìn)行主題匹配;

步驟(2):主題計(jì)算:

步驟(201):中文分詞:從全文檢索系統(tǒng)中讀取文檔,將每個文檔的標(biāo)題與內(nèi)容合并,利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞,分詞后去掉停用詞;

步驟(202):主題估計(jì):采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集;

步驟(3):主題匹配:將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集,并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。

所述步驟(3)包括如下步驟:

步驟(301):文檔分發(fā):按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去;

步驟(302):中文分詞:將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后,用條件隨機(jī)場crf算法進(jìn)行分詞,然后去掉停用詞;

步驟(303):主題推斷:采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集;

步驟(304):關(guān)鍵詞匹配:將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配;

步驟(305):排序:按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。

一種概率主題計(jì)算與匹配的輿情監(jiān)測方法,還包括:

步驟(4):輿情監(jiān)測:根據(jù)步驟(3)得到的有序文檔集中的排序,得出輿情的監(jiān)控情況,排序越靠前的,越是當(dāng)前輿情關(guān)注的熱點(diǎn)。

所述數(shù)據(jù)源包括:論壇、博客、微博或微信。

所述爬蟲集群包括:爬蟲1、...、爬蟲n。

所述規(guī)則庫包括一組選擇器。

所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器包括三種,分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。

所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id或html標(biāo)簽類名選擇相應(yīng)的元素;

所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配或html標(biāo)簽屬性值正則匹配選擇相應(yīng)的元素;

所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素或相同父母元素的子元素等選擇相應(yīng)的元素。

主題計(jì)算中的主題估計(jì),將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算,步驟為:

map任務(wù),求解隱變量:為每個關(guān)鍵詞隨機(jī)生成一個主題,為每個文檔計(jì)算偽頻數(shù),計(jì)算主題的后驗(yàn)概率;

reduce任務(wù),求解模型參數(shù):將每個主題關(guān)鍵詞的偽頻數(shù)疊加后標(biāo)準(zhǔn)化,計(jì)算出每個主題的關(guān)鍵詞分布與每個文檔的主題分布;

主題存儲:由每個主題的關(guān)鍵詞分布?xì)w納出后驗(yàn)概率最大的前m個主題,形成主題庫。每個文檔的主題分布中選擇概率最大的前n個,形成文檔主題集。

所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。

所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度,先計(jì)算輿情監(jiān)測關(guān)鍵詞與實(shí)際文檔主題中的每個關(guān)鍵詞的近似度,然后計(jì)算每個近似度與域助推值乘積,然后對所有的乘積進(jìn)行求和。所述域助推值反映了文檔中每個主題的重要程度,其值為該文檔主題的后驗(yàn)概率。

所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積;

所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù),重復(fù)次數(shù)越高說明該文檔越熱門;

所述情感度為該文檔的情感評分,情感評分采用遞歸深度語義組合模型計(jì)算,情感評分越高說明該文檔越積極,情感評分越低說明該文檔越消極;情感評分五級制,-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極;

所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況,pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高,即該文檔越熱門。

一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),包括:數(shù)據(jù)采集模塊、主題計(jì)算模塊和主題匹配模塊;

所述數(shù)據(jù)采集模塊,包括:

數(shù)據(jù)采集解析單元:利用爬蟲集群從數(shù)據(jù)源中采集頁面html,然后爬蟲集群依據(jù)規(guī)則庫對采集到的頁面html進(jìn)行解析得到若干條媒體數(shù)據(jù);解析出來的每一條媒體數(shù)據(jù)均被稱作一篇文檔,每篇文檔包括標(biāo)題、時間與內(nèi)容;

存儲推送單元:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統(tǒng),采用同步方法將解析得到的文檔推送至主題匹配模塊進(jìn)行主題匹配;

所述主題計(jì)算模塊,包括:

中文分詞單元:從全文檢索系統(tǒng)中讀取文檔,將每個文檔的標(biāo)題與內(nèi)容合并,利用條件隨機(jī)場分詞算法對合并后的內(nèi)容進(jìn)行分詞,分詞后去掉停用詞;

主題估計(jì)單元:采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與歷史文檔主題集;

所述主題匹配模塊:將數(shù)據(jù)采集實(shí)時推送的文檔推斷出實(shí)際文檔主題集,并將實(shí)際文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。

所述主題匹配模塊包括:

文檔分發(fā)單元:按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔并行分發(fā)下去;

中文分詞單元:將分發(fā)得到的每個文檔的標(biāo)題與對應(yīng)內(nèi)容合并后,用條件隨機(jī)場crf算法進(jìn)行分詞,然后去掉停用詞;

主題推斷單元:采用gibbs抽樣對分詞后的內(nèi)容和主題估計(jì)得到的主題庫推斷出實(shí)時文檔主題集;

關(guān)鍵詞匹配單元:將實(shí)時文檔主題集與用戶輸入的輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配;

排序單元:按照文檔評分從高到低對匹配后的文檔集進(jìn)行排序形成有序文檔集。

一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),還包括:

輿情監(jiān)測模塊:根據(jù)主題匹配模塊得到的有序文檔集中的排序,得出輿情的監(jiān)控情況,排序越靠前的,越是當(dāng)前輿情關(guān)注的熱點(diǎn)。

關(guān)于專業(yè)術(shù)語的解釋:

爬蟲,也稱作網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則自動地獲取網(wǎng)頁內(nèi)容的程序或者腳本。

gibbs抽樣,吉布斯抽樣,已知樣本中一個屬性在其它所有屬性下的條件概率,然后利用這個條件概率來分布產(chǎn)生各個屬性的樣本值。

流處理是一種實(shí)時處理,輸入和輸出均為數(shù)據(jù)流?;诹魈幚淼臄?shù)據(jù)緩存即時一致網(wǎng)絡(luò)拓?fù)浒喾N數(shù)據(jù)處理,每種數(shù)據(jù)處理并發(fā)運(yùn)行。

選擇器,也稱作html選擇器,是一種模式,用于從頁面html中選擇相應(yīng)的元素。

map任務(wù),mapreduce編程模型中的映射任務(wù),用來把一組鍵值對映射成一組新的鍵值對。

reduce任務(wù),mapreduce編程模型中的化簡任務(wù),將上述鍵值對按鍵進(jìn)行合并。

條件隨機(jī)場(conditionalrandomfields,簡稱crf,或crfs),是一種判別式概率模型,是隨機(jī)場的一種,常用于標(biāo)注或分析序列資料,如自然語言文字或是生物序列。

本發(fā)明的有益效果:

1、易擴(kuò)展:文檔爬取的規(guī)則庫基于多種選擇器,易擴(kuò)展;

2、主題估計(jì)批處理:主題計(jì)算中的主題估計(jì)通過調(diào)度批量任務(wù)來進(jìn)行映射、化簡,實(shí)現(xiàn)主題估計(jì)批處理;

3、主題匹配具有高實(shí)時性:本發(fā)明提供的主題匹配基于流處理的網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)中文分詞、主題推斷、主題匹配過程,數(shù)據(jù)處理不存儲中間結(jié)果,數(shù)據(jù)處理具有即時性。

附圖說明

圖1概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng)結(jié)構(gòu)圖;

圖2基于選擇器的文檔爬取流程;

圖3主題估計(jì)流程圖。

具體實(shí)施方式

下面結(jié)合附圖與實(shí)施例對本發(fā)明作進(jìn)一步說明。

如圖1-3所示,一種概率主題計(jì)算與匹配的輿情監(jiān)測系統(tǒng),包括:數(shù)據(jù)采集、主題計(jì)算、主題匹配。

所述數(shù)據(jù)采集包括數(shù)據(jù)源、爬蟲集群、全文檢索系統(tǒng)、規(guī)則庫。所述數(shù)據(jù)采集主要是從數(shù)據(jù)源的頁面html中解析出媒體數(shù)據(jù)。所述數(shù)據(jù)源可能是論壇、博客、微博、微信等。所述爬蟲集群由爬蟲1、...、爬蟲n等一組爬蟲組成。爬蟲集群中的爬蟲1、...、爬蟲n實(shí)時采集數(shù)據(jù)源中媒體數(shù)據(jù),采集的一條媒體數(shù)據(jù)稱作一篇文檔,包含標(biāo)題、時間與內(nèi)容等屬性。所述爬蟲集群采用異步方式將采集到的文檔存儲在全文檢索系統(tǒng),采用同步方法將采集到的文檔推送至主題匹配。爬蟲集群中的爬蟲1、...、爬蟲n按照規(guī)則庫解析采集到的頁面html,所述規(guī)則庫由一組選擇器構(gòu)成。

所述主題計(jì)算包括中文分詞、主題估計(jì)、文檔主題集、主題庫。所述主題計(jì)算讀取全文檢索系統(tǒng)中的文檔,計(jì)算出所有主題構(gòu)成主題庫,計(jì)算出每個文檔的主題即文檔主題集。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞,分詞算法采用條件隨機(jī)場(crf),然后去掉常用停用詞。所述主題估計(jì)采用gibbs抽樣對分詞后的內(nèi)容估計(jì)出主題庫與文檔主題集。

所述主題匹配,基于流處理網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,包括文檔分發(fā)、中文分詞、主題推斷、主題匹配、有序文檔集。所述主題匹配將數(shù)據(jù)采集實(shí)時推送的文檔推斷出文檔主題集,并將該文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得到有序文檔集。所述文檔分發(fā)按輪詢模式將數(shù)據(jù)采集實(shí)時推送的文檔分發(fā)到不同的中文分詞。所述中文分詞將每個文檔的標(biāo)題與內(nèi)容合并后進(jìn)行分詞,分詞算法采用條件隨機(jī)場(crf),然后去掉常用停用詞。所述主題推斷采用gibbs抽樣對分詞后的內(nèi)容和主題計(jì)算的主題庫推斷出文檔主題集。所述關(guān)鍵詞匹配將文檔主題集與輿情監(jiān)測關(guān)鍵詞進(jìn)行匹配,得出匹配的有序文檔集合。

所述爬蟲集群使用選擇器從采集到的頁面html解析出包含標(biāo)題、時間和內(nèi)容屬性的文檔。所述選擇器有三種,分別是元素選擇器、屬性選擇器、聯(lián)合選擇器。

所述元素選擇器通過html標(biāo)簽名稱、html標(biāo)簽id、html標(biāo)簽類名等選擇相應(yīng)的元素;

所述屬性選擇器通過html標(biāo)簽屬性值、html標(biāo)簽屬性值模糊匹配、html標(biāo)簽屬性值正則匹配等選擇相應(yīng)的元素;

所述聯(lián)合選擇器通過元素id、元素類名、元素屬性、相同祖先元素的子元素、相同父母元素的子元素等選擇相應(yīng)的元素。

主題計(jì)算中的主題估計(jì),將主題估計(jì)抽象為map任務(wù)與reduce任務(wù)進(jìn)行計(jì)算,步驟為:

map任務(wù),求解隱變量:為每個關(guān)鍵詞隨機(jī)生成一個主題,為每個文檔計(jì)算偽頻數(shù),計(jì)算主題的后驗(yàn)概率;

reduce任務(wù),求解模型參數(shù):將每個主題關(guān)鍵詞的偽頻數(shù)疊加后標(biāo)準(zhǔn)化,計(jì)算出每個主題的關(guān)鍵詞分布與每個文檔的主題分布;

主題存儲:由每個主題的關(guān)鍵詞分布?xì)w納出概率最大的前m個主題,形成主題庫。每個文檔的主題分布中選擇概率最大的前n個,形成文檔主題集。

主題匹配按照文檔評分對匹配后的文檔集進(jìn)行排序形成有序文檔集。所述文檔評分為文檔相關(guān)度和文檔助推值的乘積。所述文檔相關(guān)度為輿情監(jiān)測關(guān)鍵詞與文檔主題的近似度,即輿情監(jiān)測關(guān)鍵詞與文檔主題中的每個關(guān)鍵詞的近似度與域助推值乘積的求和。所述域助推值反映了文檔中每個主題的重要程度,其值為該文檔主題的后驗(yàn)概率。所述文檔助推值為文檔重復(fù)次數(shù)、情感度、pagerank三者的乘積。所述文檔重復(fù)次數(shù)為該文檔在采集數(shù)據(jù)出現(xiàn)的重復(fù)次數(shù),重復(fù)次數(shù)越高說明該文檔越熱門。所述情感度為該文檔的情感評分,情感評分采用遞歸深度語義組合模型計(jì)算,情感評分越高說明該文檔越積極,情感評分越低說明該文檔越消極。情感評分五級制,-2分表示非常消極、-1表示消極、0表示中性、1表示積極、2表示積極。所述pagerank反映了該文檔的原始網(wǎng)頁的鏈接引用情況,pagerank越高說明該文檔的原始網(wǎng)頁被引用的次數(shù)越高,即該文檔越熱門。

上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
吴桥县| 科技| 江川县| 河源市| 娱乐| 望谟县| 洪江市| 高唐县| 楚雄市| 土默特左旗| 临泽县| 淮滨县| 建湖县| 桑日县| 新密市| 全椒县| 抚宁县| 延庆县| 西青区| 稻城县| 汨罗市| 太康县| 正镶白旗| 周至县| 晋城| 邵阳县| 延庆县| 安岳县| 蒙阴县| 乌拉特后旗| 阿瓦提县| 全州县| 屏南县| 陇西县| 大连市| 金华市| 兴宁市| 华安县| 江达县| 镇赉县| 丰城市|