專利名稱:基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電子信息技術(shù)領(lǐng)域,涉及計算機及網(wǎng)絡(luò)產(chǎn)品,是ー種面向行業(yè)及企業(yè)信息化的應(yīng)用系統(tǒng),具體地說是ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)在我國社會生活中發(fā)揮著日益重要的作用,政府以及有關(guān)企事業(yè)單位也越來越重視網(wǎng)絡(luò)輿情的監(jiān)測和預(yù)警,輿情分析與監(jiān)測成為了具有重大戰(zhàn)略意義和現(xiàn)實意義的研究領(lǐng)域。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,因此需要依靠信息技術(shù)和相關(guān)學(xué)科專業(yè)知識建立起自動化的網(wǎng)絡(luò)輿情分析系統(tǒng)。由于hternet在全球互連互通,可以從中取得的數(shù)據(jù)量難以計算,從中獲取有用信息的工作是人工處理根本無法完成的,因此網(wǎng)絡(luò)輿情監(jiān)測必然要與數(shù)據(jù)挖掘技術(shù)緊密結(jié)合,使輿情監(jiān)測實現(xiàn)自動化和智能化?;跀?shù)據(jù)挖掘技術(shù)在輿情監(jiān)測中的應(yīng)用,如何在 Internet這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)關(guān)鍵輿情信息,尤其是針對不同輿情監(jiān)測項目的特點對其進行建摸,以提供精準(zhǔn)化服務(wù),已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究的熱點。Web數(shù)據(jù)挖掘就是在hternet環(huán)境下進行數(shù)據(jù)挖掘的專門技術(shù),它指使用數(shù)據(jù)挖掘技術(shù)在hternet數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技木、 信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等,各種技術(shù)的有機融合和綜合應(yīng)用,將推動Web數(shù)據(jù)挖掘技術(shù)向更加成熟的方向發(fā)展。隨著分布式處理、并行處理和網(wǎng)格計算的發(fā)展,將這些技術(shù)進行有機融合和商業(yè)應(yīng)用成為了業(yè)界的熱點,云計算的概念也應(yīng)運而生。所謂的云計算可以被看成是網(wǎng)格計算和虛擬化技術(shù)的融合即利用網(wǎng)格分布式計算處理的能力。將IT資源構(gòu)筑成ー個資源池, 再加上成熟的服務(wù)器虛擬化、存儲虛擬化技木,以便用戶可以實時地監(jiān)控和調(diào)配資源。云計算是ー種基于因特網(wǎng)的超級計算模式.在遠程的數(shù)據(jù)中心里.成千上萬臺電腦和服務(wù)器連接成一片電腦云,用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算?!霸朴嬎恪迸c傳統(tǒng)以電腦為中心的計算模式相區(qū)別,它將計算和數(shù)據(jù)分布在大量的分布式計算機上。人們通過手機、電腦上網(wǎng)后就能檢索到。目前,許多IT類公司都在進行云計算產(chǎn)品的開發(fā)。從2003年開始,Google連續(xù)幾年在計算機系統(tǒng)研究領(lǐng)域的最頂級會議與雜志上發(fā)表論文,掲示其內(nèi)部的分布式數(shù)據(jù)處理方法,向外界展示其使用的云計算核心技木。從其近幾年發(fā)表的論文來看,Google使用的云計算基礎(chǔ)架構(gòu)模式包括四個相互獨立又緊密結(jié)合在一起的系統(tǒng)。包括Google建立在集群之上的文件系統(tǒng)Google File System,針對Google應(yīng)用程序的特點提出的Map/Reduce 編程模式,分布式的鎖機制Chubby以及Google開發(fā)的模型簡化的大規(guī)模分布式數(shù)據(jù)庫 BigTable。Yahoo公司參與了云計算平臺Hadoop的開發(fā),同時為了測試與部署Hadoop系統(tǒng).在Yahoo公司內(nèi)部也使用Hadoop軟件,建立了世界上最大的Hadoop集群系統(tǒng),這個集群系統(tǒng)包含了 1萬個Linux節(jié)點?,F(xiàn)在,Yahoo公司的很多應(yīng)用程序都構(gòu)建在云計算平臺之上。而上述的最大Hadoop平臺則用來計算網(wǎng)絡(luò)搜索的頁面連接圖,處理海量的數(shù)據(jù)。硬件公司Dell提供了 DCS (Dell Cloud Computing Solution)解決方案.幫助用戶構(gòu)建云計算平臺,該解決方案能夠降低數(shù)據(jù)中心的運維成本,提升計算速度、簡化數(shù)據(jù)中心管理,具有良好的可擴展性。目前,將Web數(shù)據(jù)挖掘技術(shù)與云計算架構(gòu)相結(jié)合的成熟云挖掘技術(shù)還沒有出現(xiàn), 而現(xiàn)有的相關(guān)輿情監(jiān)測系統(tǒng)還存在如下問題(1)不具備輿情監(jiān)測需求建模和智能匹配技木,互聯(lián)網(wǎng)信息挖掘的準(zhǔn)確性較低。(2)系統(tǒng)的易用性和個性化程度不高,用戶使用成本較高。(3)由于系統(tǒng)架構(gòu)的限制導(dǎo)致系統(tǒng)運行效率較低。(4)對輿情監(jiān)測信息的智能相關(guān)處理、輿情趨勢分析、輿情自動預(yù)警以及輿情熱點發(fā)現(xiàn)和跟蹤能力較弱。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。本系統(tǒng)實現(xiàn)的技術(shù)目的主要體現(xiàn)在以下方面(1)實現(xiàn)對輿情監(jiān)測需求進行建摸,提出描述輿情監(jiān)測需求的特征模型,并引入系統(tǒng),通過特征模型和輿情信息的匹配過濾算法,以及特征模型的自學(xué)習(xí)更新算法,保證了互聯(lián)網(wǎng)信息挖掘的準(zhǔn)確性。(2)采用軟件即服務(wù)(SaaS)的模式為用戶提供服務(wù),基于互聯(lián)網(wǎng)為用戶提供軟件服務(wù)的軟件應(yīng)用模式是軟件發(fā)展的最新趨勢,用戶可以根據(jù)需求按需訂購本系統(tǒng)提供的輿情監(jiān)測服務(wù),降低了用戶的IT成本。(3)采用基于分布式的云挖掘架構(gòu),將大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器分布于不同地理位置,作為系統(tǒng)的計算資源和存儲資源。系統(tǒng)能夠針對用戶的不同需求,利用云計算資源調(diào)度服務(wù)動態(tài)調(diào)配云計算架構(gòu)中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運行效率、滿足用戶的實際需求。(4)實現(xiàn)多維度關(guān)聯(lián)的輿情展現(xiàn),本系統(tǒng)基于相似性算法的自動聚類技木,自動對每天采集的海量的、無類別的輿情進行歸類,把內(nèi)容相近的文檔歸為一類,并自動為該類生成主題詞。(5)實現(xiàn)基于智能化訓(xùn)練序列模式下的輿情趨勢分析,通過輿情關(guān)注熱點的連續(xù)時間監(jiān)測數(shù)據(jù)描述輿情變化趨勢分布,并通過這種輿情熱點的變化自動對檢測特征模型進行訓(xùn)練和更新,使特征模型能與輿情監(jiān)測熱點相一致,從而更好的從海量信息中篩選出有價值的資訊。(6)實現(xiàn)自動發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點,對重要的熱點新聞信息進行分析和追蹤,對于突發(fā)事件引起的網(wǎng)絡(luò)輿情,可以及時掌握輿情爆發(fā)點和事態(tài),系統(tǒng)會根據(jù)新聞文章數(shù)及文章在各大網(wǎng)站和社區(qū)的傳播鏈進行自動跟蹤統(tǒng)計。(7)實現(xiàn)按需自動預(yù)警網(wǎng)絡(luò)輿情,對監(jiān)控的信息類別提供預(yù)警功能。預(yù)警等級可根據(jù)用戶需求分為高級、中級、低級、安全等級別。用戶可查看預(yù)警的各類信息,如在預(yù)警總分布圖中可查看到每類信息的預(yù)警文章條數(shù)及百分比。其技術(shù)方案如下
4
ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要由以下五個功能部分構(gòu)成(1)云計算資源池該部分包含分布于不同地理位置的計算與存儲資源,由大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器組成。在云計算框架下,通過調(diào)度策略利用虛擬化技術(shù),針對用戶的不同需求,動態(tài)、透明的提供其所需的計算與存儲資源,并在當(dāng)前用戶和應(yīng)用程序不使用時將其資源動態(tài)回收供給其他用戶,就像發(fā)電廠供電ー樣為用戶輸送廉價的計算與存儲資源,讓普通用戶實現(xiàn)大規(guī)模并行計算與海量數(shù)據(jù)操作成為可能。(2)系統(tǒng)監(jiān)控與負(fù)載測量該部分提供對云計算框架中計算與存儲資源的監(jiān)控和測量。主要監(jiān)控測量的指標(biāo)有數(shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)庫服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ嬎愫痛鎯Y源的請求量,以及用戶對計算和存儲資源的請求量。(3)云計算資源調(diào)度服務(wù)該部分用于動態(tài)調(diào)配云計算框架中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運行效率、滿足用戶的實際需求。在資源請求量很少的時候?qū)褦?shù)據(jù)挖掘應(yīng)用程序的運行和對用戶的響應(yīng)執(zhí)行在很少量的服務(wù)器資源上,而當(dāng)資源請求量增長時,最先成為系統(tǒng)瓶頸的往往是當(dāng)前數(shù)據(jù)挖掘服務(wù)器資源的計算能力,這時云計算平臺通過系統(tǒng)監(jiān)控與負(fù)載測量部分發(fā)現(xiàn)當(dāng)前計算資源負(fù)載過高,自動動態(tài)從云計算資源池中請求新的計算服務(wù)器資源加入到當(dāng)前運行環(huán)境,以集群的方式線性增長當(dāng)前運行環(huán)境的計算能力以滿足數(shù)據(jù)挖掘應(yīng)用程序的資源請求。而當(dāng)數(shù)據(jù)挖掘應(yīng)用程序的資源請求進ー步增長吋,這時不只運行環(huán)境的計算能力,存儲能力也將成為瓶頸,特別是當(dāng)數(shù)據(jù)挖掘服務(wù)器資源的増加所帯來的并發(fā)與協(xié)調(diào)執(zhí)行代價過高吋,數(shù)據(jù)庫服務(wù)器資源也將被動態(tài)擴展以滿足海量的資源請求。而當(dāng)數(shù)據(jù)挖掘應(yīng)用程序資源請求降低吋,則是相反的情況,數(shù)據(jù)挖掘和數(shù)據(jù)庫服務(wù)器資源將會逐步被回收回資源池。(4)多平臺輿情發(fā)布服務(wù)該部分的功能是將數(shù)據(jù)挖掘處理得到的網(wǎng)絡(luò)輿情監(jiān)測信息以多種不同的發(fā)布方式推送給用戶。主要的推送方式有WEB頁面瀏覽、WAP頁面瀏覽、RSS訂閱、Email推送、 MMS/SMS訂閱、移動客戶端軟件等。通過多平臺輿情發(fā)布服務(wù)將網(wǎng)絡(luò)輿情監(jiān)測信息進行發(fā)布,使輿情推送實現(xiàn)無縫銜接和無縫覆蓋,讓用戶隨時隨地以各種方式獲取輿情資訊,能最大限度地滿足用戶對輿情監(jiān)測的需求。(5)用戶交互界面該部分為用戶提供不同輿情發(fā)布方式的界面接ロ。針對不同的輿情發(fā)布方式,建立與之對應(yīng)的用戶界面,該界面提供用戶注冊與登錄、輿情監(jiān)測配置與管理以及輿情推送功能,用于用戶進行授權(quán)訪問、查看最新輿情信息以及對輿情監(jiān)測的個性化配置。數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器原理框圖如圖2所示,采用的技術(shù)主要有以下四個方面(1)互聯(lián)網(wǎng)資訊收集模塊該技術(shù)實現(xiàn)對互聯(lián)網(wǎng)資訊的收集和存儲,它類似于搜索引擎中使用的“網(wǎng)絡(luò)爬蟲”,但與“網(wǎng)絡(luò)爬蟲”又有著明顯的區(qū)別?!熬W(wǎng)絡(luò)爬蟲”是從ー個或若干初始網(wǎng)頁地址開始抓取網(wǎng)頁,并不斷從當(dāng)前頁面上提取所有的鏈接地址進行進ー步抓取,直到滿足一定停止條件為止,其特點是最大限度的抓取網(wǎng)頁。而該技術(shù)進行的是預(yù)先設(shè)定抓取指令的有限頁面抓取,只抓取包含用戶輿情監(jiān)測需求的頁面,收集數(shù)據(jù)目的在于“精”而不在干“廣”,因此, 每設(shè)定一個數(shù)據(jù)抓取指令,就相當(dāng)于進行了一次特定領(lǐng)域的“垂直捜索”。(2)網(wǎng)頁內(nèi)容智能提取模塊對互聯(lián)網(wǎng)信息收集模塊抓取到的網(wǎng)頁進行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁面內(nèi)容轉(zhuǎn)換為計算機能夠進行識別和處理的有語義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測價值的數(shù)據(jù)部分提取出來。按照目前技術(shù),計算機無法直接識別和理解網(wǎng)頁數(shù)據(jù)體現(xiàn)的信息和意義,也就不可能進行對信息的進ー步處理。該技術(shù)能夠克服計算機對信息結(jié)構(gòu)識別的困難,利用屬性標(biāo)記來幫助計算機識別信息結(jié)構(gòu),一旦完成了這項智能化的工作,就能夠利用計算機精確、快速的優(yōu)勢,來進行海量信息的處理工作。(3)輿情監(jiān)測特征建模模塊該技術(shù)用于收集用戶對不同輿情監(jiān)測項目的需求特征,并根據(jù)該特征建立監(jiān)測項的特征模型,作為為用戶進行輿情監(jiān)測服務(wù)的依據(jù)。系統(tǒng)要進行恰當(dāng)?shù)臄?shù)據(jù)挖掘工作,前提是必須能夠了解用戶對輿情監(jiān)測的實際需求,而且這種實際需求必須要轉(zhuǎn)換成計算機能夠識別的格式,在本系統(tǒng)中,這種格式化的輿情監(jiān)測需求稱為輿情監(jiān)測項特征模型。系統(tǒng)以特征模型為依據(jù),進行基于特征模型的數(shù)據(jù)挖掘處理,從而為用戶從海量數(shù)據(jù)中提取出滿足其輿情監(jiān)測需求的信息。(4)數(shù)據(jù)挖掘及知識發(fā)現(xiàn)模塊該技術(shù)根據(jù)監(jiān)測項的特征模型,從由網(wǎng)頁內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測需求的有用信息。由于該技術(shù)中涉及的數(shù)據(jù)挖掘處理是以特征模型為依據(jù)進行的,而特征模型是用戶實際監(jiān)測需求的抽象表示,因此系統(tǒng)為用戶推薦的輿情信息必然是用戶需要的有價值信息,從而實現(xiàn)了輿情信息的智能發(fā)現(xiàn)。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在以下六個方面在基于分布式的云計算系統(tǒng)架構(gòu)設(shè)計方面,利用先進的云計算架構(gòu)思想,將大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器分布于不同地理位置,作為系統(tǒng)的計算資源和存儲資源。系統(tǒng)能夠針對用戶的不同需求,利用云計算資源調(diào)度服務(wù)動態(tài)調(diào)配云計算架構(gòu)中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運行效率、滿足用戶的實際需求。云計算架構(gòu)中設(shè)置的系統(tǒng)監(jiān)控與負(fù)載測量模塊能夠?qū)?shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài)、數(shù)據(jù)庫服務(wù)器資源負(fù)載狀態(tài)、數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ嬎愫痛鎯Y源的請求量以及用戶對計算和存儲資源的請求量等數(shù)據(jù)指標(biāo)進行監(jiān)控和測量,這些實時數(shù)據(jù)是云計算資源調(diào)度服務(wù)對系統(tǒng)資源進行調(diào)配的依據(jù)。在互聯(lián)網(wǎng)資訊收集技術(shù)和網(wǎng)頁內(nèi)容智能提取技術(shù)方面,互聯(lián)網(wǎng)資訊收集技術(shù)能夠根據(jù)用戶輿情監(jiān)測需求利用網(wǎng)頁抓取技術(shù)抓取全網(wǎng)信息或特定信息源頁面,并將抓取的頁面進行存儲供后續(xù)處理使用,以實現(xiàn)對互聯(lián)網(wǎng)資訊的收集和存儲功能,該技術(shù)需要實現(xiàn)對互聯(lián)網(wǎng)上不同性質(zhì)的信息發(fā)布網(wǎng)站頁面的抓取,包括新聞網(wǎng)站、BBS論壇、博客。網(wǎng)頁內(nèi)容智能提取技術(shù)實現(xiàn)將抓取到的網(wǎng)頁進行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁面內(nèi)容轉(zhuǎn)換為計算機能夠進行識別和處理的有語義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測價值的數(shù)據(jù)部分提取出來,一旦完成了這項智能化的工作,就能夠利用計算機精確、快速的優(yōu)勢,來進行海量信息的數(shù)據(jù)挖掘處理工作。在輿情監(jiān)測特征建模技術(shù)方面,系統(tǒng)將用戶的輿情監(jiān)測需求進行抽象和量化,形成計算機能夠識別的監(jiān)測特征模型。該特征模型由監(jiān)測信息源序列以及監(jiān)測特征標(biāo)簽序列組成,作為資訊收集以及進行數(shù)據(jù)挖掘的依據(jù),使用戶能夠享受到精準(zhǔn)化的輿情監(jiān)測服務(wù)。 特征模型可以進行更新,通過主動和被動兩種方式進行主動方式是由用戶自主設(shè)置和維護監(jiān)測信息源和監(jiān)測特征標(biāo)簽,從而建立和更新特征模型,其特點是特征模型可以快速建立和更新,適用于監(jiān)測需求明確的用戶;被動方式是無需用戶主動設(shè)置和維護,系統(tǒng)通過一定的特征訓(xùn)練機制來確定和更新監(jiān)測特征模型,其特點是可以發(fā)現(xiàn)用戶潛在的監(jiān)測需求, 適用于監(jiān)測需求不明確的用戶。這兩種更新方式可以綜合使用,首先由用戶通過主動方式設(shè)置初始特征模型,再利用被動方式修正和更新特征模型,使特征模型越發(fā)趨近于用戶實際的監(jiān)測需求,井能不斷跟蹤用戶監(jiān)測需求的變化,使特征模型始終與用戶當(dāng)前的監(jiān)測需求相一致。在基于特征模型的數(shù)據(jù)挖掘分析及展現(xiàn)技術(shù)方面,數(shù)據(jù)挖掘分析技術(shù)根據(jù)監(jiān)測項的特征模型,利用自主的信息過濾和篩選機制從由網(wǎng)頁內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測需求的有用信息。由于該技術(shù)中涉及的數(shù)據(jù)挖掘處理是以特征模型為依據(jù)進行的,而特征模型是用戶實際監(jiān)測需求的抽象表示,因此系統(tǒng)為用戶推薦的輿情信息必然是用戶需要的有價值信息,從而實現(xiàn)了輿情信息的智能發(fā)現(xiàn)。這些挖掘得到的有價值信息可通過多種分析和展現(xiàn)方式提供給用戶通過聚類技術(shù)發(fā)現(xiàn)網(wǎng)絡(luò)輿情的關(guān)注熱點,通過輿情熱點在不同重要度網(wǎng)站上的出現(xiàn)頻度提供輿情熱點排行,通過輿情關(guān)注熱點的連續(xù)時間監(jiān)測數(shù)據(jù)描述輿情變化趨勢分布,通過輿情變化趨勢提供輿情預(yù)警, 輿情關(guān)注熱點間的關(guān)聯(lián)度分析等。在基于MaS的用戶服務(wù)提供模式方面,系統(tǒng)利用先進的軟件服務(wù)化技木,使用戶不需自己架設(shè)輿情監(jiān)測硬件系統(tǒng),只需在該項目提供的云挖掘網(wǎng)絡(luò)輿情監(jiān)測平臺上按需使用輿情監(jiān)測服務(wù),就能不受時間和地域的限制獲得所需的輿情監(jiān)測信息。在多平臺輿情發(fā)布模式方面,系統(tǒng)利用多種信息傳輸手段,使用戶盡可能利用最方便的信息獲取平臺獲得輿情監(jiān)測信息。主要的發(fā)布方式有WEB頁面瀏覽、WAP頁面瀏覽、 RSS訂閱、Email推送、匪S/SMS訂閱、移動客戶端軟件等。
圖1系統(tǒng)架構(gòu)圖;圖2輿情監(jiān)測服務(wù)器原理框圖;圖3輿情監(jiān)測需求特征模型的建立和更新方法流程圖;圖4輿情信息去重技術(shù)流程圖;圖5云挖掘系統(tǒng)平臺架構(gòu)圖;圖6 SaaS與元計算相結(jié)合的服務(wù)模式實現(xiàn)流程圖;圖7網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法基本流程圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明的技術(shù)方案作進ー步詳細地說明。
1)輿情監(jiān)測需求的特征模型和輿情信息的匹配過濾技術(shù)輿情監(jiān)測需求特征模型是從用戶的輿情監(jiān)測需求中提取出的需求特征及其關(guān)注程度的數(shù)據(jù)記錄集,是對輿情需求特征的數(shù)據(jù)化模擬。特征模型能夠被計算機識別和處理, 能夠為不同用戶提供與之輿情監(jiān)測需求相適應(yīng)的精準(zhǔn)化服務(wù)。A.輿情監(jiān)測需求特征模型的定義設(shè)特征序列I0(S,T) = ([(S15T1), (s2,r2),···,(sn, rn) ], [U15W1), (t2,w2),···, (tm,wm)]},其中(Si,r,)表示一個信息源単元,Si為監(jiān)測信息源,r,為該信息源對應(yīng)的網(wǎng)絡(luò)排名;(ti; Wi)表示一個監(jiān)測特征單元,、為特征標(biāo)簽,Wi為其對應(yīng)的重要度。對巧和Wi歸一化處理,得到 I (S,T) = ([(S1, X1), (s2,x2),..., (sn, xn) ], [(ti;yi), (t2,y2),.··,(tm, ym)]},其中
權(quán)利要求
1.ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),其特征在干,包括五個組成部分 云計算資源池包含分布于不同地理位置的計算與存儲資源,由數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器組成;系統(tǒng)監(jiān)控與負(fù)載測量提供對云計算框架中計算與存儲資源的監(jiān)控和測量;云計算資源調(diào)度服務(wù)用于動態(tài)調(diào)配云計算框架中服務(wù)器資源的使用;多平臺輿情發(fā)布服務(wù)將數(shù)據(jù)挖掘處理得到的網(wǎng)絡(luò)輿情監(jiān)測信息以ー種以上的發(fā)布方式推送給用戶;用戶交互界面為用戶提供不同輿情發(fā)布方式的界面接ロ。針對不同的輿情發(fā)布方式, 建立與之對應(yīng)的用戶界面,該界面提供用戶注冊與登錄、輿情監(jiān)測配置與管理以及輿情推送功能,用于用戶進行授權(quán)訪問、查看最新輿情信息以及對輿情監(jiān)測的個性化配置。
2.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),其特征在干,所述的數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫服務(wù)器包括互聯(lián)網(wǎng)資訊收集模塊實現(xiàn)對互聯(lián)網(wǎng)資訊的收集和存儲;網(wǎng)頁內(nèi)容智能提取模塊對互聯(lián)網(wǎng)信息收集模塊抓取到的網(wǎng)頁進行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁面內(nèi)容轉(zhuǎn)換為計算機能夠進行識別和處理的有語義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測價值的數(shù)據(jù)部分提取出來;輿情監(jiān)測特征建模模塊用于收集用戶對不同輿情監(jiān)測項目的需求特征,井根據(jù)該特征建立監(jiān)測項的特征模型,作為為用戶進行輿情監(jiān)測服務(wù)的依據(jù);數(shù)據(jù)挖掘及知識發(fā)現(xiàn)模塊根據(jù)監(jiān)測項的特征模型,從由網(wǎng)頁內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測需求的有用信息。
3.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),其特征在干,所述系統(tǒng)監(jiān)控與負(fù)載測量主要監(jiān)控測量的指標(biāo)有數(shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)庫服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ嬎愫痛鎯Y源的請求量,以及用戶對計算和存儲資源的請求量。
4.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),其特征在干,所述多平臺輿情發(fā)布服務(wù)主要的推送方式有=WEB頁面瀏覽、WAP頁面瀏覽、RSS訂閱、Email 推送、MMS/SMS訂閱、移動客戶端軟件。
5.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),其特征在干,所述用戶交互界面針對不同的輿情發(fā)布方式,建立與之對應(yīng)的用戶界面,該界面提供用戶注冊與登錄、輿情監(jiān)測配置與管理以及輿情推送功能,用于用戶進行授權(quán)訪問、查看最新輿情信息以及對輿情監(jiān)測的個性化配置。
全文摘要
本發(fā)明公開了一種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),包括五個組成部分云計算資源池、系統(tǒng)監(jiān)控與負(fù)載測量、云計算資源調(diào)度服務(wù)、多平臺輿情發(fā)布服務(wù)、用戶交互界面。針對不同的輿情發(fā)布方式,建立與之對應(yīng)的用戶界面,該界面提供用戶注冊與登錄、輿情監(jiān)測配置與管理以及輿情推送功能,用于用戶進行授權(quán)訪問、查看最新輿情信息以及對輿情監(jiān)測的個性化配置。該系統(tǒng)具有運行效率高成本低的特點,適用于電子信息技術(shù)領(lǐng)域。
文檔編號G06F17/30GK102546771SQ20111044228
公開日2012年7月4日 申請日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者朱大鵬, 杜晨光, 顏濤 申請人:西安博構(gòu)電子信息科技有限公司