一種互聯(lián)網(wǎng)信息采集系統(tǒng)的制作方法
【技術(shù)領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領域,尤其涉及一種互聯(lián)網(wǎng)信息采集系統(tǒng)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的普及給各行各業(yè)帶來了巨大的信息量,大數(shù)據(jù)也隨之應用而生,大數(shù)據(jù)(big data,mega data),或稱巨量資料,是指需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
[0003]互聯(lián)網(wǎng)中的大小站點數(shù)以千萬計,積淀下的信息量更是龐大,在這些信息中存在著相當巨大的關于商機,待遇等方面的數(shù)據(jù),絕大部分分布在各大論壇中,各個空間中,BL0G等互動討論空間中,這些互動空間中的數(shù)據(jù)具備相當?shù)膬r值,在一定程度上具備相當大的參考價值,各企事業(yè)單位、政府機構(gòu)等也需要關注這些空間中的互聯(lián)網(wǎng)輿論,為客戶提供及時的互聯(lián)網(wǎng)輿論方向分析,為公共危機公關,輿論導向等提供數(shù)據(jù)支持。但目前還沒有能夠獲取為職業(yè)認識提供數(shù)據(jù)參考以及決策支持的較系統(tǒng)和全面的信息系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]針對上述問題現(xiàn)提供能夠較系統(tǒng)和全面的獲取互聯(lián)網(wǎng)信息的一種互聯(lián)網(wǎng)信息采集系統(tǒng)。
[0005]具體的技術(shù)方案是:
[0006]—種互聯(lián)網(wǎng)信息采集系統(tǒng),其中,包括:
[0007]信息源識別單元,用于根據(jù)用戶輸入的關鍵字,識別關聯(lián)于所述關鍵字的信息源,獲取所述信息源的路徑;
[0008]信息采集單元,連接所述信息源識別單元,用于根據(jù)所述路徑獲取關聯(lián)于所述信息源的信息;
[0009]過濾分析單元,連接所述信息采集單元,用于對采集的所述信息進行識別分析,過濾與所述關鍵字無關聯(lián)關系的所述信息;
[0010]語義分析單元,連接所述過濾分析單元,用于對存儲的所述信息進行語義解析;[0011 ]數(shù)據(jù)分析單元,連接所述語義分析單元,用于獲取經(jīng)過所述語義解析的所述信息,并對所述信息進行分析,獲得分析結(jié)果。
[0012]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,所述過濾分析單元包括:
[0013]第一識別模塊,用于對采集的所述信息進行識別,并根據(jù)識別的結(jié)果按預置分類進行分類;
[0014]過濾模塊,連接所述識別模塊,用過濾與所述關鍵字無關聯(lián)關系的所述信息。
[0015]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,包括:
[0016]存儲管理單元,連接所述過濾分析單元,用于分類存儲過濾后的所述信息,并對所述信息進行管理。
[0017]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,所述存儲管理單元包括:
[0018]復數(shù)個存儲模塊,每個所述存儲模塊用于存儲一個類型的所述信息;
[0019]信息分類模塊,連接所述存儲模塊,用于根據(jù)預設條件對所述信息進行分類,并將識別的所述信息存儲在對應的所述存儲模塊。
[0020]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,所述存儲管理單元包括:
[0021]信息整合模塊,用于將采集的所述信息中重復的所述信息進行篩除;
[0022]信息檢索模塊,連接所述信息整合模塊用于對篩除后的所述信息根據(jù)用戶輸入信息進行檢索。
[0023]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,所述語義分析單元包括:
[0024]第二識別模塊,用于對存儲所述信息的內(nèi)容進行識別,將識別的所述信息分為語目?目息和感情ig息;
[0025]語言語義分析,連接所述第二識別模塊,用于對篩選后的所述語言信息進行語義解析,獲得第一解析語義;
[0026]感情語義分析,連接所述第二識別模塊,用于對篩選后的所述感情信息進行語義解析,獲得第二解析語義;
[0027]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,包括:
[0028]監(jiān)管服務單元,連接所述數(shù)據(jù)分析單元,用于對獲得的所述分析結(jié)果進行監(jiān)管;
[0029]優(yōu)選的,上述的互聯(lián)網(wǎng)信息采集系統(tǒng),其中,包括:
[0030]報告生成單元,連接所述數(shù)據(jù)分析單元,用于根據(jù)所述分析結(jié)果,按預置格式形成一分析報告。
[0031 ]本發(fā)明的有益效果是,能夠通過對信息源的識別,在獲取信息前首先通過篩選到符合用戶要求的信息源,通過信息源能夠較系統(tǒng)和全面的獲取需要的信息,進而為需要的用戶提供數(shù)據(jù)參考以及決策支持。
【附圖說明】
[0032]圖1為本發(fā)明一種互聯(lián)網(wǎng)信息采集系統(tǒng)較佳實施例中總結(jié)構(gòu)示意圖;
[0033]圖2-5為本發(fā)明一種互聯(lián)網(wǎng)信息采集系統(tǒng)較佳實施例中部分結(jié)構(gòu)示意圖。
【具體實施方式】
[0034]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0035]需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
[0036]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明,但不作為本發(fā)明的限定。
[0037]如圖1所示,
[0038]一種互聯(lián)網(wǎng)信息采集系統(tǒng),其中,包括:
[0039]信息源識別單元1,用于根據(jù)用戶輸入的關鍵字,識別關聯(lián)于關鍵字的信息源,獲取信息源的路徑;
[0040]信息采集單元2,連接信息源識別單元1,用于根據(jù)路徑獲取關聯(lián)于信息源的信息;[0041 ]過濾分析單元3,連接信息采集單元2,用于對采集的信息進行識別分析,過濾與關鍵字無關聯(lián)關系的信息;
[0042]語義分析單元4,連接過濾分析單元3,用于對存儲的信息進行語義解析;
[0043]數(shù)據(jù)分析單元5,連接語義分析單元4,用于獲取經(jīng)過語義解析的信息,并對信息進行分析,獲得分析結(jié)果。
[0044]本系統(tǒng)是通過對用戶輸入關鍵字進行信息源的識別,獲取關聯(lián)于信息源的信息,是一個具備互聯(lián)網(wǎng)數(shù)據(jù)抓取,基礎語義分析及數(shù)據(jù)分析能力的輿情處置系統(tǒng)。它能夠提供:互聯(lián)網(wǎng)數(shù)據(jù)抓取能力,數(shù)據(jù)分析能力,數(shù)據(jù)分類能力,更精準地分析數(shù)據(jù)。數(shù)據(jù)挖掘能力,能夠?qū)ヂ?lián)網(wǎng)的數(shù)據(jù)進行更深層次的分析。
[0045]系統(tǒng)面向各企事業(yè)單位、政府機構(gòu)等需要關注互聯(lián)網(wǎng)輿論的客戶,為客戶提供及時的互聯(lián)網(wǎng)輿論方向分析,為公共危機公關,輿論導向等提供數(shù)據(jù)支持。
[0046]本發(fā)明較佳實施例中,如圖2所示,過濾分析單元3包括:
[0047]第一識