專利名稱:特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)技術(shù)與中文文本信息處理技術(shù)領(lǐng)域,具體涉及特定區(qū)域內(nèi)網(wǎng)絡(luò)熱
詞生成系統(tǒng)。
背景技術(shù):
網(wǎng)絡(luò)熱詞是指互聯(lián)網(wǎng)用戶在瀏覽網(wǎng)頁時(shí)頻繁出現(xiàn)的主題詞或搜索信息時(shí)頻繁使 用的詞匯。這些網(wǎng)絡(luò)熱詞是有關(guān)部門(如政府、企業(yè))在進(jìn)行調(diào)研、決策、管理和服務(wù)時(shí)的 重要參考。它們的及時(shí)發(fā)現(xiàn)能為事件的處置贏得寶貴的第一時(shí)間。 近年來,隨著互聯(lián)網(wǎng)向現(xiàn)實(shí)生活的加速滲透, 一些著名機(jī)構(gòu)都在總結(jié)和發(fā)布各式 各樣的全國年度網(wǎng)絡(luò)熱詞排行榜。這些網(wǎng)絡(luò)熱詞通常采自于在全國有影響力的門戶網(wǎng)絡(luò)或 各大網(wǎng)絡(luò)論壇、BBS等。它們集中地反映了全國網(wǎng)民所關(guān)注的熱點(diǎn)事件或熱點(diǎn)人物,在某種 意義上代表了相當(dāng)一部分社情民意。但是,不同的地區(qū)受自身發(fā)展?fàn)顩r的制約,其關(guān)注的對 象往往不同。例如在2009年6月底,新疆藝術(shù)學(xué)院里的學(xué)生們關(guān)注的是在廣東韶關(guān)發(fā)生的 維漢群體事件(《新京報(bào)》2009年7月28日A22版)。而在相同時(shí)期,湖北某高校里的學(xué) 生們關(guān)注的則是高考相關(guān)新聞。參見圖l,隨著日期變化,時(shí)間熱度曲線表現(xiàn)"高考"這個(gè)詞 的檢索熱度不斷變化,以數(shù)量級為l,在2009年6月25號左右達(dá)到了頂峰400。這些關(guān)注 對象往往與當(dāng)?shù)氐纳鐣幕钕⑾⑾嚓P(guān),具有鮮明的地域特征。 網(wǎng)絡(luò)熱詞通常在兩種數(shù)據(jù)來源中產(chǎn)生一種數(shù)據(jù)來源是互聯(lián)網(wǎng)用戶瀏覽過的一張 張網(wǎng)頁,所產(chǎn)生的網(wǎng)絡(luò)熱詞可稱為網(wǎng)文熱詞;另一種數(shù)據(jù)來源是用戶在使用搜索引擎時(shí)所 鍵入的關(guān)鍵詞,所產(chǎn)生的網(wǎng)絡(luò)熱詞可稱為搜索熱詞。目前,前面一種數(shù)據(jù)源的主要獲取方法 是面向網(wǎng)頁發(fā)布端進(jìn)行的、基于規(guī)則的網(wǎng)絡(luò)爬蟲下載方法,后面一種數(shù)據(jù)源的主要獲取方 法是面向網(wǎng)頁接收端進(jìn)行的、基于協(xié)議還原的內(nèi)容過濾方法。 由于網(wǎng)絡(luò)爬蟲下載方法面向的是網(wǎng)頁發(fā)布端,所以采集下來的網(wǎng)頁內(nèi)容并不包含 網(wǎng)頁瀏覽者的地域?qū)傩浴A硪环矫?,某個(gè)區(qū)域的用戶在使用搜索引擎時(shí)所鍵入的關(guān)鍵詞雖 然反映了該區(qū)域的關(guān)注熱點(diǎn),但僅捕獲該區(qū)域流出到萬維網(wǎng)的上行數(shù)據(jù)流是不夠的。原因 有二首先、從萬維網(wǎng)中流入到該區(qū)域的下行數(shù)據(jù)流中同樣也包含了大量能夠反映該區(qū)域 內(nèi)用戶關(guān)注熱點(diǎn)的信息;其次,如果僅捕獲上行數(shù)據(jù)流,在記錄到的URL請求中,不僅不同 的搜索引擎對鍵入的關(guān)鍵詞具有不同的呈現(xiàn)結(jié)構(gòu),而且具有不同的編碼方法,甚至?xí)錾?無法解碼的情況??梢娔壳暗木W(wǎng)絡(luò)熱詞生成技術(shù)存在缺陷。 事實(shí)上,google或baidu等搜索引擎的響應(yīng)頁面的標(biāo)題欄會顯示用戶請求時(shí)所使 用的上行搜索句。也就是說,上行搜索句被包含在下行瀏覽標(biāo)題中。我們只需捕獲由響應(yīng) 頁面所匯聚的下行數(shù)據(jù)流,并提取中其中與搜索引擎字樣相伴出現(xiàn)的上行搜索句即能彌補(bǔ) 上述兩項(xiàng)技術(shù)缺陷。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種通過采用面向上下行雙向數(shù)據(jù)流的內(nèi)容過濾方式,對某個(gè)特點(diǎn)區(qū)域內(nèi)的用戶瀏覽過的網(wǎng)頁標(biāo)題(存在于下行數(shù)據(jù)流中,簡稱為 下行標(biāo)題)和用戶在使用搜索引擎時(shí)采用的搜索句(存在于上行數(shù)據(jù)流中,簡稱為上行搜 索句)進(jìn)行處理,從而生成網(wǎng)絡(luò)熱詞的技術(shù)方案。 本發(fā)明的技術(shù)方案為設(shè)置網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備、協(xié)議還原服務(wù)器和區(qū)域內(nèi)外 交互信息分析服務(wù)器,并在網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備、協(xié)議還原服務(wù)器和區(qū)域內(nèi)外交互信息 分析服務(wù)器之間建立網(wǎng)絡(luò)交換連接, 所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備,用于對從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流并進(jìn)行 過濾分流,所得分流內(nèi)容分送到若干協(xié)議還原服務(wù)器; 所述協(xié)議還原服務(wù)器,用于從來自網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備的分流內(nèi)容中還原h(huán)ttp 會話,并將還原出的http會話發(fā)送到區(qū)域內(nèi)外交互信息分析服務(wù)器; 所述區(qū)域內(nèi)外交互信息分析服務(wù)器,用于提取從各協(xié)議還原服務(wù)器所得http會 話的下行標(biāo)題和上行搜索句,對下行標(biāo)題和上行搜索句進(jìn)行分詞處理,在分詞的結(jié)果中統(tǒng) 計(jì)出網(wǎng)絡(luò)熱詞。 而且,所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備進(jìn)行過濾分流的具體方式為,過濾出上下行雙 向數(shù)據(jù)流中源端口是80的TCP數(shù)據(jù)包,將過濾所得TCP數(shù)據(jù)包按照協(xié)議還原服務(wù)器數(shù)目進(jìn) 行分流。 而且,所述協(xié)議還原服務(wù)器中還原h(huán)ttp會話的具體方式為,對于屬于同一條TCP 連接的TCP數(shù)據(jù)包,重組出http會話;如果該http會話的首部響應(yīng)代碼不是200,則不作 后續(xù)處理;如果該http會話的首部響應(yīng)代碼是200,而且其數(shù)據(jù)類型是text/html,則記為 數(shù)據(jù)源文本l。 而且,所述區(qū)域內(nèi)外交互信息分析服務(wù)器中, 提取http會話的下行標(biāo)題和上行搜索句的具體方式為,提取數(shù)據(jù)源文本1里http 會話中標(biāo)簽〈ti11 e〉和〈/ti11 e〉之間的字符串;把獲得的字符串分為下行標(biāo)題或上行搜索 句; 對下行標(biāo)題和上行搜索句進(jìn)行分詞處理的具體方式為,去掉下行標(biāo)題和上行搜索 句中的停用詞,然后采用逆向最大匹配算法進(jìn)行切分; 在分詞的結(jié)果中統(tǒng)計(jì)出網(wǎng)絡(luò)熱詞的具體方式包括以下步驟,步驟a,對于從下行標(biāo) 題中產(chǎn)生的詞,將其歸為網(wǎng)文詞語;對于從上行搜索句中產(chǎn)生的詞,將其歸為搜索詞語;
步驟b,分別記錄搜索詞語和網(wǎng)文詞語中每個(gè)詞出現(xiàn)的頻率; 步驟c,對搜索詞語和網(wǎng)文詞語中所有詞按步驟b所得頻率分別進(jìn)行排序,排名靠 前的100個(gè)詞語即為該區(qū)域內(nèi)的網(wǎng)絡(luò)熱詞。 而且,所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流,具體實(shí) 施方式為,網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備經(jīng)過分光器以旁路方式接入?yún)^(qū)域網(wǎng)關(guān),由分光器將區(qū)域 中經(jīng)過區(qū)域網(wǎng)關(guān)的上下行雙向數(shù)據(jù)流復(fù)制送到網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備。 或者,所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流,具體實(shí) 施方式為,網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備直接接入?yún)^(qū)域網(wǎng)關(guān),由區(qū)域網(wǎng)關(guān)自行將區(qū)域中經(jīng)過區(qū)域 網(wǎng)關(guān)的上下行雙向數(shù)據(jù)流復(fù)制送到網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備。 本發(fā)明能夠支持及時(shí)地發(fā)現(xiàn)特定區(qū)域(如高校校園、居民社區(qū))所關(guān)注的網(wǎng)絡(luò)熱 詞。網(wǎng)絡(luò)熱詞及其相關(guān)的網(wǎng)絡(luò)話題的及時(shí)發(fā)現(xiàn)可以為有關(guān)部門(決策、宣傳、心理輔導(dǎo)等)開展工作贏得寶貴的第一時(shí)間。另一方面,長期跟蹤網(wǎng)絡(luò)熱詞所積累的變化曲線能夠直觀 真實(shí)地反映該區(qū)域社情民意發(fā)生發(fā)展的脈絡(luò)和軌跡,給政策評估和輿情預(yù)測提供了有力的 技術(shù)支持。本發(fā)明的實(shí)施方式所使用的硬件設(shè)備是成熟產(chǎn)品,簡便易行,可擴(kuò)展性強(qiáng)。在 網(wǎng)絡(luò)容量為1Gbps的校園網(wǎng)絡(luò)出口處部署這套系統(tǒng),能夠在http協(xié)議數(shù)據(jù)包日常流量為 200Mbps以上時(shí)(包括高峰流量為500-600Mbps),實(shí)現(xiàn)網(wǎng)頁標(biāo)題的實(shí)時(shí)提取,并能夠及時(shí)顯 示排名前100的網(wǎng)文熱詞和搜索熱詞。
圖1是湖北某高校網(wǎng)絡(luò)熱詞"高考"的時(shí)間熱度曲線。 圖2是本發(fā)明的系統(tǒng)結(jié)構(gòu)圖。 圖3是特定區(qū)域網(wǎng)絡(luò)熱詞生成方法流程圖。 圖4是按照本發(fā)明的一個(gè)實(shí)施方式獲得的湖北某高校在 索熱詞(字體越小、顏色越淺者排名越后)。 圖5是按照本發(fā)明的一個(gè)實(shí)施方式獲得的湖北某高校在 文熱詞(字體越小、顏色越深者排名越后)。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)一步說明
本發(fā)明需要在具體的網(wǎng)絡(luò)環(huán)境里依托相應(yīng)的裝置實(shí)施,如圖2所示。區(qū)域網(wǎng)關(guān)提 供區(qū)域外部與區(qū)域內(nèi)部的信息傳遞,實(shí)現(xiàn)互聯(lián)網(wǎng)和局域網(wǎng)的連通。為了考察特點(diǎn)區(qū)域的網(wǎng) 絡(luò)熱詞,首先要從區(qū)域網(wǎng)關(guān)取得網(wǎng)絡(luò)數(shù)據(jù)流,本發(fā)明考察上下行雙向數(shù)據(jù)流。
如果區(qū)域網(wǎng)關(guān)與互聯(lián)網(wǎng)之間的接入信道具有較大的容量(例如1Gbps以上),宜采 用分光器將經(jīng)過區(qū)域網(wǎng)關(guān)的上下行網(wǎng)絡(luò)數(shù)據(jù)流(即包括從局域網(wǎng)流出和從互聯(lián)網(wǎng)流入這 兩個(gè)方向的數(shù)據(jù)流),復(fù)制到網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備的輸入接口 。圖2所展示的系統(tǒng)結(jié)構(gòu)正 是這種情況,其中用雙箭頭標(biāo)識上下行網(wǎng)絡(luò)數(shù)據(jù)流。網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備可采用市面上 的成熟產(chǎn)品,例如FS3108過濾設(shè)備。分光器的分光比一般設(shè)置成7 : 3。即如果將分光前
的光纖傳輸功率看作io,那么分光后的區(qū)域用戶與互聯(lián)網(wǎng)正常產(chǎn)生交互數(shù)據(jù)流的光纖傳輸
功率為7,而復(fù)制到網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備輸入接口的光纖傳輸功率為3。對于采用光纖接 入的區(qū)域網(wǎng)關(guān)而言,采用分光器對網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行復(fù)制是一個(gè)比較簡便而且不影響用戶正 常使用的復(fù)制方法。 如果區(qū)域網(wǎng)關(guān)與互聯(lián)網(wǎng)之間的接入信道的容量較小(例如lGbps以下,數(shù)百兆bps 左右),可以采用區(qū)域網(wǎng)關(guān)通常自帶的鏡像拷貝網(wǎng)絡(luò)數(shù)據(jù)包的方法,將經(jīng)過區(qū)域網(wǎng)關(guān)的上下 行網(wǎng)絡(luò)數(shù)據(jù)流復(fù)制到網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備的輸入接口。區(qū)域網(wǎng)關(guān)自帶的這種鏡像拷貝功 能通常是為網(wǎng)絡(luò)檢修而設(shè)置,不宜長期使用,而且這種鏡像拷貝增加了區(qū)域網(wǎng)關(guān)的工作負(fù) 荷,對區(qū)域用戶的正常使用會造成一定程度的影響。 還原h(huán)ttp會話的實(shí)施需要由網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備和http還原服務(wù)器配合完 成。因此網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備和協(xié)議還原服務(wù)器之間建立網(wǎng)絡(luò)連接,以實(shí)現(xiàn)信息傳遞。如 圖2所示,網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備發(fā)送給協(xié)議還原服務(wù)器的分流內(nèi)容用單箭頭標(biāo)識。在接 入容量為1Gbps的網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)數(shù)據(jù)過濾分流設(shè)備必須能支持1路千兆線速輸入,能按
一段時(shí)間內(nèi)的前100個(gè)搜 一段時(shí)間內(nèi)的前100個(gè)網(wǎng)照五元組(源IP、目的IP、源端口、目的端口和協(xié)議名)中全部或者部分規(guī)則輸出符合規(guī)則 的數(shù)據(jù)包而且丟棄不符合規(guī)則的數(shù)據(jù)包,具有多路千兆線速輸出(一般為4或8路)。http 還原服務(wù)器的基本配置可為2顆主頻不低于2. 5GHz、Intel Xeon 5400系列以上的CPU,容 量不低于4G字節(jié)的內(nèi)存和10帶寬不低于80MBps的磁盤,操作系統(tǒng)為Red HatEnterprise Li皿x Advanced Server 4. 5操作系統(tǒng)(考慮到依據(jù)http會話還原出來的網(wǎng)頁容易攜帶針 對Windows系統(tǒng)的病毒)。 從所有http還原服務(wù)器所得http會話中得到網(wǎng)絡(luò)熱詞需要在較高性能的服務(wù)器 上實(shí)施,本發(fā)明稱為區(qū)域內(nèi)外交互信息分析服務(wù)器。因此所有http還原服務(wù)器所得通過網(wǎng) 絡(luò)連接到區(qū)域內(nèi)外交互信息分析服務(wù)器,以實(shí)現(xiàn)信息傳遞。如圖2所示,所有http還原服 務(wù)器發(fā)送給區(qū)域內(nèi)外交互信息分析服務(wù)器的http會話用虛線單箭頭標(biāo)識。區(qū)域內(nèi)外交互 信息分析服務(wù)器基本配置可為4顆主頻不低于2. 4GHz、 Intel Tigerton系列至強(qiáng)CPU,不 低于8M字節(jié)的二級緩存容量,容量8G字節(jié)的內(nèi)存和10帶寬不低于80MBps的磁盤,操作系 統(tǒng)為WindowsServer 2003。 網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備和協(xié)議還原服務(wù)器之間、http還原服務(wù)器和區(qū)域內(nèi)外交互 信息分析服務(wù)器之間,設(shè)置網(wǎng)絡(luò)交換設(shè)備,就能實(shí)現(xiàn)高信息傳遞效率的網(wǎng)絡(luò)交換連接。
如圖3所示,本發(fā)明實(shí)施例的具體實(shí)現(xiàn)流程分步驟詳述如下 步驟l,采用網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備,從區(qū)域網(wǎng)關(guān)中取得的上下行雙向數(shù)據(jù)流并進(jìn) 行過濾分流,所得分流內(nèi)容分送到若干協(xié)議還原服務(wù)器。 實(shí)施例采用網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備,將源端口是80的TCP數(shù)據(jù)包,轉(zhuǎn)發(fā)到協(xié)議還 原服務(wù)器上。首先,對于每一個(gè)從區(qū)域網(wǎng)關(guān)中鏡像出來的IP數(shù)據(jù)包(既可能是經(jīng)網(wǎng)關(guān)流出, 也可能經(jīng)網(wǎng)關(guān)流入),網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備檢查其首部的協(xié)議字段,如果是TCP,則捕獲; 否則丟棄。然后,對于每一個(gè)捕獲的TCP數(shù)據(jù)包,如果其源端口是80,則送入?yún)f(xié)議還原服務(wù) 器進(jìn)行后續(xù)的http協(xié)議分析還原;否則丟棄。 步驟2,采用協(xié)議還原服務(wù)器,從來自網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備的分流內(nèi)容中還原 http會話,并將還原出的http會話發(fā)送到區(qū)域內(nèi)外交互信息分析服務(wù)器。實(shí)施例中,首先 在協(xié)議還原服務(wù)器上,對于屬于同一條TCP連接的TCP數(shù)據(jù)包,重組出http會話內(nèi)容。如果 該TCP數(shù)據(jù)包的源端口是80,那么它就和在它之前或之后到來的、具有著相同的源端口、目 的端口 、源IP和目的IP的TCP數(shù)據(jù)包屬于同一條TCP連接。對于屬于同一條TCP連接的 TCP數(shù)據(jù)包,按照其首部序號依序重組出http會話內(nèi)容。然后,實(shí)施例為了提取響應(yīng)頁面所 匯聚的下行數(shù)據(jù)流,進(jìn)一步進(jìn)行了判斷如果該http會話內(nèi)容的首部響應(yīng)代碼不是200,則 不再作后續(xù)處理;否則,若其數(shù)據(jù)類型是text/html,記為數(shù)據(jù)源文本1。獲得數(shù)據(jù)源文本1 后即可進(jìn)入步驟3作后續(xù)處理。text/html含義為該數(shù)據(jù)類型屬于html網(wǎng)頁內(nèi)的text文 本。若其數(shù)據(jù)類型不是text/html,則不再處理。 步驟3,采用區(qū)域內(nèi)外交互信息分析服務(wù)器,提取從各協(xié)議還原服務(wù)器所得http 會話的下行標(biāo)題和上行搜索句。實(shí)施例分以下兩個(gè)步驟實(shí)現(xiàn) 步驟3. 1,提取數(shù)據(jù)源文本l里http會話內(nèi)容中標(biāo)簽〈title〉和〈/title〉之間的 字符串。 實(shí)施例中,對于步驟2中獲得的數(shù)據(jù)源文本1中的每一條http會話內(nèi)容,如果沒 有標(biāo)簽〈title〉,就不做后續(xù)處理;否則采用正則表達(dá)式"〈title〉(.氺)〈/title〉"提取網(wǎng)頁標(biāo)簽對〈title〉〈/title〉之間的內(nèi)容,或者采用D0M(文檔對象模型,Document Object
Model)解析步驟2中還原出來的數(shù)據(jù)源文本l,然后訪問生成的XML樹中的元素〈title〉
的屬性值,記提取出來的標(biāo)簽〈title〉和〈/title〉之間的字符串為S。 步驟3. 2,把步驟3. 1獲得的字符串分為上行搜索句和下行標(biāo)題兩類。 如果S中出現(xiàn)了下劃線"_"或中劃線"_",就以此為分隔符,獲得若干個(gè)子串Sl,
s2,…,Sn。如果這些子串中出現(xiàn)了"百度搜索"、"Google搜索"等搜索引擎的名字,那么S
中剩下的其它子串就是上行搜索句;如果這些子串中沒有出現(xiàn)"百度"、"Google"等搜索引
擎的名字,那么除去網(wǎng)頁欄目子串(如"新聞中心""新浪網(wǎng)"等)后,剩下的子串就是下行標(biāo)題。 步驟4,采用區(qū)域內(nèi)外交互信息分析服務(wù)器,對下行標(biāo)題和上行搜索句進(jìn)行分詞處 理。實(shí)施例分以下兩個(gè)步驟實(shí)現(xiàn) 步驟4. l,去掉上行搜索句或下行標(biāo)題中的停用詞。 對于步驟3.2中獲得的上行搜索句或下行標(biāo)題,首先去掉停用詞,去停用詞所依
據(jù)的停用詞表可以選用哈爾濱工業(yè)大學(xué)信息檢索研究中心推出的停用詞表。 步驟4.2,對于步驟4. l去掉上行搜索句或下行標(biāo)題中的停用詞后結(jié)果,采用逆向
最大匹配算法進(jìn)行切分。 依照標(biāo)點(diǎn)符號或者空格將Cl中獲得的文本切分成若干小段,采用逆向最大匹配 算法(《中文文本信息處理的原理與應(yīng)用》,苗奪謙、衛(wèi)志華著,清華大學(xué)出版社,2007年9月 第1版,第22頁)進(jìn)行切分。逆向最大匹配算法的思想是對于待切分的一段語句,首先以 該段語句的尾字為起點(diǎn),向首字的方向進(jìn)行搜索(如果以從首字向尾字搜索為正向,則從 尾字向首字方向搜索為逆向),直到找到以該尾字為結(jié)尾、且在該語句中出現(xiàn)的最長的詞, 并以此為標(biāo)志切出第一個(gè)詞。然后將剩余字符串作為另一待切分文本進(jìn)行相同處理。設(shè)待 切分的語句L中的字?jǐn)?shù)是n,最長詞的長度為max( —般為3或4)。
具體實(shí)施過程如下
whil e(n > 1)
{從L中截取從(n- (max-l))至lj n的字符串,記為sub_sentence ;
if (字典中存在sub_sentence這個(gè)詞) 該算法中所使用的分詞詞典可以選用北京大學(xué)計(jì)算語言學(xué)研究所或中國科學(xué)院 軟件研究所等推出的分詞詞典。 步驟5,采用區(qū)域內(nèi)外交互信息分析服務(wù)器,在分詞的結(jié)果中統(tǒng)計(jì)出網(wǎng)絡(luò)熱詞。實(shí) 施例分以下三個(gè)步驟實(shí)現(xiàn) 步驟5. l,對于從上行搜索句中產(chǎn)生的詞,將其歸為搜索詞語;對于從下行標(biāo)題中
保存已切分出來的詞sub_sentence ;產(chǎn)生的詞,將其歸為網(wǎng)文詞語。 步驟5. 2,分別記錄搜索詞語和網(wǎng)文詞語中每個(gè)詞出現(xiàn)的頻率。 由于從上行搜索句或下行標(biāo)題里提取出來的詞語數(shù)量非常多,故在本步驟需要考
慮執(zhí)行效率。 實(shí)施例對于詞中的每個(gè)漢字,獲取其Unicode編碼,如"華"的Unicode編碼是 21326。假設(shè)某個(gè)詞語W的詞長是n, W(i)是該詞中從左往右數(shù)的第i個(gè)字的Unicode編 碼,則該詞W的哈希值HashCode (W)的計(jì)算方法是 /to/Cotfe(『)=^ 3 l",(O 在內(nèi)存無限大的理想狀態(tài)下,可以用一個(gè)充分大的數(shù)組來計(jì)數(shù)將每個(gè)詞的哈希 值作為該詞在這個(gè)數(shù)組中的索引,通過計(jì)算每個(gè)詞的哈希值直接定位該詞的位置,定位時(shí) 間與詞語總量無關(guān)。但是內(nèi)存是有限的,所以我們應(yīng)該把計(jì)數(shù)數(shù)組的大小控制在一個(gè)合適 的值,設(shè)為N。比如把HashCode (W)對N取模,將余數(shù)作為W在計(jì)數(shù)數(shù)組中的索引。這樣 一來,不同的詞語W可能具有相同的索引??紤]到這些具有相同索引但字符不同的詞語的 數(shù)量無法事先設(shè)定,所以采用鏈表來存儲這些詞語,把該鏈表的頭地址存儲在計(jì)數(shù)數(shù)組中。 鏈表中的一個(gè)單元結(jié)構(gòu)定義為詞語、頻率和指針。對于每個(gè)詞語,計(jì)算它的哈希值,得到對 應(yīng)的計(jì)數(shù)數(shù)組索引,然后加入到該索引存儲單元記錄的鏈表首部,其頻率自加1。在進(jìn)行查 詢時(shí),也是通過計(jì)算哈希值,得到對應(yīng)的計(jì)數(shù)數(shù)組索引,然后遍歷鏈表查找對應(yīng)元素。也就 是用哈希表的鏈?zhǔn)酱鎯?記為HashStore)來避免這種哈希沖突。 步驟5. 3,對步驟5. 2中的詞語依出現(xiàn)的頻率進(jìn)行排序,排名靠前的若干個(gè)詞匯即 為該區(qū)域內(nèi)的網(wǎng)絡(luò)熱詞。 由于實(shí)施例只要求挑選出排名前100位的詞語,故前100位之外的詞語不需要排 序,其基本思路是用折半比較來提高效率。首先把HashStore中出現(xiàn)頻次不為0的詞語 挑出來,這些詞語組成的集合記為A,最高頻次為Frequency—Max。開始時(shí),設(shè)最高頻次為 Frequency—Max的詞語組成的集合是A15個(gè)數(shù)是若P:不小于100,則停止挑選,在這些詞 中挑足100個(gè)詞語,作為結(jié)果輸出;否則把A中頻次比Frequency—Max/2高的詞語挑出來, 設(shè)這些詞語組成的集合為4,個(gè)數(shù)是^。如果(P一P》不小于100,則在4中剔除(P,P廠100) 個(gè)出現(xiàn)頻次最小的詞語;否則在A-A「A2中挑選頻次比Frequency—Max/4大的詞語……以此 類推,每次不斷地縮小范圍,最終挑出排名前100位的詞語。 特定區(qū)域的網(wǎng)絡(luò)熱詞生成結(jié)果如圖4和圖5所示。圖4為湖北某高校在2009年7 月4日-2009年7月15日排名前100的搜索熱詞。圖5為該校在2009年7月15日-2009 年7月30日排名前100的網(wǎng)文熱詞。圖中字體越小,顏色越淺者排名越后。
權(quán)利要求
一種特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于設(shè)置網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備、協(xié)議還原服務(wù)器和區(qū)域內(nèi)外交互信息分析服務(wù)器,并在網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備、協(xié)議還原服務(wù)器和區(qū)域內(nèi)外交互信息分析服務(wù)器之間建立網(wǎng)絡(luò)交換連接,所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備,用于對從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流并進(jìn)行過濾分流,所得分流內(nèi)容分送到若干協(xié)議還原服務(wù)器;所述協(xié)議還原服務(wù)器,用于從來自網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備的分流內(nèi)容中還原h(huán)ttp會話,并將還原出的http會話發(fā)送到區(qū)域內(nèi)外交互信息分析服務(wù)器;所述區(qū)域內(nèi)外交互信息分析服務(wù)器,用于提取從各協(xié)議還原服務(wù)器所得http會話的下行標(biāo)題和上行搜索句,對下行標(biāo)題和上行搜索句進(jìn)行分詞處理,在分詞的結(jié)果中統(tǒng)計(jì)出網(wǎng)絡(luò)熱詞。
2. 根據(jù)權(quán)利要求1所述的特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備進(jìn)行過濾分流的具體方式為,過濾出上下行雙向數(shù)據(jù)流中源端口是80的TCP 數(shù)據(jù)包,將過濾所得TCP數(shù)據(jù)包按照協(xié)議還原服務(wù)器數(shù)目進(jìn)行分流。
3. 根據(jù)權(quán)利要求2所述的特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于所述協(xié)議還原 服務(wù)器中還原h(huán)ttp會話的具體方式為,對于屬于同一條TCP連接的TCP數(shù)據(jù)包,重組出http會話;如果該http會話的首部響應(yīng)代碼不是200,則不作后續(xù)處理;如果該http會話的首部響應(yīng)代碼是200,而且其數(shù)據(jù)類型是text/html,則記為數(shù)據(jù)源文本1。
4. 根據(jù)權(quán)利要求3所述的特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于所述區(qū)域內(nèi)外 交互信息分析服務(wù)器中,提取http會話的下行標(biāo)題和上行搜索句的具體方式為,提取數(shù)據(jù)源文本1里http會 話中標(biāo)簽〈title〉和〈/title〉之間的字符串;把獲得的字符串分為下行標(biāo)題或上行搜索 句;對下行標(biāo)題和上行搜索句進(jìn)行分詞處理的具體方式為,去掉下行標(biāo)題和上行搜索句中 的停用詞,然后采用逆向最大匹配算法進(jìn)行切分;在分詞的結(jié)果中統(tǒng)計(jì)出網(wǎng)絡(luò)熱詞的具體方式包括以下步驟,步驟a,對于從下行標(biāo)題中產(chǎn)生的詞,將其歸為網(wǎng)文詞語;對于從上行搜索句中產(chǎn)生的 詞,將其歸為搜索詞語;步驟b,分別記錄搜索詞語和網(wǎng)文詞語中每個(gè)詞出現(xiàn)的頻率;步驟c,對搜索詞語和網(wǎng)文詞語中所有詞按步驟b所得頻率分別進(jìn)行排序,排名靠前的 100個(gè)詞語即為該區(qū)域內(nèi)的網(wǎng)絡(luò)熱詞。
5. 根據(jù)權(quán)利要求1或2或3或4所述的特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于 所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流,具體實(shí)施方式
為,網(wǎng)絡(luò) 數(shù)據(jù)分流過濾設(shè)備經(jīng)過分光器以旁路方式接入?yún)^(qū)域網(wǎng)關(guān),由分光器將區(qū)域中經(jīng)過區(qū)域網(wǎng)關(guān) 的上下行雙向數(shù)據(jù)流復(fù)制送到網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備。
6. 根據(jù)權(quán)利要求1或2或3或4所述的特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),其特征在于 所述網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備從區(qū)域網(wǎng)關(guān)中取得上下行雙向數(shù)據(jù)流,具體實(shí)施方式
為,網(wǎng)絡(luò) 數(shù)據(jù)分流過濾設(shè)備直接接入?yún)^(qū)域網(wǎng)關(guān),由區(qū)域網(wǎng)關(guān)自行將區(qū)域中經(jīng)過區(qū)域網(wǎng)關(guān)的上下行雙 向數(shù)據(jù)流復(fù)制送到網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備。
全文摘要
本發(fā)明提出了一種特定區(qū)域內(nèi)網(wǎng)絡(luò)熱詞生成系統(tǒng),屬于網(wǎng)絡(luò)技術(shù)與中文文本信息處理技術(shù)領(lǐng)域,解決了在某區(qū)域內(nèi)及時(shí)發(fā)現(xiàn)該區(qū)域流行的網(wǎng)絡(luò)熱詞的技術(shù)問題。該發(fā)明采用一個(gè)網(wǎng)絡(luò)數(shù)據(jù)分流過濾設(shè)備,將從區(qū)域網(wǎng)關(guān)中鏡像出來的上下行雙向數(shù)據(jù)流,按照一定的規(guī)則過濾分流到若干臺協(xié)議還原服務(wù)器上還原h(huán)ttp會話,然后在區(qū)域內(nèi)外交互信息分析服務(wù)器上提取這些http會話的下行標(biāo)題和上行搜索句,最后對它們進(jìn)行分詞和熱詞統(tǒng)計(jì)。這些網(wǎng)絡(luò)熱詞是有關(guān)部門(如政府、企業(yè))在進(jìn)行調(diào)研、決策、管理和服務(wù)時(shí)的重要參考。它們的及時(shí)發(fā)現(xiàn)能為事件的處置贏得寶貴的第一時(shí)間。
文檔編號H04L29/06GK101727494SQ20091027345
公開日2010年6月9日 申請日期2009年12月29日 優(yōu)先權(quán)日2009年12月29日
發(fā)明者劉清堂, 姚華雄, 楊宗凱, 汪虹, 王泰, 趙剛 申請人:華中師范大學(xué)