基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于文本數(shù)據(jù)挖掘領(lǐng)域,涉及一種基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取 與篩選方法,用于抓取地震主題網(wǎng)絡(luò)文本并篩選出其中的地震宏觀異常相關(guān)信息。
【背景技術(shù)】
[0002] 隨著如今通信手段的日益豐富,公眾也經(jīng)常通過網(wǎng)絡(luò)將自己觀察到的地震宏觀異 常傳遞給地震部門。同樣,地震部門也可以利用信息技術(shù)手段,將互聯(lián)網(wǎng)上的地震宏觀異常 信息收集起來,豐富自己的地震測報工作。但是隨著信息技術(shù)的發(fā)展和人們對于網(wǎng)絡(luò)的依 賴程度的提高,互聯(lián)網(wǎng)承載的信息愈發(fā)龐大。如何從大量的網(wǎng)絡(luò)信息中獲取并篩選出有用 的地震宏觀異常信息,是一個需要解決的問題。這也是地震機構(gòu)對于網(wǎng)絡(luò)上地震宏觀異常 信息缺乏利用的原因。獲取網(wǎng)絡(luò)信息主要使用爬蟲技術(shù),對于網(wǎng)絡(luò)中公眾發(fā)布的地震宏觀 異常信息,其顯著特點是屬于地震宏觀異常這一同類主題,因此可以采用主題爬蟲技術(shù)。而 所獲取的地震宏觀異常信息為中文信息,且應當具有非主觀性,因此對于通過爬蟲爬取到 的信息需要經(jīng)過篩選,去除公眾主觀情緒影響的信息部分,這涉及到了文本的情感信息分 類與篩選。
[0003] 基于文本啟發(fā)式的策略是最早出現(xiàn)的主題爬蟲爬取策略。這一類爬取策略基于文 本分析,實現(xiàn)起來較為簡單,同時算法的計算量小,保證了效率,但是比較依賴主題描述的 關(guān)鍵詞,對于難以使用文字進行精確表示的主題實用性不佳。其后出現(xiàn)的基于Web鏈接分 析的策略起源于S. Brin和L. Page的PageRank算法,這種算法由于需要考慮連接結(jié)構(gòu),計 算量很大,而且抓取過程中主題容易發(fā)生偏離,其PR值的概念并不能完全等同于主題的相 關(guān)度,因此這種策略的適用性不高。另外的,基于分類器的策略主要基于幾種常用的分類數(shù) 學模型,如貝葉斯分類器、SVM分類器、神經(jīng)網(wǎng)絡(luò)分類器等。然而,基于主題的分類器應用并 未有人提出普遍的方法,而且在實現(xiàn)上有一定困難。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出一種能夠高效地獲取并篩選網(wǎng)絡(luò)上 地震宏觀異常信息的方法。本發(fā)明選擇符合數(shù)據(jù)采集要求的信息源,進行基于主題的信息 獲取,對抽取的文本信息進行主觀情感信息的過濾與地震宏觀異常信息匹配,實現(xiàn)網(wǎng)絡(luò)文 本地震宏觀異常信息的高效準確獲取。
[0005] 為了達到上述目的,本發(fā)明采取如下技術(shù)方案:
[0006] 一種基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,包括以下步驟:
[0007] Sl、建立地震宏觀異常信息的主題關(guān)鍵詞庫。
[0008] 網(wǎng)絡(luò)上公眾地震宏觀異常信息具備三大特點:1)包含是否與地震相關(guān)性判斷;2) 包含可能發(fā)生異?,F(xiàn)象的自然事物主體;3)盡可能的客觀性。其中第三點表明信息中含有 盡量少的主觀內(nèi)容,這說明需要根據(jù)這個特點對信息做減法,前兩個特點是對信息做加法。 據(jù)此建立地震宏觀異常信息的主題關(guān)鍵詞庫,共包括52個主題關(guān)鍵詞,如表1所示。
[0009] 表I52個主題關(guān)鍵詞
【主權(quán)項】
1. 一種基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征在于,包括以下步 驟: 選擇符合數(shù)據(jù)采集要求的信息源,通過判斷頁面相關(guān)性及URL鏈接相關(guān)性,進行基于 網(wǎng)頁文本的地震宏觀異常信息獲??; 通過對獲取的信息進行主觀情感信息的過濾與地震宏觀異常信息匹配,實現(xiàn)地震宏觀 異常文本信息的篩選。
2. 根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,在進行所述信息獲取之前,還包括根據(jù)網(wǎng)絡(luò)上公眾地震宏觀異常信息的特點建立地 震宏觀異常信息的主題關(guān)鍵詞庫。
3. 根據(jù)權(quán)利要求2所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述主題關(guān)鍵詞庫包括52個關(guān)鍵詞。
4. 根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述基于網(wǎng)頁文本的地震宏觀異常信息獲取包括:針對一般網(wǎng)頁文本的地震宏觀異 常主題優(yōu)先的信息獲取,針對社交網(wǎng)絡(luò)文本的地震宏觀異常主題優(yōu)先的信息獲取,針對論 壇網(wǎng)頁文本的地震宏觀異常主題優(yōu)先的信息獲取。
5. 根據(jù)權(quán)利要求4所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述針對一般網(wǎng)頁文本的地震宏觀異常主題優(yōu)先的信息獲取方法包括以下步驟: (1)判斷頁面相關(guān)性; 根據(jù)已建立的主題關(guān)鍵詞庫,采取向量空間模型計算主題相關(guān)性:將關(guān)鍵詞中的詞語 視為該向量空間的特征,建立關(guān)鍵詞組特征向量: MKff = {(Hik1, W1), (mk2, w2),. . . , (mkn, wn)} EKff = {(ek^ W1), (ek2, w2), . . . , (ekm, wm)} 其中,MKW為異常的事物主體關(guān)鍵詞組特征向量,mk為事物主體關(guān)鍵詞,n為事物主體 關(guān)鍵詞的數(shù)量;EKW為地震相關(guān)的關(guān)鍵詞組特征向量,ek為地震相關(guān)關(guān)鍵詞,m為地震相關(guān) 關(guān)鍵詞的數(shù)量;w為對應關(guān)鍵詞在文檔中出現(xiàn)的次數(shù); 利用頁面標簽及內(nèi)容對頁面進行分塊,得到頁面內(nèi)容塊的特征向量: CB = {(Cb1, W1), (cb2, W2), , (cbp, wp)} 其中,CB為頁面內(nèi)容塊特征向量,cb為某一具體內(nèi)容塊、w表示對應內(nèi)容塊cb在頁面 中出現(xiàn)次數(shù)、P為內(nèi)容塊的數(shù)量; 采用向量夾角余弦計算主題相關(guān)度:
其中,W代表權(quán)值; 異常的事物主體關(guān)鍵詞組特征向量MKW的第i個特征權(quán)值為:
其中,tfu為第i個關(guān)鍵詞在第j個內(nèi)容塊中的詞頻,tl i為第i個關(guān)鍵詞的詞長,CbL j 為第j個內(nèi)容塊的文本長度,cbL為第j個內(nèi)容塊的重要度,等于該部分頁面代碼占頁面內(nèi) 總代碼的百分比; 地震相關(guān)的關(guān)鍵詞組特征向量EKW的第i個特征權(quán)值為:
頁面內(nèi)容塊的特征向量CB的第i個特征權(quán)值為:
其中,CbCI^為第i個內(nèi)容塊的代碼長度,CL為當前頁面的代碼長度; 如果當前頁面相關(guān)度Topic>Rt,認為當前頁面符合地震宏觀異常這個主題;Rt為設(shè)定 的閾值,Rt的值由試驗確定;若文本不包含任何主題詞,取Topic = O ; (2) 判斷URL鏈接相關(guān)性; 頁面內(nèi)的URL相關(guān)度考慮錨文本和上下文相關(guān)度,使用頁面相關(guān)度作為上下文相關(guān) 度,計算公式為:
其中,Topicurt為上下文相關(guān)度,tnf、tmf分別為事物主體關(guān)鍵詞和異常判別關(guān)鍵詞的 詞頻,tnlp tmli*別為事物主體關(guān)鍵詞和異常判別關(guān)鍵詞的詞長,urlL為錨文本長度;通 過計算Topicurt并與URL隊列中非初始URL比較排序,然后插入URL隊列相應的位置中; (3) 信息抽??; 在解析頁面信息前首先當進行轉(zhuǎn)碼;然后利用〈script〉去除腳本信息塊,剩下結(jié)構(gòu) 性的標簽和文本信息;在網(wǎng)頁的CSS樣式中,利用<div>標簽將頁面分為多個塊,逐個計 算每個div塊內(nèi)的文本與標簽的比值,對比值較大的連續(xù)的div塊進行合并,這一部分為 頁面的正文塊;在正文塊中通過替換<br>、<p>段落標簽為\n,抽取出頁面內(nèi)的正文信息; 〈tittle〉標簽包含中文標題部分,標簽中屬性包含author的為正文作者,包含media_name 的為正文轉(zhuǎn)載來源,將這些內(nèi)容作為輔助信息,用于提高正文信息本身的可用性。
6.根據(jù)權(quán)利要求4所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述針對社交網(wǎng)絡(luò)文本的地震宏觀異常主題優(yōu)先的信息獲取方法包括以下步驟: (1)判斷頁面相關(guān)性。 通過調(diào)用社交網(wǎng)站提供的編程接口獲取內(nèi)容文本,采取向量空間模型建立關(guān)鍵詞組特 征向量: MKff = {(Hik1, W1), (mk2, w2),. . . , (mkn, wn)} EKff = {(ek^ W1), (e