欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法

文檔序號:10488935閱讀:327來源:國知局
基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法
【專利摘要】本發(fā)明涉及一種網(wǎng)頁信息抽取方法,特別是一種基于錨標(biāo)簽和時間標(biāo)記相結(jié)合的計算機(jī)會議實時信息抽取方法。本發(fā)明將CCF推薦的A類會議的所有官網(wǎng)鏈接作為爬蟲的種子鏈接,爬取相關(guān)鏈接和抽取會議的關(guān)鍵信息。不同的會議網(wǎng)站公布會議召開時間等信息的方式不同(特指編寫HTML代碼的標(biāo)記不同),但是本發(fā)明能夠通過錨標(biāo)記和時間標(biāo)記相結(jié)合的方法,將不同會議網(wǎng)站發(fā)布的會議信息統(tǒng)一提取出來,對每個會議頁面中最感興趣的部分信息進(jìn)行抽取,例如會議召開時間、地點、相關(guān)頁面鏈接等用戶感興趣的信息。
【專利說明】
基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種網(wǎng)頁信息抽取方法,特別是一種計算機(jī)會議實時信息的抽取方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)海量信息的爆炸式增長,通用搜索引擎面臨著索引規(guī)模、更新速度和個性化需求等多方面的挑戰(zhàn)。面對這些挑戰(zhàn),適應(yīng)特定主題和個性化搜索的主題網(wǎng)絡(luò)爬蟲應(yīng)運而生。基于主題網(wǎng)絡(luò)爬蟲的搜索引擎(即第四代搜索引擎)已經(jīng)成為當(dāng)前搜索引擎和Web信息挖掘中的一個研究熱點和難點。
[0003]主題網(wǎng)絡(luò)爬蟲則是指盡可能快地爬行、采集盡可能多的與預(yù)先定義好的主題相關(guān)的網(wǎng)頁。主題網(wǎng)絡(luò)爬蟲可以通過對整個Web按主題分塊采集,并將不同塊的采集結(jié)果整合到一起,以提高整個Web的采集覆蓋率和頁面利用率。詳細(xì)信息請參考:劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機(jī)應(yīng)用研究,2007,10:26-29+47。
[0004]本發(fā)明是屬于主題網(wǎng)絡(luò)爬蟲中的一種爬取方法,采用錨標(biāo)簽和時間格式相結(jié)合的方法對會議(CCF推薦的A類會議)網(wǎng)頁中的相關(guān)鏈接和關(guān)鍵信息進(jìn)行抽取。將獲取的信息進(jìn)行過濾整合,得到每個會議的詳細(xì)信息。
[0005]文章:郝以珍.基于頁面分析的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D].華中科技大學(xué),2012.利用了基于HTML標(biāo)簽對網(wǎng)頁頁面信息的提取方法,但是該文章提取的是頁面所有信息,并沒有對頁面中感興趣的部分信息進(jìn)行抽取。
[0006]本發(fā)明不僅對頁面所有信息進(jìn)行獲取,并且根據(jù)錨標(biāo)簽結(jié)合時間標(biāo)記將會議頁面鏈接進(jìn)行提取,再根據(jù)時間標(biāo)記對每個會議頁面中最感興趣的部分信息進(jìn)行抽取,例如會議召開時間、地點、相關(guān)頁面鏈接等用戶想要的信息。而其他信息全部過濾掉,這樣獲取的信息更有價值。
[0007]其他相關(guān)參考文獻(xiàn):
[I]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機(jī)應(yīng)用,2005,09:1965-1969。
[0008][2]徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永.基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].微計算機(jī)信息,2007,21:119-121。
[0009][3]樸星海.面向主題的網(wǎng)絡(luò)爬行器相關(guān)技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2007。
[0010][4]李勇,韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J].計算機(jī)工程與科學(xué),2008,03:4-6+56。
[0011][5]朱金濤.基于超鏈接搜索策略網(wǎng)絡(luò)爬行器的設(shè)計與實現(xiàn)[D].吉林大學(xué),2007。

【發(fā)明內(nèi)容】

[0012]本發(fā)明將CCF推薦的A類會議的所有官網(wǎng)鏈接作為爬蟲的種子鏈接,爬取相關(guān)鏈接和抽取會議的關(guān)鍵信息。不同的會議網(wǎng)站公布會議召開時間等信息的方式不同(特指編寫HTML代碼的標(biāo)記不同),但是本發(fā)明能夠通過錨標(biāo)記和時間標(biāo)記相結(jié)合的方法,將不同會議網(wǎng)站發(fā)布的會議信息統(tǒng)一提取出來,進(jìn)行資源整合。
[0013]一、頁面鏈接的提取
對于一個特定的會議鏈接,獲取待鏈接頁面的HTML源碼。對于頁面中的源碼,通過<a></a>錨標(biāo)簽和時間標(biāo)記(如2014)相結(jié)合將頁面中的鏈接進(jìn)行提取,然后進(jìn)行過濾、標(biāo)準(zhǔn)化等操作,將符合條件的鏈接保存起來。
[0014]二、頁面關(guān)鍵信息的抽取
對于符合條件的所有鏈接,一一訪問,獲取頁面的HTML源碼。通過基于時間標(biāo)記方法結(jié)合HTML標(biāo)簽,對每個頁面的信息進(jìn)行抽取,通常來說,會議類的關(guān)鍵信息會包含時間信息,故只抽取出有特定時間(如2014)的信息,作為關(guān)鍵信息,整理后作為該頁面對應(yīng)的會議的會議信息,存入數(shù)據(jù)庫供查詢。
[0015]本發(fā)明雖然是針對CCF推薦的A類會議,但是本發(fā)明具有通用性,對于所有會議(不僅限于CCF推薦的A類會議)信息的抽取,都可以使用本發(fā)明。
[0016]【附圖說明】:
圖1為該平臺的開始界面圖圖2為該平臺的搜索結(jié)果界面,以Ubicom會議為例圖3為基于錨標(biāo)記結(jié)合時間標(biāo)記的鏈接抽取流程圖圖4為基于時間標(biāo)記結(jié)合HTML標(biāo)簽對頁面關(guān)鍵信息抽取的流程圖【具體實施方式】:
整個系統(tǒng)分為:鏈接爬取模塊、搜索策略模塊、頁面信息提取模塊和信息管理模塊?;阱^標(biāo)簽和時間標(biāo)記相結(jié)合的計算機(jī)會議實時信息抽取方法只用在了鏈接爬取模塊、頁面信息提取模塊。為了將本發(fā)明闡述清楚,下面會將四個模塊都進(jìn)行說明。
[0017]在鏈接爬取模塊中,基于錨標(biāo)記<a>〈/a>結(jié)合時間標(biāo)記方法。先通過錨標(biāo)記<a>將一個頁面中的所有鏈接進(jìn)行提取,再通過時間標(biāo)記對每個鏈接周圍信息進(jìn)行分析,過濾掉不含有時間的鏈接,再將鏈接中含有javascript:、mailto:、#開頭、?以及空白鏈接、非HTTP協(xié)議鏈接進(jìn)行刪除,為了得到能夠正常訪問的鏈接,還需要將鏈接進(jìn)行標(biāo)準(zhǔn)化,即將鏈接中存在/、./、../、../../的相對地址轉(zhuǎn)換成相對應(yīng)的絕對地址,。
[0018]在搜索策略模塊中,采取一定的策略將鏈接提取模塊提取出的URL進(jìn)行爬取,獲得這些URL頁面上的鏈接。本文使用寬度優(yōu)先策略,使用隊列來實現(xiàn)算法。
[0019]寬度優(yōu)先搜索算法:
種子URL進(jìn)入隊列l(wèi)ink_queue;
當(dāng)前項i = O;
深度 depth = O;
While (未達(dá)到深度){ count = link_queue 項數(shù); for (; i < count ;i++){
//出隊
If (HashSet中不存在link_queue[i]) {//此時的HashSet保存已訪問鏈接link_queue [i]加到 HashSet 中; 訪問鏈接 link_queue[i];
提取link_queue[i]中的鏈接;
將提取到的鏈接加入到隊列l(wèi)ink_queue中;
}
}
深度 depth++;
}o
[0020]在頁面信息提取模塊中,基于時間標(biāo)記方法結(jié)合HTML標(biāo)簽,提取爬取出來的URL頁面上的關(guān)鍵信息,并保存。只需要將網(wǎng)頁中1^14示簽〈?>、〈&>、〈11>、〈壯>、〈div >信息提取出即可,考慮到有些信息是以〈div >給出,但是不是我們想要的,通常來說,此類信息會比較長,而我們想要的信息都會比較短,故將各個標(biāo)簽信息提取出來后,再進(jìn)行過濾一下,超過300字符的信息過濾掉,包含<img> (圖片)的過濾掉;由于會議具有時間的特性,而我們只需要當(dāng)前年份的會議信息(前些年的會議信息對于本爬蟲來說沒有價值),故基于時間標(biāo)記對各個標(biāo)簽信息進(jìn)行再過濾,將包含時間信息的標(biāo)簽信息作為關(guān)鍵信息保存。
[0021]在信息管理模塊,負(fù)責(zé)整理頁面信息模塊提取出來的關(guān)鍵信息,并且能夠按照用戶要求進(jìn)行顯示。
【主權(quán)項】
1.使用時間標(biāo)記和錨標(biāo)記的方式進(jìn)行頁面鏈接和關(guān)鍵信息的提取。2.進(jìn)入界面,在CCF推薦的十個領(lǐng)域A類會議中點擊會議的簡稱,即可顯示會議相應(yīng)的信息,包括:會議中英文全稱、會議縮寫、會議官方鏈接、會議召開時間、地點、主題等。3.界面設(shè)計的風(fēng)格。
【文檔編號】G06F17/30GK105843808SQ201510016038
【公開日】2016年8月10日
【申請日】2015年1月13日
【發(fā)明人】豐小月, 王冬暉, 管仁初, 梁艷春
【申請人】豐小月
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鱼台县| 宣化县| 沁阳市| 湖州市| 扶余县| 芒康县| 大新县| 蒲城县| 通河县| 烟台市| 高邑县| 大宁县| 浮梁县| 霍山县| 武夷山市| 奉节县| 延津县| 龙泉市| 东港市| 鄂托克前旗| 滁州市| 香港| 桃源县| 乌拉特后旗| 富源县| 淳安县| 吉木乃县| 武隆县| 洛扎县| 霞浦县| 类乌齐县| 陈巴尔虎旗| 泉州市| 寿光市| 南通市| 五莲县| 卢湾区| 洛南县| 宜昌市| 景谷| 大石桥市|