基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法

文檔序號：10488935閱讀：327來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法
【專利摘要】本發(fā)明涉及一種網(wǎng)頁信息抽取方法，特別是一種基于錨標(biāo)簽和時間標(biāo)記相結(jié)合的計算機(jī)會議實時信息抽取方法。本發(fā)明將CCF推薦的A類會議的所有官網(wǎng)鏈接作為爬蟲的種子鏈接，爬取相關(guān)鏈接和抽取會議的關(guān)鍵信息。不同的會議網(wǎng)站公布會議召開時間等信息的方式不同（特指編寫HTML代碼的標(biāo)記不同），但是本發(fā)明能夠通過錨標(biāo)記和時間標(biāo)記相結(jié)合的方法，將不同會議網(wǎng)站發(fā)布的會議信息統(tǒng)一提取出來，對每個會議頁面中最感興趣的部分信息進(jìn)行抽取，例如會議召開時間、地點、相關(guān)頁面鏈接等用戶感興趣的信息。
【專利說明】
基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種網(wǎng)頁信息抽取方法，特別是一種計算機(jī)會議實時信息的抽取方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)海量信息的爆炸式增長，通用搜索引擎面臨著索引規(guī)模、更新速度和個性化需求等多方面的挑戰(zhàn)。面對這些挑戰(zhàn)，適應(yīng)特定主題和個性化搜索的主題網(wǎng)絡(luò)爬蟲應(yīng)運而生。基于主題網(wǎng)絡(luò)爬蟲的搜索引擎(即第四代搜索引擎)已經(jīng)成為當(dāng)前搜索引擎和Web信息挖掘中的一個研究熱點和難點。
[0003]主題網(wǎng)絡(luò)爬蟲則是指盡可能快地爬行、采集盡可能多的與預(yù)先定義好的主題相關(guān)的網(wǎng)頁。主題網(wǎng)絡(luò)爬蟲可以通過對整個Web按主題分塊采集，并將不同塊的采集結(jié)果整合到一起，以提高整個Web的采集覆蓋率和頁面利用率。詳細(xì)信息請參考:劉金紅，陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機(jī)應(yīng)用研究，2007，10:26-29+47。
[0004]本發(fā)明是屬于主題網(wǎng)絡(luò)爬蟲中的一種爬取方法，采用錨標(biāo)簽和時間格式相結(jié)合的方法對會議(CCF推薦的A類會議)網(wǎng)頁中的相關(guān)鏈接和關(guān)鍵信息進(jìn)行抽取。將獲取的信息進(jìn)行過濾整合，得到每個會議的詳細(xì)信息。
[0005]文章:郝以珍.基于頁面分析的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D].華中科技大學(xué)，2012.利用了基于HTML標(biāo)簽對網(wǎng)頁頁面信息的提取方法，但是該文章提取的是頁面所有信息，并沒有對頁面中感興趣的部分信息進(jìn)行抽取。
[0006]本發(fā)明不僅對頁面所有信息進(jìn)行獲取，并且根據(jù)錨標(biāo)簽結(jié)合時間標(biāo)記將會議頁面鏈接進(jìn)行提取，再根據(jù)時間標(biāo)記對每個會議頁面中最感興趣的部分信息進(jìn)行抽取，例如會議召開時間、地點、相關(guān)頁面鏈接等用戶想要的信息。而其他信息全部過濾掉，這樣獲取的信息更有價值。
[0007]其他相關(guān)參考文獻(xiàn):
[I]周立柱，林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機(jī)應(yīng)用，2005，09:1965-1969。
[0008][2]徐遠(yuǎn)超，劉江華，劉麗珍，關(guān)永.基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].微計算機(jī)信息，2007，21:119-121。
[0009][3]樸星海.面向主題的網(wǎng)絡(luò)爬行器相關(guān)技術(shù)研究[D].哈爾濱工業(yè)大學(xué)，2007。
[0010][4]李勇，韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J].計算機(jī)工程與科學(xué)，2008，03:4-6+56。
[0011][5]朱金濤.基于超鏈接搜索策略網(wǎng)絡(luò)爬行器的設(shè)計與實現(xiàn)[D].吉林大學(xué)，2007。

【發(fā)明內(nèi)容】

[0012]本發(fā)明將CCF推薦的A類會議的所有官網(wǎng)鏈接作為爬蟲的種子鏈接，爬取相關(guān)鏈接和抽取會議的關(guān)鍵信息。不同的會議網(wǎng)站公布會議召開時間等信息的方式不同(特指編寫HTML代碼的標(biāo)記不同)，但是本發(fā)明能夠通過錨標(biāo)記和時間標(biāo)記相結(jié)合的方法，將不同會議網(wǎng)站發(fā)布的會議信息統(tǒng)一提取出來，進(jìn)行資源整合。
[0013]一、頁面鏈接的提取
對于一個特定的會議鏈接，獲取待鏈接頁面的HTML源碼。對于頁面中的源碼，通過<a></a>錨標(biāo)簽和時間標(biāo)記(如2014)相結(jié)合將頁面中的鏈接進(jìn)行提取，然后進(jìn)行過濾、標(biāo)準(zhǔn)化等操作，將符合條件的鏈接保存起來。
[0014]二、頁面關(guān)鍵信息的抽取
對于符合條件的所有鏈接，一一訪問，獲取頁面的HTML源碼。通過基于時間標(biāo)記方法結(jié)合HTML標(biāo)簽，對每個頁面的信息進(jìn)行抽取，通常來說，會議類的關(guān)鍵信息會包含時間信息，故只抽取出有特定時間(如2014)的信息，作為關(guān)鍵信息，整理后作為該頁面對應(yīng)的會議的會議信息，存入數(shù)據(jù)庫供查詢。
[0015]本發(fā)明雖然是針對CCF推薦的A類會議，但是本發(fā)明具有通用性，對于所有會議(不僅限于CCF推薦的A類會議)信息的抽取，都可以使用本發(fā)明。
[0016]【附圖說明】:
圖1為該平臺的開始界面圖圖2為該平臺的搜索結(jié)果界面，以Ubicom會議為例圖3為基于錨標(biāo)記結(jié)合時間標(biāo)記的鏈接抽取流程圖圖4為基于時間標(biāo)記結(jié)合HTML標(biāo)簽對頁面關(guān)鍵信息抽取的流程圖【具體實施方式】:
整個系統(tǒng)分為:鏈接爬取模塊、搜索策略模塊、頁面信息提取模塊和信息管理模塊?；阱^標(biāo)簽和時間標(biāo)記相結(jié)合的計算機(jī)會議實時信息抽取方法只用在了鏈接爬取模塊、頁面信息提取模塊。為了將本發(fā)明闡述清楚，下面會將四個模塊都進(jìn)行說明。
[0017]在鏈接爬取模塊中，基于錨標(biāo)記<a>〈/a>結(jié)合時間標(biāo)記方法。先通過錨標(biāo)記<a>將一個頁面中的所有鏈接進(jìn)行提取，再通過時間標(biāo)記對每個鏈接周圍信息進(jìn)行分析，過濾掉不含有時間的鏈接，再將鏈接中含有javascript:、mailto:、#開頭、?以及空白鏈接、非HTTP協(xié)議鏈接進(jìn)行刪除，為了得到能夠正常訪問的鏈接，還需要將鏈接進(jìn)行標(biāo)準(zhǔn)化，即將鏈接中存在/、./、../、../../的相對地址轉(zhuǎn)換成相對應(yīng)的絕對地址，。
[0018]在搜索策略模塊中，采取一定的策略將鏈接提取模塊提取出的URL進(jìn)行爬取，獲得這些URL頁面上的鏈接。本文使用寬度優(yōu)先策略，使用隊列來實現(xiàn)算法。
[0019]寬度優(yōu)先搜索算法:
種子URL進(jìn)入隊列l(wèi)ink_queue;
當(dāng)前項i = O;
深度 depth = O;
While (未達(dá)到深度){ count = link_queue 項數(shù); for (; i < count ;i++){
//出隊
If (HashSet中不存在link_queue[i]) {//此時的HashSet保存已訪問鏈接link_queue [i]加到 HashSet 中; 訪問鏈接 link_queue[i];
提取link_queue[i]中的鏈接;
將提取到的鏈接加入到隊列l(wèi)ink_queue中；
}
}
深度 depth++;
}o
[0020]在頁面信息提取模塊中，基于時間標(biāo)記方法結(jié)合HTML標(biāo)簽，提取爬取出來的URL頁面上的關(guān)鍵信息，并保存。只需要將網(wǎng)頁中1^14示簽〈?>、〈&>、〈11>、〈壯>、〈div >信息提取出即可，考慮到有些信息是以〈div >給出，但是不是我們想要的，通常來說，此類信息會比較長，而我們想要的信息都會比較短，故將各個標(biāo)簽信息提取出來后，再進(jìn)行過濾一下，超過300字符的信息過濾掉，包含<img> (圖片)的過濾掉；由于會議具有時間的特性，而我們只需要當(dāng)前年份的會議信息(前些年的會議信息對于本爬蟲來說沒有價值)，故基于時間標(biāo)記對各個標(biāo)簽信息進(jìn)行再過濾，將包含時間信息的標(biāo)簽信息作為關(guān)鍵信息保存。
[0021]在信息管理模塊，負(fù)責(zé)整理頁面信息模塊提取出來的關(guān)鍵信息，并且能夠按照用戶要求進(jìn)行顯示。
【主權(quán)項】
1.使用時間標(biāo)記和錨標(biāo)記的方式進(jìn)行頁面鏈接和關(guān)鍵信息的提取。2.進(jìn)入界面，在CCF推薦的十個領(lǐng)域A類會議中點擊會議的簡稱，即可顯示會議相應(yīng)的信息，包括:會議中英文全稱、會議縮寫、會議官方鏈接、會議召開時間、地點、主題等。3.界面設(shè)計的風(fēng)格。
【文檔編號】G06F17/30GK105843808SQ201510016038
【公開日】2016年8月10日
【申請日】2015年1月13日
【發(fā)明人】豐小月, 王冬暉, 管仁初, 梁艷春
【申請人】豐小月

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：豐小月;王冬暉;管仁初;梁艷春;
技術(shù)所有人：豐小月;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)處理方法和裝置的制造方法
上一篇：一種數(shù)據(jù)刪除方法、設(shè)備及平臺的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

a標(biāo)簽錨標(biāo)記相關(guān)技術(shù)

錨標(biāo)記相關(guān)技術(shù)

a標(biāo)簽錨點相關(guān)技術(shù)

a標(biāo)簽錨點定位相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于錨標(biāo)簽和時間標(biāo)記的計算機(jī)會議實時信息抽取方法