一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取URL并索引及與關(guān)鍵詞映射的框架的制作方法

文檔序號(hào)：11199342閱讀：461來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取URL并索引及與關(guān)鍵詞映射的框架的制造方法與工藝

本發(fā)明涉及一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架

背景技術(shù)：

目前搜索引擎只針對(duì)文本進(jìn)行搜索，還不能有效對(duì)音樂、圖片和視頻等多媒體文件進(jìn)行搜索，原因主要是多媒體數(shù)據(jù)量太大；如何索引多媒體文件；進(jìn)而對(duì)處理過的多媒體文件檢索?，F(xiàn)在因特網(wǎng)上有大量的多媒體文件，特別是社交網(wǎng)站和多媒體分享的興起，需要對(duì)多媒體文件進(jìn)行精準(zhǔn)檢索。

網(wǎng)絡(luò)爬蟲，也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人，是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它從因特網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的http協(xié)議，根據(jù)超級(jí)鏈接和網(wǎng)絡(luò)文檔檢索的方法遍歷因特網(wǎng)信息空間。因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型，http給每種要通過網(wǎng)絡(luò)傳輸?shù)膶?duì)象都打上了名為mime類型的數(shù)據(jù)格式標(biāo)簽。統(tǒng)一資源定位符(url)是資源標(biāo)識(shí)符最常見的形式。url描述了一臺(tái)特定服務(wù)器上某資源的特定位置。元素文件(metafile)可提供有關(guān)頁(yè)面的元信息，如針對(duì)搜索引擎和更新頻度的描述和關(guān)鍵詞，可針對(duì)元素的關(guān)鍵詞進(jìn)行索引。

網(wǎng)絡(luò)搜索的數(shù)據(jù)往往是高維的，其維數(shù)甚至達(dá)到百萬(wàn)數(shù)量級(jí)。發(fā)現(xiàn)和利用高維數(shù)據(jù)中的低維結(jié)構(gòu)，在網(wǎng)絡(luò)搜索中顯得尤為重要。另外，在網(wǎng)絡(luò)搜索中，人們只能觀察到少量元素，希望根據(jù)這些有限的信息，能夠猜測(cè)出未看到的大量元素，從而恢復(fù)一個(gè)未知的低秩矩陣或近似低秩矩陣。

假定已知數(shù)據(jù)已排列成一高維數(shù)據(jù)或樣本矩陣。估計(jì)一低維子空間的問題稱為低秩矩陣逼近。當(dāng)?shù)椭染仃嚮驑颖揪仃嚨哪承┰乇粐?yán)重?fù)p壞時(shí)，能夠自動(dòng)識(shí)別被損壞的元素，精確地恢復(fù)原低秩矩陣。在網(wǎng)絡(luò)搜索中，需要將一個(gè)數(shù)據(jù)矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和，并且希望同時(shí)恢復(fù)低秩矩陣與稀疏矩陣。

本發(fā)明提供了一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架，可在適當(dāng)增加數(shù)據(jù)量的前提下，通過metafile的關(guān)鍵詞對(duì)url進(jìn)行索引，并與相關(guān)關(guān)鍵詞建立映射，利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架。本發(fā)明包括以下特征：

發(fā)明技術(shù)方案

1.一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架，其具體步驟如下：

1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始url開始；

2)使用url庫(kù)中的第一個(gè)url從網(wǎng)絡(luò)上下載網(wǎng)頁(yè)；

3)將其傳遞給重復(fù)網(wǎng)頁(yè)檢查，重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù)；

4)如果網(wǎng)頁(yè)沒有被拒絕，則將它保存到網(wǎng)頁(yè)庫(kù)中；

5)并傳遞給鏈接提??；

6)鏈接提取從網(wǎng)頁(yè)的metafile中提取鏈接，傳遞給url檢查；如果之前訪問過，或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn)，則拒絕下載；

7)同時(shí)提取關(guān)鍵詞，傳遞給關(guān)鍵詞庫(kù)，以備語(yǔ)義檢索；

8)將沒有被拒絕的url進(jìn)行索引，遞給url庫(kù)；并與相關(guān)關(guān)鍵詞建立映射；

9)url庫(kù)然后將一個(gè)未被訪問的url傳遞給網(wǎng)頁(yè)提取。

附圖說(shuō)明

圖1是針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架圖。

具體實(shí)施方式

這種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取url并索引及與關(guān)鍵詞映射的框架，包括如下步驟：

1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始url開始；

2)使用url庫(kù)中的第一個(gè)url從網(wǎng)絡(luò)上下載網(wǎng)頁(yè)；

3)將其傳遞給重復(fù)網(wǎng)頁(yè)檢查，重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù)；

4)如果網(wǎng)頁(yè)沒有被拒絕，則將它保存到網(wǎng)頁(yè)庫(kù)中；

5)并傳遞給鏈接提??；

6)鏈接提取從網(wǎng)頁(yè)的metafile中提取鏈接，傳遞給url檢查；如果之前訪問過，或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn)，則拒絕下載；

7)同時(shí)提取關(guān)鍵詞，傳遞給關(guān)鍵詞庫(kù)，以備語(yǔ)義檢索；

8)將沒有被拒絕的url進(jìn)行索引，遞給url庫(kù)；并與相關(guān)關(guān)鍵詞建立映射；

9)url庫(kù)然后將一個(gè)未被訪問的url傳遞給網(wǎng)頁(yè)提取。

技術(shù)特征：

技術(shù)總結(jié)
本發(fā)明公開一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取URL并索引及與關(guān)鍵詞映射的框架，可在適當(dāng)增加數(shù)據(jù)量的前提下，通過METAFILE的關(guān)鍵詞對(duì)URL進(jìn)行索引，并與相關(guān)關(guān)鍵詞建立映射，利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索。

技術(shù)研發(fā)人員：張軍;徐苛;陳曉峰
受保護(hù)的技術(shù)使用者：上海德衡數(shù)據(jù)科技有限公司
技術(shù)研發(fā)日：2017.06.08
技術(shù)公布日：2017.09.29

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張軍;徐苛;陳曉峰
技術(shù)所有人：上海德衡數(shù)據(jù)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)

自己動(dòng)手寫網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)

網(wǎng)絡(luò)爬蟲技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對(duì)網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取URL并索引及與關(guān)鍵詞映射的框架的制作方法