技術(shù)編號:11199342
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。本發(fā)明涉及一種針對網(wǎng)絡(luò)文檔的網(wǎng)絡(luò)爬蟲提取URL并索引及與關(guān)鍵詞映射的框架背景技術(shù)目前搜索引擎只針對文本進行搜索,還不能有效對音樂、圖片和視頻等多媒體文件進行搜索,原因主要是多媒體數(shù)據(jù)量太大;如何索引多媒體文件;進而對處理過的多媒體文件檢索?,F(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對多媒體文件進行精準檢索。網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人,是一個自動提取網(wǎng)頁的程序,它從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標準的HTTP協(xié)議,根據(jù)超級鏈接和網(wǎng)絡(luò)文檔...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學習研究技術(shù)思路。