技術(shù)編號:7919261
提示:您尚未登錄,請點(diǎn) 登 陸 后下載,如果您還沒有賬戶請點(diǎn) 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細(xì)信息。技術(shù)領(lǐng)域本發(fā)明涉及一種網(wǎng)頁采集方法。背景技術(shù)網(wǎng)絡(luò)信息的采集通常是借助各種搜索引擎來完成的, 一個普通商用搜索引擎由搜索 器、索引器、檢索器和用戶接口等四部分構(gòu)成。 一般來說,搜索器就是一個稱為Robot 計算機(jī)程序的網(wǎng)絡(luò)機(jī)器人,它從某一初始頁面或站點(diǎn)的URL開始遍歷互聯(lián)網(wǎng)自動地發(fā)現(xiàn) 網(wǎng)頁信息,當(dāng)進(jìn)入某個超文本頁面時,它利用HTML語言的標(biāo)記結(jié)構(gòu)來搜索信息和獲取指 向其他超文本的URL鏈接,通過一定的算法選擇下一個要訪問的站點(diǎn)繼而轉(zhuǎn)向另一個站 點(diǎn)繼續(xù)搜集信息。索引器的功能是理解搜索器所搜索的數(shù)據(jù)信息,從中抽取出索引項(xiàng)...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進(jìn)行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。