技術總結
發(fā)明基于搜索引擎的輕量級通用網(wǎng)頁主題爬蟲方法,包括,初始種子:給定的少量描述特定主題相關種子,根據(jù)一定規(guī)則,對種子進行擴充至一系列種子;發(fā)現(xiàn)網(wǎng)站:將初始種子轉換為查詢詞,通過搜索引擎接口獲得相關的若干網(wǎng)站;下載網(wǎng)站:將相關的網(wǎng)站下載到本地并存入數(shù)據(jù)庫;網(wǎng)頁解析:從下載的網(wǎng)站進行分析,獲取其中的鏈接信息;種子更新:通過分析已爬取到的新網(wǎng)站,從中提取主題相關詞,并以此構造新種子,保證爬取過程持續(xù)進行;爬取更新:根據(jù)已爬取網(wǎng)站的更新信息,計算重新爬取的周期,使得已爬取網(wǎng)站能實現(xiàn)自適應的自動更新。本發(fā)明具有低代價、易實現(xiàn)、高效、準確等特點。
技術研發(fā)人員:姚瑞波;周鳳波;翁強
受保護的技術使用者:焦點科技股份有限公司
文檔號碼:201310285000
技術研發(fā)日:2013.07.08
技術公布日:2016.11.23