技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開了一種基于知識圖譜的爬取種子列表更新方法及裝置,該方法從初始的爬取種子列表中選取一個種子,爬取該種子的網(wǎng)頁,從該種子的網(wǎng)頁中提取出所有鏈接的URL作為新種子,爬取新種子的網(wǎng)頁,并基于知識圖譜計算出新種子對應的網(wǎng)頁內(nèi)容與搜索主題的相似度,然后用新種子的相似度與設定的相似度閾值進行比對,如果新種子的相似度大于設定的相似度閾值,則將該新種子加入爬取種子列表中,否則直接丟棄該新種子。本發(fā)明的裝置包括種子選取模塊、新種子提取模塊、相似度計算模塊和相似度比對模塊。本發(fā)明能有效過濾與搜索主題相似度不高的網(wǎng)頁,逐步調(diào)整網(wǎng)頁爬取的方向,提高了爬取網(wǎng)頁的準確度以及爬取網(wǎng)頁的效率。
技術(shù)研發(fā)人員:趙明;沈頌;林友勇;劉釗岐;張芬
受保護的技術(shù)使用者:中電海康集團有限公司
技術(shù)研發(fā)日:2017.03.02
技術(shù)公布日:2017.07.25