專利名稱:智能搜索網(wǎng)站內(nèi)容分類數(shù)據(jù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息技術(shù)領(lǐng)域。涉及網(wǎng)絡爬蟲技術(shù)和智能檢索技術(shù)以 及數(shù)據(jù)挖掘和分類技術(shù)。
背景技術(shù):
目前,盡管搜索引擎技術(shù)已經(jīng)成熟,但是基于搜索引擎的深層次數(shù) 據(jù)挖掘衍生的產(chǎn)品和服務尚未完全開發(fā)。發(fā)明內(nèi)容本發(fā)明的目的在于通過搜索引擎和數(shù)據(jù)挖掘技術(shù)的結(jié)合,提供100%準確度的網(wǎng)站內(nèi)容分類數(shù)據(jù)庫,從而為互聯(lián)網(wǎng)內(nèi)容管理提供有效數(shù)據(jù)和服務。具體流程如下1, 通過網(wǎng)絡爬蟲技術(shù),自研開發(fā)前端搜索引擎進行全球網(wǎng)站搜索,下載網(wǎng)站內(nèi)容。 2, 通過上下文關(guān)聯(lián)智能分析和關(guān)鍵字組合,自動對網(wǎng)站進行分類3 , 通過人工檢索的方式對分類數(shù)據(jù)進行核實4 , 通過后臺搜索引擎進行數(shù)據(jù)庫地址維護和更新。
圖l:工作流程 圖2:搜索引擎工作模式 實施方式本發(fā)明的標準實施方式為一臺或多臺搜索引擎及數(shù)據(jù)庫服務器組 通過各類線路接入internet進行數(shù)據(jù)收集,后臺通過客戶端或瀏覽器方式訪問數(shù)據(jù)庫的方式進行數(shù)據(jù)管理和維護。
權(quán)利要求
1. 一種基于搜索引擎和智能數(shù)據(jù)挖掘技術(shù)的,用于收集網(wǎng)絡地址和分 類網(wǎng)站內(nèi)容的網(wǎng)站分類數(shù)據(jù)庫系統(tǒng)。它的特征是通過一款自研開發(fā)的搜索引擎,對互聯(lián)網(wǎng)網(wǎng)址進行搜索 和收集,并附以智能分類和人工核實等方法,形成互連網(wǎng)網(wǎng)站域名 和IP地址分類數(shù)據(jù)庫。具體內(nèi)容如下(1) 對互聯(lián)網(wǎng)進行無條件大規(guī)模搜索,網(wǎng)站地址和域名收入數(shù)據(jù)庫(2) 通過關(guān)鍵字識別、上下文匹配以及人工核實,按照網(wǎng)站內(nèi)容形 成網(wǎng)站地址和域名分類數(shù)據(jù)庫。(3) 通過IP地址核査機制對數(shù)據(jù)庫進行更新維護。
全文摘要
一種基于搜索引擎和智能數(shù)據(jù)挖掘技術(shù)的,用于收集網(wǎng)絡地址和分類網(wǎng)站內(nèi)容的網(wǎng)站分類數(shù)據(jù)庫系統(tǒng)。本發(fā)明屬于信息技術(shù)領(lǐng)域,的目的在于通過搜索引擎和數(shù)據(jù)挖掘技術(shù)的結(jié)合,提供100%準確度的網(wǎng)站內(nèi)容分類數(shù)據(jù)庫,從而為互聯(lián)網(wǎng)內(nèi)容管理提供有效數(shù)據(jù)和服務。具體流程如下1.通過網(wǎng)絡爬蟲技術(shù),自研開發(fā)前端搜索引擎進行全球網(wǎng)站搜索,下載網(wǎng)站內(nèi)容。2.通過上下文關(guān)聯(lián)智能分析和關(guān)鍵字組合,自動對網(wǎng)站進行分類。3.通過人工檢索的方式對分類數(shù)據(jù)進行核實。4.通過后臺搜索引擎進行數(shù)據(jù)庫地址維護和更新。
文檔編號G06F17/30GK101311929SQ20081009459
公開日2008年11月26日 申請日期2008年5月15日 優(yōu)先權(quán)日2008年5月15日
發(fā)明者呂曉東 申請人:呂曉東