1.一種web頁面信息搜索方法,其特征在于,包括:
采集web頁面,將采集的數(shù)據(jù)按照索引所需的數(shù)據(jù)格式整理;
根據(jù)數(shù)據(jù)建立索引,將搜索引擎發(fā)布成http服務(wù);
對web頁面內(nèi)容的數(shù)據(jù)業(yè)務(wù)部分進(jìn)行數(shù)據(jù)分析;
從索引中執(zhí)行數(shù)據(jù)搜索,然后自動(dòng)更新索引;
接收用戶對搜索結(jié)果的修改。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從索引中執(zhí)行數(shù)據(jù)搜索,進(jìn)一步包括分級排序,具體為:
根據(jù)搜索業(yè)務(wù)的實(shí)際需求對搜索邏輯根據(jù)優(yōu)先級以矩陣的形式進(jìn)行分級處理;排序結(jié)果按級別進(jìn)行劃分,每個(gè)排序邏輯層對應(yīng)一個(gè)排序結(jié)果集合,然后根據(jù)統(tǒng)一等級的排序邏輯進(jìn)行級內(nèi)排序,將實(shí)時(shí)的訪問量數(shù)據(jù)作為排序的因素進(jìn)行級內(nèi)二次排序,從各個(gè)有序的排序結(jié)果層中找到合適的排序結(jié)果子集進(jìn)行整合后返回給用戶;
所述從索引中執(zhí)行數(shù)據(jù)搜索,還包括搜索詞擴(kuò)展,具體包括:
首先生成web頁面對象,其對應(yīng)搜索引擎web頁面集中的一條記錄,該對象包含三部分:數(shù)據(jù)ID,代表該條數(shù)據(jù)的引用地址;數(shù)據(jù)值,指具體的數(shù)據(jù);排序?qū)傩粤斜?,代表分級的排序邏輯對?yīng)的排序?qū)傩灾刀嗑S列表,并降維得到一維排序?qū)傩粤斜?,這些排序?qū)傩灾蹈鶕?jù)等級的優(yōu)先級由高到低存儲(chǔ)在一個(gè)數(shù)組中,在兩個(gè)排序?qū)傩粤斜肀容^時(shí)根據(jù)優(yōu)先級進(jìn)行對比;該web頁面對象數(shù)組是一個(gè)公共的數(shù)據(jù)池,通過數(shù)據(jù)ID對里面的各個(gè)數(shù)據(jù)進(jìn)行引用,并維護(hù)一個(gè)以web頁面對象中的數(shù)據(jù)值為鍵的web頁面對象散列表;然后生成搜索詞對象,包括以下元素:搜索詞、數(shù)據(jù)ID對象列表及數(shù)據(jù)ID對象候選列表;其中搜索詞是由公共數(shù)據(jù)池的里面web頁面對象中的數(shù)據(jù)值屬性劃分得到,每個(gè)數(shù)據(jù)值根據(jù)長度遞增的方式劃分得到多個(gè)搜索詞;一個(gè)數(shù)據(jù)ID對象是由web頁面ID及排序數(shù)據(jù)值列表兩個(gè)元素組成的,數(shù)據(jù)ID對象列表是指一個(gè)搜索詞對應(yīng)的有效的數(shù)據(jù)ID對象列表;數(shù)據(jù)ID對象候選列表用于補(bǔ)充數(shù)據(jù)ID對象列表;
搜索詞擴(kuò)展內(nèi)容的生成過程是在遍歷web頁面的過程中進(jìn)行的,將web頁面按照搜索詞長度遞增的規(guī)則逐個(gè)劃分web頁面,在劃分的過程中對劃分的搜索詞進(jìn)行轉(zhuǎn)換形成搜索詞列表,將各個(gè)搜索詞作為鍵存放到散列表中,具體描述如下:
(1).將web頁面根據(jù)內(nèi)存結(jié)構(gòu)要求存儲(chǔ)在內(nèi)存,遍歷搜索web頁面列表;
(2).轉(zhuǎn)換并劃分每條web頁面形成搜索詞列表;
(3).根據(jù)各個(gè)搜索詞的排序?qū)傩灾盗斜頉Q定將對應(yīng)的web頁面ID插入數(shù)據(jù)ID列表還是數(shù)據(jù)ID候選列表中;
(4).生成搜索web頁面的搜索詞對象散列表,該散列表包含填充的數(shù)據(jù)ID列表及數(shù)據(jù)ID候選列表;
其中每條數(shù)據(jù)的劃分流程是核心部分,具體描述如下:將web頁面對象的數(shù)據(jù)值進(jìn)行轉(zhuǎn)換成多種類型的數(shù)據(jù)值集合;對數(shù)據(jù)值集合每條數(shù)據(jù)值根據(jù)搜索詞長度遞增的方式進(jìn)行劃分;根據(jù)劃分的搜索詞列表作為鍵搜索搜索詞散列表,查找成功,則轉(zhuǎn)上文步驟3;根據(jù)內(nèi)存數(shù)據(jù)結(jié)構(gòu)建立搜索詞對象加入散列表中。