專(zhuān)利名稱(chēng):網(wǎng)絡(luò)緩存管理的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于互聯(lián)網(wǎng)和移動(dòng)網(wǎng)絡(luò)搜索引擎系統(tǒng)中的數(shù)據(jù)搜索和緩存管理的系統(tǒng)和方法。更具體而言,本發(fā)明是關(guān)于一個(gè)采用分層緩存技術(shù)來(lái)采集和管理分布式網(wǎng)絡(luò)數(shù)據(jù),并將這些網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容和索引數(shù)據(jù)提供給搜索引擎數(shù)據(jù)庫(kù)的方法和系統(tǒng)。
背景技術(shù):
眾所周知,計(jì)算機(jī)系統(tǒng)已被廣泛地用于數(shù)據(jù)庫(kù)管理,相關(guān)技術(shù)包括解析、索引及搜索數(shù)據(jù)。然而,超大數(shù)據(jù)庫(kù)還存在很多技術(shù)難點(diǎn)。而網(wǎng)絡(luò)數(shù)據(jù)可視為一種獨(dú)特的分布式的數(shù)據(jù),用戶(hù)通過(guò)有線或無(wú)線網(wǎng)絡(luò)來(lái)訪問(wèn)這些網(wǎng)絡(luò)資源。
由于網(wǎng)絡(luò)數(shù)據(jù)分布在世界各地的不同計(jì)算機(jī)上,因此網(wǎng)絡(luò)用戶(hù)常期望能定位所需內(nèi)容。然而,現(xiàn)在還不能在網(wǎng)絡(luò)上搜索和瀏覽所有的網(wǎng)絡(luò)資源。檢索可理解為在互聯(lián)網(wǎng)上查找含有特定信息的資料,而瀏覽則是在網(wǎng)絡(luò)上無(wú)目的地“閑逛”。目前,還不太可能有效定位所有網(wǎng)絡(luò)資源。另外,由于全球網(wǎng)站數(shù)量及互聯(lián)網(wǎng)上的絕對(duì)信息量每天都在以指數(shù)級(jí)地增長(zhǎng),為了對(duì)網(wǎng)絡(luò)資源進(jìn)行有效分類(lèi),而產(chǎn)生了大量搜索引擎系統(tǒng)。借助這些搜索引擎系統(tǒng),用戶(hù)使用由適當(dāng)?shù)年P(guān)鍵詞構(gòu)成的搜索命令搜索網(wǎng)絡(luò)資源。
基于結(jié)構(gòu)化的搜索引擎系統(tǒng)難以有效管理超大容量的、分布式的網(wǎng)絡(luò)資源。統(tǒng)計(jì)結(jié)果表明,采用這種技術(shù)僅能訪問(wèn)互聯(lián)網(wǎng)上的15-20%的信息,而其它大部分還未被任何搜索引擎系統(tǒng)所索引。因此,迫切需要能有一種能加速搜索、索引、和傳輸網(wǎng)絡(luò)資源的技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的第一個(gè)目的是介紹一種從網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的對(duì)象緩存建索引的方法;本發(fā)明的第二個(gè)目的是介紹一種將網(wǎng)絡(luò)數(shù)據(jù)對(duì)象及其索引通過(guò)緩存?zhèn)鬏斀o搜索引擎數(shù)據(jù)庫(kù)的方法;本發(fā)明的第三個(gè)目的是介紹一種通過(guò)瀏覽器緩存以及服務(wù)器緩存加速搜索網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的方法。
本發(fā)明的第四個(gè)目的是介紹一種分層技術(shù)來(lái)組織和管理各層次對(duì)象緩存來(lái)加速搜索、索引、傳輸網(wǎng)絡(luò)數(shù)據(jù)的方法。
其解決方案如下1.網(wǎng)絡(luò)搜索引擎的緩存管理方法包括a)通過(guò)緩存來(lái)加速搜索、索引網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并將索引數(shù)據(jù)傳輸?shù)剿阉饕鏀?shù)據(jù)庫(kù)的方法;和b)采用分層技術(shù)來(lái)組織和管理分布式網(wǎng)絡(luò)中的各個(gè)層次上的緩存的方法。
2.根據(jù)上述1中的a)方法的實(shí)現(xiàn)步驟包括a)通過(guò)訪問(wèn)保存在緩存內(nèi)的對(duì)象緩存來(lái)實(shí)現(xiàn)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)請(qǐng)求,這些對(duì)象緩存既能訪問(wèn)得到對(duì)象所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,且能被用戶(hù)訪問(wèn)得到。將從對(duì)象緩存中提取出來(lái)的索引數(shù)據(jù)自動(dòng)保存到緩存內(nèi),索引數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)對(duì)象一一對(duì)應(yīng)。最后,將索引數(shù)據(jù)從緩存內(nèi)轉(zhuǎn)移到搜索搜索引擎數(shù)據(jù)庫(kù);b)從分層網(wǎng)絡(luò)結(jié)構(gòu)中的父緩存、子緩存、兄弟緩存收集已索引數(shù)據(jù),并將索引數(shù)據(jù)合并到搜索引擎數(shù)據(jù)庫(kù)中,以響應(yīng)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn);和c)采用對(duì)象緩存的方式,從分布式結(jié)構(gòu)中的遠(yuǎn)程數(shù)據(jù)庫(kù)系統(tǒng)中收集已索引數(shù)據(jù),并將索引數(shù)據(jù)合并或備份到搜索引擎數(shù)據(jù)庫(kù)中,以響應(yīng)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)。
3.上述2所述的方法中的a)步驟還進(jìn)一步包括步驟a)使用服務(wù)器搜索網(wǎng)絡(luò)。在服務(wù)器緩存中臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,形成對(duì)象緩存,用戶(hù)訪問(wèn)這些對(duì)象緩存來(lái)實(shí)現(xiàn)訪問(wèn)它們所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象;b)用戶(hù)通過(guò)瀏覽器來(lái)訪問(wèn)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,瀏覽器是用戶(hù)訪問(wèn)網(wǎng)絡(luò)對(duì)象的接口;在瀏覽器緩存中臨時(shí)備份用戶(hù)所請(qǐng)求的網(wǎng)絡(luò)數(shù)據(jù)文件。用戶(hù)通過(guò)該瀏覽器訪問(wèn)保存在瀏覽器的對(duì)象緩存來(lái)實(shí)現(xiàn)用戶(hù)對(duì)所要求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)。
4.上述1所述的方法中的a)步驟,還進(jìn)一步包括a)決定對(duì)象緩存是否具有優(yōu)先級(jí)執(zhí)行權(quán);b)以一種可傳輸格式來(lái)壓縮所提取出來(lái)的索引數(shù)據(jù);和c)計(jì)算并保留某網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的索引數(shù)據(jù)被提交給搜索引擎數(shù)據(jù)庫(kù)時(shí)間戳以及被檢索的次數(shù)。
5.上述1中的b)方法包括a)各網(wǎng)絡(luò)緩存之間除了父子關(guān)系外還有同屬關(guān)系來(lái)共同分擔(dān)緩存的負(fù)荷。每個(gè)對(duì)象緩存將獨(dú)立決定是否是從對(duì)象的主站點(diǎn)或該緩存的父緩存或鄰緩存中提取索引;b)采用域名服務(wù)器名稱(chēng)加地址的映射緩存來(lái)優(yōu)化公用緩存,并采用基于多用途的網(wǎng)際郵件擴(kuò)充協(xié)的頭來(lái)標(biāo)定對(duì)象的實(shí)時(shí)性;c)緩存管理支持封裝協(xié)議、無(wú)連接、代理http協(xié)議等三種訪問(wèn)協(xié)議;d)用URL加基于多用途的網(wǎng)際郵件擴(kuò)充協(xié)的頭來(lái)唯一識(shí)別一個(gè)緩存對(duì)象;e)用PGP認(rèn)證對(duì)象緩存;和f)直接非阻滯磁盤(pán)和網(wǎng)絡(luò)I/O來(lái)提取摘要,以以便跨平臺(tái)和有效地管理線程、內(nèi)存和磁盤(pán)。
6.一個(gè)搜索引擎的網(wǎng)絡(luò)緩存管理系統(tǒng)包括a)一個(gè)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的加索引并保存索引數(shù)據(jù)到搜索引擎數(shù)據(jù)庫(kù)的系統(tǒng);和b)一個(gè)用戶(hù)通過(guò)緩存來(lái)實(shí)現(xiàn)搜索訪問(wèn)網(wǎng)絡(luò)對(duì)象的系統(tǒng);7.上述6中的a)系統(tǒng)包括a)一個(gè)網(wǎng)絡(luò)用戶(hù)能訪問(wèn)得到的、用于臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的的緩存;b)一個(gè)自動(dòng)從對(duì)象緩存中來(lái)獲取和保存索引數(shù)據(jù)的存儲(chǔ)單元;c)一個(gè)能將索引數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)系統(tǒng)的傳輸單元;d)一個(gè)從分布式的網(wǎng)絡(luò)緩存那里收集索引數(shù)據(jù)的收集單元;e)一個(gè)將采集到的索引數(shù)據(jù)合并到數(shù)據(jù)存儲(chǔ)系統(tǒng)的合并單元;和f)一個(gè)計(jì)算數(shù)據(jù)存儲(chǔ)系統(tǒng)訪問(wèn)某一網(wǎng)絡(luò)數(shù)據(jù)對(duì)象次數(shù)的計(jì)算單元。
8.上述6中的b)系統(tǒng)包括a)一個(gè)用于網(wǎng)絡(luò)搜索的服務(wù)器緩存,臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并在其緩存內(nèi)形成對(duì)象緩存,用戶(hù)訪問(wèn)對(duì)象緩存來(lái)實(shí)現(xiàn)訪問(wèn)它們所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象;b)一個(gè)用戶(hù)用于訪問(wèn)網(wǎng)絡(luò)對(duì)象的瀏覽器緩存,瀏覽器緩存將臨時(shí)備份用戶(hù)所請(qǐng)求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并在其緩存內(nèi)形成對(duì)象緩存,用戶(hù)通過(guò)訪問(wèn)這些緩存對(duì)象來(lái)實(shí)現(xiàn)用戶(hù)對(duì)所要求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn);和c)一個(gè)用于決定判斷緩存是否具有優(yōu)先執(zhí)行級(jí)別的決策器,若該緩存沒(méi)有優(yōu)先執(zhí)行級(jí)別,則從保存在緩存上的緩存對(duì)象中提取網(wǎng)絡(luò)數(shù)據(jù)對(duì)象及其索引數(shù)據(jù)。
作為本發(fā)明的一個(gè)實(shí)例,是為響應(yīng)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的請(qǐng)求,用戶(hù)訪問(wèn)該網(wǎng)絡(luò)數(shù)據(jù)對(duì)象是通過(guò)訪問(wèn)它所對(duì)應(yīng)的對(duì)象緩存來(lái)實(shí)現(xiàn)。接著,從對(duì)象緩存中建立索引數(shù)據(jù)并自動(dòng)保存。索引數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)對(duì)象一一對(duì)應(yīng)。最后,將索引數(shù)據(jù)從緩存?zhèn)鬏數(shù)剿阉饕鏀?shù)據(jù)庫(kù)中。
本發(fā)明的另一個(gè)實(shí)例是,將加索引的數(shù)據(jù)合并到搜索引擎數(shù)據(jù)庫(kù)中,及將新的加索引網(wǎng)絡(luò)數(shù)據(jù)對(duì)象也加入到搜索引擎數(shù)據(jù)庫(kù)以響應(yīng)用戶(hù)對(duì)該網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)請(qǐng)求。本發(fā)明的另一個(gè)實(shí)例是,保留網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的索引數(shù)據(jù)被搜索引擎檢索的次數(shù)和時(shí)間。根據(jù)本發(fā)明的目的,在網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的采集和檢索過(guò)程中用分層技術(shù)來(lái)管理搜索引擎中的對(duì)象緩存,周期性地掃描各對(duì)象,并在緩存中保存索引信息。在數(shù)據(jù)傳輸過(guò)程中,一個(gè)單獨(dú)的數(shù)據(jù)流便可獲取緩存內(nèi)的全部網(wǎng)絡(luò)數(shù)據(jù)對(duì)象及其索引數(shù)據(jù),而不是為每個(gè)對(duì)象單獨(dú)發(fā)出請(qǐng)求。
參考圖及圖的詳細(xì)描述可能更易于理解本發(fā)明及其使用。
圖1描述本發(fā)明的應(yīng)用實(shí)例的系統(tǒng)結(jié)構(gòu)圖;圖2描述本發(fā)明運(yùn)行所需的分布式網(wǎng)絡(luò)環(huán)境。
圖3描述應(yīng)用戶(hù)請(qǐng)求而訪問(wèn)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的過(guò)程;
圖4描述對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象加索引,并將加索引后的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象提供給搜索引擎數(shù)據(jù)庫(kù)的過(guò)程。
圖5描述用分層技術(shù)來(lái)組織和管理各層次對(duì)象緩存的結(jié)構(gòu)圖。
具體實(shí)施例方式
本發(fā)明的網(wǎng)絡(luò)緩存管理的方法和系統(tǒng)的具體應(yīng)用包括以下三個(gè)部分其一,用戶(hù)通過(guò)訪問(wèn)保存在緩存內(nèi)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的對(duì)象緩存來(lái)實(shí)現(xiàn)對(duì)這些網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn),以響應(yīng)用戶(hù)對(duì)它們的請(qǐng)求。對(duì)象緩存既能訪問(wèn)這些網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,又能被用戶(hù)訪問(wèn)得到。其二,在對(duì)象緩存中提取索引數(shù)據(jù),并自動(dòng)保存在緩存中,索引數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)對(duì)象確保一一對(duì)應(yīng)。其三,將索引數(shù)據(jù)從緩存?zhèn)鬏數(shù)剿阉饕鏀?shù)據(jù)庫(kù)。
描述以上五個(gè)圖來(lái)闡述本發(fā)明的具體實(shí)用辦法。
圖1描述了本發(fā)明的應(yīng)用系統(tǒng)結(jié)構(gòu)圖。如圖1所示,用于處理網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的中間系統(tǒng)webAgent 108A包括注冊(cè)表105、存儲(chǔ)管理系統(tǒng)104、查詢(xún)管理103及數(shù)據(jù)采集107等四個(gè)部分組成。注冊(cè)表105和存儲(chǔ)管理系統(tǒng)104用于維護(hù)一個(gè)用于記錄所有的webAgent108A所包含的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象表。對(duì)于每個(gè)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,注冊(cè)表105將記錄它們所對(duì)應(yīng)的唯一標(biāo)識(shí)、時(shí)間戳及時(shí)間期限。每個(gè)網(wǎng)絡(luò)數(shù)據(jù)文件包含它所對(duì)應(yīng)的唯一標(biāo)識(shí)和由WebSpider 109所產(chǎn)生的摘要。每個(gè)對(duì)象作為一個(gè)文件存儲(chǔ)在文件系統(tǒng)中,由存儲(chǔ)管理系統(tǒng)104統(tǒng)一管理。
根據(jù)配置文件向webSpider109和webAgent108B發(fā)出更新請(qǐng)求來(lái)周期性采集數(shù)據(jù)。webSpider 109提交一個(gè)自某一由webAgent 108A指定的時(shí)間以來(lái),創(chuàng)建、刪除、更新過(guò)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的列表。webSpider109分析這個(gè)列表,然后交由注冊(cè)表105處理。若是一個(gè)新創(chuàng)建的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,就加一個(gè)唯一標(biāo)識(shí)到注冊(cè)105,相對(duì)應(yīng)的是其摘要也以存儲(chǔ)管理文件的形式添加到搜索引擎數(shù)據(jù)庫(kù)中,并將一個(gè)指針傳給索引程序。最后將注冊(cè)表105寫(xiě)入硬盤(pán)里。若一個(gè)緩存對(duì)象被刪除了,就刪除其對(duì)應(yīng)的唯一標(biāo)識(shí),同時(shí)由存儲(chǔ)管理程序和索引程序刪除對(duì)應(yīng)的摘要對(duì)象。若一個(gè)對(duì)象被更新了,就重新計(jì)算其時(shí)間期限。如果一個(gè)對(duì)象根據(jù)其時(shí)間期限被判定過(guò)期,則被刪除。若注冊(cè)表105中的記錄和儲(chǔ)存的數(shù)據(jù)不一致,垃圾清理程序?qū)⑺鼈儚淖?cè)表105和數(shù)據(jù)存儲(chǔ)系統(tǒng)104中一并清除。正是這些機(jī)制保證了數(shù)據(jù)的有效性。
查詢(xún)管理系統(tǒng)103負(fù)責(zé)向網(wǎng)絡(luò)發(fā)布信息。當(dāng)它接收到一個(gè)查詢(xún)請(qǐng)求,將其轉(zhuǎn)換為內(nèi)部的表示方式,傳遞給搜索引擎,搜索引擎回傳搜索結(jié)果。結(jié)果的內(nèi)容依據(jù)引擎的不同而有所不同,查詢(xún)管理根據(jù)結(jié)果組織成一定的格式給用戶(hù)。如果這個(gè)用戶(hù)是其它的webAgent,則會(huì)將整個(gè)摘要返回給它。一個(gè)webAgent108A或108B可由多個(gè)webSpider和多個(gè)webAgent組成,構(gòu)成多層次網(wǎng)絡(luò)結(jié)構(gòu)。圖1中的復(fù)制子系統(tǒng)107是一種廣域內(nèi)的弱統(tǒng)一文件復(fù)制系統(tǒng),并用于備份webAgent108A。整個(gè)搜索引擎的日常管理也是通過(guò)查詢(xún)管理系統(tǒng)103來(lái)完成的。例如,啟動(dòng)、關(guān)閉、重啟索引服務(wù),再如強(qiáng)制刪除過(guò)期的對(duì)象、歸檔日志、強(qiáng)制更新等。
圖2描述了本發(fā)明運(yùn)行所需的網(wǎng)絡(luò)環(huán)境。網(wǎng)絡(luò)環(huán)境包括多個(gè)服務(wù)器202a-202g通過(guò)網(wǎng)絡(luò)200而相互連接。而服務(wù)器202a-202g響應(yīng)客戶(hù)請(qǐng)求的一般方法是例文件服務(wù)器存儲(chǔ)數(shù)據(jù)對(duì)象,當(dāng)用戶(hù)發(fā)送請(qǐng)求獲取某數(shù)據(jù)對(duì)象時(shí),服務(wù)器將對(duì)象的備份發(fā)送給用戶(hù)。服務(wù)器202a-202g中的每一個(gè)服務(wù)器在網(wǎng)絡(luò)中類(lèi)似于一個(gè)客戶(hù),如通過(guò)服務(wù)器202g連接到網(wǎng)絡(luò)200上的個(gè)人計(jì)算機(jī)201給服務(wù)器202g發(fā)送命令請(qǐng)求某數(shù)據(jù)對(duì)象。服務(wù)器202g對(duì)作為客戶(hù)的個(gè)人計(jì)算機(jī)201而言是服務(wù)器。由于服務(wù)器有所需數(shù)據(jù)對(duì)象,則發(fā)送指令給服務(wù)器,如服務(wù)器202a,來(lái)請(qǐng)求該服務(wù)器202g并搜索網(wǎng)絡(luò)200。服務(wù)器202a則是服務(wù)器202g的服務(wù)器,而服務(wù)器202g是它的客戶(hù)。服務(wù)器202g臨時(shí)存儲(chǔ)從服務(wù)器202a上獲取的數(shù)據(jù)對(duì)象備份。另外,個(gè)人計(jì)算機(jī)201也將保存從服務(wù)器202g上獲取到的數(shù)據(jù)對(duì)象的臨時(shí)備份。
本發(fā)明的一個(gè)應(yīng)用實(shí)例是服務(wù)器202g有一個(gè)應(yīng)用程序,該應(yīng)用程序能從緩存對(duì)象中的URL內(nèi)容中提取索引數(shù)據(jù)。接著,提取出來(lái)的索引數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)系統(tǒng),如搜索引擎數(shù)據(jù)存儲(chǔ)系統(tǒng)203。數(shù)據(jù)存儲(chǔ)系統(tǒng)203通過(guò)服務(wù)器202f連接到網(wǎng)絡(luò)200。本發(fā)明的另外一個(gè)應(yīng)用實(shí)例是包括瀏覽器或其它應(yīng)用系統(tǒng)個(gè)人的計(jì)算機(jī)201,它也能從個(gè)人計(jì)算機(jī)上的對(duì)象緩存里的URL內(nèi)容中提取索引數(shù)據(jù);然后,提取出來(lái)的數(shù)據(jù)被傳輸?shù)剿阉饕鏀?shù)據(jù)存儲(chǔ)系統(tǒng)203或其他目的數(shù)據(jù)存儲(chǔ)系統(tǒng)中。本發(fā)明的再一個(gè)應(yīng)用實(shí)例類(lèi)似服務(wù)器202a-202g連接到網(wǎng)絡(luò)200的其它分布式系統(tǒng),它有一個(gè)軟件應(yīng)用系統(tǒng),也能從臨時(shí)保存在服務(wù)器202a-202g的對(duì)象緩存里的URL內(nèi)容中提取索引數(shù)據(jù)。
文獻(xiàn)中介紹了很多索引的方法,不同互聯(lián)網(wǎng)的搜索引擎和其它軟件產(chǎn)品使用不同的數(shù)據(jù)索引方法。常用的索引方法有方向文件摘要(如B+樹(shù)、哈希索引、署名文件)及從上下文提取簡(jiǎn)單關(guān)鍵詞等方法。在本發(fā)明中,URL建立索引時(shí)是采用一種能被用于不同的搜索引擎系統(tǒng)的索引數(shù)據(jù),并能快捷地轉(zhuǎn)換成適用于不同搜索引擎系統(tǒng)的格式。由于一個(gè)索引文件的長(zhǎng)度可能超過(guò)原文件的長(zhǎng)度,因而可使用一種快捷的標(biāo)準(zhǔn)壓縮技術(shù)來(lái)對(duì)加索引后URL進(jìn)行壓縮。搜索引擎一旦收到壓縮文件后,對(duì)其進(jìn)行解壓和格式轉(zhuǎn)換成搜索引擎所要求的格式。
提供給搜索引擎數(shù)據(jù)存儲(chǔ)系統(tǒng)203的索引數(shù)據(jù)不僅包括用戶(hù)訪問(wèn)過(guò)對(duì)象的索引數(shù)據(jù),還包括URL的訪問(wèn)頻率和時(shí)間戳。因此,被數(shù)據(jù)存儲(chǔ)系統(tǒng)203接收到的索引數(shù)據(jù)也可用于統(tǒng)計(jì)分析,即統(tǒng)計(jì)分析在數(shù)據(jù)存儲(chǔ)系統(tǒng)203上的某URL的被訪問(wèn)次數(shù),可確定該URL的訪問(wèn)情況。
圖3描述了為響應(yīng)用戶(hù)請(qǐng)求而訪問(wèn)URL過(guò)程。如圖3所示,該過(guò)程從模塊301開(kāi)始,然后執(zhí)行到模塊302。模塊302描述了關(guān)于用戶(hù)是否請(qǐng)求一個(gè)URL地址。如果URL地址未被請(qǐng)求,則循環(huán)執(zhí)行模塊302;否則,轉(zhuǎn)到模塊303。模塊303描述了采用現(xiàn)有通用的方法從網(wǎng)絡(luò)上搜索包含被請(qǐng)求的URL地址的服務(wù)器。模塊304描述URL地址是否被檢測(cè)到的決策過(guò)程。若URL地址未檢測(cè)到,則轉(zhuǎn)到模塊308,返回出錯(cuò)信息并中止進(jìn)程;否則轉(zhuǎn)到模塊305,從服務(wù)器提取URL地址所對(duì)應(yīng)的URL數(shù)據(jù)。模塊306則對(duì)提取后的URL數(shù)據(jù)進(jìn)行臨時(shí)備份,在模塊307中訪問(wèn)提取數(shù)據(jù)的臨時(shí)備份,進(jìn)程結(jié)束。
圖4描述一個(gè)獲取加索引的URL內(nèi)容并將其提供給搜索引擎數(shù)據(jù)庫(kù)的過(guò)程。如圖所述,該過(guò)程從模塊401開(kāi)始,然后到模塊402,模塊402判別是否有高優(yōu)先級(jí)別,諸如訪問(wèn)新文件、傳輸臨時(shí)文件等高優(yōu)先的命令。若有高優(yōu)先級(jí)請(qǐng)求,在模塊404中執(zhí)行高優(yōu)先級(jí)請(qǐng)求;否則,則轉(zhuǎn)到模塊403,判斷是否還有臨時(shí)備份對(duì)象未被索引。若沒(méi)有,進(jìn)程轉(zhuǎn)到模塊402,否則,轉(zhuǎn)到模塊405,從URL的臨時(shí)備份中提取索引數(shù)據(jù)。接著,在模塊406中以可傳輸格式壓縮提取出來(lái)的索引數(shù)據(jù)。在模塊407中將壓縮后的索引數(shù)據(jù)傳輸?shù)剿阉饕娴臄?shù)據(jù)庫(kù)系統(tǒng),索引數(shù)據(jù)合并到搜索引擎數(shù)據(jù)庫(kù)中或用于統(tǒng)計(jì)分析。
圖5所提供一個(gè)采用分層技術(shù)來(lái)組織各層次的對(duì)象緩存的結(jié)構(gòu)圖。如圖所示,在本發(fā)明的所提供的對(duì)象緩存管理系統(tǒng)中,各對(duì)象緩存管理子系統(tǒng)之間除了父子關(guān)系外,還有同屬關(guān)系,以分擔(dān)緩存服務(wù)器的負(fù)荷。在這分層結(jié)構(gòu)中的每個(gè)對(duì)象緩存獨(dú)立決定是否是從對(duì)象的主站點(diǎn)還是從該緩存的父緩存或鄰緩存中提取索引,解決的基本方法如下若對(duì)象的URL中包含有子連接,則直接從對(duì)象的主站點(diǎn)提取該對(duì)象,而不是從分層緩存結(jié)構(gòu)中提取。這一特性使得緩存能直接從對(duì)象的主站點(diǎn)來(lái)區(qū)分cgi-bin等不可緩存URL和本地URL。相似的,若該URL的域名與可配置的子連接串相匹配,則該對(duì)象將由與該域名綁定的父緩存來(lái)解決;否則,當(dāng)一個(gè)緩存收到一個(gè)對(duì)未點(diǎn)擊的URL請(qǐng)求時(shí),將執(zhí)行一個(gè)遠(yuǎn)程呼叫進(jìn)程,請(qǐng)求所有的鄰節(jié)點(diǎn)及父緩存檢測(cè)該URL是否已被它們接受,而該緩存將在最低反應(yīng)時(shí)間內(nèi)收到該對(duì)象。
一個(gè)緩存解決″未點(diǎn)擊過(guò)″的對(duì)象的方法是通過(guò)發(fā)送一個(gè)″查詢(xún)″數(shù)據(jù)包到它的所有鄰節(jié)點(diǎn)、父緩存和請(qǐng)求對(duì)象主節(jié)點(diǎn)。每個(gè)鄰節(jié)點(diǎn)和父接口返回一個(gè)″已點(diǎn)擊過(guò)″或″未點(diǎn)擊過(guò)″的響應(yīng)信息,響應(yīng)信息由對(duì)象在緩存中的狀態(tài)決定。如果對(duì)象的主節(jié)點(diǎn)運(yùn)行用戶(hù)數(shù)據(jù)包協(xié)議的反射守候進(jìn)程,對(duì)象就返回一個(gè)″已點(diǎn)擊過(guò)″信息。緩存將從最快返回″已點(diǎn)擊過(guò)″信息的節(jié)點(diǎn)中獲得對(duì)象,不論其來(lái)自于對(duì)象的原節(jié)點(diǎn)還是其他的緩存。如果所有的緩存沒(méi)有響應(yīng)且原節(jié)點(diǎn)比所有的父緩存慢,緩存從最快的父緩存中獲得對(duì)象;否則,若對(duì)象原節(jié)點(diǎn)的響應(yīng)時(shí)間接近于最快的緩存,緩存從對(duì)象的原節(jié)點(diǎn)獲得對(duì)象。只有在父緩存已失敗而其子緩存還未檢測(cè)到,該緩存才增加較大的延時(shí)。在這種情況下,父子緩存超時(shí),該對(duì)象的參照延時(shí)2秒。隨著層次加深,根緩存需負(fù)責(zé)更多的子緩存,為避免根緩存超載,本發(fā)明在實(shí)現(xiàn)中,緩存只分級(jí)到帶寬足夠大的局域網(wǎng)或主干網(wǎng)。
另外對(duì)Gopher、HTTP、FTP對(duì)象,本發(fā)明的提供一個(gè)維護(hù)最近用過(guò)的域名服務(wù)器名稱(chēng)加地址映射緩存來(lái)優(yōu)化公用緩存行為。本發(fā)明采用基于多用途的網(wǎng)際郵件擴(kuò)充協(xié)議的頭來(lái)標(biāo)定對(duì)象,確保其實(shí)時(shí)。緩存以單個(gè)事件驅(qū)動(dòng)的方式運(yùn)行,以非塊的形式讀寫(xiě)到磁盤(pán)和緩存客戶(hù)端。當(dāng)一個(gè)對(duì)象的前幾個(gè)字節(jié)剛到緩存,緩存客戶(hù)端之間就開(kāi)始讀寫(xiě)。對(duì)每個(gè)實(shí)例,緩存派生一個(gè)新的獨(dú)立進(jìn)程來(lái)獲得ftp文件,但自己獲得HTTP和Gopher對(duì)象。緩存獨(dú)立管理磁盤(pán)上的和被裝載在虛擬地址空間的對(duì)象,也為虛擬內(nèi)存中的對(duì)象維護(hù)其所對(duì)應(yīng)的元數(shù)據(jù),以減少對(duì)元數(shù)據(jù)的潛在訪問(wèn)。
本發(fā)明提供的緩存管理系統(tǒng)支持三種訪問(wèn)協(xié)議封裝、無(wú)連接及代理http協(xié)議。封裝協(xié)議封裝緩存到緩存數(shù)據(jù)包,并允許用求和檢驗(yàn)端點(diǎn)或數(shù)字簽名等方法進(jìn)行端點(diǎn)到端點(diǎn)的錯(cuò)誤檢測(cè)。該協(xié)議也使父緩存將對(duì)象的最新實(shí)況傳輸給子緩存。緩存用基于用戶(hù)數(shù)據(jù)報(bào)協(xié)議的無(wú)連接協(xié)議來(lái)執(zhí)行父子決策。為快捷起見(jiàn),該協(xié)議也允許緩存在沒(méi)有建立TCP連接時(shí)交換小對(duì)象。封裝協(xié)議和無(wú)連接協(xié)議都支持端點(diǎn)到端點(diǎn)的可靠性,而代理http協(xié)議則大多瀏覽器所支持的協(xié)議。在系統(tǒng)中,客戶(hù)通過(guò)FTP,Gopher,或HTTP等標(biāo)準(zhǔn)通信協(xié)議從緩存進(jìn)程中訪問(wèn)對(duì)象,用戶(hù)用代理也可訪問(wèn)防火墻后的www。
由于缺少標(biāo)準(zhǔn)方法來(lái)設(shè)定對(duì)象本身的時(shí)效,本發(fā)明并不對(duì)所有對(duì)象進(jìn)行緩存,如受密碼保護(hù)的對(duì)象不能進(jìn)行緩存。然而緩存相當(dāng)于一個(gè)應(yīng)用網(wǎng)關(guān),對(duì)象一旦被發(fā)送出去就被清除。緩存相似地清除沒(méi)有被緩存的URL。限制最大可緩存對(duì)象的長(zhǎng)度目的是為了緩存能保存更多的數(shù)據(jù)對(duì)象。
由于URL并沒(méi)有給對(duì)象進(jìn)行獨(dú)特性命名,因此,本發(fā)明采用URL加多用途的網(wǎng)際郵件擴(kuò)充協(xié)議的頭來(lái)唯一識(shí)別一個(gè)對(duì)象。例如,若客戶(hù)的瀏覽器不能看到腳本,www服務(wù)器可返回一個(gè)腳本對(duì)象的文本文件。為了減少重復(fù)錯(cuò)誤,本發(fā)明采用兩種方法對(duì)緩存進(jìn)行保底首先,當(dāng)DNS查表錯(cuò)誤發(fā)生時(shí),保存5分鐘的緩存結(jié)果;第二,當(dāng)提取對(duì)象中發(fā)生錯(cuò)誤時(shí),保存可設(shè)置的、一定時(shí)間內(nèi)的緩存結(jié)果,缺省為5分鐘。
www瀏覽器支持不同的認(rèn)證機(jī)制,用多用途的網(wǎng)際郵件擴(kuò)充協(xié)議的頭中的編碼在瀏覽器和服務(wù)器之間相互認(rèn)證。基本的認(rèn)證機(jī)制包括交換密碼。為防止偷聽(tīng),用公用鑰匙進(jìn)行認(rèn)證,服務(wù)器將其公鑰聲明在純文本中。但因隱私而加密被交換的其余部分,該方法易于欺騙IP。對(duì)于那些需保密和認(rèn)證的緩存,本發(fā)明采用PGP機(jī)制,在外面交換公鑰。
正如上述的http安全機(jī)制,本發(fā)明所提供的瀏覽器和服務(wù)器之間傳輸協(xié)議如下當(dāng)服務(wù)器傳輸一個(gè)未授權(quán)信息給緩存時(shí),緩存將其傳輸回客戶(hù)并從緩存中清除該URL。用既定的安全模式的客戶(hù)瀏覽器請(qǐng)求用戶(hù)和密碼命令,并重新發(fā)布“獲取URL”,用加密于多用途的網(wǎng)際郵件擴(kuò)充協(xié)議頭來(lái)認(rèn)證。該緩存檢測(cè)用于認(rèn)證的多用途的網(wǎng)際郵件擴(kuò)充協(xié)議頭、不可緩存對(duì)象,并將提取出來(lái)的文件返回給用戶(hù),但同時(shí)清除該對(duì)象的所有記錄。注意在純文本認(rèn)證模式下,包括在緩存內(nèi)的純文本,任何人都能監(jiān)聽(tīng)認(rèn)證數(shù)據(jù)。因此,緩存沒(méi)有弱化已較弱的安全模式。在基于公鑰或PGP模式下,緩存或其它竊聽(tīng)者不能解析認(rèn)證數(shù)據(jù)。
由于命令來(lái)自緩存IP地址而不是用戶(hù)的IP地址,因此代理緩存也能通過(guò)基于IP地址的認(rèn)證。然而,由于IP地址易被監(jiān)聽(tīng),本發(fā)明中充分利用端口優(yōu)勢(shì)。代理緩存沒(méi)有防止服務(wù)器給服務(wù)器上的文件加密或數(shù)字簽字。最后,若網(wǎng)絡(luò)數(shù)據(jù)對(duì)象沒(méi)被數(shù)字簽名,則一個(gè)粗心的系統(tǒng)管理員可能在其代理緩存內(nèi)插入無(wú)效數(shù)據(jù)。但是代理緩存沒(méi)有嚴(yán)重減弱web保密性。
本發(fā)明的緩存管理系統(tǒng)還提供有效的線程管理??紤]到跨平臺(tái)的便利性,緩存對(duì)直接基于BSD選擇循環(huán)上的非阻滯磁盤(pán)和網(wǎng)絡(luò)I/O進(jìn)行摘要提取。除不能ftp URL外,緩存避免fork進(jìn)程。由于協(xié)議的太復(fù)雜,很難適合那些循環(huán)選擇狀態(tài)下的機(jī)器,因此本發(fā)明通過(guò)外部進(jìn)程來(lái)提取ftp的URL,緩存執(zhí)行其本身的DNS緩存,即當(dāng)該DNS緩存丟失時(shí)非阻滯DNS查表。當(dāng)參照字符被輸入到緩存,這些字符將被非阻滯I/O端口同步轉(zhuǎn)寄到所有地址,這些地址索引同一對(duì)象,并寫(xiě)入到磁盤(pán)。停止緩存運(yùn)轉(zhuǎn)的唯一方法是若緩存使用一個(gè)虛擬內(nèi)存對(duì)象作為缺省值,緩存通過(guò)管理它的虛擬影像來(lái)避免缺省對(duì)象。緩存內(nèi)部采用非優(yōu)先執(zhí)行權(quán),內(nèi)部完成步驟安排,因此無(wú)需鎖定文件或數(shù)據(jù)結(jié)構(gòu)。然而在緩存的客戶(hù)看來(lái),緩存是多線程的。
本發(fā)明的緩存管理系統(tǒng)還提供內(nèi)存管理。在虛擬內(nèi)存中,緩存保存URL、TTL、參考數(shù)目、參考磁盤(pán)文件及不同標(biāo)示等緩存對(duì)象的裸數(shù)據(jù)。對(duì)每個(gè)對(duì)象需要48字節(jié)加URL的字符長(zhǎng)度。緩存也在虛擬中保存經(jīng)常被訪問(wèn)的對(duì)象。然而,當(dāng)分配給常被訪問(wèn)的對(duì)象的虛擬內(nèi)存的數(shù)目超出預(yù)設(shè)置值時(shí),緩存清除常被訪問(wèn)對(duì)象,直到虛擬內(nèi)存的使用率降低到一定水平,注意到這些對(duì)象保存在磁盤(pán)上,而收回分配給它們的虛擬內(nèi)存影像。當(dāng)用httpd加速器加載到緩存時(shí),被訪問(wèn)對(duì)象的虛擬內(nèi)存的緩存將顯得格外有用。
盡管還有另外備份,對(duì)象該為通過(guò)未阻滯I/O端口將對(duì)象寫(xiě)入緩存。用URL做索引關(guān)鍵詞的哈希表將用緩存對(duì)象做參照。可緩存對(duì)象保持在緩存內(nèi)直到它們被分配的TTL的緩存過(guò)期,并清除出緩存或用瀏覽器的“重調(diào)”來(lái)用戶(hù)手工清除。若一個(gè)索引訪問(wèn)一個(gè)過(guò)時(shí)的對(duì)象,緩存用HTTP的“修改則獲取”規(guī)則來(lái)刷新對(duì)象的TTL。緩存保存這URL和每個(gè)對(duì)象數(shù)據(jù)結(jié)構(gòu)到虛擬內(nèi)存,但將對(duì)象本身保存到磁盤(pán)。
當(dāng)磁盤(pán)空間超過(guò)極限,緩存進(jìn)入它的垃圾收集模式。在該模式下,緩存拋棄最早保存在對(duì)象哈希表里的對(duì)象。當(dāng)磁盤(pán)使用率在最低極限以下,緩存跳出垃圾收集模式。若磁盤(pán)使用達(dá)到最大配置時(shí),它立即從哈希表的下一行拋棄最早對(duì)象。緩存管理多個(gè)磁盤(pán)和并保持它們之間的負(fù)荷平衡。在每個(gè)磁盤(pán)上創(chuàng)建100個(gè)目錄,在不同磁盤(pán)和目錄之間進(jìn)行輪流創(chuàng)建對(duì)象。因此,一個(gè)管理四個(gè)磁盤(pán)和千萬(wàn)個(gè)對(duì)象緩存的每一個(gè)目錄平均保存2500文件。由于目錄項(xiàng)平均大約24字節(jié),平均目錄將增加到154k字節(jié)的磁盤(pán)塊。
如上述,本發(fā)明提供了一個(gè)將加索引后的URL內(nèi)容提供給一個(gè)搜索引擎數(shù)據(jù)的方法和系統(tǒng)。與眾不同的是,URL索引內(nèi)容是從URL的臨時(shí)備份中提取。然而,當(dāng)本發(fā)明描述成從互聯(lián)網(wǎng)等網(wǎng)絡(luò)中提取對(duì)象時(shí),該發(fā)明也可應(yīng)用到可通過(guò)互聯(lián)網(wǎng)能獲取的其它數(shù)據(jù)。另外,本發(fā)明并不局限于以太網(wǎng),還可用于其它網(wǎng)絡(luò)。例如,本發(fā)明可應(yīng)用于局域網(wǎng)內(nèi)提取數(shù)據(jù)文件的索引數(shù)據(jù)以響應(yīng)這些網(wǎng)絡(luò)內(nèi)的用戶(hù)訪問(wèn)網(wǎng)絡(luò)資源。從被訪問(wèn)文件的對(duì)象緩存中提取文件的索引數(shù)據(jù),傳輸、合并到該網(wǎng)絡(luò)中的搜索引擎數(shù)據(jù)庫(kù)中。也可理解為從具有分布式結(jié)構(gòu)的網(wǎng)絡(luò)用戶(hù)上的對(duì)象緩存中提取索引數(shù)據(jù),并將索引數(shù)據(jù)傳輸和合并到可檢索數(shù)據(jù)庫(kù)中。值得注意的是,雖然該發(fā)明是基于功能齊全的計(jì)算機(jī)系統(tǒng),該發(fā)明中的一些技術(shù)也可應(yīng)用已有發(fā)明來(lái)改進(jìn)它們的性能,該發(fā)明也不局限于數(shù)據(jù)的載體。
權(quán)利要求
1.網(wǎng)絡(luò)搜索引擎的緩存管理方法包括a)通過(guò)緩存來(lái)加速搜索、索引網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并將索引數(shù)據(jù)傳輸?shù)剿阉饕鏀?shù)據(jù)庫(kù)的方法;和b)采用分層技術(shù)來(lái)組織和管理分布式網(wǎng)絡(luò)中的各個(gè)層次上的緩存的方法。
2.根據(jù)權(quán)利要求1中的a)方法的實(shí)現(xiàn)步驟包括a)通過(guò)訪問(wèn)保存在緩存內(nèi)的對(duì)象緩存來(lái)實(shí)現(xiàn)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)請(qǐng)求,這些對(duì)象緩存既能訪問(wèn)得到對(duì)象所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,且能被用戶(hù)訪問(wèn)得到。將從對(duì)象緩存中提取出來(lái)的索引數(shù)據(jù)自動(dòng)保存到緩存內(nèi),索引數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)對(duì)象一一對(duì)應(yīng)。最后,將索引數(shù)據(jù)從緩存內(nèi)轉(zhuǎn)移到搜索搜索引擎數(shù)據(jù)庫(kù);b)從分層網(wǎng)絡(luò)結(jié)構(gòu)中的父緩存、子緩存、兄弟緩存收集已索引數(shù)據(jù),并將索引數(shù)據(jù)合并到搜索引擎數(shù)據(jù)庫(kù)中,以響應(yīng)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn);和c)采用對(duì)象緩存的方式,從分布式結(jié)構(gòu)中的遠(yuǎn)程數(shù)據(jù)庫(kù)系統(tǒng)中收集已索引數(shù)據(jù),并將索引數(shù)據(jù)合并或備份到搜索引擎數(shù)據(jù)庫(kù)中,以響應(yīng)用戶(hù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)。
3.權(quán)利要求2所述的方法中的a)步驟還進(jìn)一步包括步驟a)使用服務(wù)器搜索網(wǎng)絡(luò)。在服務(wù)器緩存中臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,形成對(duì)象緩存,用戶(hù)訪問(wèn)這些對(duì)象緩存來(lái)實(shí)現(xiàn)訪問(wèn)它們所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象;b)用戶(hù)通過(guò)瀏覽器來(lái)訪問(wèn)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,瀏覽器是用戶(hù)訪問(wèn)網(wǎng)絡(luò)對(duì)象的接口;在瀏覽器緩存中臨時(shí)備份用戶(hù)所請(qǐng)求的網(wǎng)絡(luò)數(shù)據(jù)文件。用戶(hù)通過(guò)該瀏覽器訪問(wèn)保存在瀏覽器的對(duì)象緩存來(lái)實(shí)現(xiàn)用戶(hù)對(duì)所要求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)。
4.權(quán)利要求1所述的方法中的a)步驟,還進(jìn)一步包括a)決定對(duì)象緩存是否具有優(yōu)先級(jí)執(zhí)行權(quán);b)以一種可傳輸格式來(lái)壓縮所提取出來(lái)的索引數(shù)據(jù);和c)計(jì)算并保留某網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的索引數(shù)據(jù)被提交給搜索引擎數(shù)據(jù)庫(kù)時(shí)間戳以及被檢索的次數(shù)。
5.權(quán)利要求1中的b)方法包括a)各網(wǎng)絡(luò)緩存之間除了父子關(guān)系外還有同屬關(guān)系來(lái)共同分擔(dān)緩存的負(fù)荷。每個(gè)對(duì)象緩存將獨(dú)立決定是否是從對(duì)象的主站點(diǎn)或該緩存的父緩存或鄰緩存中提取索引;b)采用域名服務(wù)器名稱(chēng)加地址的映射緩存來(lái)優(yōu)化公用緩存,并采用基于多用途的網(wǎng)際郵件擴(kuò)充協(xié)的頭來(lái)標(biāo)定對(duì)象的實(shí)時(shí)性;c)緩存管理支持封裝協(xié)議、無(wú)連接、代理http協(xié)議等三種訪問(wèn)協(xié)議;d)用URL加基于多用途的網(wǎng)際郵件擴(kuò)充協(xié)的頭來(lái)唯一識(shí)別一個(gè)緩存對(duì)象;e)用PGP認(rèn)證對(duì)象緩存;和f)直接非阻滯磁盤(pán)和網(wǎng)絡(luò)I/O來(lái)提取摘要,以以便跨平臺(tái)和有效地管理線程、內(nèi)存和磁盤(pán)。
6.一個(gè)搜索引擎的網(wǎng)絡(luò)緩存管理系統(tǒng)包括a)一個(gè)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的加索引并保存索引數(shù)據(jù)到搜索引擎數(shù)據(jù)庫(kù)的系統(tǒng);和b)一個(gè)用戶(hù)通過(guò)緩存來(lái)實(shí)現(xiàn)搜索訪問(wèn)網(wǎng)絡(luò)對(duì)象的系統(tǒng);
7.權(quán)利要求6中的a)系統(tǒng)包括a)一個(gè)網(wǎng)絡(luò)用戶(hù)能訪問(wèn)得到的、用于臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的的緩存;b)一個(gè)自動(dòng)從對(duì)象緩存中來(lái)獲取和保存索引數(shù)據(jù)的存儲(chǔ)單元;c)一個(gè)能將索引數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)系統(tǒng)的傳輸單元;d)一個(gè)從分布式的網(wǎng)絡(luò)緩存那里收集索引數(shù)據(jù)的收集單元;e)一個(gè)將采集到的索引數(shù)據(jù)合并到數(shù)據(jù)存儲(chǔ)系統(tǒng)的合并單元;和f)一個(gè)計(jì)算數(shù)據(jù)存儲(chǔ)系統(tǒng)訪問(wèn)某一網(wǎng)絡(luò)數(shù)據(jù)對(duì)象次數(shù)的計(jì)算單元。
8.權(quán)利要求6中的b)系統(tǒng)包括a)一個(gè)用于網(wǎng)絡(luò)搜索的服務(wù)器緩存,臨時(shí)備份網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并在其緩存內(nèi)形成對(duì)象緩存,用戶(hù)訪問(wèn)對(duì)象緩存來(lái)實(shí)現(xiàn)訪問(wèn)它們所對(duì)應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象;b)一個(gè)用戶(hù)用于訪問(wèn)網(wǎng)絡(luò)對(duì)象的瀏覽器緩存,瀏覽器緩存將臨時(shí)備份用戶(hù)所請(qǐng)求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并在其緩存內(nèi)形成對(duì)象緩存,用戶(hù)通過(guò)訪問(wèn)這些緩存對(duì)象來(lái)實(shí)現(xiàn)用戶(hù)對(duì)所要求的網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn);和c)一個(gè)用于決定判斷緩存是否具有優(yōu)先執(zhí)行級(jí)別的決策器,若該緩存沒(méi)有優(yōu)先執(zhí)行級(jí)別,則從保存在緩存上的緩存對(duì)象中提取網(wǎng)絡(luò)數(shù)據(jù)對(duì)象及其索引數(shù)據(jù)。
全文摘要
本發(fā)明是關(guān)于互聯(lián)網(wǎng)和移動(dòng)網(wǎng)絡(luò)搜索引擎系統(tǒng)中的數(shù)據(jù)搜索和緩存管理的系統(tǒng)和方法,采用分層緩存技術(shù)來(lái)采集和管理分布式網(wǎng)絡(luò)數(shù)據(jù)對(duì)象,并將網(wǎng)絡(luò)數(shù)據(jù)對(duì)象和索引數(shù)據(jù)提供給搜索引擎數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)用戶(hù)。該方法包括如下三個(gè)子方法其一,通過(guò)訪問(wèn)保存在網(wǎng)絡(luò)緩存內(nèi)的對(duì)象緩存來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的訪問(wèn)。緩存對(duì)象與網(wǎng)絡(luò)數(shù)據(jù)對(duì)象一一對(duì)應(yīng)。緩存對(duì)象能訪問(wèn)得到其所對(duì)應(yīng)的網(wǎng)絡(luò)對(duì)象,且能被網(wǎng)絡(luò)用戶(hù)訪問(wèn)得到。其二,將從對(duì)象緩存中提取出來(lái)的索引數(shù)據(jù)自動(dòng)保存在網(wǎng)絡(luò)緩存中,索引數(shù)據(jù)與對(duì)象緩存所對(duì)應(yīng)的網(wǎng)絡(luò)對(duì)象一一對(duì)應(yīng)。其三,將索引數(shù)據(jù)從緩存?zhèn)鬏數(shù)剿阉饕鏀?shù)據(jù)庫(kù)或提供給網(wǎng)絡(luò)用戶(hù)。
文檔編號(hào)H04L29/06GK1804831SQ200510001969
公開(kāi)日2006年7月19日 申請(qǐng)日期2005年1月13日 優(yōu)先權(quán)日2005年1月13日
發(fā)明者陳翌, 何余良 申請(qǐng)人:陳翌, 何余良