專利名稱::用于進行對象檢索的分布式計算機數(shù)據(jù)庫系統(tǒng)和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機數(shù)據(jù)庫系統(tǒng),更具體來說涉及分布式計算機數(shù)據(jù)庫系統(tǒng)。本領(lǐng)域中一般都認(rèn)識到,在過去十幾年中,信息處理的性質(zhì)的兩個重大變化是,從以字母數(shù)字文本處理為主到多媒體處理的轉(zhuǎn)變,從前是分離的計算機由網(wǎng)絡(luò)連接起來,而網(wǎng)絡(luò)又由內(nèi)部網(wǎng)和因特網(wǎng)連接起來。第一種變化導(dǎo)致計算機上的計算機圖像變得與文本一樣普通。第二種變化導(dǎo)致大量的文本和多媒體信息能為人們所用。信息向人們開放程度的這種提高,是以查找相關(guān)信息的難度的增加為代價的。a)基于單詞的搜索引擎人們已經(jīng)開發(fā)了輔助信息檢索的搜索引擎,但是它們主要還是基于將查詢中的單詞與文本文檔中的單詞匹配。實際上,這意味著它們一般不能有效地檢索圖像和其它種類的多媒體的特征?;趩卧~的系統(tǒng)和基于非單詞的系統(tǒng)目前采用獨立和截然不同的方法來抽取相關(guān)信息。一種從基于單詞的數(shù)據(jù)庫抽取信息的方法是提交查詢形式的信息請求。根據(jù)查詢,計算機能從數(shù)據(jù)庫抽取與查詢所規(guī)定信息相關(guān)的信息。抽取的信息可用于確定查詢與數(shù)據(jù)庫中對象之間的“相似”或“相關(guān)”程度。人們已經(jīng)開發(fā)了各種計算機實現(xiàn)的相似性測量(similaritymeasure),用于在查詢和數(shù)據(jù)庫信息是自然語言的文檔時,比較查詢與數(shù)據(jù)庫中的對象。余弦測量(cosinemeasure)是一種常用的相似性測量。余弦測量的表達(dá)公式是COS(v,w),其中向量v表示查詢,向量w表示文檔。這些向量所在的空間中,每個可能的單詞(或同義詞集)代表空間的一維。要了解關(guān)于余弦測量的進一步信息,可參考G.Salton的《自動文本處理》(AutomaticTextProcessing,Addison-Wesley,Reading,MA,1989),G.Salton、J.Allen和C.Buckley的《大型文本文件的自動構(gòu)造和檢索》(Automaticstructuringandretrievaloflargetextfiles,Comm.ACM,3797-108,1994)。b)基于非單詞的搜索引擎如上所述,基于非單詞的的技術(shù)采用的抽取相關(guān)信息的方法與基于單詞的系統(tǒng)所使用的截然不同。基于非單詞的信息檢索技術(shù)用于例如醫(yī)學(xué)中從人體圖象抽取診斷信息時是有益的。肺癌是最難治療的癌癥之一。早期發(fā)現(xiàn)對于提高生還率來說是重要的。胸部CT掃描比傳統(tǒng)的X光胸透技術(shù)更有效,但是CT掃描產(chǎn)生的需要檢查的圖象更多,這就必然要用計算機輔助執(zhí)行大規(guī)模的篩選程序。CT圖象的計算機輔助診斷,要求抽取大量的特征,諸如肺區(qū)、血管、氣泡和腫瘤。這些特征的檢測要用計算機實現(xiàn)的閥值算法并作剔除CT掃描儀的制造物的修勻。這些特征又具有涉及諸如它們的形狀、面積、厚度和在肺中的位置等屬性的復(fù)雜結(jié)構(gòu)。在計算機上實現(xiàn)檢查這類特征的這類算法時,采用對象數(shù)據(jù)庫是有用的。對象數(shù)據(jù)庫是一批按照某種數(shù)據(jù)模型組織并存儲在計算機存儲介質(zhì)上的數(shù)據(jù)或信息對象。每個信息對象以及數(shù)據(jù)對象都有一個類型,諸如圖象、聲音或視頻流,例如文本文件或結(jié)構(gòu)化文檔。每個信息都由一個對象標(biāo)識符(OID)唯一地標(biāo)識。OID可以是因特網(wǎng)統(tǒng)一資源定位器(URL)或某種其它形式的標(biāo)識符,諸如本機對象標(biāo)識符(localobjectidentifier)。含有圖象、聲音和/或視頻流的數(shù)據(jù)庫不但能包括信息對象本身,也能包括特征和元數(shù)據(jù)(metadata)。用于這種數(shù)據(jù)庫的數(shù)據(jù)模型能支持許多抽象層次上的信息的表示,這些層次包括1.數(shù)據(jù)表示層,它含有信息對象的實際數(shù)據(jù)。2.數(shù)據(jù)對象層,它存儲從信息對象抽取的數(shù)據(jù)對象(諸如線和區(qū)域)。這個層上的對象沒有域解釋(domaininterpretation)。3.域?qū)ο髮樱鼘⒁粋€域?qū)ο笈c數(shù)據(jù)對象層的每個對象關(guān)聯(lián)4.域事件層,它將域?qū)ο蠡ハ嚓P(guān)聯(lián),提供空間或時間關(guān)系的語義表示。數(shù)據(jù)對象層(即上述的層2)的特征可以表示為一組獨立于域的數(shù)據(jù),諸如線和區(qū)域。域?qū)?即上述的層3和4)的特征可以表示為一組按域關(guān)系彼此相關(guān)的域?qū)ο???疾炝硪粋€醫(yī)學(xué)例子。乳房X光術(shù)是早期檢查乳腺癌的一種最有效的方法。乳腺癌是婦女患癌的一個主要原因。人工閱讀乳房X光片耗費人力,所以計算機輔助是必不可少的。乳房X光片中有非常多已經(jīng)判明是對正確診斷有重要意義的特征,諸如凝結(jié)的微鈣化體(clusteredmicrocalcifications)、星形損傷(stellatelesions)和腫瘤。這些每個都能表示為一組具有復(fù)雜結(jié)構(gòu)的醫(yī)學(xué)域?qū)ο蟆@?,星形損傷具有由spincules環(huán)繞的中央體(centralmass)構(gòu)成的復(fù)雜結(jié)構(gòu)。而spincules又有復(fù)雜的星形結(jié)構(gòu)。抽取這些復(fù)雜的域?qū)ο笠约八鼈兓ハ嘀g的關(guān)系,對于乳腺癌的有效檢查是重要的。圖象、聲音和視頻流的特征可以在計算機中表示為一組存儲在數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)。特征可以劃分為以下類型·不能直接從信息對象抽取的、通常描述的是關(guān)于信息對象的其它數(shù)據(jù)的特征,諸如攝影者姓名或拍攝日期。這種特征稱為元數(shù)據(jù)?!つ茉诓迦霐?shù)據(jù)庫時直接從信息對象抽取的特征。·不到需要時不作計算的特征。特征可以簡單到是一個諸如圖象亮度的屬性的值,但是許多特征更為復(fù)雜,因此是用復(fù)雜的數(shù)據(jù)結(jié)構(gòu)表示的。這種復(fù)雜特征的一個例子是,乳房X光片中星形損傷的結(jié)構(gòu)的表示。一般來說,可以通過分析文檔從結(jié)構(gòu)化文檔中抽取特征,以產(chǎn)生數(shù)據(jù)結(jié)構(gòu);可以通過使用已經(jīng)為在計算機上的實現(xiàn)而開發(fā)的許多特征抽取算法中的一個算法從非結(jié)構(gòu)化文檔中抽取特征。如結(jié)構(gòu)化文檔的情況一樣,從非結(jié)構(gòu)化文檔中抽取特征也產(chǎn)生數(shù)據(jù)結(jié)構(gòu)。人們已經(jīng)為諸如圖象、聲音和視頻流的多媒體開發(fā)了大量的各種特征抽取算法。要探討這類算法,應(yīng)當(dāng)參考由編輯A.DelBimbo編輯的《第9屆圖象分析與處理國際研討會會刊》(標(biāo)題原文TheNinthInternationalConferenceonImageAnalysisandProcessing,卷1311,Springer,1997年9月)。例如,醫(yī)學(xué)圖象一般用邊沿檢查算法(edgedetectionalgorithms)來抽取數(shù)據(jù)對象,而用特定于域的知識將數(shù)據(jù)對象分類為有醫(yī)學(xué)意義的對象,諸如血管、損傷和腫瘤。傅立葉和弱波變換以及許多過濾算法也用于特征抽取。例如,弱波分析已經(jīng)被用來特征化區(qū)域的紋理和確定形狀(諸如字母)而不管該形狀在圖象內(nèi)的位置或方向。表示特征的數(shù)據(jù)結(jié)構(gòu)一般符合數(shù)據(jù)庫的某個數(shù)據(jù)模型,數(shù)據(jù)模型決定了所允許的分量(component)種類和屬性值。每個特征可以具有一個或多個與表示該特征的數(shù)據(jù)結(jié)構(gòu)的分量關(guān)聯(lián)的值。在最簡單的情況中,數(shù)據(jù)結(jié)構(gòu)可以有一個單一的、具有一個關(guān)聯(lián)值的分量,特征可以由對象的一個屬性來表示。更復(fù)雜的特征可以由若干互相關(guān)聯(lián)的、每個都有屬性值的分量來表示。處于域?qū)拥臄?shù)據(jù)模型經(jīng)常被稱為主體(ontology)。主體為諸如醫(yī)學(xué)的特定域內(nèi)的知識建立模型。主體可包括概念網(wǎng)絡(luò)(conceptnetwork)、專業(yè)詞匯、語法形式和推理規(guī)則。特別地,主體定義對象可擁有的特征以及如何從對象抽取特征。對象的每個特征都有一個關(guān)聯(lián)的權(quán)重(weight)來代表該特征的“強度”或者說對象具有該特征的程度。當(dāng)前用于從信息對象抽取特征的系統(tǒng)使用的主體非常簡單,此外,主體在系統(tǒng)的設(shè)計中是隱式的,不是系統(tǒng)的一個單獨成分。結(jié)果,當(dāng)前的系統(tǒng)不能在因其而設(shè)計系統(tǒng)的單一本體以外使用。如果不徹底重新設(shè)計系統(tǒng),要使用不同的本體、甚而向本體添加新功能一般是都不可能的。這類系統(tǒng)不適合現(xiàn)代應(yīng)用領(lǐng)域的典型的那些大型、復(fù)雜、演變的本體。當(dāng)信息對象不是用自然語言編寫的文檔時,信息檢索系統(tǒng)就不能用上述的余弦測量來測量信息的相關(guān)性,因此人們開發(fā)了其它測量(下文作討論),用于在這些系統(tǒng)中從圖象或其它多媒體抽取特征。這種區(qū)別進一步說明了基于單詞的與基于非單詞的信息檢索系統(tǒng)之間的差異—正如本領(lǐng)域的熟練人員所認(rèn)識到的那樣。要幫助在代表圖象特征之類的數(shù)據(jù)庫中查找信息,要采用稱為索引(indexes)的特殊數(shù)據(jù)結(jié)構(gòu)。就解決相似性索引(similarityindexing)的問題而言,當(dāng)前的索引技術(shù)是非常有限的。許多搜索引擎局限于索引附屬于信息對象的元數(shù)據(jù),而不索引信息對象的內(nèi)容。其它能直接索引信息對象的內(nèi)容的搜索引擎使用的索引技術(shù),功能隨著規(guī)模的增加而急劇衰減,這些搜索引擎一般只是選擇一些信息對象,而不排定它們的次序。當(dāng)前的技術(shù)一般要求每個屬性或特征有單獨的索引。這種技術(shù)中即使最復(fù)雜的索引也局限于非常少量的屬性。由于每個索引可以大至數(shù)據(jù)庫本身,這種技術(shù)在有成百上千的屬性的情況下就不能正常發(fā)揮作用,正如常見的要直接索引諸如圖象、聲音和視頻流的對象時的情形一樣。此外,維護每個索引結(jié)構(gòu)的關(guān)聯(lián)開銷也很可觀。這就限制了能索引的屬性的數(shù)量。當(dāng)前系統(tǒng)不能擴展到能支持有許多-包括圖象、聲音和視頻流-對象類型、數(shù)百萬個特征、同時涉及許多對象類型和特征的查詢、不斷添加的新對象類型和特征的數(shù)據(jù)庫。當(dāng)前技術(shù)的另一個特點是,它在檢索時將各信息對象作為單獨的單元對待,即要么將信息對象作為一個整體來檢索,要么就根本不檢索。例如,萬維網(wǎng)瀏覽器按單元檢索每個文檔,只有整個文檔都被下載并格式化后才提交文檔。對象內(nèi)的個別數(shù)據(jù)項甚至段落都不個別作索引。有些搜索引擎在這方面甚至更加極端,即它們僅僅把Web站點進行歸類。當(dāng)前的搜索引擎通常都包括陳舊的索引項,就是說,自打文檔被索引以后,產(chǎn)生索引項的文檔被更新過或已經(jīng)被刪除。保留陳舊索引項是有必要的,因為要不斷地監(jiān)視這么多的文檔,成本極其高。對于許多文檔來說,保留陳舊索引項是可以接受的,但是對某些時間敏感型文檔—諸如含有商品價格的文檔—來說,保持索引的最新狀態(tài)是重要的。有關(guān)上述思想的其它信息可參閱下列文獻1.L.Aiello、J.Doyle和S.Shapiro編輯的《第五屆知識表示和推理原理國際大會》(FifthIntern.Conf.onPrinciplesofKnowledgeRepresentationandReasoning,MorganKaufman出版社,SanMateo,CA,1996)2.K.Baclawski的《分布式計算機數(shù)據(jù)庫系統(tǒng)與方法》(Distributedcomputerdatabasesystemandmethod,1997年12月,美國專利申請?zhí)?,694,593,受讓人-西北大學(xué)(位于美國麻省波士頓))3.N.FridmanNoy的《試驗科學(xué)中智能信息檢索的知識表示》(KnowledgeRepresentationforIntelligentInformationRetrievalinExperimentalScience,博士論文,西北大學(xué)計算機學(xué)院(位于美國麻省波士頓),1997)4.P.Hayes和J.Carbonnel.Scout的《自動化的查詢相關(guān)文檔總結(jié)》(automatedquery-relevantdocumentsummarization,TechnicalReport1997ProjectSummary,Carnegie(卡內(nèi)基)集團(美國賓州匹茲堡),1997)5.Y.Ohta的《戶外自然彩色景觀的基于知識的解釋》(Knowledge-BasedInterpretationofOutdoorNaturalColorScences.Pitma(美國麻省波士頓),1985)6.M.Zloof的《舉例查詢表和表單的調(diào)用和定義》(Query-by-exampletheinvocationanddefinitionoftablesandforms,InProc.Conf.OnVeryLargeDatabases,1-24頁,1975)在以上發(fā)明背景介紹中引用的文獻,本文引以參考。期望提供這樣一種信息檢索系統(tǒng),它能用單一的索引系統(tǒng)從基于單詞和非單詞的信息的統(tǒng)一數(shù)據(jù)庫檢索信息-信息包括文檔、圖象和其它形式的多媒體,另外還能克服當(dāng)前系統(tǒng)的許多性能和其它問題及局限。這種信息檢索系統(tǒng)最好是高度可伸縮的、多用途的、堅固的和經(jīng)濟的。本發(fā)明歸屬于在信息檢索裝置中處理查詢,進行基于單詞和基于非單詞的數(shù)據(jù)庫信息的檢索,方法是從查詢中抽取一些特征,將每個特征分割成特征片斷(featurefragments),將每個特征片斷散列(hashing)成散列特征片斷(hashedfeaturefragments)。可以利用散列特征片斷來訪問散列表(hashtable),以從中獲得可用于獲得與查詢相關(guān)的數(shù)據(jù)庫信息的對象標(biāo)識符。另一個方面,本發(fā)明歸屬于一種為方便數(shù)據(jù)庫檢索而索引信息的信息索引系統(tǒng),方法是從信息中抽取一些特征,將每個特征分割成特征片斷,將每個特征片斷散列成散列特征片斷。用散列特征片斷來訪問散列表,以存儲指定散列特征片斷所決定的、應(yīng)當(dāng)將信息存儲在該處的位置的對象標(biāo)識符。信息檢索裝置可以在分布式計算機數(shù)據(jù)庫系統(tǒng)中實現(xiàn)。一般來說,如本文所用的術(shù)語“特征”,系指與某信息對象關(guān)聯(lián)的或者從該信息對象的內(nèi)容派生的、在適用的域內(nèi)有意義并且與適用的主體相符的任何信息或知識-不管該信息對象代表的是文檔、圖象還是其它多媒體。所以,例如如果信息對象代表-例如要參加攝影比賽的-一張人臉攝影圖象,則圖象的特征包括眼睛、鼻子和嘴,這是因為它們是評委們在瀏覽圖象時能看到的。如果將同一張圖象用于皮膚病診斷,域和主體就變化了,特征甚至能包括肉眼不能觀察到的表面缺陷。更具體來說,按照本發(fā)明一個方面的分布式計算機數(shù)據(jù)庫系統(tǒng)可包括一個或多個前端計算機和一個或多個由網(wǎng)絡(luò)互連起來、成為一個檢索包括例如圖象、聲音和視頻流以及普通和結(jié)構(gòu)化文檔的數(shù)據(jù)庫對象的搜索引擎的計算機節(jié)點。將最好與要檢索的數(shù)據(jù)庫對象的格式相同的查詢或查詢對象,從用戶發(fā)送到一個前端計算機,后者將查詢轉(zhuǎn)發(fā)到搜索引擎的稱為內(nèi)部節(jié)點的一個計算機節(jié)點。內(nèi)部節(jié)點從查詢抽取特征,由特征生成片斷,然后散列這些特征片斷。每個散列特征片段被傳遞到網(wǎng)絡(luò)的一個節(jié)點。網(wǎng)絡(luò)上每個接收到散列特征片斷的節(jié)點用散列特征片斷在其各自的數(shù)據(jù)庫分區(qū)上進行檢索。本地數(shù)據(jù)庫的檢索結(jié)果由內(nèi)部節(jié)點收集。如果用戶請求,就由內(nèi)部節(jié)點第二次重復(fù)這個過程,來改進查詢的結(jié)果。以上分布式計算機數(shù)據(jù)庫系統(tǒng)可以實現(xiàn)得具有許多有用的功能。例如,系統(tǒng)可以被實現(xiàn)得支持對諸如圖象、聲音和視頻流以及普通和結(jié)構(gòu)化文檔的信息對象的索引和檢索。信息對象本身的內(nèi)容以及附屬于對象的任何元數(shù)據(jù),二者都能被索引。最好要根據(jù)本體來檢索與查詢相關(guān)的對象,本體被視為系統(tǒng)的獨立成分,可能是大型、復(fù)雜和演變的。信息對象本身不必存儲在數(shù)據(jù)庫系統(tǒng)本身中-只要能在數(shù)據(jù)庫系統(tǒng)中得到信息對象的位置,例如只要數(shù)據(jù)庫存儲指向存儲在遠(yuǎn)程位置的信息對象的指針。例如,數(shù)據(jù)庫可以存儲在與因特網(wǎng)或內(nèi)部網(wǎng)相連的遠(yuǎn)程服務(wù)器存儲的文檔的URL(統(tǒng)一資源定位器)。此外,系統(tǒng)能根據(jù)信息對象是時間敏感的的指示,僅在(不是直到)對象與查詢相關(guān)時才下載對象作處理,由此消除了數(shù)據(jù)庫中的陳舊數(shù)據(jù)。本發(fā)明的分布式計算機數(shù)據(jù)庫系統(tǒng)也能支持索引下述全部三種特征元數(shù)據(jù)、在對象被索引時計算出的特征和在查詢處理期間計算出的特征。特征可以是復(fù)雜的數(shù)據(jù)結(jié)構(gòu),可以用任何適合的計算機實現(xiàn)的相似性測量-諸如特征對比模型(FeatureContrastModel),將查詢與信息對象作比較。在同一個查詢或信息對象內(nèi)可以使用一個或一個以上的相似性測量。數(shù)據(jù)庫中的對象可以將相似性函數(shù)(similarityfunctions)與它們要與其一起被采用的特征類型相關(guān)聯(lián),甚至指定這些相似性函數(shù)。分布式計算機數(shù)據(jù)庫系統(tǒng)能用一種能擴展支持高性能分布式索引方法來支持索引很大數(shù)量的對象類型-包括圖象、聲音和視頻流,數(shù)百萬計的特征,同時涉及許多對象類型和特征的查詢,以及不斷添加到系統(tǒng)的新對象類型和特征。這就避免了當(dāng)前系統(tǒng)的諸多限制。該索引方法例如允許索引和檢索單一信息對象-而不是如許多當(dāng)前系統(tǒng)中那樣只能是整個文檔-內(nèi)的個別數(shù)據(jù)項。為了向用戶顯示,分布式計算機數(shù)據(jù)庫系統(tǒng)從一些相關(guān)源收集數(shù)據(jù)庫項,并且例如將它們組織成一個供向用戶表示的單一表格。此外,用戶還可以規(guī)定所請求的信息是時間敏感的,在這種情況下,本發(fā)明將下載信息對象的當(dāng)前狀態(tài)并處理它,以抽取相關(guān)信息。這就避免了當(dāng)前搜索引擎的含有大量陳舊索引項的缺陷。在本發(fā)明的另一個方面,包括一個或多個前端計算機和一個或多個由網(wǎng)絡(luò)互連的計算機節(jié)點的分布式計算機數(shù)據(jù)庫系統(tǒng)按搜索引擎來運行。希望查詢數(shù)據(jù)庫的用戶,將查詢傳輸?shù)揭粋€前端計算機,后者接著將查詢傳遞到網(wǎng)絡(luò)的一個計算機節(jié)點。接收查詢的節(jié)點被稱作搜索引擎的內(nèi)部節(jié)點,內(nèi)部節(jié)點用本體中指定的特征抽取算法抽取所接收查詢的特征。將特征分割成大小有界的片斷。用許多現(xiàn)成的散列算法(hashingalgorithms)中的一個算法散列這些片斷。每個散列片斷的一部分被內(nèi)部節(jié)點用作尋址索引(addressingindex),內(nèi)部節(jié)點通過它將散列查詢特征(hashedqueryfeature)傳輸給網(wǎng)絡(luò)上的節(jié)點。網(wǎng)絡(luò)上每個接收散列查詢特征的節(jié)點,用散列查詢特征在其各自的數(shù)據(jù)庫分區(qū)上進行檢索。找到散列查詢特征的對應(yīng)數(shù)據(jù)的節(jié)點返回例如處理這個片斷的對象的OIDs??梢哉{(diào)用計算機實現(xiàn)的-例如特定于該片斷類型的-匹配函數(shù)(matchingfunction)被激活以選擇例如要被返回的一個OIDs子集。內(nèi)部節(jié)點收集所抽取的信息對象,然后根據(jù)與查詢以及在查詢中但不在返回的對象中的片斷一致的片斷,計算計算機實現(xiàn)的相似性函數(shù)或算法。相似性函數(shù)被用來例如根據(jù)計算出的匹配程度-即相似或相關(guān)程度-來排定對象的次序。用于各片斷的函數(shù)可以是例如特定于該片斷的類型的。結(jié)果例如是一個排定次序的對象標(biāo)識符的列表,或者一個以與對象關(guān)聯(lián)的或是從對象抽取的數(shù)據(jù)為內(nèi)容的表格。內(nèi)部節(jié)點也能在一個以上文檔中含有相同信息時減少冗余。特別是,例如可以按照上文引用的Hayes和Carbonell的最大邊際相關(guān)(MaximumMarginalRelevance)(MMR)尺度來排列所抽取的信息。結(jié)果無論是列表還是表格,都被傳輸?shù)角岸斯?jié)點,后者格式化對用戶的應(yīng)答。例如,如果前端節(jié)點是萬維網(wǎng)服務(wù)器,則前端節(jié)點就構(gòu)造一個HTML格式的頁面,頁面內(nèi)含有一個URL列表或一個每項都有被抽取的部分相關(guān)文檔以及一個對該文檔的URL的引用的表格。以上的分布式計算機數(shù)據(jù)庫系統(tǒng)可以以與處理查詢的方式相同的方式處理要被索引的信息對象-除非查詢節(jié)點只將數(shù)據(jù)存儲在它們各自的數(shù)據(jù)庫中,并且沒有信息被返回給內(nèi)部節(jié)點。在本發(fā)明的另一個方面,分布式計算機數(shù)據(jù)庫系統(tǒng)也能應(yīng)用戶的請求,提供更高層次的服務(wù),例如如上所述的1級服務(wù)以及2和3級服務(wù)。對于2或3級服務(wù),要用每個OID的一部分作為尋址索引,把在上述基本服務(wù)中獲得的OIDs傳輸?shù)骄W(wǎng)絡(luò)上的其它節(jié)點。此外,如果請求了3級服務(wù),就把每個對象與查詢共有的特征與OIDs一起傳輸?shù)骄W(wǎng)絡(luò)上的相同節(jié)點。網(wǎng)絡(luò)上每個接收OID的節(jié)點用該OID在其各自的數(shù)據(jù)庫上檢索相應(yīng)的對象信息。在2級服務(wù)中,要檢索輔助信息并將其傳輸?shù)角岸斯?jié)點。輔助信息可以包括例如對象的URL或者對象小結(jié)或二者。對于3級服務(wù),要根據(jù)對象擁有但查詢卻不擁有的片斷來計算一個不相似性值。將不相似性值以及對象的有關(guān)輔助信息傳輸給內(nèi)部節(jié)點。不相似性值可以使用特定于片斷類型的函數(shù)。內(nèi)部節(jié)點收集不相似性值,用它們來修改在第一級處理中獲得的對象的相似性值。用修改了的值來排定對象的次序。將OIDs和具有最大相似性值的對象的任何有關(guān)輔助信息傳輸給前端節(jié)點。3級服務(wù)另外還能下載和處理原始信息對象-如果這是指定的。指定的方式有多種例如1.本體可以指定某類型的片斷是時間敏感的。2.信息對象自己可以指定它是時間敏感的。3.查詢可以指定有些或全部片斷是時間敏感的。在上述的各種情況下,為了避免陳舊數(shù)據(jù),要在有請求并且最近的下載超過規(guī)定時間長度時下載信息對象。時間長度可由用戶規(guī)定,可以是個系統(tǒng)參數(shù),或者是例如根據(jù)信息對象的類型動態(tài)計算出來的。無論所請求的是哪一級服務(wù),前端節(jié)點都例如根據(jù)OIDs和內(nèi)部節(jié)點傳輸?shù)娜魏屋o助信息來格式化對用戶的應(yīng)答。例如,如果前端節(jié)點是萬維網(wǎng)服務(wù)器,則前端節(jié)點可以為每個對象構(gòu)造一個HTML格式的、含有對URL的引用和輔助信息的頁面。所以,本發(fā)明能提供這樣一種信息檢索系統(tǒng),它能用單一的索引系統(tǒng)從基于單詞和非單詞的信息的統(tǒng)一數(shù)據(jù)庫檢索包括文檔、圖象和其它形式的多媒體的信息,另外還能克服當(dāng)前系統(tǒng)的許多性能和其它問題及局限。本發(fā)明也能提供一種方便信息檢索、與檢索系統(tǒng)協(xié)作的信息索引系統(tǒng)。這種信息索引和檢索系統(tǒng)可以在分布式模型的基礎(chǔ)上建立,因此是高度可伸縮的、多用途的、堅固的和經(jīng)濟的。參考下面結(jié)合以下各附圖的說明可以更好地理解本發(fā)明的以上和其它優(yōu)點圖1是按照本發(fā)明的分布式計算機數(shù)據(jù)庫系統(tǒng)的實施例的框圖;圖2是圖1的分布式計算機數(shù)據(jù)庫系統(tǒng)的流程圖形式的框圖,該圖顯示了一種按照本發(fā)明實施例處理不同服務(wù)層次的查詢并返回結(jié)果-包括從外部服務(wù)器下載時間敏感的對象信息-的方法;圖3是圖1的分布式計算機數(shù)據(jù)庫系統(tǒng)的流程圖形式的框圖,該圖顯示了一種按照本發(fā)明實施例索引信息對象的方法;圖4A-4F的框圖分別表示可以與圖2和3的實施例一起使用的查詢消息、查詢響應(yīng)消息、對象消息、對象響應(yīng)消息、插入消息、插入對象消息的格式;圖5是按照本發(fā)明實施例的圖1、2和3中的內(nèi)部節(jié)點的一個代表性內(nèi)部節(jié)點的框圖;圖6是按照本發(fā)明實施例的圖1、2和3中的查詢節(jié)點的一個代表性查詢節(jié)點的框圖;圖7是按照本發(fā)明實施例的圖1、2和3中的對象節(jié)點的一個代表性對象節(jié)點的框圖;圖8是按照用戶計算機、前端計算機、內(nèi)部節(jié)點、查詢節(jié)點、對象節(jié)點以及外部服務(wù)器的每個的示例性實施例的計算機系統(tǒng)的框圖。參看圖1,概括地說,按照本發(fā)明的分布式計算機數(shù)據(jù)庫系統(tǒng)100的一個實施例包括用戶計算機102,它在例如通信鏈路103、104-例如網(wǎng)絡(luò)-上與許多前端計算機105之一通信。前端計算機105(在其它實施例中也可以是用戶計算機)本身又與一個包括一個或多個由局域網(wǎng)108互連的計算機節(jié)點106、109、110的搜索引擎通信。各個計算機節(jié)點106、109、110可以包括為搜索引擎提供數(shù)據(jù)的本機磁盤,或者,可以代之以或額外地通過網(wǎng)絡(luò)從磁盤服務(wù)器或其它外部服務(wù)器111獲得數(shù)據(jù)。搜索引擎的每個計算機節(jié)點106、109、110都可以是若干種類中的任何一種,包括內(nèi)部節(jié)點106、查詢節(jié)點109和對象節(jié)點110。搜索引擎的節(jié)點106、109、110未必代表截然不同的計算機。在一個示例性實施例中,搜索引擎由單一的計算機組成,它承擔(dān)所有內(nèi)部節(jié)點106、查詢節(jié)點109和對象節(jié)點110的角色。在另一個示例性實施例中,搜索引擎由用作各個內(nèi)部節(jié)點106、查詢節(jié)點109和對象節(jié)點110的分立的計算機組成。本領(lǐng)域的熟練人員知道,可能的變化有很多,但仍然不偏離最佳實施例的范圍和精神。在操作期間,用戶計算機102將查詢在鏈路103上傳輸?shù)揭粋€前端計算機105。前端計算機105提供搜索引擎的用戶界面,調(diào)用由搜索引擎進行的數(shù)據(jù)檢索,以處理查詢,生成應(yīng)答,然后-至少在一個實施例中-將應(yīng)答返回給用戶計算機102。參照圖2首先考察對查詢的處理,在一個實施例中,當(dāng)用戶從用戶計算機102通過連接或鏈路211傳輸(步驟201)查詢時,前端計算機213接收該查詢。前端計算機213負(fù)責(zé)建立與用戶計算機212的連接211,使用戶能傳輸查詢,能接收適當(dāng)格式的應(yīng)答。前端計算機213也負(fù)責(zé)任何驗證和管理功能。例如,前端計算機213可以是一個用HTTP協(xié)議與用戶計算機212通信的萬維網(wǎng)服務(wù)器。在驗證了查詢可以接受之后,前端計算機213進行為使查詢與搜索引擎的要求一致所必需的任何重新格式化。要求在數(shù)據(jù)庫中檢索對象的查詢的格式,最好與數(shù)據(jù)庫中對象的格式相同。每個查詢可以包括一個或多個表示所要檢索的數(shù)據(jù)項的標(biāo)記或變量。這個技術(shù)可用于對對象數(shù)據(jù)庫的模糊查詢。術(shù)語“模糊查詢”指的是一種查詢,它指定按照可能僅僅滿足到該查詢所規(guī)定的某個程度的一組條件檢索出的信息。例如,某個尋找有關(guān)高個子的信息的模糊查詢可能規(guī)定高于7英尺(213cm)的為高(100%),低于5英尺(152cm)的為不高(0%),身高在5至7英尺之間的人為身高程度在0%至100%之間。最好用與從信息對象抽取特征時所用的本體相同的本體來抽取查詢的特征。前端計算機213然后將查詢傳輸?shù)剿阉饕娴囊粋€內(nèi)部節(jié)點215(步驟202),該內(nèi)部節(jié)點于是被定義為負(fù)責(zé)該查詢的搜索引擎內(nèi)部節(jié)點。內(nèi)部節(jié)點215按照本體從查詢抽取特征。從結(jié)構(gòu)化查詢或文檔抽取特征,方法是分析查詢或文檔,生成一個數(shù)據(jù)結(jié)構(gòu),然后將該數(shù)據(jù)結(jié)構(gòu)劃分成(有可能是重疊的)稱作片斷的子結(jié)構(gòu)。查詢的子結(jié)構(gòu)被用來在數(shù)據(jù)庫中尋找匹配的片斷,因此它們也被稱作探針(probes)。從結(jié)構(gòu)化查詢或文檔抽取特征,方法是使用例如以可由內(nèi)部節(jié)點215執(zhí)行的計算機程序?qū)崿F(xiàn)的特征抽取算法。特征抽取產(chǎn)生一個由一批互相相關(guān)的域?qū)ο蠼M成的數(shù)據(jù)結(jié)構(gòu)。該數(shù)據(jù)結(jié)構(gòu)被劃分成(可能是重疊的)子結(jié)構(gòu)-如結(jié)構(gòu)化文檔的情形一樣,這些結(jié)構(gòu)是非結(jié)構(gòu)化文檔的片斷。已經(jīng)為諸如聲音、圖象和視頻流的媒體開發(fā)了大量不同的特征抽取算法,例如用于圖象的邊沿檢測(edgedetection)、分割和分類算法。也用傅立葉和弱波變換以及許多過濾算法來從圖象和聲音抽取特征。視頻流包含一系列圖象和一個同步聲道。除了從個別圖象和聲道抽取特征外,還可以將視頻流組織成場景(scences);可以將連續(xù)圖象中的域?qū)ο蠡ハ啾硎荆梢詫⒙暤乐械挠驅(qū)ο笈c對應(yīng)場景中的域?qū)ο箨P(guān)聯(lián)。從視頻流抽取的域?qū)ο笠部梢园ㄟ@些域?qū)ο蟆C總€特征可以具有一個或多個與代表該特征的數(shù)據(jù)結(jié)構(gòu)的分量相關(guān)聯(lián)的值。在最簡單的情形中,數(shù)據(jù)結(jié)構(gòu)的構(gòu)成是有一個關(guān)聯(lián)值的一個單一分量。在這種情況下,特征代表對象的一個屬性。更復(fù)雜的特征將含有數(shù)個互相關(guān)聯(lián)的、每個都可以有屬性值的分量。代表特征的數(shù)據(jù)結(jié)構(gòu)與本體規(guī)定的數(shù)據(jù)模型一致。數(shù)據(jù)模型確定所允許的分量和屬性值的種類。每個特征的每個片斷都有一個代表特征強度的關(guān)聯(lián)權(quán)重。如果某片斷在數(shù)據(jù)庫中的存在是非常普遍的,那么它可能無助于搜索引擎的目的-即識別那些與特定查詢相似的對象。例如圖像的亮度。這種片斷的可能值將被劃分成一批范圍連續(xù)而不重疊的值。當(dāng)某個查詢的片斷被抽取時,也可以將代表接近但不包括查詢中該片斷的值的值范圍的片斷包括進來,作為該查詢的片斷,但它們的權(quán)重小于代表一個包括該查詢的片斷的值的值范圍的片斷。特定片斷的值范圍既可以在本體中明確規(guī)定,也可以在搜索引擎索引對象時動態(tài)地建立。當(dāng)查詢片斷中出現(xiàn)標(biāo)記(marker)時,標(biāo)記代表一個要檢索的數(shù)據(jù)項。將標(biāo)記用文檔中的任意項替換,使得修改后的片斷按照本體是一個合法的片斷。例如,一個請求房屋顏色的片斷會檢索對象數(shù)據(jù)庫中存在的房屋的所有顏色,所以要用例如白色、褐色或其它顏色來替換該標(biāo)記。內(nèi)部節(jié)點通過使用預(yù)先定義的散列函數(shù)(hashingfunction)來編碼查詢的每個片斷。在生成各種查詢節(jié)點上用于在本機數(shù)據(jù)庫中本地存儲數(shù)據(jù)的存儲位置的索引時,最好也使用相同的散列函數(shù)。用相同的散列函數(shù)為數(shù)據(jù)存儲生成索引和為查詢生成散列探針(hashedprobes),保證了在數(shù)據(jù)的存儲期間,數(shù)據(jù)是均勻地分布在搜索引擎的各查詢節(jié)點上的,保證了在查詢的處理期間,探針是均勻地散布在各查詢節(jié)點上的。用散列函數(shù)得出的散列值有一個第一部分,其作用是標(biāo)識數(shù)據(jù)為了存儲而要被發(fā)送到的查詢節(jié)點,或者要被作為探針發(fā)送的查詢片斷。散列值也有一個第二部分,它被用來標(biāo)識數(shù)據(jù)要被存儲的或要從其提取數(shù)據(jù)的查詢節(jié)點中的位置。所以,就查詢來說,散列查詢片斷(hashedqueryfragments)被分布(步驟203)在連接或鏈路216、217上,作為指向-如散列值的第一部分所標(biāo)識的-搜索引擎的某些查詢節(jié)點216、221的探針。在第1或基本服務(wù)層,探針符合數(shù)據(jù)最初在查詢節(jié)點上存儲所用的索引片斷的查詢節(jié)點219、221響應(yīng)查詢,例如將符合所請求信息的索引字的OIDs在連接或鏈路218、214上傳輸(步驟204)給內(nèi)部節(jié)點224。這樣,散列探針與索引字的本機散列表之間的所有匹配,都被返回或收集到最初散列查詢片斷的內(nèi)部節(jié)點224。之后,內(nèi)部節(jié)點224確定在查詢中返回的每個對象的相關(guān)性。相關(guān)性確定是由內(nèi)部節(jié)點224通過比較查詢和被返回OIDs的對象的相似程度而作出的。查詢與對象間的相似測量可以是例如余弦測量,由COS(v,w)表示,其中向量v表示查詢,向量w表示對象。這些向量位于由每個片段表示空間的一維的空間。如果信息對象不是用自然語言編寫的文檔,信息檢索系統(tǒng)就不能采用上述的余弦測量來測量信息的相關(guān)性。另一個適合其它信息類型的兩個對象之間的相似性測量是在上文提及的用于余弦測量的同一個空間中的距離函數(shù);然而,有令人信服的證據(jù)表明,人類對相似性的感知,并不滿足距離函數(shù)的公理。要討論這一點,應(yīng)參考《目視光學(xué)系統(tǒng)中以內(nèi)容為中心的計算》(原文標(biāo)題Content-CentricComputinginVisualSystem,見TheNinthInternationalConferenceonImageAnalysisandProcessing,卷二,1-13頁,1997年7月),這里采用其內(nèi)容作為參考。相應(yīng)地,似乎是當(dāng)前最成功的方法的理想模型是“特征對比模型”,其說明可見《相似性的特征》一文(原文標(biāo)題FeaturesofSimilarity,刊于PsychologicalReview,84(4)327-352,1977年7月)。在這個模型中,查詢與對象之間的相似性是由三項條件確定的1.查詢與對象的共同特征。2.不是對象的特征的查詢的特征。3.不是查詢的特征的對象的特征。第1個條件對相似性值貢獻正數(shù),而第2個和第3個條件有負(fù)貢獻。此外,第2個和第3個條件還要乘以預(yù)先定義的常數(shù),使得第2個和第3個集合中的特征比第1個集合中的特征對相似性影響更小。在一個運用該模型的實現(xiàn)中,查詢與對象之間相似性測量,是由三個預(yù)先定義的、用來與特征對比模型中出現(xiàn)的三個條件相乘的常數(shù)確定的。在這個實施例中,如果規(guī)定服務(wù)的層次要么是1級(基本的)或2級,則只用對比模型的前兩個條件來計算相似性測量,或者將第3個條件的預(yù)定常數(shù)設(shè)置為0-這樣的效果是等同的。因為第3個條件是最次要的,它對被檢索的對象的排序只有很少影響。如果所有三個條件都要使用,則可以請求3級服務(wù)。然后,該實現(xiàn)就能根據(jù)相似性測量,返回數(shù)量為預(yù)定的N個相似性最高的對象,或者,返回所有生成大于預(yù)定值的相似性值的對象-它們被視為與查詢足夠相似,可以作為相關(guān)信息返回給用戶。一旦確定了相似性,內(nèi)部節(jié)點224按照相似性程度來對OIDs排序,然后返回一系列最相關(guān)的OIDs。這里,不同的實施例也能采取不同的可選方法。例如,可以將這一系列最相關(guān)的OIDs傳輸(步驟205)到前端計算機213,后者將應(yīng)答適當(dāng)?shù)馗袷交?,將?yīng)答傳送給用戶。另外,也可以將一系列最相關(guān)的OIDs通過網(wǎng)絡(luò)108直接傳輸?shù)接脩粲嬎銠C,無需前端計算機的介入。在另一個可選方案中,對于更高的服務(wù)層次(2級和3級),內(nèi)部節(jié)點224將最相關(guān)的OIDs傳輸(步驟206)給對象節(jié)點225、228,后者持有與這些OIDs所標(biāo)識的對象相關(guān)聯(lián)的信息。與每個對象相關(guān)聯(lián)的信息例如是對象的URL,對象本身,或者那些具有關(guān)聯(lián)值的特征的對象特征與特征值列表。為了方便訪問信息,OIDs可有一個第一部分,其作用是標(biāo)識存儲對象信息所在的對象節(jié)點225、228。OIDs還可有一個第二部分,它是用來標(biāo)識對象信息在對象節(jié)點225、228中一個本機表(localtable)中的存儲位置的本機索引值(localindexvalue)。對于2級服務(wù)來說,對象節(jié)點225、228返回最相關(guān)對象的對象信息。對象節(jié)點225、228可以遵照時間敏感性規(guī)定,從外部服務(wù)器231、235下載對象,對對象節(jié)點中保留的對象信息進行更新。完成下載的手段是,與負(fù)責(zé)該對象的外部服務(wù)器231、235建立通信,在連接或鏈路226上請求對象更新,在連接或鏈路232、236上提取對象,然后抽取對象的特征(步驟206)。時間敏感性規(guī)定可以在查詢中、在查詢的每個片斷中和/或在對象中規(guī)定。然后,可以將最相關(guān)對象的對象信息傳輸(步驟207)到前端計算機213,由前端計算機適當(dāng)?shù)馗袷交搼?yīng)答后將該應(yīng)答傳送給用戶計算機212,或者通過網(wǎng)絡(luò)108直接傳輸?shù)接脩粲嬎銠C212,無需前端計算機的介入。對于3級服務(wù)來說,對象節(jié)點225、228將相關(guān)對象的對象信息傳輸(步驟207)到內(nèi)部節(jié)點233。內(nèi)部節(jié)點233用相關(guān)對象的對象信息來重新計算查詢與對象之間的相似性測量。這可能導(dǎo)致對象被以不同的次序排列,也可能導(dǎo)致返回一個不同的對象列表。為了這個任務(wù),內(nèi)部節(jié)點233可以使用特征對比模型,3個條件全部可以有非零的預(yù)定常數(shù)。在這個實施例中,對象信息含有一個對象特征列表,使得不是查詢特征的對象特征可以在相似性測量中被包括。然后,內(nèi)部節(jié)點233返回最相關(guān)對象的對象信息,將對象信息傳輸?shù)角岸擞嬎銠C213(步驟208),由前端計算機適當(dāng)?shù)馗袷交搼?yīng)答后將該應(yīng)答傳送給用戶計算機239(步驟209)。在另一個實施例中,內(nèi)部節(jié)點233用抽取的相關(guān)對象的信息來建立一個或多個信息表。在另一個實施例中,將相關(guān)對象的對象信息或信息表通過網(wǎng)絡(luò)108直接傳輸?shù)接脩粲嬎銠C239,無需前端計算機的介入。應(yīng)當(dāng)注意的是,在以上對圖2的討論中,提及同一個節(jié)點時使用了不同的標(biāo)注號,這是為了方便對系統(tǒng)及其操作的描述。所以,例如盡管用215、224和233來標(biāo)注內(nèi)部節(jié)點,它卻可以是同一個節(jié)點,而不是不同的成分。類似地,前端計算機213、238可以是同一個節(jié)點,用戶計算機212、239也如此。下面參照圖3考察對象的索引,在一個實施例中,當(dāng)用戶從用戶計算機306傳輸(步驟301)一個對象時,前端計算機307接收該對象。前端計算機307負(fù)責(zé)建立與用戶計算機306的連接,使用戶能傳輸對象。在另一個實施例中,前端計算機303不與用戶交互,而是自動檢查其環(huán)境中的對象,供搜索引擎索引。前端計算機307選擇一個內(nèi)部節(jié)點309,在連接或鏈路308上將對象傳輸給所選擇的內(nèi)部節(jié)點(步驟302)。在一個實施例中,對內(nèi)部節(jié)點的選擇是隨機進行的,為的是使工作負(fù)荷在各內(nèi)部節(jié)點上均勻分布。內(nèi)部節(jié)點309賦予對象一個獨有的OID,然后像以上討論的查詢的情形一樣地處理對象,不過,在連接或鏈路310、311、312發(fā)送的與對象關(guān)聯(lián)的數(shù)據(jù)(即散列片斷)被存儲在查詢節(jié)點313、314和對象節(jié)點315中。下面參照圖4a考察最佳實施例中使用的消息格式,查詢消息是由散列模塊(hashingmodule)512(見圖5)生成并從內(nèi)部節(jié)點傳輸給查詢節(jié)點的。查詢消息有4個字段首部402、查詢標(biāo)識符(QID)403、散列查詢片斷(HQF)404和值405。首部字段402規(guī)定該消息是個查詢消息,也規(guī)定目的地查詢節(jié)點。目的地查詢節(jié)點是由散列查詢片斷的第一部分確定的。QID字段403含有一個查詢類型說明符和一個查詢標(biāo)識符。HQF字段403含有一個片斷類型說明符和由散列模塊512生成的散列查詢片斷的第二部分。值字段405含有一個可選的與片斷關(guān)聯(lián)的值。片斷類型說明符確定查詢消息是否含有值字段,如果查詢消息含有值字段,則片斷類型說明符確定值字段的大小。圖4b表示查詢應(yīng)答消息的示例性格式。查詢應(yīng)答消息是由相似性比較器514(見圖5)生成并從查詢節(jié)點傳輸給內(nèi)部節(jié)點的。每個查詢應(yīng)答消息都是一個查詢消息的結(jié)果。查詢應(yīng)答消息含有4個字段首部406、QID407、對象標(biāo)識符(OID)408和權(quán)重409。首部字段406規(guī)定該消息是個查詢應(yīng)答消息,也規(guī)定目的地內(nèi)部節(jié)點。目的地內(nèi)部節(jié)點是從其接受到對應(yīng)查詢消息的內(nèi)部節(jié)點。QID字段407含有一個查詢類型說明符和一個查詢標(biāo)識符。OID字段408含有一個對象類型說明符和一個對象標(biāo)識符。權(quán)重字段409含有一個可選的與對象關(guān)聯(lián)的值。對象類型說明符確定查詢應(yīng)答消息是否含有權(quán)重字段409,如果查詢應(yīng)答消息含有權(quán)重字段,則對象類型說明符確定該字段的大小。圖4c表示對象消息的示例性格式。對象消息是由相似性比較器生成并從內(nèi)部節(jié)點傳輸給對象節(jié)點的。對象消息含有4個字段首部410、QID411、OID412和時間敏感性(TS)TS。首部字段410規(guī)定該消息是個對象消息,也規(guī)定目的地對象節(jié)點。目的地對象節(jié)點由對象標(biāo)識符的第一部分確定。QID字段411含有一個查詢類型說明符和一個查詢標(biāo)識符。OID字段412含有一個對象類型說明符和對象標(biāo)識符的第二部分。TS字段413含有一個可選的時間敏感性說明符。對象類型說明符確定對象消息是否含有TS字段,如果對象消息含有TS字段,則對象類型說明符確定TS字段的大小。圖4d表示對象應(yīng)答消息的示例性格式。對象應(yīng)答消息是由對象表或由特征抽取器(featureextractor)生成、并從對象節(jié)點傳輸給內(nèi)部節(jié)點的。對象應(yīng)答消息有3個部分標(biāo)識符部分、特征部分和輔助部分。標(biāo)識符部分含有4個字段首部414、QID415、OID416和位置417。首部字段414規(guī)定該消息是個對象應(yīng)答消息,也規(guī)定目的地內(nèi)部節(jié)點。目的地內(nèi)部節(jié)點是從其接受到對應(yīng)對象消息的內(nèi)部節(jié)點。QID字段415含有一個查詢類型說明符和一個查詢標(biāo)識符。OID字段416含有一個對象類型說明符和一個對象標(biāo)識符。位置字段417含有一個可選的位置標(biāo)識符,諸如URL。對象類型說明符確定對象應(yīng)答消息是否含有位置字段,如果對象應(yīng)答消息含有位置字段,則對象類型說明符確定位置字段的大小。特征部分含有一個說明對象的一些關(guān)聯(lián)特征的字段418。輔助部分含有一個說明對象的輔助信息的字段419。對象類型說明符確定對象應(yīng)答消息是否含有輔助部分,如果對象應(yīng)答消息含有輔助部分,則對象類型說明符確定輔助部分的大小和結(jié)構(gòu)。圖4e表示插入消息的示例性格式。插入消息是由散列模塊生成、并從內(nèi)部節(jié)點傳輸給查詢節(jié)點的。插入消息有4個字段首部420、OID421、HQF4422和值423。首部字段420規(guī)定該消息是個插入消息,也規(guī)定目的地查詢節(jié)點。目的地查詢節(jié)點由散列查詢片斷的第一部分確定。OID字段421含有一個對象類型說明符和一個對象標(biāo)識符。HQF字段422含有一個片斷類型說明符和由散列模塊生成的散列查詢片斷的第二部分。值字段423含有一個可選的與片斷關(guān)聯(lián)的值。片斷類型說明符確定插入消息是否含有值字段,如果插入消息含有值字段,則片斷類型說明符確定值字段的大小。圖4f表示插入對象消息的示例性格式。插入對象消息是由特征抽取器生成、并從查詢節(jié)點傳輸給內(nèi)部節(jié)點的。插入對象消息有3個部分標(biāo)識符部分、特征部分和輔助部分。標(biāo)識符部分含有4個字段首部424、OID425、TS426和位置427。首部字段424規(guī)定該消息是個插入對象消息,也規(guī)定目的地對象節(jié)點。目的地對象節(jié)點由對象標(biāo)識符的第一部分確定。OID字段425含有一個對象類型說明符和一個對象標(biāo)識符。TS字段426含有一個可選的時間敏感性說明符。對象類型說明符確定插入對象消息是否含有TS字段,如果插入對象消息含有TS字段,則對象類型說明符確定TS字段的大小。位置字段427含有一個可選的位置標(biāo)識符,諸如URL。對象類型說明符確定插入對象消息是否含有位置字段,如果插入對象消息含有位置字段,則對象類型說明符確定位置字段的大小。特征部分含有一個說明對象的一些關(guān)聯(lián)特征的字段428。輔助部分含有一個說明對象的輔助信息的字段429。對象類型說明符確定插入對象消息是否含有輔助部分,如果插入對象消息含有輔助部分,則對象類型說明符確定輔助部分的大小和結(jié)構(gòu)。分布式計算機數(shù)據(jù)庫系統(tǒng)的每個節(jié)點包括一個通信模塊(如圖5、6、和7中所示,下文將作討論),它負(fù)責(zé)在節(jié)點之間發(fā)送和接受消息。發(fā)送消息時要求(1)在通信介質(zhì)上發(fā)送之前將消息排隊,(2)在通信介質(zhì)上實際發(fā)送,(3)當(dāng)由消息類型確定的模塊接收到消息時,將處理該消息的任務(wù)排隊。消息類型確定向接收模塊發(fā)出的命令。該命令確定該模塊處理該消息的手段。要發(fā)送的消息的目的地節(jié)點是在各消息的首部字段中規(guī)定的。當(dāng)從另一個節(jié)點接收到一個消息時,消息類型確定了節(jié)點中的哪個模塊將處理該消息。消息類型也在各消息的首部字段中說明。內(nèi)部節(jié)點的通信模塊也負(fù)責(zé)與前端節(jié)點通信。前端節(jié)點向內(nèi)部節(jié)點發(fā)送查詢和對象,內(nèi)部節(jié)點向前端節(jié)點發(fā)送結(jié)果,諸如格式化的信息表。下面參照圖5考察上述節(jié)點的示例性實施例,內(nèi)部節(jié)點500可以有一個從查詢或?qū)ο蟪槿√卣鞯奶卣鞒槿∑?02。對圖象進行特征抽取的方法步驟是檢測邊沿,標(biāo)識圖象對象,將圖象對象分類為域?qū)ο?,確定域?qū)ο笾g的關(guān)系。在另一個實施例中,對圖象的特征抽取是通過傅立葉或弱波變換進行的。每個傅立葉或弱波變換構(gòu)成一個抽取特征。抽取特征被傳送到分段器(fragmenter)504。此外,當(dāng)從對象抽取了特征時,這些特征被以插入對象消息的形式傳送到通信模塊506。分段器504計算各個特征中含有的片斷。每個片斷由特征中的一組有限的關(guān)聯(lián)分量組成。在一個實施例中,數(shù)據(jù)結(jié)構(gòu)中定義特征的各個屬性和各個關(guān)系都構(gòu)成一個不同的片斷。片斷被傳送到散列模塊512。散列模塊512計算片斷的散列函數(shù)。在一個實施例中,散列函數(shù)是MD4消息摘要(MD4MessageDigest)算法(該算法登載在1990年10月由NetworkWorkingGroupoftheInternetEngineeringTaskForce發(fā)表的意見征詢(RequestforComment(RFC)1186)說明中,可從因特網(wǎng)上獲得,或向MIT計算機科學(xué)實驗室(位于美國麻省劍橋)的R.Rivest索取)。散列模塊512要么將查詢消息、要么將插入消息傳送給通信模塊,具體要視片斷是查詢片斷還是對象片斷而定。相似性比較器514接收查詢應(yīng)答消息并生成對象消息,對象消息被傳送給通信模塊。相似性比較器514收集所有對查詢的查詢應(yīng)答。對于應(yīng)答中的每個對象,相似性比較器514確定檢索中所返回的每個對象的相關(guān)性。相關(guān)性的確定是由內(nèi)部節(jié)點通過比較查詢與返回了對象標(biāo)識符的對象之間的相似程度而作出的。在一個實施例中,查詢與對象之間的相似性測量是一個余弦測量,表達(dá)公式是COS(v,w),其中向量v表示查詢,向量w表示對象。這些向量處于一個其中每個片斷代表空間的一維的空間中。最相關(guān)的對象標(biāo)識符被用對象消息傳送給通信模塊506。表構(gòu)造器516接收對象應(yīng)答消息,通過收集QID字段相同的所有對象應(yīng)答消息來格式化存儲器中存儲的表517。在一個實施例中,每個對象應(yīng)答消息都在格式化的表517中產(chǎn)生一行。該行中的條目是由對象應(yīng)答消息的特征部分的每個特征確定的。此外,該行中有一個條目規(guī)定位置字段。表517內(nèi)各行的排列是由對象應(yīng)答消息的輔助部分決定的。該格式化的應(yīng)答被發(fā)送到從其接收查詢的前端計算機。參看圖6,查詢節(jié)點600可以有一個從通信模塊603接收查詢消息和插入消息的片斷表模塊602。就查詢消息來說,片斷表模塊602用HQF字段中的散列值檢索存儲器中存儲的本機散列表603中的一個條目。HQF字段中的類型說明符和本機散列表603中的該條目然后被傳送到片斷比較器604。就插入消息來說,片斷表模塊602通過將插入消息的OID和值字段插到本機散列表603中的條目來修改本機散列表603中的一個條目。片斷比較接收器來自片斷表602的條目。由從片斷表602傳送過來的HQF類型說明符來確定一個比較函數(shù)。用該比較函數(shù)來確定從片斷表602傳送過來的條目中的OID和值字段的相關(guān)性。在一個實施例中,該比較函數(shù)一個相似性權(quán)重,具有最高相似性權(quán)重的對象標(biāo)識符被認(rèn)為是相關(guān)的。用一個查詢應(yīng)答消息將這些相關(guān)的對象標(biāo)識符和它們的相似性權(quán)重傳送到通信模塊603。參看圖7,對象節(jié)點600可以由一個從通信模塊704接收對象消息和插入對象消息的對象表模塊702。就對象消息而言,對象表模塊702用對象消息的OID字段中的對象標(biāo)識符提取存儲器中的本機表703中的一個條目。將對象消息和所提取的條目傳送到下載確定器(DownloadDeterminer)。就插入對象消息而言,對象表模塊702在本機表703中插入一個新條目。如果指定對象標(biāo)識符的對應(yīng)條目已經(jīng)存在,則替換掉現(xiàn)有的條目。新的或替換條目含有插入對象消息中的信息。下載確定器706從對象表接收對象消息和條目。它用TS字段來確定是否應(yīng)當(dāng)用下載器下載對象。在一個實施例中,TS字段是1位的,它的值有兩個對應(yīng)下載還是不下載這兩種可能的狀態(tài)。在另一個實施例中,TS字段是一個到期時間。如果已經(jīng)達(dá)到了到期時間,就下載對象。否則就不下載對象。如果下載確定器706確定不應(yīng)當(dāng)下載對象,則對象消息和從對象表模塊706接收的對象條目使用對象響應(yīng)消息被傳送到通信模塊。如果下載確定器706確定應(yīng)當(dāng)下載對象,則將從對象表模塊702接收的對象消息傳送給下載器708。下載器708從加載確定器接收對象消息。下載器708用對象消息的位置字段來加載對象。在一個實施例中,下載器708用超文本傳輸協(xié)議來下載一個由統(tǒng)一資源定位器(URL)指定的網(wǎng)頁。下載的對象被傳輸?shù)教卣鞒槿∑?10。特征抽取器710從從下載器708接收的對象抽取特征。對圖象進行特征抽取的方法步驟是檢測邊沿,標(biāo)識圖象對象,將圖象對象分類為域?qū)ο?,確定域?qū)ο笾g的關(guān)系。在另一個實施例中,對圖象的特征抽取是通過傅立葉或弱波變換進行的。每個傅立葉或弱波變換構(gòu)成一個抽取特征。用插入對象消息將所抽取的特征傳送到對象表模塊702,使本機對象表中的一個條目被替換掉。也用對象應(yīng)答消息將所抽取的特征傳送到通信模塊704。圖8表示示例性計算機系統(tǒng)800的傳統(tǒng)系統(tǒng)體系結(jié)構(gòu)。每個用戶計算機、前端計算機和包括內(nèi)部節(jié)點、查詢節(jié)點、對象節(jié)點的計算機節(jié)點,都能以計算機系統(tǒng)800的一個實例來實現(xiàn)。對圖8的示例性計算機系統(tǒng)的討論,僅具有說明性的意義,但是不應(yīng)當(dāng)認(rèn)為是對本發(fā)明的限制。盡管下文的描述可能涉及到描述特定計算機系統(tǒng)時的常用術(shù)語,所說明的概念同樣適用于其它計算機系統(tǒng),包括體系結(jié)構(gòu)與圖8所示的不相似的系統(tǒng)。計算機系統(tǒng)800包括一個中央處理單元(CPU)805,CPU可以包括常規(guī)的微處理器、用于暫時存儲信息的隨機存取存儲器(RAM)810、用于永久存儲信息的只讀存儲器(ROM)815。配備一個存儲器控制器825來控制系統(tǒng)RAM810??偩€控制器836用于接收和處理來自其它系統(tǒng)組件的各種中斷信號??梢杂密洷P842、CD-ROM847或硬盤852提供海量存儲??梢酝ㄟ^諸如軟盤842、CD-ROM847的可卸式介質(zhì)與客戶機計算機800進行數(shù)據(jù)交換。軟盤842可以插入軟盤驅(qū)動器841,后者由控制器840連接到總線830。類似地,CD-ROM847可以插入CD-ROM驅(qū)動器846,后者由控制器845連接到總線830。硬盤852是硬盤驅(qū)動器851的一部分,由控制器850連接到總線830。向計算機系統(tǒng)800的用戶輸入可以由許多設(shè)備提供。例如,可以將鍵盤856和鼠標(biāo)857通過鍵盤和鼠標(biāo)控制器855連接到總線830。將能同時作為麥克風(fēng)和揚聲器的音頻轉(zhuǎn)接器896通過音頻控制器897連接到總線830。對本領(lǐng)域的熟練人員來說,顯然也可以通過總線830和適當(dāng)?shù)目刂破鲗⒅T如光筆和/或輸入板以及語音輸入用的麥克風(fēng)等其它輸入設(shè)備連接到客戶機計算機800。配備DMA控制器860來執(zhí)行對RAM810的直接存儲器訪問。用控制視頻顯示器870的視頻控制器865來生成可視顯示。計算機系統(tǒng)800也包括一個能使客戶機計算機800經(jīng)總線891互連到網(wǎng)絡(luò)895的網(wǎng)絡(luò)適配器890。網(wǎng)絡(luò)895可以是局域網(wǎng)(LAN)、寬域網(wǎng)(WAN)或因特網(wǎng),可以使用能互連多個網(wǎng)絡(luò)設(shè)備的通用通信線路。計算機系統(tǒng)800一般是由操作系統(tǒng)軟件來控制和協(xié)調(diào)的。在其它計算機系統(tǒng)控制功能中,操作系統(tǒng)控制系統(tǒng)資源的分配,執(zhí)行諸如進程調(diào)度、內(nèi)存管理、連網(wǎng)和I/O服務(wù)的任務(wù)。上述實施例的組件的軟件實現(xiàn)所包含的計算機指令和例程,既可以固定在有形介質(zhì)(諸如計算機可讀介質(zhì)-例如圖8的軟盤842、CD-ROM847、ROM815或硬盤852)上,也可以通過調(diào)制解調(diào)器或其它接口設(shè)備(諸如在介質(zhì)891上與網(wǎng)絡(luò)895相連的通信適配器890)傳輸。介質(zhì)891既可以是有形介質(zhì)-包括但不限于光學(xué)或硬電纜通信線路,也可以用無線技術(shù)(包括但不限于微波、紅外或其它傳輸技術(shù))實現(xiàn)。它也可以是因特網(wǎng)。在這樣傳輸時,軟件組件可以采用載波中體現(xiàn)的數(shù)字信號的形式。一系列的計算機指令體現(xiàn)了本文在前面針對本發(fā)明所述的全部或部分功能。本領(lǐng)域的熟練人員會明白,這種計算機指令能用一些適合用于許多計算機體系結(jié)構(gòu)或操作系統(tǒng)的程序設(shè)計語言來編寫。此外,這種指令可以采用現(xiàn)在或?qū)淼娜魏未鎯夹g(shù)(包括但不限于半導(dǎo)體、磁性、光學(xué)或其它存儲器件)來存儲,或者采用現(xiàn)在或?qū)淼娜魏瓮ㄐ偶夹g(shù)(包括但不限于光學(xué)、紅外、微波或其它傳輸技術(shù))來傳輸。預(yù)計這種計算機程序產(chǎn)品可以按附帶印刷或電子文件的可卸式介質(zhì)來發(fā)布-例如跟計算機系統(tǒng)在例如系統(tǒng)ROM或硬盤上預(yù)裝的壓縮包裝軟件(shrinkwrappedsoftware),或者在網(wǎng)絡(luò)(例如因特網(wǎng)或萬維網(wǎng))上從服務(wù)器或電子公告板發(fā)布。盡管已經(jīng)披露了本發(fā)明的示例性實施例,對于本領(lǐng)域的熟練人員來說,顯然,在不偏離本發(fā)明的精神和范圍的條件下,可以作出各種將實現(xiàn)本發(fā)明的某些優(yōu)點的修改和改進。其它執(zhí)行相同功能的組件可以適當(dāng)?shù)靥娲?,這對本領(lǐng)域有合理熟練程度的人員來說是顯而易見的。此外,本發(fā)明的方法既可以用適當(dāng)?shù)奶幚砥髦噶钜匀寇浖崿F(xiàn)來實現(xiàn),也可以以使用硬件邏輯與軟件邏輯的組合的混合實現(xiàn)來實現(xiàn)相同的結(jié)果。此外,諸如存儲器大小、實現(xiàn)特定功能所用的邏輯和/或指令的具體配置、以及對本發(fā)明思想的其它改進等方面,都被認(rèn)為由后附的權(quán)利要求所包括。所以,本發(fā)明應(yīng)當(dāng)解釋為只受權(quán)利要求所指出的限制。權(quán)利要求1.一種在具有由網(wǎng)絡(luò)連接的多個內(nèi)部節(jié)點和多個查詢節(jié)點的分布式計算機數(shù)據(jù)庫系統(tǒng)中用模糊查詢進行信息檢索的方法,該方法包含的步驟為A)選擇所述多個內(nèi)部節(jié)點的一個第一內(nèi)部節(jié)點;B)由所述被選擇的內(nèi)部節(jié)點從用戶給出的查詢中抽取多個特征;C)由所述被選擇的內(nèi)部節(jié)點將所述多個抽取特征的每個抽取特征分割成多個查詢片斷;D)由所述被選擇的內(nèi)部節(jié)點散列所述多個查詢片斷的每個所述查詢片斷,散列查詢片斷有一個第一部分和一個第二部分;E)由所述被選擇的內(nèi)部節(jié)點將所述多個散列查詢片斷的每個所述散列查詢片斷傳輸?shù)接筛魃⒘胁樵兤瑪嗟乃龅谝徊糠种甘镜亩鄠€查詢節(jié)點中的相應(yīng)查詢節(jié)點;F)由所述查詢節(jié)點運用相應(yīng)散列查詢片斷的所述第二部分按照位于所述查詢節(jié)點上的本地散列表來訪問數(shù)據(jù);G)由各個根據(jù)所述各自的散列查詢片斷訪問數(shù)據(jù)的所述查詢節(jié)點將對應(yīng)于所述被訪問數(shù)據(jù)的多個對象標(biāo)識符返回給所述被選擇的內(nèi)部節(jié)點。2.權(quán)利要求1的方法,進一步包含的步驟為,在將所述多個對象標(biāo)識符的所述部分返回給所述被選擇的內(nèi)部節(jié)點的步驟之前,對所述被訪問數(shù)據(jù)應(yīng)用一個匹配函數(shù)來選擇多個對象標(biāo)識符的一部分,所述匹配函數(shù)是特定于查詢片斷的類型的。3.權(quán)利要求1的方法,進一步包含的步驟為,在從所述查詢抽取特征的步驟之前,在所述內(nèi)部節(jié)點接收來自所述用戶的所述查詢。4.權(quán)利要求3的方法,進一步包含的步驟為A)由所述內(nèi)部節(jié)點確定被訪問數(shù)據(jù)與查詢之間的一個相似性測量;B)在返回所述多個對象標(biāo)識符的步驟之后,由所述內(nèi)部節(jié)點向所述用戶返回具有預(yù)定的相似程度的被訪問數(shù)據(jù)。5.權(quán)利要求4的方法,其中相似性測量是由相似性函數(shù)根據(jù)以下確定的A)由所述被訪問數(shù)據(jù)和所述查詢二者均擁有的特征;B)僅由所述查詢所擁有的特征。6.權(quán)利要求5的方法,其中對于所述多個特征的每個特征,所述相似性函數(shù)采用一個所述特征類型特定的函數(shù)。7.權(quán)利要求1的方法,其中的運用步驟包括,由所述查詢節(jié)點運用所述相應(yīng)散列查詢片斷的所述第二部分按照位于所述查詢節(jié)點上的本地散列表來訪問多個對象標(biāo)識符,每個所述對象標(biāo)識符有一個第一部分和一個第二部分;所述方法進一步包含A)由所述被選擇的內(nèi)部節(jié)點將所述多個對象標(biāo)識符的每個所述對象標(biāo)識符發(fā)送到由每個所述對象標(biāo)識符的所述第一部分指示的多個對象節(jié)點中相應(yīng)的對象節(jié)點;B)由所述對象節(jié)點運用相應(yīng)對象節(jié)點的所述第二部分按照所述對象節(jié)點上的一個本地對象表來訪問數(shù)據(jù)。C)由按照所述相應(yīng)對象標(biāo)識符訪問數(shù)據(jù)的每個所述對象節(jié)點將包含對象位置和對象特征的對象信息返回給所述被選擇的內(nèi)部節(jié)點。8.權(quán)利要求7的方法,進一步包含的步驟為,在將所述多個對象標(biāo)識符的所述部分返回給所述被選擇的內(nèi)部節(jié)點的步驟之前,對所述被訪問數(shù)據(jù)應(yīng)用一個匹配函數(shù)來選擇所述多個對象標(biāo)識符的一部分,所述匹配函數(shù)是特定于查詢片斷的類型的。9.權(quán)利要求7的方法,進一步包含的步驟為A)由所述對象節(jié)點從由被訪問數(shù)據(jù)定位的外部服務(wù)器下載由所述相應(yīng)對象標(biāo)識符標(biāo)識的對象;B)在將包含對象位置和對象特征的對象信息返回給所述被選擇的內(nèi)部節(jié)點的步驟之前,由所述對象節(jié)點按照所述查詢從對象抽取數(shù)據(jù)。10.權(quán)利要求7的方法,進一步包含的步驟為在從所述查詢抽取特征的步驟之前,在所述內(nèi)部節(jié)點接收來自用戶的查詢。11.權(quán)利要求7的方法,其中,來自所述用戶的所述查詢含有一個對時間敏感性要求的規(guī)定。12.權(quán)利要求7的方法,進一步包含的步驟為A)由所述內(nèi)部節(jié)點確定所述被訪問數(shù)據(jù)與所述查詢之間的一個相似性測量;B)在返回所述對象信息的步驟之后,由所述內(nèi)部節(jié)點向所述用戶返回具有預(yù)定的相似程度的被訪問數(shù)據(jù)。13.權(quán)利要求7的方法,進一步包含的步驟為由所述被選擇的內(nèi)部節(jié)點建立一個表,所述表含有對應(yīng)多個對象的每個對象的所述對象位置和所述多個對象特征。14.權(quán)利要求7的方法,其中相似性測量是由相似性函數(shù)根據(jù)以下確定的A)由所述被訪問數(shù)據(jù)和所述查詢二者均擁有的特征;B)僅由所述查詢所擁有的特征。C)僅由所述被訪問數(shù)據(jù)所擁有的特征。15.權(quán)利要求7的方法,其中對于所述多個特征的每個特征,相似性函數(shù)采用一個所述特征類型特定的函數(shù)。16.一種以有助于在具有由網(wǎng)絡(luò)連接的多個內(nèi)部節(jié)點和多個查詢節(jié)點的分布式計算機數(shù)據(jù)庫系統(tǒng)中用模糊查詢進行信息檢索的方式存儲對象和對象的位置的方法,所述方法包含的步驟為A)選擇所述多個內(nèi)部節(jié)點的一個第一內(nèi)部節(jié)點;B)由所述被選擇的內(nèi)部節(jié)點從用戶提交的查詢中抽取多個特征;C)由所述被選擇的內(nèi)部節(jié)點將所述多個抽取特征的每個所述抽取特征分割成多個對象片斷;D)由所述被選擇的內(nèi)部節(jié)點散列所述多個對象片斷的每個所述對象片斷,所述散列對象片斷有一個第一部分和一個第二部分;E)由所述被選擇的內(nèi)部節(jié)點將所述多個散列對象片斷的每個所述散列對象片斷傳輸?shù)接擅總€所述散列對象片斷的所述第一部分指示的所述多個查詢節(jié)點中的相應(yīng)查詢節(jié)點;F)由所述查詢節(jié)點運用所述相應(yīng)散列對象片斷的所述第二部分按照位于所述查詢節(jié)點上的本地散列表來存儲數(shù)據(jù);17.權(quán)利要求16的方法,進一步包含的步驟為,在從所述對象抽取特征的步驟之前,在所述內(nèi)部節(jié)點接收來自所述用戶的所述對象。18.權(quán)利要求16的方法,其中的分布式計算機數(shù)據(jù)庫系統(tǒng)包括多個對象節(jié)點,所述方法進一步包含A)由所述被選擇的內(nèi)部節(jié)點為用戶選擇的對象選擇一個唯一的對象標(biāo)識符,所述對象標(biāo)識符有一個第一部分和一個第二部分;B)用所述對象標(biāo)識符的第一部分來選擇所述多個對象節(jié)點的一個對象節(jié)點;C)由所述被選擇的內(nèi)部節(jié)點將所述對象的位置,所述對象的所述多個對象特征發(fā)送給由每個對象標(biāo)識符的所述第一部分指示的多個對象節(jié)點的相應(yīng)對象節(jié)點;D)由所述對象節(jié)點運用所述對象標(biāo)識符的所述第二部分按照位于所述對象節(jié)點上的一個本地對象表來存儲數(shù)據(jù)。18.一種具有處理來自用戶的查詢的信息檢索工具的分布式計算機數(shù)據(jù)庫系統(tǒng),包含A)多個內(nèi)部節(jié)點;B)多個查詢節(jié)點;C)由網(wǎng)絡(luò)連接的所述多個內(nèi)部節(jié)點和所述多個查詢節(jié)點;D)其中每個所述內(nèi)部節(jié)點在收到來自用戶的查詢時,從所述查詢中抽取多個特征,將所述多個查詢特征的每個所述查詢特征分割成多個查詢片斷,將所述多個查詢特征的每個所述查詢特征散列成一個具有一個第一部分和一個第二部分的散列查詢片斷,并將每個散列查詢片斷發(fā)送到由散列查詢片斷的所述第一部分指示的所述多個查詢節(jié)點的相應(yīng)查詢節(jié)點,E)另外,其中每個所述查詢節(jié)點運用所述散列查詢片斷的所述第二部分按照所述查詢節(jié)點上的一個本地散列表訪問數(shù)據(jù)并將對應(yīng)于被訪問數(shù)據(jù)的多個對象標(biāo)識符返回給所述內(nèi)部節(jié)點。19.權(quán)利要求17的分布式計算機數(shù)據(jù)庫系統(tǒng),其中,查詢節(jié)點對所述被訪問數(shù)據(jù)應(yīng)用一個匹配函數(shù)來選擇所述多個對象標(biāo)識符的一部分,所述匹配函數(shù)是特定于查詢片斷的類型的。20.權(quán)利要求17的分布式計算機數(shù)據(jù)庫系統(tǒng),其中,所述內(nèi)部節(jié)點確定所述被訪問數(shù)據(jù)與所述查詢之間的一個相似性測量并向所述用戶返回具有預(yù)定的相似程度的被訪問數(shù)據(jù)。21.權(quán)利要求17的分布式計算機數(shù)據(jù)庫系統(tǒng),其中,所述內(nèi)部節(jié)點用由以下確定的相似性函數(shù)來測量相似性A)由所述被訪問數(shù)據(jù)和所述查詢二者均擁有的特征;和B)僅由所述查詢所擁有的特征。22.權(quán)利要求17的分布式計算機數(shù)據(jù)庫系統(tǒng),其中,對于所述多個特征的每個特征來說,所述相似性函數(shù)使用一個特定于所述特征類型的函數(shù)。23.一種用于存儲和查詢信息對象或信息對象的位置的分布式計算機數(shù)據(jù)庫系統(tǒng),包含A)多個內(nèi)部節(jié)點;B)多個查詢節(jié)點;C)由網(wǎng)絡(luò)連接的所述多個內(nèi)部節(jié)點和所述多個查詢節(jié)點;D)其中每個所述內(nèi)部節(jié)點在收到來自用戶的對象時,從所述對象中抽取多個特征,將所述多個對象特征的每個所述對象特征分割成多個對象片斷,將所述多個對象特征的每個所述對象特征散列成一個具有一個第一部分和一個第二部分的散列對象片斷,并將每個所述散列對象片斷發(fā)送到由所述散列對象片斷的第一部分指示的所述多個查詢節(jié)點的相應(yīng)查詢節(jié)點,并且,其中每個所述查詢節(jié)點運用所述散列對象片斷的所述第二部分按照所述查詢節(jié)點上的一個本地散列表來存儲對象或?qū)ο蟮奈恢谩?4.一種用于處理基于單詞和基于非單詞的數(shù)據(jù)庫信息檢索的查詢的信息檢索裝置,包含A)一個從查詢抽取一些特征的機構(gòu);B)一個與抽取機構(gòu)相連的、用于將每個特征分割成特征片斷的機構(gòu);C)一個與分割機構(gòu)相連的、用于將每個特征片斷散列成散列特征片斷的機構(gòu)-其中散列特征片斷用于訪問散列表,從中獲得用以從數(shù)據(jù)庫獲得與查詢相關(guān)的信息的對象標(biāo)識符。25.一種用于處理基于單詞和基于非單詞的數(shù)據(jù)庫信息檢索的查詢的計算機程序產(chǎn)品,計算機程序產(chǎn)品包含一個在計算機可讀介質(zhì)上體現(xiàn)的計算機可讀程序,計算機可讀程序包含A)一個第一代碼部分,用于從查詢抽取一些特征;B)一個第二代碼部分,用于將每個特征分割成特征片斷;C)一個第三代碼部分,用于將每個特征片斷散列成散列特征片斷-其中散列特征片斷用于訪問散列表,從中獲得用以從數(shù)據(jù)庫獲得與查詢相關(guān)的信息的對象標(biāo)識符。26.一種用于為方便數(shù)據(jù)庫檢索而索引信息的信息索引系統(tǒng),系統(tǒng)包含A)一個從信息抽取一些特征的機構(gòu);B)一個用于將每個特征分割成特征片斷的機構(gòu);C)一個用于將每個特征片斷散列成散列特征片斷的機構(gòu)-其中散列特征片斷用于訪問散列表,以在其中的由散列特征片斷確定的位置存儲指示信息的對象標(biāo)識符。27.一種用于為方便數(shù)據(jù)庫檢索而索引信息的計算機程序產(chǎn)品,計算機程序產(chǎn)品包含一個在計算機可讀介質(zhì)上體現(xiàn)的計算機可讀程序,計算機可讀程序包含A)一個第一代碼部分,用于從信息抽取一些特征;B)一個第二代碼部分,用于將每個特征分割成特征片斷;C)一個第三代碼部分,用于將每個特征片斷散列成散列特征片斷-其中散列特征片斷用于訪問散列表,以在其中的由散列特征片斷確定的位置存儲指示信息的對象標(biāo)識符。全文摘要分布式計算機數(shù)據(jù)庫系統(tǒng)包括一個或多個前端計算機和由網(wǎng)絡(luò)互連起來、成為一個檢索包括圖象、聲音和視頻流以及普通和結(jié)構(gòu)化文檔的對象的搜索引擎的一個或多個計算機節(jié)點。查詢是一個與要檢索的對象格式相同的對象。將來自用戶的查詢發(fā)送到一個前端計算機,后者將查詢傳遞到搜索引擎的稱為內(nèi)部節(jié)點的一個計算機節(jié)點。內(nèi)部節(jié)點從查詢抽取特征,然后散列這些特征。將每個散列特征發(fā)送到網(wǎng)絡(luò)上的一個節(jié)點。網(wǎng)絡(luò)上每個接收到散列特征的節(jié)點,用散列特征在其各自的數(shù)據(jù)庫分區(qū)上進行檢索。各本地數(shù)據(jù)庫的檢索結(jié)果由內(nèi)部節(jié)點收集。文檔編號G06F17/30GK1514976SQ99801676公開日2004年7月21日申請日期1999年7月23日優(yōu)先權(quán)日1998年7月24日發(fā)明者K·P·巴克勞斯基,KP巴克勞斯基申請人:賈格有限公司