欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢索簡(jiǎn)檔的比較方法

文檔序號(hào):6472391閱讀:423來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):檢索簡(jiǎn)檔的比較方法
技術(shù)領(lǐng)域
本發(fā)明涉及比較兩個(gè)檢索簡(jiǎn)檔的方法。
自動(dòng)比較和評(píng)估檢索簡(jiǎn)檔的方法,例如可用于因特網(wǎng)中的搜索引擎,以將各個(gè)由搜索引擎檢查過(guò)的可能結(jié)果,按照其與輸入的檢索概念的相關(guān)性進(jìn)行評(píng)估,或許作為相關(guān)的結(jié)果顯示出來(lái)。如果需要計(jì)算多個(gè)結(jié)果,則要將這些結(jié)果用遞降的相關(guān)性分類(lèi)并以相應(yīng)的順序顯示給用戶。
從D.Kuokka和L.Harada發(fā)表的文章Integrating Informationvie Matchmaking,Journal of Intelligent InformationSystems(JIIS)6(2/3)第261-279頁(yè)1996公知一種自動(dòng)比較和評(píng)估信息的方法,這也被稱(chēng)作為COINS(COmmon INteres Seeker)。用這種方法能將任意的文字進(jìn)行比較,這是具有任意詞序的文字段落。任意的文字在這種方法時(shí)被變成文件向量,在檢索時(shí)比較和評(píng)估這些文件向量。為此,要利用一個(gè)文件頻度的逆算法(term frequency-invers document frequency algorithm)。
K.Sycara,J.Lu,M.Klusch和S.Widoff發(fā)表的文章DynamicService Matchmaking among Agents in Open InformationEnviroments,Journal ACM SIGMOND Record,Special Issue onSemantic Interoperability in Global Information Systems,A.Ouksel,A.Sheth(Eds.),1999和K.Sycara,J.Lu,M.Klusch發(fā)表的文章Interoperabillityamong Heterogenous Software Agents on the Internet,CMU-RJ-TR-98-22,The Robotics Institute Carnegie MellonUniversity,Pittsburgh,Okt.1998涉及一種計(jì)算機(jī)語(yǔ)言,允許用不均勻代理系統(tǒng),在一個(gè)諸如因特網(wǎng)的開(kāi)放環(huán)境中,實(shí)施自動(dòng)比較和評(píng)估信息的方法。一個(gè)開(kāi)放的環(huán)境意味著,不是所有的代理必須了解自己。這種語(yǔ)言也稱(chēng)作為L(zhǎng)arks(language for Advertisement andRequest for Knowledge Sharing)。在Larks時(shí),比較過(guò)程被劃分下面五個(gè)單個(gè)的步驟1.在進(jìn)行上下文比較時(shí),將那些建議的一個(gè)數(shù)據(jù)庫(kù)的信息單元,與在相同或類(lèi)似的上下文中的詢問(wèn)進(jìn)行比較。
2.在進(jìn)行句法比較時(shí),將該詢問(wèn)與通過(guò)上下文比較選出的信息單元在三個(gè)分步驟中進(jìn)行比較2.1檢索簡(jiǎn)檔和所建議的信息單元要用一個(gè)專(zhuān)門(mén)的加權(quán)方法(termfrequency-invers document frequency weighting)進(jìn)行比較。
2.2在進(jìn)行相似性比較時(shí),將輸入-和輸出變量以及輸入-和輸出功能的個(gè)數(shù)和聲明進(jìn)行比較。
2.3在進(jìn)行簽名比較時(shí),將輸入-和輸出變量的變量類(lèi)型進(jìn)行比較3.在一個(gè)語(yǔ)義比較時(shí)要檢查,是否要將由一個(gè)檢索詢問(wèn)和一個(gè)信息建議組成的一對(duì)的輸入-和輸出功能進(jìn)行比較。
試圖用這種都公知的方法去達(dá)到一個(gè)盡可能好的評(píng)估,就是說(shuō)要有一個(gè)與由一個(gè)人進(jìn)行的評(píng)估盡量相似的評(píng)估。為此,對(duì)各個(gè)評(píng)估步驟給予不同的重點(diǎn)。各個(gè)評(píng)估步驟總是按順序進(jìn)行,此時(shí)檢索詢問(wèn)的全部信息和所建議信息單元之一的全部信息對(duì)于每個(gè)步驟都單獨(dú)評(píng)估。
此外,公知所謂的多中介(Multi-Matchmaker)為眾所周知,這是些能將多個(gè)單獨(dú)的方法用于進(jìn)行信息的自動(dòng)比較和評(píng)估的方法,并將各自的結(jié)果通知到一個(gè)總結(jié)果。這類(lèi)的多中介基本上像常規(guī)比較和評(píng)估信息的方法那樣運(yùn)行。只是當(dāng)一個(gè)預(yù)先規(guī)定的檢索詢問(wèn)不能在要求的時(shí)間范圍完成時(shí),就要調(diào)用其它相似的方法去比較和評(píng)估信息,這些方法接管一部分比較-和評(píng)估過(guò)程。由此也能使高開(kāi)銷(xiāo)的檢索詢問(wèn)順利完成。
本發(fā)明提出的任務(wù)基礎(chǔ)是,創(chuàng)立一種自動(dòng)比較和評(píng)估信息的方法,用該方法可以使得評(píng)估與人進(jìn)行的評(píng)估極為相似,且花費(fèi)少量的計(jì)算開(kāi)銷(xiāo)就達(dá)到目的。
該任務(wù)用根據(jù)獨(dú)立權(quán)利要求的特征,通過(guò)比較檢索簡(jiǎn)檔的方法來(lái)解決。
對(duì)于比較一個(gè)第一檢索簡(jiǎn)檔與至少一個(gè)第二檢索簡(jiǎn)檔的方法,此時(shí)檢索簡(jiǎn)檔各有多個(gè)數(shù)據(jù)區(qū),第一檢索簡(jiǎn)檔和第二檢索簡(jiǎn)檔的數(shù)據(jù)區(qū)各有至少兩個(gè)類(lèi)型各異的數(shù)據(jù)區(qū),該類(lèi)型對(duì)于第一和第二檢索簡(jiǎn)檔向量的各數(shù)據(jù)區(qū)相同,在比較第一檢索簡(jiǎn)檔與第二檢索簡(jiǎn)檔時(shí),要將至少兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)與不同的比較功能進(jìn)行比較。
本發(fā)明有利的實(shí)施形式在從屬權(quán)利要求中說(shuō)明。
對(duì)于根據(jù)本發(fā)明的自動(dòng)比較和評(píng)估信息的方法,將一個(gè)由用戶預(yù)先給出的檢索簡(jiǎn)檔與一個(gè)存儲(chǔ)在數(shù)據(jù)庫(kù)中的建議簡(jiǎn)檔進(jìn)行比較。簡(jiǎn)檔各劃分為一定數(shù)量的數(shù)據(jù)區(qū),要比較的信息存儲(chǔ)在這些數(shù)據(jù)區(qū)中。每個(gè)簡(jiǎn)檔至少有兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)。要比較的簡(jiǎn)檔各有一些相同的數(shù)據(jù)區(qū)。
在將一個(gè)檢索簡(jiǎn)檔與一個(gè)建議簡(jiǎn)檔進(jìn)行比較時(shí),至少兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)要與不同的比較功能進(jìn)行比較,將各個(gè)比較用一個(gè)暫時(shí)的比較值進(jìn)行評(píng)估。由暫時(shí)的比較值計(jì)算出一個(gè)最終比較值。
從而,按照本發(fā)明的方法在各個(gè)數(shù)據(jù)區(qū)中比較結(jié)構(gòu)化的簡(jiǎn)檔。利用本發(fā)明,針對(duì)不同類(lèi)型的數(shù)據(jù)區(qū)應(yīng)用不同的比較功能,利用這些功能計(jì)算暫時(shí)的比較值。借此能針對(duì)類(lèi)型去比較和評(píng)估各個(gè)數(shù)據(jù)區(qū)的內(nèi)容。由暫時(shí)的比較值計(jì)算出一個(gè)最終比較值。
因此,利用本發(fā)明將各個(gè)數(shù)據(jù)區(qū)以針對(duì)類(lèi)型的方式去比較,并將各個(gè)比較的結(jié)果,即暫時(shí)比較值綜合成一個(gè)最終比較值。
用本發(fā)明的方法,進(jìn)行針對(duì)類(lèi)型的各個(gè)數(shù)據(jù)區(qū)的比較,由此將基本上較現(xiàn)實(shí)的結(jié)果作為通過(guò)迄今公知方法達(dá)到的結(jié)果。因?yàn)榭偸怯酶鱾€(gè)比較功能只處理一定的數(shù)據(jù)區(qū),而且不必總將一個(gè)簡(jiǎn)檔的整個(gè)數(shù)據(jù)范圍進(jìn)行處理,那么簡(jiǎn)單地制訂各個(gè)比較功能且通過(guò)一個(gè)短的程序段可實(shí)現(xiàn)。因此,大大簡(jiǎn)化了針對(duì)確定應(yīng)用領(lǐng)域?qū)嵤┍景l(fā)明的方法,再者本發(fā)明的方法可快速進(jìn)行,因?yàn)楦鱾€(gè)短程序段只是處理專(zhuān)門(mén)的、比較所需的任務(wù)。
按照本發(fā)明的一種優(yōu)選的實(shí)施方案,設(shè)有一個(gè)或多個(gè)復(fù)合數(shù)據(jù)區(qū),它們各自建立在多個(gè)數(shù)據(jù)區(qū)的基礎(chǔ)上。如果這些另外的數(shù)據(jù)區(qū)又是復(fù)合數(shù)據(jù)區(qū),則它們又是以多個(gè)數(shù)據(jù)區(qū)為基礎(chǔ)。在這樣一個(gè)鏈的終點(diǎn)安排有基本數(shù)據(jù)區(qū),簡(jiǎn)檔的信息存儲(chǔ)于其中。數(shù)據(jù)區(qū)以不同的級(jí)來(lái)安排,此時(shí)一個(gè)與多個(gè)其它數(shù)據(jù)區(qū)有關(guān)的復(fù)合數(shù)據(jù)區(qū),安排在當(dāng)時(shí)對(duì)數(shù)據(jù)區(qū)高一級(jí)的級(jí)上,它與該級(jí)有關(guān)。
按照本發(fā)明的一個(gè)優(yōu)選的實(shí)施方案,為了比較由任意文字中包含的數(shù)據(jù)區(qū),將制訂文件向量,此時(shí)向量的各個(gè)要素是說(shuō)明要素關(guān)聯(lián)的加權(quán)因數(shù),并將兩個(gè)文件向量之間的一個(gè)歐幾里得距離作為暫時(shí)比較值計(jì)算。一個(gè)歐幾里得距離的計(jì)算,滿足對(duì)一個(gè)公制間距函數(shù)的要求,即兩個(gè)雷同的向量距離為0,從一個(gè)第一到一個(gè)第二向量的距離等于從第二到第一向量的距離,以及一個(gè)第一與一個(gè)第三個(gè)向量之間的距離小于或等于第一與一個(gè)第二向量之間的距離,包括第二與第三個(gè)向量之間的距離。
根據(jù)本發(fā)明的方法能很有利地整合到一個(gè)代理系統(tǒng)去。這個(gè)代理系統(tǒng)包括至少三種類(lèi)型代理,即一個(gè)檢索代理、一個(gè)建議代理和一個(gè)比較代理,后者按照通過(guò)檢索代理的請(qǐng)求將存儲(chǔ)在檢索代理和建議代理中的簡(jiǎn)檔進(jìn)行比較和評(píng)估。代理系統(tǒng)基本上是一個(gè)開(kāi)放的代理系統(tǒng),就是說(shuō)能補(bǔ)充另外的代理,尤其是建議代理。所述代理主要是移動(dòng)代理,就是說(shuō)它們能在一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)中在不同位置活動(dòng),并能在計(jì)算機(jī)網(wǎng)絡(luò)中改變地點(diǎn)。
本發(fā)明在下面附圖所示的實(shí)施例中得到進(jìn)一步說(shuō)明。


圖1示出的是不同基本數(shù)據(jù)區(qū)的一個(gè)表格,圖2一個(gè)以表格形式的簡(jiǎn)檔說(shuō)明,圖3以一個(gè)方框圖形式的簡(jiǎn)檔結(jié)構(gòu),圖4在一個(gè)流程框圖中自動(dòng)比較和評(píng)估信息的方法,圖5a兩個(gè)要比較的任意文字,圖5b由在圖5a出示的任意文字推導(dǎo)出的兩個(gè)數(shù)據(jù)組,圖5c數(shù)據(jù)組各個(gè)詞以表格形式的評(píng)估結(jié)果,圖6對(duì)合作股票市場(chǎng)的建議說(shuō)明的一個(gè)例子,圖7以方框圖形式的一個(gè)代理系統(tǒng),和圖8與計(jì)算機(jī)相連的網(wǎng)絡(luò)的方框圖,在其上安裝有圖6的代理系統(tǒng)。
對(duì)于按照本發(fā)明的自動(dòng)比較和評(píng)估信息的方法,檢索簡(jiǎn)檔要與一個(gè)在數(shù)據(jù)庫(kù)中存儲(chǔ)的建議簡(jiǎn)檔進(jìn)行比較。圖2示出了一個(gè)本發(fā)明的實(shí)施例的簡(jiǎn)檔說(shuō)明。這個(gè)簡(jiǎn)檔說(shuō)明包括八個(gè)數(shù)據(jù)區(qū),在圖2的左列有各個(gè)數(shù)據(jù)區(qū)的名稱(chēng),在中間列是數(shù)據(jù)區(qū)變量符號(hào),在右列給出了數(shù)據(jù)區(qū)的一個(gè)簡(jiǎn)短說(shuō)明。
原則上對(duì)一個(gè)自動(dòng)比較方法,在一個(gè)建議簡(jiǎn)檔與一個(gè)檢索簡(jiǎn)檔之間進(jìn)行區(qū)分。建議簡(jiǎn)檔和檢索簡(jiǎn)檔的簡(jiǎn)檔說(shuō)明在結(jié)構(gòu)上是一致的。它們只是通過(guò)其數(shù)據(jù)區(qū)內(nèi)容‘簡(jiǎn)檔類(lèi)型’來(lái)區(qū)分,其中,對(duì)是否涉及一個(gè)建議簡(jiǎn)檔或是一個(gè)檢索簡(jiǎn)檔的說(shuō)明存儲(chǔ)在其中。數(shù)據(jù)區(qū)‘簡(jiǎn)檔類(lèi)型’t是一個(gè)布爾數(shù)據(jù)區(qū),其內(nèi)容不是0就是1。其它數(shù)據(jù)區(qū)是題目、關(guān)鍵詞、準(zhǔn)確說(shuō)明、費(fèi)用、日期、持續(xù)時(shí)間和用戶。數(shù)據(jù)區(qū)‘題目’包括一個(gè)被建議的或被檢索的性能的簡(jiǎn)短說(shuō)明,是以一個(gè)所謂的動(dòng)詞-名詞-表達(dá)方式的形式。利用這類(lèi)動(dòng)詞-名詞-表達(dá)方式,是從V.S.Subrahmanian(發(fā)行人),Piero Bonatti,Juergen Dix,Thomas Eiter,“Heterogeneous Active Agents”,Cit Press;ISBN0262194368得知。數(shù)據(jù)區(qū)‘關(guān)鍵詞’包括一組關(guān)鍵詞。以前面說(shuō)明的意義,一組是同類(lèi)型要素的一個(gè)無(wú)序匯集,諸如詞、實(shí)數(shù)、整數(shù)或類(lèi)似的。一個(gè)組的變量表示在兩個(gè)大括號(hào)之間。
數(shù)據(jù)區(qū)‘準(zhǔn)確說(shuō)明’包括一段任意文字,在其中以建議的或檢索的性能來(lái)說(shuō)明。
數(shù)據(jù)區(qū)‘費(fèi)用’包括關(guān)于所期待的最低或最高費(fèi)用的說(shuō)明。因此數(shù)據(jù)區(qū)‘費(fèi)用’表示的是一個(gè)間隔。
數(shù)據(jù)區(qū)‘持續(xù)時(shí)間’給出的是,為了實(shí)施所建議的性能需要的時(shí)間。
數(shù)據(jù)區(qū)‘用戶’包括一個(gè)那些提供或要提供性能用戶的名單。一個(gè)名單通過(guò)置于上角的正號(hào)表示。括號(hào)表達(dá)方式[12]代表每個(gè)名單要素由兩個(gè)單個(gè)元素組成,即名和姓。數(shù)據(jù)區(qū)τ8[12]+和數(shù)據(jù)區(qū)(τ1)是下面將要詳細(xì)說(shuō)明的復(fù)合變量。
圖3是圖2簡(jiǎn)檔說(shuō)明的結(jié)構(gòu)。簡(jiǎn)檔說(shuō)明劃分為三個(gè)級(jí)(級(jí)0、級(jí)1和級(jí)2)。級(jí)2是最高的級(jí),圖2所示的數(shù)據(jù)區(qū)被布置在其中。復(fù)合數(shù)據(jù)區(qū)τ1和τ8[12]+各與其它數(shù)據(jù)區(qū)有關(guān),這些數(shù)據(jù)區(qū)是通過(guò)相應(yīng)的變量表示在下面的級(jí)中。這樣,在級(jí)中布置有多個(gè)數(shù)據(jù)區(qū)τ1,其中各存儲(chǔ)一個(gè)關(guān)鍵詞。因此復(fù)合變量τ1與在級(jí)1上存儲(chǔ)的關(guān)鍵詞清單有關(guān)。用戶的復(fù)合數(shù)據(jù)區(qū)τ8[12]+與其它數(shù)據(jù)區(qū)的一個(gè)清單有關(guān)。這個(gè)清單的要素是區(qū)布置[12],它們各包括名和姓。原則上一個(gè)區(qū)布置包括一個(gè)一定數(shù)量的同類(lèi)型要素。因此,區(qū)布置τ8[12]與在級(jí)0中布置的其它數(shù)據(jù)區(qū)有關(guān),并各有一個(gè)單字填寫(xiě),即名或姓。兩個(gè)這類(lèi)的數(shù)據(jù)區(qū)τ8總是歸納成一個(gè)這種類(lèi)型的區(qū)布置。
與在低一級(jí)的級(jí)中其它數(shù)據(jù)區(qū)有關(guān)的數(shù)據(jù)區(qū),被稱(chēng)作為復(fù)合數(shù)據(jù)區(qū)。其余數(shù)據(jù)區(qū)是基本數(shù)據(jù)區(qū)。
在基本數(shù)據(jù)區(qū)中,存儲(chǔ)有當(dāng)時(shí)簡(jiǎn)檔的信息。經(jīng)過(guò)復(fù)合數(shù)據(jù)區(qū),有多個(gè)基本數(shù)據(jù)區(qū)以組、清單、區(qū)布置或登記(Record)形式,反映到最高級(jí)中的唯一一個(gè)區(qū)布置上。登記類(lèi)似于由一個(gè)預(yù)先確定數(shù)量的連續(xù)要素形成的區(qū)布置,又能由不同類(lèi)型組成。
通過(guò)上述用從上一級(jí)的級(jí)向下一級(jí)分杈的復(fù)合數(shù)據(jù)區(qū)的樹(shù)形結(jié)構(gòu),在最高級(jí)的級(jí)(這里級(jí)2)中,為每個(gè)想象的單元只設(shè)置一個(gè)唯一的數(shù)據(jù)區(qū)。
圖1是基本數(shù)據(jù)區(qū)的一個(gè)清單。在第一列中是基本數(shù)據(jù)區(qū)τ1至τ8的變量名稱(chēng)。在中間的列中是相應(yīng)基本數(shù)據(jù)區(qū)的名稱(chēng),在右列中是內(nèi)容的一個(gè)簡(jiǎn)短說(shuō)明。
所舉的實(shí)施例是進(jìn)行英語(yǔ)的語(yǔ)言要素比較,因此關(guān)鍵詞τ1是英語(yǔ)的名詞。動(dòng)詞-名詞-表達(dá)方式τ2是由一個(gè)動(dòng)詞和至少一個(gè)名詞組成的表達(dá)方式。一段任意文字τ3由一個(gè)任意字、字母和數(shù)字組合組成。數(shù)字τ4不是一個(gè)整數(shù)(Integer)就是一個(gè)實(shí)數(shù)。間隔τ5是類(lèi)型V1、V2的一個(gè)區(qū)布置,此時(shí)V1和V2是以整數(shù)或?qū)崝?shù)形式的間隔邊界。一個(gè)日期間隔τ6是有兩個(gè)日期說(shuō)明D.M.Y的一個(gè)區(qū)布置。一個(gè)時(shí)間τ7是帶有說(shuō)明YDHMSMs的一個(gè)區(qū)布置,其中Y是年,D是日,H是小時(shí),M是分,S是秒,Ms是1/100秒。一個(gè)名字τ8是一個(gè)人任意一個(gè)適用的名字。
圖4是圖3中所示簡(jiǎn)檔結(jié)構(gòu)的按照本發(fā)明方法的流程。
該方法以步驟S1開(kāi)始。在步驟S2中,借助一個(gè)姓名比較功能比較數(shù)據(jù)區(qū)‘用戶’。如果名和姓,即兩個(gè)由一個(gè)名和一個(gè)姓組成的區(qū)布置符合一致,則作為暫時(shí)比較值計(jì)算一個(gè)距離的姓名比較功能得出的距離為0。如果比較的姓名不一致,則作為暫時(shí)比較值的姓名比較功能得出的距離為1。在步驟S2中比較數(shù)據(jù)區(qū)‘用戶’時(shí),將檢索簡(jiǎn)檔的各個(gè)區(qū)布置與所有建議簡(jiǎn)檔的相應(yīng)區(qū)布置進(jìn)行比較。該比較在級(jí)0的區(qū)布置之間進(jìn)行。如果檢索簡(jiǎn)檔的一個(gè)區(qū)布置與建議簡(jiǎn)檔的一個(gè)區(qū)布置符合一致,則在檢索簡(jiǎn)檔的級(jí)1中,將數(shù)值0作為暫時(shí)比較值,填寫(xiě)到屬于被找到的區(qū)布置的數(shù)據(jù)區(qū)τ8[12]中。如果不能找到這個(gè)區(qū)布置(=名和姓),則在級(jí)1的相應(yīng)數(shù)據(jù)區(qū)填寫(xiě)數(shù)值1。步驟2結(jié)束之后,所有數(shù)據(jù)區(qū)τ8[12]都具有一個(gè)暫時(shí)比較值。
在步驟3中,評(píng)估分配給姓名的暫時(shí)比較值。一般這是通過(guò)形成一個(gè)加權(quán)的平均值來(lái)進(jìn)行。因?yàn)橐容^的要素總是有相同的類(lèi)型,它們是等值的,因此都用1加權(quán)。這樣,總是形成一個(gè)填寫(xiě)到復(fù)合數(shù)據(jù)區(qū)τ8[12]數(shù)值的平均值。該平均值是一個(gè)第二等級(jí)的暫時(shí)比較值,它被填寫(xiě)在名單τ8[12]+復(fù)合數(shù)據(jù)區(qū)的級(jí)2。
在下面的步驟S4中,將檢索簡(jiǎn)檔含有關(guān)鍵詞內(nèi)容的數(shù)據(jù)區(qū)τ1與建議簡(jiǎn)檔的相應(yīng)數(shù)據(jù)區(qū)進(jìn)行比較。以比較關(guān)鍵詞的比較功能這樣去形成,即將檢索簡(jiǎn)檔的每個(gè)關(guān)鍵詞與建議簡(jiǎn)檔的每個(gè)關(guān)鍵詞去比較,如果檢索簡(jiǎn)檔的一個(gè)關(guān)鍵詞沒(méi)有包含在建議簡(jiǎn)檔的關(guān)鍵詞之下,則存儲(chǔ)數(shù)值1。在其它情況下,存儲(chǔ)數(shù)值1。這些數(shù)值的平均值作為比較值計(jì)算,并填寫(xiě)到關(guān)鍵詞{τ1}清單的數(shù)據(jù)區(qū)中。
方法步驟3和4在級(jí)1中實(shí)施。
在接著的方法步驟5中,將數(shù)據(jù)區(qū)‘題目’τ2、‘準(zhǔn)確說(shuō)明’τ3、‘費(fèi)用’τ5、‘日期說(shuō)明’τ6和‘持續(xù)時(shí)間’τ7的內(nèi)容相互進(jìn)行比較。
對(duì)‘題目’τ2進(jìn)行比較的比較功能是通常的比較動(dòng)詞-名詞-表達(dá)方式的比較功能。
對(duì)數(shù)據(jù)區(qū)‘準(zhǔn)確的說(shuō)明’τ3進(jìn)行比較的比較功能是一個(gè)比較任意文字的比較功能。圖5a是兩個(gè)任意文字d1、d2的舉例,它們各為一段用英語(yǔ)寫(xiě)成的文字。首先將這些任意文字轉(zhuǎn)變成數(shù)據(jù)組DS1和DS2,將任意文字中所有的詞都納入到其中,它們不是停止詞。停止詞是信息內(nèi)容少的詞。有常用停止詞清單。在所述情況中,下面的詞被評(píng)為停止詞this、is、in、a、the、and、off、can、be are、with、we、for、to、an、able、wich、our、not、shout、already、make。
在數(shù)據(jù)組DS1和DS2中,在各個(gè)詞之后總還給出其在相應(yīng)任意文字中出現(xiàn)的頻率。各個(gè)詞在數(shù)據(jù)組中按字母分類(lèi)。
為了比較任意文字,數(shù)據(jù)組的詞必須設(shè)有加權(quán)因數(shù)。為了計(jì)算加權(quán)因數(shù),先要按照下面的公式定義所謂的逆向文件頻度idfjidfj:=logNdfj,]]>其中N是所有文件的總數(shù),dfj是包含有j字的文件個(gè)數(shù)。在下面的實(shí)施例中,每一段任意文字表示一個(gè)文件。除了在圖5a中示出的兩個(gè)任意文字外,總共還有其它18個(gè)建議簡(jiǎn)檔的另外18個(gè)任意文字。文件N的總數(shù)為20。
利用逆向文件頻度,那些極其頻繁出現(xiàn)的詞用一個(gè)趨于0的數(shù)值加權(quán),而只很少在文件中出現(xiàn)的詞用趨于1的數(shù)值加權(quán)。因此,在逆向文件頻度idfj的情況下,罕見(jiàn)的詞有比頻繁用的詞強(qiáng)的加權(quán)。罕見(jiàn)的詞一般有比頻繁用的詞更高的信息含量。
除了逆向文件頻度外,還要考慮在文件i中詞j的頻度tfi,j。這樣,頻度tfi,j與逆向文件頻度idfj的乘積作為加權(quán)因數(shù)wi,j(wi,j=tfi,j.idfj)。
對(duì)于在圖5b中所示出的數(shù)據(jù)組的詞,其逆向頻度dfj和加權(quán)因數(shù)w1,j和w2,j,列于圖5c的表中。
加權(quán)因數(shù)w1,j和w2,j,各組成文件向量DV1和DV2的要素。
在比較兩段任意文字時(shí),要計(jì)算相應(yīng)文件向量DV1和DV2的距離。按照本發(fā)明,兩個(gè)向量之間的距離作為歐幾里得距離依照下面的公式計(jì)算d(DVi,DVl)=Σj=1k(wi,j-wl,j)2]]>歐幾里得標(biāo)準(zhǔn)在公制距離上滿足所有的前提-兩個(gè)完全相同向量之間的距離為0。
-從一個(gè)第一向量到一個(gè)第二向量的距離等于從第二向量到第一向量的距離。就是說(shuō),距離計(jì)算是對(duì)稱(chēng)的。
-從一個(gè)第一向量到一個(gè)第三個(gè)向量的距離小于從第一向量到一個(gè)第二向量與從第二向量到第三個(gè)向量距離之和。
只有當(dāng)距離計(jì)算滿足這個(gè)前提時(shí),才確??偸乔蟮靡粋€(gè)有意義的距離。
代替用一個(gè)歐幾里得距離計(jì)算兩個(gè)文件向量之間的距離,也可以像進(jìn)行通常比較方法那樣,用兩個(gè)向量之間的余弦去計(jì)算距離。
對(duì)包括費(fèi)用的數(shù)據(jù)區(qū)進(jìn)行比較的比較功能,是進(jìn)行間距比較的比較功能。兩個(gè)間距i1,i2之間的用實(shí)數(shù)i1=[l1,r1]和i2=[l2,r2]給出的距離,按下面公式計(jì)算 為了計(jì)算數(shù)據(jù)區(qū)‘日期說(shuō)明’和‘持續(xù)時(shí)間’,利用本來(lái)已知的比較功能。
在所舉的實(shí)施例的情況下不比較數(shù)字,因此也不利用相應(yīng)的比較功能去比較。這樣一種比較功能,例如可以很簡(jiǎn)單地通過(guò)要比較數(shù)字之間差的絕對(duì)值來(lái)實(shí)現(xiàn)。
要將在比較數(shù)據(jù)區(qū)τ2、τ3、τ5、τ6和τ7時(shí)所求得的暫時(shí)比較值存儲(chǔ)起來(lái)。就此,步驟S5結(jié)束。
在步驟6中,對(duì)級(jí)2數(shù)據(jù)區(qū)τ1至τ8的各個(gè)暫時(shí)比較值,被利用來(lái)計(jì)算一個(gè)最終比較值。在這種情況下,計(jì)算一個(gè)加權(quán)平均值,此時(shí)各個(gè)數(shù)據(jù)區(qū)根據(jù)其各自的重要性以不同強(qiáng)度進(jìn)行加權(quán)。這個(gè)被加權(quán)的平均值形成的結(jié)果給出兩個(gè)對(duì)要比較的簡(jiǎn)檔的檢索簡(jiǎn)檔與建議簡(jiǎn)檔之間距離的一個(gè)距離值。
因?yàn)橐话阆M捎孟嗨浦刀蔷嚯x值,所以構(gòu)成距離值的倒數(shù)值(步驟S7)。這個(gè)相似值表示最終比較值。這個(gè)比較值從步驟S8輸出。在步驟S9中此方法結(jié)束。
最終比較值,能用于將相應(yīng)的建議簡(jiǎn)檔在建議簡(jiǎn)檔的一個(gè)清單中,按照計(jì)算出的對(duì)檢索簡(jiǎn)檔的相似性進(jìn)行分類(lèi)。
如果用戶在啟動(dòng)一個(gè)檢索過(guò)程時(shí)確定,他希望有最相似的建議簡(jiǎn)檔,則對(duì)每個(gè)建議簡(jiǎn)檔實(shí)施上述本發(fā)明的方法,各個(gè)建議簡(jiǎn)檔關(guān)系到檢索簡(jiǎn)檔以遞降的相似性分類(lèi),并將最相似的建議簡(jiǎn)檔作為結(jié)果輸出給用戶。
本發(fā)明的方法能作為計(jì)算機(jī)程序,去進(jìn)行簡(jiǎn)檔的自動(dòng)比較。本發(fā)明方法的一個(gè)特別有利的實(shí)施,是以一個(gè)代理系統(tǒng)的形式進(jìn)行。
代理是由代碼和數(shù)據(jù)組成的自主、合作的軟件單元。它們是獨(dú)立起作用的軟件單元,其中不需要與用戶有永久性相互作用。既有固定的代理,也有移動(dòng)的代理。
例如從US 5,603,031公知移動(dòng)代理。移動(dòng)代理是能在一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)上在不同位置運(yùn)行的程序,并能在計(jì)算機(jī)網(wǎng)絡(luò)中改變它們的地點(diǎn)。
圖7大致示出用三個(gè)代理的根據(jù)本發(fā)明的方法的流程圖。其中,采用了一個(gè)比較代理、一個(gè)檢索代理和一個(gè)建議代理。比較代理包括有一個(gè)數(shù)據(jù)庫(kù),將對(duì)于它已知的建議代理與它們各自的建議簡(jiǎn)檔存儲(chǔ)在比較代理中。建議代理能用它們的建議簡(jiǎn)檔填寫(xiě)到相應(yīng)的數(shù)據(jù)庫(kù)中,或者如果它們不再保持相應(yīng)的建議時(shí),再將該建議簡(jiǎn)檔清除。
一個(gè)尋找一確定性能的檢索代理,轉(zhuǎn)向一個(gè)比較代理,并向比較代理發(fā)送一個(gè)檢索詢問(wèn)。檢索詢問(wèn)包含一個(gè)相應(yīng)的檢索簡(jiǎn)檔。比較代理將這個(gè)檢索簡(jiǎn)檔與在比較代理數(shù)據(jù)庫(kù)中存儲(chǔ)的建議簡(jiǎn)檔比較,并按照上述的方法評(píng)估它們。比較代理傳輸給檢索代理一個(gè)相應(yīng)的檢索回答,該回答包含有一個(gè)相關(guān)聯(lián)的建議代理名單,此時(shí)每個(gè)建議代理用一個(gè)比較值評(píng)估。
檢索代理能將檢索回答或者轉(zhuǎn)發(fā)給它的原始任務(wù)委托人,或者向分配了最好比較值的建議代理發(fā)送一個(gè)詢問(wèn)以提供相應(yīng)的性能。然后就能將成果從建議代理帶給檢索代理,檢索代理再將它轉(zhuǎn)發(fā)給它的任務(wù)委托人。
圖1是一個(gè)在其中實(shí)施一個(gè)這類(lèi)代理系統(tǒng)的網(wǎng)絡(luò)簡(jiǎn)化圖示。網(wǎng)絡(luò)有多個(gè)經(jīng)過(guò)數(shù)據(jù)傳輸線2互相連接的計(jì)算機(jī)1。在各個(gè)計(jì)算機(jī)1上,各安裝一個(gè)代理系統(tǒng)AG。在網(wǎng)絡(luò)中有一些移動(dòng)代理AG-I至AG-IV,它們或者布置在一個(gè)計(jì)算機(jī)1上,或者從一個(gè)到另一個(gè)計(jì)算機(jī)移動(dòng)。
每個(gè)代理系統(tǒng)有一個(gè)包括服務(wù)程序的代理平臺(tái),它需要一個(gè)代理,以便能到當(dāng)時(shí)的計(jì)算機(jī)1上去實(shí)施。
代理AG-I是建議代理,代理AG-II是檢索代理。代理AG-III是比較代理。在比較代理AG-III中存儲(chǔ)建議代理AG-I的建議簡(jiǎn)檔,檢索代理AG-I在比較代理AG-III提出一個(gè)檢索詢問(wèn),這個(gè)代理用一個(gè)相應(yīng)的檢索回答來(lái)回答該詢問(wèn)。
檢索代理就能將檢索回答以相應(yīng)的預(yù)定方式和方法繼續(xù)處理,特別是要轉(zhuǎn)發(fā)給操作一個(gè)網(wǎng)絡(luò)計(jì)算機(jī)的那個(gè)用戶。
根據(jù)本發(fā)明的方法,能作為在一個(gè)網(wǎng)絡(luò)中以例如一個(gè)比較代理形式存儲(chǔ)的軟件產(chǎn)品來(lái)實(shí)現(xiàn)。根據(jù)本發(fā)明的方法,也能被存在任意一個(gè)電子可讀的數(shù)據(jù)載體上,或一個(gè)計(jì)算機(jī)中的一個(gè)半導(dǎo)體存儲(chǔ)器上,并在計(jì)算機(jī)中去實(shí)施。
本發(fā)明用上面的一個(gè)實(shí)施例詳細(xì)說(shuō)明。但它不局限于所舉實(shí)施例的具體實(shí)施形式。對(duì)于本發(fā)明主要的是,各個(gè)簡(jiǎn)檔是通過(guò)不同類(lèi)型的數(shù)據(jù)區(qū)結(jié)構(gòu)化,且對(duì)于不同類(lèi)型的數(shù)據(jù)區(qū)應(yīng)用不同的比較功能。因此,得到一個(gè)對(duì)被比較的簡(jiǎn)檔的多維評(píng)估。這個(gè)簡(jiǎn)檔的多維評(píng)估是一個(gè)很獨(dú)特的評(píng)估,與由人進(jìn)行的評(píng)估很相近。在本發(fā)明的范圍內(nèi),例如有可能用作為在上述實(shí)施形式的情況下的其它內(nèi)容占據(jù)基本區(qū)。也有可能將不同結(jié)構(gòu)的簡(jiǎn)檔進(jìn)行比較,此時(shí)要將兩個(gè)簡(jiǎn)檔之一成像在另一個(gè)簡(jiǎn)檔上,其結(jié)構(gòu)要與被比較的簡(jiǎn)檔的一致。
通過(guò)這種附加的成像,根據(jù)本發(fā)明方法的使用范圍能大大地?cái)U(kuò)展。例如適宜的是,將一個(gè)相對(duì)小的設(shè)置有三至五個(gè)不同類(lèi)型數(shù)據(jù)區(qū)的簡(jiǎn)檔,成像到任意的信息單元上。這些信息單元就用它們所屬的結(jié)構(gòu)化了的簡(jiǎn)檔進(jìn)行比較。
權(quán)利要求
1.用于將一個(gè)第一檢索簡(jiǎn)檔與至少一個(gè)第二檢索簡(jiǎn)檔進(jìn)行比較的方法,其中所述檢索簡(jiǎn)檔各有多個(gè)數(shù)據(jù)區(qū),其特征在于第一檢索簡(jiǎn)檔和第二檢索簡(jiǎn)檔的數(shù)據(jù)區(qū),各包括至少兩個(gè)具有一個(gè)不同類(lèi)型的數(shù)據(jù)區(qū),該類(lèi)型對(duì)第一和第二檢索簡(jiǎn)檔向量各自的數(shù)據(jù)區(qū)相同;對(duì)于該方法,在比較第一檢索簡(jiǎn)檔與第二檢索簡(jiǎn)檔時(shí),將至少兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)用不同的比較功能進(jìn)行比較。
2.自動(dòng)比較和評(píng)估信息的方法,其中各將一個(gè)檢索簡(jiǎn)檔與一個(gè)存儲(chǔ)在數(shù)據(jù)庫(kù)的建議簡(jiǎn)檔進(jìn)行比較,并將簡(jiǎn)檔各劃分為一定數(shù)量的數(shù)據(jù)區(qū),將有待比較的信息存儲(chǔ)在所述數(shù)據(jù)區(qū)中,每個(gè)簡(jiǎn)檔至少有兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū),有待比較的簡(jiǎn)檔各自有相同類(lèi)型的數(shù)據(jù)區(qū),其中,在將一個(gè)檢索簡(jiǎn)檔與一個(gè)建議簡(jiǎn)檔進(jìn)行比較時(shí),將至少兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)用不同的比較功能進(jìn)行比較,并將各個(gè)比較用一個(gè)暫時(shí)比較值去評(píng)估,和由暫時(shí)比較值計(jì)算一個(gè)最終比較值。
3.如權(quán)利要求2的方法,其特征在于所述簡(jiǎn)檔有多個(gè)級(jí),至少在一個(gè)級(jí)中設(shè)置有一個(gè)復(fù)合數(shù)據(jù)區(qū),它與一個(gè)低一級(jí)的級(jí)的多個(gè)數(shù)據(jù)區(qū)有關(guān),所述復(fù)合數(shù)據(jù)區(qū)是一個(gè)變量,在進(jìn)行比較時(shí),將一個(gè)復(fù)合比較值用于其中,該比較值從比復(fù)合數(shù)據(jù)區(qū)等級(jí)低的數(shù)據(jù)區(qū)計(jì)算出。
4.如權(quán)利要求3的方法,其特征在于復(fù)合數(shù)據(jù)區(qū)與基本數(shù)據(jù)區(qū)有關(guān),其中所述簡(jiǎn)檔的信息存儲(chǔ)在基本數(shù)據(jù)區(qū)中。
5.如權(quán)利要求4的方法,其特征在于復(fù)合數(shù)據(jù)區(qū)布置在最高級(jí)中;在最高級(jí)之下布置有多個(gè)級(jí),其中,經(jīng)過(guò)其它復(fù)合數(shù)據(jù)區(qū)建立最高級(jí)的復(fù)合數(shù)據(jù)區(qū)與不是布置在最高級(jí)的直接下一級(jí)的級(jí)中的基本數(shù)據(jù)區(qū)的關(guān)系,這些復(fù)合數(shù)據(jù)區(qū)被布置在最高級(jí)與布置有基本數(shù)據(jù)區(qū)的級(jí)之間的級(jí)中。
6.如權(quán)利要求2至5之一的方法,其特征在于最終比較值用一個(gè)由暫時(shí)比較值的加權(quán)平均值形成來(lái)計(jì)算。
7.如權(quán)利要求2至6之一的方法,其特征在于暫時(shí)比較值表示當(dāng)時(shí)的一個(gè)信息距離,相應(yīng)的信息區(qū)別越強(qiáng),其數(shù)值就越大。
8.如權(quán)利要求7的方法,其特征在于為了由暫時(shí)比較值計(jì)算最終比較值,計(jì)算一個(gè)最終信息距離,并從這個(gè)信息距離計(jì)算構(gòu)成最終通信數(shù)值的倒數(shù)值。
9.如權(quán)利要求2至8之一的方法,其特征在于所述比較功能對(duì)兩個(gè)各包含一個(gè)日期、一個(gè)數(shù)值、一段任意文字、一個(gè)關(guān)鍵字、一個(gè)間隔、一個(gè)鐘點(diǎn)時(shí)間的數(shù)據(jù)區(qū)進(jìn)行比較和評(píng)估;或者對(duì)一個(gè)各包含姓名的數(shù)據(jù)區(qū)進(jìn)行比較和評(píng)估。
10.如權(quán)利要求2至9之一的方法,其特征在于一個(gè)比較功能,用于比較兩個(gè)各包含一段任意文字的數(shù)據(jù)區(qū),這是通過(guò)以下方式進(jìn)行的-將兩段任意文字分解成單個(gè)的詞,-為每段任意文字各編寫(xiě)一個(gè)數(shù)據(jù)組,它包括各段任意文字中的所有的詞,這些詞不是停止詞。-數(shù)據(jù)組中的每個(gè)詞根據(jù)其在任意文字內(nèi)的相關(guān)性和根據(jù)其數(shù)據(jù)庫(kù)中的相關(guān)性用一個(gè)加權(quán)因數(shù)(wi,j)加權(quán),其中兩個(gè)數(shù)據(jù)組的加權(quán)因數(shù)各是一個(gè)文件向量(DVi,DVj)的要素,和-計(jì)算兩個(gè)文件向量的距離,其中所述距離表示暫時(shí)比較值。
11.如權(quán)利要求10的方法,其特征在于將兩個(gè)文件向量(DVi,DVj)之間的歐幾里得距離作為距離計(jì)算。
12.如權(quán)利要求10的方法,其特征在于將兩個(gè)文件向量(DVi,DVj)之間的余弦作為距離計(jì)算。
13.如權(quán)利要求2至12之一的方法‘其特征在于利用一個(gè)K.O.-準(zhǔn)則,它監(jiān)控有待比較簡(jiǎn)檔的一個(gè)確定區(qū)的暫時(shí)比較結(jié)果,并對(duì)暫時(shí)比較結(jié)果的一個(gè)預(yù)定的數(shù)值,以與其余比較結(jié)果無(wú)關(guān)的方式,在一個(gè)預(yù)定數(shù)值上確立最終比較結(jié)果。
14.如權(quán)利要求2至13之一的方法,其特征在于至少有一個(gè)比較功能包括有一個(gè)閾值準(zhǔn)則,當(dāng)它超過(guò)或低于閾值時(shí),在一個(gè)預(yù)定數(shù)值上確立比較結(jié)果。
15.如權(quán)利要求2至14之一的方法,其特征在于一個(gè)比較功能,用來(lái)比較兩個(gè)各有一個(gè)數(shù)字的數(shù)據(jù)區(qū),其中將兩個(gè)數(shù)之間的差的絕對(duì)值作為比較值來(lái)計(jì)算。
16.如權(quán)利要求2至15之一的方法,其特征在于一個(gè)比較功能,用來(lái)比較兩個(gè)各含有一個(gè)間隔的數(shù)據(jù)區(qū),此時(shí)兩個(gè)間隔(i1,i2)的界限用實(shí)數(shù)(i1=[l1,r1]和i2=[l2,r2])給出,比較值d(i1,i2)按下面的公式計(jì)算
17.如權(quán)利要求2至16之一的方法,其特征在于一個(gè)比較功能,用來(lái)比較兩個(gè)各有一個(gè)姓名的數(shù)據(jù)區(qū),其中,如果有待比較的名字相符或者相似,則暫時(shí)比較值等于0,或者如果名字不同,則等于無(wú)窮大。
18.連接多個(gè)計(jì)算機(jī)的網(wǎng)絡(luò),其中在所示計(jì)算機(jī)中裝有一個(gè)代理系統(tǒng),并且網(wǎng)絡(luò)擁有多個(gè)代理,其特征在于一個(gè)比較代理,它被設(shè)計(jì)成實(shí)施如權(quán)利要求2至17之一的方法,和一個(gè)檢索代理,它能對(duì)比較代理提出一個(gè)檢索詢問(wèn);按照所述詢問(wèn),比較代理自動(dòng)在一個(gè)數(shù)據(jù)庫(kù)中,將存儲(chǔ)的建議簡(jiǎn)檔與一個(gè)用檢索詢問(wèn)傳輸?shù)臋z索簡(jiǎn)檔進(jìn)行比較和評(píng)估。
19.如權(quán)利要求18的網(wǎng)絡(luò),其特征在于比較代理包括數(shù)據(jù)庫(kù)與該數(shù)據(jù)庫(kù)中所含的建議簡(jiǎn)檔。
20.如權(quán)利要求18或19的網(wǎng)絡(luò),其特征在于設(shè)置有多個(gè)建議代理,它們將一個(gè)對(duì)用于它們建議的建議簡(jiǎn)檔傳輸給比較代理,以便存儲(chǔ)在它的數(shù)據(jù)庫(kù)中;或在回收一個(gè)建議時(shí),將一個(gè)信息傳輸給比較代理,以便清除建議簡(jiǎn)檔。
全文摘要
本發(fā)明涉及一種自動(dòng)比較檢索簡(jiǎn)檔的方法。利用本發(fā)明的方法,將一個(gè)檢索簡(jiǎn)檔與一個(gè)或多個(gè)存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)中的建議簡(jiǎn)檔進(jìn)行比較。各個(gè)簡(jiǎn)檔被劃分為數(shù)據(jù)區(qū),要比較的信息存儲(chǔ)于其中。在每一個(gè)簡(jiǎn)檔之內(nèi),設(shè)有不同類(lèi)型的數(shù)據(jù)區(qū),此時(shí)各個(gè)簡(jiǎn)檔有相同的結(jié)構(gòu)。在與一個(gè)建議簡(jiǎn)檔比較一個(gè)檢索簡(jiǎn)檔時(shí),至少要有兩個(gè)不同類(lèi)型的數(shù)據(jù)區(qū)用不同的比較功能去比較。從由此求得的暫時(shí)比較值計(jì)算出一個(gè)最終比較值。對(duì)于本發(fā)明的方法,為不同類(lèi)型的數(shù)據(jù)區(qū)應(yīng)用不同的比較功能。從而使一個(gè)主要是單獨(dú)比較各個(gè)信息的方法比常規(guī)方法為人所知。
文檔編號(hào)G06F17/30GK1455902SQ01815592
公開(kāi)日2003年11月12日 申請(qǐng)日期2001年6月29日 優(yōu)先權(quán)日2000年7月17日
發(fā)明者D·維特 申請(qǐng)人:西門(mén)子公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌拉特前旗| 宜丰县| 武安市| 兴海县| 乐陵市| 松滋市| 石狮市| 望江县| 乌审旗| 石棉县| 望谟县| 临安市| 西宁市| 郯城县| 和田县| 沛县| 尼木县| 洪泽县| 津市市| 衡山县| 射洪县| 宁陕县| 和政县| 渭南市| 徐闻县| 鱼台县| 富裕县| 绍兴县| 五华县| 同心县| 进贤县| 大洼县| 攀枝花市| 延长县| 大厂| 兴化市| 凤庆县| 新化县| 当雄县| 太和县| 仁怀市|