專利名稱:數(shù)據(jù)處理系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于按照預(yù)定標(biāo)準(zhǔn)從數(shù)據(jù)庫檢索數(shù)據(jù)的系統(tǒng)和方法。
背景技術(shù):
基于范例的推理(CBR)系統(tǒng)通過重新使用以前已經(jīng)被解決作為范例被存儲在范例庫中的問題的解決方案來解決了新的問題。任何CBR系統(tǒng)的成功依賴于其選擇用于正確目標(biāo)問題的正確范例的能力(參見例如Kolodner,J.Case-Based Reasoning.Morgan Kaufmann,1993;Smyth,B.and Keane,M.Adaptation-Guided RetrievalQuestioning the Similarity Assumption inReasoning.Artificial Intelligence,102249-293,1998;Aamodt,A.And Plaza,E.Case-Based ReasoningFoundational Issues,Methodological Variations,andSystem Approaches.AI Communications,7(1)39-52,1994)。
傳統(tǒng)的智慧在于正確范例在最相似于目標(biāo)問題的那些范例中,因此相當(dāng)多的研究努力已經(jīng)被投入用于評價范例相似性的技術(shù)和策略中(也參見Faltings,B.Probabilistic Indexing for Case-Based Prediction.InProceedings ofthe 2nd International Conference on Case-Based Reasoning,pages 611-622.Springer-Verlag,1997;Leake,D.B.Case-Based ReasoningExperiences,Lessons and Future Directions.AAAI/MIT Press,1996;Smyth,B.and McKenna,E.Incremental Footprint-Based Retrieval.InProceedings of the 21st SGESInternational Conference on Knowledge Based Systems and Applied ArtificialIntelligence,pages 89-101.Springer Verlag,2000)近來,已經(jīng)清楚傳統(tǒng)的相似性觀念不總是理想的,激勵許多研究者尋找替代的方式來在給定的問題解決環(huán)境中判斷范例的效用(例如參見Bergmann,R.,Richter,M.,Schmitt,S.,Stahl,A.And Vollrath,I.Utility-Oriented MatchingA New Research Direction for Case-Based Reasoning.InProceedings of theGerman Workshop on Case-Based Reasoning,2001;Burke,R.ConceptualIndexing and Active Retrieval of Video for Interactive Leaming Environments.Knowledge-Based Systems,9(8)491-499,1996;Fox,S.And Leake,D.B.UsingIntrospective Reasoning to Refine Indexing.InProceedings of the 14thInternational Joint Conference on Artificial Intelligence,pages 391-397.MorganKaufmann,1995;Kolodner,J.Judging which is the“best”case for a case-basedreasoner.InProceedings of the Second Workshop on Case-Based Reasoning,pages 77-81.Morgan Kaufmann,1989;Leake D.B.Constructive SimilarityAssessmentUsing Stored Cases to Define New Situations.InProceedings of the14th Annual Conference of the Cognitive Science Society,pages 313-318.Lawrence Earlbaum Associates,1992)。例如,研究者已經(jīng)查看了與相似性并列的適應(yīng)性的重要性,爭論在一個范例看起來與目標(biāo)問題相似的時候,這不意味著它可以成功地被適配與這個目標(biāo)。
因特網(wǎng)現(xiàn)在幾乎與所謂的信息超載問題同義,因為用戶發(fā)現(xiàn)越來越難于在正確的時間找到正確的信息。近來,已經(jīng)開發(fā)了一種被稱為推薦器系統(tǒng)的新型信息系統(tǒng)來更好地服務(wù)于單獨用戶的信息需求。推薦器系統(tǒng)組合來自信息檢索、人工智能和用戶簡檔(userr profiling)的技術(shù),以便積極地預(yù)測單獨用戶的需求和提供更為個性化的信息服務(wù)。
諸如Entrée(Burke,R.A case-based approach to collaborative filtering.InProceedings of the 5th European Workshop on Case-Based Reasoning.Springer-Verlag,2000)的許多推薦器系統(tǒng)使用CBR策略,用于選擇對于給定的查詢的最相似范例。Entree運行在飯店領(lǐng)域,使得用戶可以使用諸如烹調(diào)類型、價格等的特征來查詢飯店范例庫。通過設(shè)計,Entree返回單個的最佳范例,但是使得用戶如果他們不滿意所述范例則可以修整這個結(jié)果,以便產(chǎn)生對于新的搜索的改進(jìn)的查詢。
經(jīng)常地,一個推薦器系統(tǒng)被設(shè)計來返回多個相似的范例,以便向用戶提供推薦的選擇。例如,諸如旅游或財產(chǎn)推薦器的廣泛應(yīng)用通常對于一個用戶查詢返回k個最佳范例(假日整體計劃或房間列表)。目的是以單個搜索來滿足用戶需要,因此檢索多個范例,并且最大化在結(jié)果列表中出現(xiàn)很多的相關(guān)范例的似然性,因此向相似性提供優(yōu)先級。
但是,這個標(biāo)準(zhǔn)純粹基于相似性的檢索策略在一些應(yīng)用領(lǐng)域中有缺陷??紤]一個旅游推薦器用戶提交一個針對下列情況的查詢兩人夏天的2星期假日,花費少于750美元,在愛爾蘭的3小時飛行時間內(nèi),并且現(xiàn)場具有良好的夜生活和娛樂設(shè)施。所返回的頂級推薦是西班牙的Costa Del Sol中一個具體的公寓樓中的一個公寓,在7月中的前兩個星期。這可能是一個良好的推薦,但是如果第二、第三和第四個推薦來自同一公寓樓——即使可能是在夏天的不同的兩星期時段則如何?在k個最佳推薦全部與目標(biāo)查詢很相似的同時,它們彼此也很相似。如果第一個推薦不適合,則用戶未已經(jīng)接收到一組有益的替代推薦。例如,在這個示例中,如果用戶決定避開Costa DelSol,然后沒有任何替代推薦滿足需要,她必須啟動新的搜索。
通過在檢索期間將相似性優(yōu)先化,一種標(biāo)準(zhǔn)的基于范例的手段將隱含地忽略了檢索多樣性的重要性,這可能降低檢索結(jié)果的品質(zhì)。經(jīng)常地,一個推薦器僅僅返回最相似的范例不是足夠好。它也應(yīng)當(dāng)返回多種集的范例,以便向用戶提供接近他們的查詢的信息空間的最佳覆蓋范圍。這個多樣性問題是基于范例或基于內(nèi)容的推薦技術(shù)的一個所認(rèn)識的缺陷(Smyth,B.and Cotter,P.A Personalized TV Listings Service for the Digital TV Age.Journal ofKnowledge-Based Systems,13(2-3)53-59,2000)。實際上,一個普通的解決方案是考慮不容易受到多樣性問題的影響的替代推薦技術(shù),諸如自動的合作篩選。例如,PTV(個性化電視列表指南)用于電視列表領(lǐng)域,用于根據(jù)用戶的已知的觀看偏好來向用戶提供電視節(jié)目。PTV將基于范例的推薦與合作篩選組合,以便有助于保證向每個用戶提供多樣的一組推薦,而不是僅向已稱作科學(xué)幻想愛好者的用戶推薦科學(xué)幻想節(jié)目。
在移動信息訪問領(lǐng)域中的新發(fā)展進(jìn)一步突出了對于試圖最佳化相似性和多樣性兩者的推薦器系統(tǒng)的需要。諸如個人數(shù)字助理(PDA)和無線應(yīng)用協(xié)議(WAP)使能的移動電話的當(dāng)前的移動計算器件具有作為在典型的PC上得到的屏幕尺寸的小部分的屏幕尺寸;移動電話屏幕可以比PC屏幕小200倍。這降低了可以在單個搜索中被返回的推薦的數(shù)量,并且因為用戶不喜歡上下滾動,因此目標(biāo)必須是返回一個適合于單個屏幕頁面的結(jié)果列表。在WAP器件上,這意味著僅僅具有3或4個范例的列表。如果所有這些范例基本上相同(諸如在同一公寓樓中的度假),則大大降低了在單個搜索中滿足用戶的機(jī)會。但是,如果所述多個推薦是相關(guān)的(與目標(biāo)查詢相似)并且多樣的,則存在更大的成功機(jī)會。
發(fā)明內(nèi)容
因此,本發(fā)明提供了一種數(shù)據(jù)處理方法,用于從n個項目的數(shù)據(jù)庫檢索k個項目的子集(n>>k),所述方法包括(a)確定在n個項目的數(shù)據(jù)庫內(nèi)的bk(b>1)個項目,所述項目按照給定的相似性函數(shù)S而與輸入的查詢t具有最大相似性;(b)選擇與查詢t具有最高相似性S的在bk個項目中的那個項目來作為子集的第一成員;(c)按照作為具有最高品質(zhì)Q的bk個項目中的剩余項目,循環(huán)地選擇在子集中的每個接續(xù)成員,其中Q是針對輸入的查詢t的相似性S和相對多樣性RD的給定函數(shù),其中相對多樣性RD是相對于在前面的循環(huán)期間所選擇的項目的、那個剩余項目的給定多樣性函數(shù)。
本發(fā)明還提供了一種數(shù)據(jù)處理系統(tǒng),用于從n個項目的數(shù)據(jù)庫檢索k個項目的子集(n>>k),所述系統(tǒng)包括(a)第一存儲區(qū)域,用于存儲按照給定的相似性函數(shù)S而與輸入的查詢t具有最大相似性的在n個項目的數(shù)據(jù)庫內(nèi)的bk(b>1)的項目;(b)第二存儲區(qū)域,用于存儲從所述bk個項目構(gòu)建的所述子集;(c)處理器,用于(i)選擇與查詢t具有最高相似性S的bk個項目中的那個項目來作為子集的第一成員;(ii)按照作為具有最高品質(zhì)Q的bk個項目中的剩余項目,循環(huán)地選擇在子集的每個接續(xù)成員,其中Q是針對輸入的查詢t的相似性S和相對多樣性RD的給定函數(shù),其中相對多樣性RD是相對于在前面的循環(huán)期間所選擇的項目的那個剩余項目的給定多樣性函數(shù)。
在另一個方面,提供了一種計算機(jī)程序,它包括這樣的指令,當(dāng)所述指令在數(shù)據(jù)處理系統(tǒng)上被執(zhí)行時有效地使所述數(shù)據(jù)處理系統(tǒng)執(zhí)行本發(fā)明的方法。
可以以機(jī)器可讀的形式在計算機(jī)程序產(chǎn)品上或作為對計算機(jī)程序編碼的電子信號來提供本發(fā)明的計算機(jī)程序。
現(xiàn)在通過示例參照附圖來說明本發(fā)明的實施例,其中圖1是包括本發(fā)明的算法(在此稱為“有界貪婪算法”)的多個多樣性保護(hù)檢索算法的表格;圖2是相對于檢索集大小(k)的多樣性保護(hù)算法的相似性特征的圖;圖3是相對于檢索集大小(k)的多樣性保護(hù)算法的多樣性特征的圖;
圖4是多樣性保護(hù)算法的相對效益的圖;圖5是用于多樣性保護(hù)算法的檢索成本對范例庫尺寸(n)的圖;圖6是與標(biāo)準(zhǔn)算法相比較的多樣性保護(hù)算法的相對成本的圖;圖7是按照有界貪婪選擇算法工作的按照本發(fā)明的一個實施例的推薦器系統(tǒng)的方框圖;圖8是圖解圖7的推薦器系統(tǒng)的運行的流程圖。
具體實施例方式
在基于范例的推薦器中,用于在范例c和目標(biāo)查詢t之間測量相似性的通常方法是使用加權(quán)總和度量,即方程1。
......方程1在這個加權(quán)總和度量中,目標(biāo)t和范例c每個具有可以使用相似性函數(shù)sim相比較的n個特征,每個特征具有附加其上的一個加權(quán)w。例如,如果搜索是針對14夜計劃的假日,費用為800美元,度假地最好距離機(jī)場不超過20公里,則將有三個特征用于比較,并且可以計算函數(shù)sim如下(i=1)夜晚的數(shù)量sim(t1,c1)=1 如果|t1-c1|≤1=0 否則(因此當(dāng)目標(biāo)查詢指定14夜晚的時候,對于具有13、14或15夜晚持續(xù)時間的情況,sim函數(shù)返回值1,)(i=2)價格sim(t2,c2)=1-(|t2-c2|/max(t2c2))其中|t2-c2|是在t2和c2之間的差的絕對值,并且其中max(t2c2)等于t2和c2的值中的較大者。
(因此當(dāng)目標(biāo)查詢指定1000美元的價格時,對于1250美元的價格的情況,sim函數(shù)返回1-(250/1250)=0.8的值)(i=3)距離sim(t3,c3)=1如果c3≤t3=0.5*t3/c3否則(因此當(dāng)目標(biāo)查詢指定不大于20公里的距離時,對于距離機(jī)場的值為25公里的情況,sim函數(shù)返回0.5*(20/25)=0.4的值)可以是這樣,推薦器系統(tǒng)被編程為向多個夜晚提供強(qiáng)的加權(quán)wi(w1=5),向價格提供不太強(qiáng)的加權(quán)(w2=3),向距離提供弱的加權(quán)(w3=0.5)。因此對于持續(xù)時間=14夜晚、價格=1600美元和自機(jī)場距離=25公里的情況,對于上面給出的目標(biāo)查詢的相似性返回值將是[(5*1)+(3*0.25)+(0.5*0.4)]/(8.5)=0.7。
利用這個加權(quán)方案,具有目標(biāo)的指定價格和機(jī)場距離的7夜假期將返回一個值[(5*0)+(3*1)+(0.5*1)]/(8.5)=0.41。如所期望的那樣,花費1000美元并且距離機(jī)場15公里的14夜假期將返回“最佳匹配”相似性等級[(5*1)+(3*1)+(0.5*1)]/(8.5)=1。
選擇k個最相似的范例通常產(chǎn)生這樣的特征相似性簡檔,其中結(jié)果集的平均相似性相對于k的提高值而逐漸降低(見圖2)。
我們將范例集c1,...cn的多樣性定義為在范例集中的所有對范例之間的平均不相似(方程2)。標(biāo)準(zhǔn)的基于范例的推薦器也顯示一個特征多樣性簡檔,其中對于越大的結(jié)果集,多樣性增加(見圖3)。因此在相似性和多樣性之間的交替使用是對于k的較低值,當(dāng)相似性趨向于較高時,多樣性趨向于很低,這突出了存在與基于范例的推薦器中的基本問題。
......方程2實際上,改善固定大小的推薦列表的多樣性特征意味著犧牲相似性。本發(fā)明的目標(biāo)是開發(fā)一種策略,它最佳化這個相似性-多樣性交替使用,向目標(biāo)查詢提供具有多樣性而不折衷其相似性的推薦集。圖1示出了用于在給定目標(biāo)查詢t的情況下從范例庫C檢索k個情況的三種不同的策略,每種著重于提高推薦集的多樣性的不同的方式。
有界隨機(jī)選擇(隨機(jī))用于提高k個范例集的多樣性的最簡單策略是有界隨機(jī)選擇方法從較大的bk個與目標(biāo)最相似的范例集中隨機(jī)選擇k個范例,其中b>1。
當(dāng)然當(dāng)bk->n時,隨機(jī)作為檢索方法變得低效,因為相似性被基本上忽略。雖然被檢索的范例可能多樣,但是它們不可能與目標(biāo)相似。盡管如此,這種算法用于評估更有原則的策略的基準(zhǔn),并且對于b的較低值,雖然有可能僅僅具有適中的多樣性改善,它至少將限制相似性的犧牲。
貪婪選擇(貪婪)改善多樣性并且同時保持相似性的一個更有原則的方法是在檢索期間明確地考慮多樣性和相似性。貪婪通過遞增地建立檢索集R而實現(xiàn)了這一點。在每個步驟期間,剩余的范例按照其品質(zhì)排序,最高品質(zhì)的范例被加到R。
整個算法的關(guān)鍵是一種品質(zhì)度量,它將多樣性和相似性相結(jié)合(方程3)。一個范例c的品質(zhì)Q與在c和當(dāng)前目標(biāo)t之間的相似性成比例,并且與相對于至今所選擇的范例集R的相似性c成比例,R={r1,...,rm};稍后看替代的品質(zhì)度量。方程4所示的相對多樣性度量是來自方程2的多樣性度量的變化。
質(zhì)量(t,c,R)=相似性(t,c)*RelDiversity(c,R)......方程3RelDiversity(c,R)=1,如果R={} ......方程4要被選擇的第一個范例總是與目標(biāo)具有最高相似性的那個。在每個后續(xù)的循環(huán)中,所選擇的范例是具有與目標(biāo)的相似性和相對于在前一個循環(huán)期間選擇的范例集的多樣性的最高組合的那個。
按照實際情況來說,這個算法是昂貴的。對于n個范例的范例庫,在k個循環(huán)的每個期間,我們必須計算每個剩余范例相對于至今所選擇的那些的多樣性。這意味著平均有1/2(n-k)次相對多樣性的計算,每個包括平均1/2k次相似性計算。這給出了每個檢索需要k*1/2(n-k)*1/2k次相似性計算的平均總成本。例如,對于1000個范例的范例庫,檢索最上的3個范例意味著大約2250次相似性計算。
有界貪婪選擇(有界貪婪)為了降低貪婪選擇算法的復(fù)雜性,我們已經(jīng)在本發(fā)明懷中實現(xiàn)了一種與有界隨機(jī)選擇算法具有相同精神的有界版本。有界貪婪首先選擇按照范例與目標(biāo)查詢的相似性而選擇最佳的bk個范例,然后向這些應(yīng)用貪婪選擇方法。
這種新的算法已經(jīng)大大地降低了檢索成本,因為從bk個范例而不是從n個范例中選擇了k個范例,并且用于b和k的代表低值,bk<<n。
這意味著除了通常的檢索成本之外還需要總共k*\1/2k(b-1)*1/2k次的額外相似性計算。例如,對于1000個范例的范例庫,檢索3個最佳的范例并且b=2現(xiàn)在除了標(biāo)準(zhǔn)的基于相似性的檢索成本之外還需要7次額外的相似性計算。
當(dāng)然,這種改善的效率有成本因為我們不再查看所有的剩余范例,因此我們可以丟棄這樣的一個范例它具有比最佳的bk個范例或多或少小的相似性值,但是具有好得多的多樣性值。即使這樣的范例具有較好的整體品質(zhì)值,它也不會被加到所檢索的集,因為它不是最佳的bk個范例之一。但是,這種發(fā)生的可能隨著范例的相似性而降低,以至于對于b的適當(dāng)?shù)闹刀兊貌豢赡堋?br>
因此,在許多應(yīng)用情況中,特別是推薦器系統(tǒng)中,相似性和多樣性都在檢索中搬演角色。但是,不存在交替使用。提高的檢索多樣性意味著降低所檢索的范例與目標(biāo)查詢的相似性。本發(fā)明的目的是開發(fā)一種有效的檢索策略,它能夠最大地改善多樣性并且同時最小地交替使用相似性。這個要求通過有界貪婪選擇算法來被滿足。
為了證明這一點,我們使用標(biāo)準(zhǔn)的基準(zhǔn)范例庫,即,旅游范例庫(www.ai-cbr.org)來評估所述算法。這個范例庫包括來自旅游領(lǐng)域的范例——每個以諸如位置、持續(xù)時間等的特征來描述假期。四種推薦器系統(tǒng)被實現(xiàn),每個被設(shè)計來按照下面的檢索方法之一來對于給定的查詢返回k個最佳的旅游范例-相似性標(biāo)準(zhǔn)的基于相似性的檢索;-隨機(jī)使用有界隨機(jī)選擇算法的檢索(b=2);-貪婪使用貪婪選擇算法的檢索;-有界貪婪使用有界貪婪選擇算法的檢索(b=2)。
最重要的問題是在各種檢索算法中在相似性和多樣性之間的交替使用——在檢索多樣性中有提高嗎?并且如果這樣則相關(guān)聯(lián)的相似性成本是什么?為了調(diào)查這一點,我們對于k的各種值使用每個推薦器系統(tǒng)來運行一系列檢索。隨機(jī)從旅游范例庫選擇400個范例來作為查詢,并且以剩余的范例作為范例庫。對于每個檢索,我們測量了k個結(jié)果的平均相似性和整體多樣性。對于400個查詢的不同集,這樣重復(fù)100次,并且從結(jié)果產(chǎn)生的相似性和多樣性測量,我們計算對于k的每個值的整體平均相似性和多樣性值。
結(jié)果在圖2和3中分別示出為相對于k的平均相似性和多樣性。對于每個檢索策略。可以清楚地看出上面預(yù)測的特征相似性和多樣性簡檔在圖2中,平均相似性隨著k降低;在圖3中,平均多樣性隨著k提高。
正如所料,從相似性角度來看,所述標(biāo)準(zhǔn)算法在k的全部值上工作得最好。例如,對于k=5,用于所述標(biāo)準(zhǔn)策略的平均相似性是0.78,這與有界貪婪、隨機(jī)、貪婪技術(shù)的相應(yīng)的0.753、0.748、0.7比較。所述貪婪技術(shù)對于k<20的值最差,其后隨機(jī)方法開始受到最大的影響(雖然隨機(jī)實現(xiàn)了對于低k值的良好相似性)。總體上,本發(fā)明的有界貪婪技術(shù)從相似性角度來看表現(xiàn)良好,獲得了在k的所有值上平均超過97%的最佳(標(biāo)準(zhǔn))相似性水平——作為比較,貪婪和隨機(jī)技術(shù)實現(xiàn)了平均僅僅94.5%和94.7%的最佳相似性水平。
從多樣性的角度來看,貪婪策略在k的所有值上提供了最佳的多樣性特征。例如,對于k=5,貪婪策略的平均多樣性是0.458,這與所述有界貪婪、隨機(jī)和標(biāo)準(zhǔn)技術(shù)的相應(yīng)的0.375、0.326、0.289比較。如果我們考慮貪婪算法來提供最佳的多樣性,則有界貪婪技術(shù)表現(xiàn)很好,獲得了在k的所有值上平均90%的最佳(標(biāo)準(zhǔn))多樣性水平——作為比較,標(biāo)準(zhǔn)和隨機(jī)技術(shù)實現(xiàn)了平均僅僅76%和83%的貪婪多樣性值。即使對于k的低值,諸如k=5,有界貪婪技術(shù)實現(xiàn)超過80%的貪婪多樣性,這與隨機(jī)和標(biāo)準(zhǔn)方法的相應(yīng)的74%和69%形成比較。
另一種查看這些結(jié)果的方式是考慮需要被檢索的范例的數(shù)量,以便實現(xiàn)特定的多樣性水平。本發(fā)明的有界貪婪算法對于k=10實現(xiàn)了0.4的平均多樣性,并且具有對應(yīng)的平均相似性0.72。所述隨機(jī)方法僅僅在k=23實現(xiàn)了這個多樣性,所述標(biāo)準(zhǔn)算法僅僅在k=46實現(xiàn)了這一點,并且相似性分別降到0.66和0.67。有界貪婪方法的以小檢索集來實現(xiàn)高多樣性和相似性的這個能力是在推薦器系統(tǒng)中的重要優(yōu)點。
總體上,有界貪婪算法提供了最佳的性能,在k的所有值上獲得近乎最佳的相似性和多樣性特征。相反,所述貪婪和隨機(jī)策略需要有更大的相似性交替使用,而標(biāo)準(zhǔn)和隨機(jī)技術(shù)需要有大的多樣性交替使用。
通常,多樣性的提高如何與相似性的損失相關(guān)?我們試圖通過下列方式來回答這個問題對于三種多樣性保護(hù)算法(隨機(jī)、貪婪和有界貪婪)測量相對于相似性的降低的多樣性提高。對于三種算法的每種和k的每個值,我們通過將多樣性的差(與標(biāo)準(zhǔn)方法相比)除以相似性的差(與標(biāo)準(zhǔn)方法相比)來測量所考慮的算法的相對效益。例如,相對效益1意味著多樣性的每個單位的提高伴隨相似性的一個對應(yīng)單位的下降——相似性和多樣性的交替使用被良好地平衡。對于表現(xiàn)良好的一種算法,它應(yīng)當(dāng)提供比1大的相對效益值;即,相似性的降低應(yīng)當(dāng)由多樣性的更大的提高來補(bǔ)償。
圖4作為相對于k的相對效益而示出了結(jié)果。隨機(jī)策略執(zhí)行差,對于多數(shù)k值具有小于1的相對效益,并且具有0.83的平均相對效益。相反,貪婪和有界貪婪算法表現(xiàn)很好,對于所有k值具有大于1的相對效益,并且具有2.9的平均相對效益。換句話說,平均而言,使用貪婪和有界貪婪算法,相似性的一個單位的下降可以換來幾乎3個單位的多樣性。
重要的是,貪婪和有界貪婪算法對于k的較低值都表現(xiàn)很好。例如,所述有界貪婪方法對于k=3具有3.6的相對效益。這是重要的,因為許多推薦器被設(shè)計來返回小結(jié)果列表(通常k<10)因此有益的是這些算法當(dāng)k小時提供最大的相對效益。通常,有界貪婪算法對于k<11具有比貪婪算法更高的相對效益。
當(dāng)然,在任何實時的CBR系統(tǒng)中,檢索算法的效率與所檢索的范例的品質(zhì)同樣重要。至今,我們已經(jīng)看到了貪婪和有界貪婪算法受益于改善的多樣性特征,但是這些效益僅僅當(dāng)它們可以被實現(xiàn)而沒有大的附加檢索成本時是有益的。
在CBR中,用于檢索的典型的最近相鄰方法將目標(biāo)與在范例庫中的每個范例相比較——這是用于標(biāo)準(zhǔn)策略中的檢索方法。在這個試驗中,我們根據(jù)這個基準(zhǔn)效率評價了隨機(jī)、貪婪和有界貪婪方法的效率。我們設(shè)置k=6,并且測量檢索成本來作為四種檢索技術(shù)所需要的相似性計算的次數(shù)。對于每集400個目標(biāo)查詢集,我們計算和平均了在從100個范例到1000個范例的不同范例庫大小上的檢索次數(shù)。
圖5中示出了作為相對于范例庫大小的檢索成本的對數(shù)而示出了結(jié)果,在圖6中,作為相對于范例庫大小的與標(biāo)準(zhǔn)相比較的每個算法的相對檢索成本提高而示出了結(jié)果。很清楚,貪婪算法執(zhí)行較差,在所有范例庫大小上具有高檢索成本,支持了上述的我們的復(fù)雜性分析。例如,對于1000個范例的范例庫,貪婪算法對于在k=6的每個檢索需要平均接近9000次相似性計算(相對效益提高9)。其他的算法執(zhí)行得好得多。所述標(biāo)準(zhǔn)和隨機(jī)方法具有相同的基準(zhǔn)效率特征,并且有界貪婪算法與標(biāo)準(zhǔn)相比較僅僅在效率上有很小的降低,這再次支持了在第三部分中的復(fù)雜性分析。例如,對于1000個范例的范例庫,有界貪婪算法(k=6并且b=2)僅僅需要1054次相似性計算,這表現(xiàn)出相對于標(biāo)準(zhǔn)方法在相對檢索成本上的5%的提高(額外54次相似性計算)。而且這個提高與范例庫大小無關(guān),因為它僅僅依賴于k和b。
上述證明,至少在給定的測試域中,貪婪和有界貪婪算法使得可以不犧牲檢索相似性而改善檢索多樣性;我們已經(jīng)在電影領(lǐng)域執(zhí)行了類似的試驗并且獲得了類似的結(jié)果。但是,貪婪算法的正面性能被它的很高的檢索成本抵消,但是有界貪婪算法提供了更效能成本合算的解決方案,與標(biāo)準(zhǔn)的檢索相比較僅僅在效率上有小的降低。事實上,有界貪婪不僅在效率上而且在它對于k的合理值交替使用相似性與多樣性的方式上優(yōu)越于貪婪。
圖7是按照本發(fā)明運行的推薦器系統(tǒng)10的實施例的方框圖。所述實施例包括與現(xiàn)有的檢索引擎(CASPER基于范例的檢索引擎14)相結(jié)合的、按照有界貪婪選擇算法運行的多樣性增進(jìn)推薦器12。CASPER CBR檢索引擎是一種智能搜索引擎,用于專門的因特網(wǎng)信息檢索應(yīng)用。CASPER CBR已經(jīng)被實現(xiàn)來用于專門從事提供工作列表的在線招聘網(wǎng)站。列表16a-16d被作為輸入項存儲在一個范例庫或數(shù)據(jù)庫18中,并且包含對于每個空缺位置的特征,諸如所需要的經(jīng)驗、所提供的工資和所需要的技能等。但是,CASPER CBR檢索引擎14被設(shè)計為能夠一般地應(yīng)用,并且可以用于檢索候選項目可以被描述為基于特征的范例的任何環(huán)境中。
CASPER CBR提供了用于多樣性增進(jìn)推薦器12的初始檢索系統(tǒng),并且向其提供范例形式的結(jié)果和它們的相似性分?jǐn)?shù)。多樣性增進(jìn)推薦器12因此與檢索技術(shù)無關(guān),并且可以被應(yīng)用到任何提供相似性信息的檢索引擎上。
多樣性增進(jìn)推薦器12最好被實現(xiàn)于按照本發(fā)明的軟件的控制下工作的計算機(jī)中。圖8是圖解這樣的軟件運行的流程圖。
參考圖7和圖8,在步驟30(圖8),多樣性增進(jìn)推薦器12從用戶接收查詢t。這個查詢20將用戶的理想工作描述為一系列特征,并且形成用于檢索引擎的目標(biāo)范例。通常,所述查詢被用戶輸入,所述用戶填一個表格,表格的字段對應(yīng)于用于將查詢t與范例庫輸入項16a-16d相比較的特征。用戶經(jīng)由諸如因特網(wǎng)或WAP門戶來訪問多樣性增進(jìn)推薦器,并且所述多樣性增進(jìn)推薦器包括用于使得可以提交查詢的萬維網(wǎng)或WAP服務(wù)器。也可以使用各種用于提交查詢的其他機(jī)制,并且這些是本領(lǐng)域的技術(shù)人員容易理解的。
用戶可以在步驟32指定要返回的結(jié)果的數(shù)量k(或者這可以被設(shè)置為系統(tǒng)中的缺省項)。一般,諸如CASPER CBR系統(tǒng)的檢索系統(tǒng)從它的范例庫檢索與目標(biāo)最類似的k個候選項。但是,多樣性增進(jìn)推薦器12試圖最大化結(jié)果的品質(zhì),其中按照有界貪婪選擇算法通過在相似性和多樣性之間的交替使用來確定品質(zhì)。
因此推薦器在步驟34從CASPER請求bk個最類似的候選項,其中b具有諸如2或3的較低值。在步驟36,CASPER接收所述請求,然后在步驟38使用查詢t來檢索與目標(biāo)范例最相似的bk個范例。在這個實施例中,CASPER對于每個項目返回使用方程1確定的用于查詢t的相似性等級,CASPER使用它來選擇最佳的bk個項目。這個所檢索的范例集(工作結(jié)果集R)隨后在步驟40被返回到多樣性增進(jìn)推薦器12,以用作一個基礎(chǔ),從這個基礎(chǔ),多樣性增進(jìn)推薦器選擇k個最高品質(zhì)的候選項。
在接收到工作結(jié)果集R后,在步驟42,多樣性增進(jìn)推薦器12開始建立結(jié)果子集R’以向用戶提供。在這個選擇k個最高品質(zhì)候選項的過程中,多樣性增進(jìn)推薦器12通過建立新的結(jié)果子集R’而開始,其中通過首先加上具有(由CASPER返回的)最高的相似性等級的在工作結(jié)果集R中的項目或元素來進(jìn)行建立新的結(jié)果子集R’。這個項目在步驟44變?yōu)樽蛹疪’的成員r’1。
然后,對于R’的唯一成員分析在R中的剩余的bk-1個項目中的每個,以便確定它的相對多樣性(=1-(r’1的項目相似性)),即,使用方程4來確定。如下所述,如果期望的話,可以使用不同的相對多樣性方法。
在第一次循環(huán)的步驟46中,R中的剩余(bk-1)個項目中的每個的相對多樣性被乘以由CASPER對于那個項目返回的相似性等級(即,對于最初查詢或目標(biāo)t的相似性),以便提供品質(zhì)測量Q(方程5)。
而且,如下所述,可用使用品質(zhì)測量Q的替代函數(shù),它們提供(目標(biāo)t的)相似性和(結(jié)果集R’的)相對多樣性的不同相對重要程度。
在第一次循環(huán)的步驟48,多樣性增進(jìn)推薦器12將具有最高值Q的項目加到R’來作為元素r’2。然后,所述處理通過下列方式來循環(huán)相對于r’1和r’2測量在R中的剩余(bk-2)個項目中的每個的相對多樣性(即,對于每個元素c,RD(c)=((1-相似性(c,r’1))+(1-相似性(c,r’2))/2),這個RD測量和對于項目c的相似性測量的乘積在第二次循環(huán)的步驟46中提供更新的Q值,在第二次循環(huán)的步驟48,這個更新的Q值將(bk-2)的項目針對它們的適合性而排出等級以便被加到R’來作為成員r’3。應(yīng)當(dāng)注意,在這次循環(huán)中的具有最高值Q的成員將最可能與在前一次循環(huán)中的第二最高等級成員(它在所述前一次循環(huán)中正好被漏掉加到R’)不同,因為現(xiàn)在元素r’2的多樣性是Q中的重要因素,而在所述前一次循環(huán)中它不是。
在每次循環(huán)之后,多樣性增進(jìn)推薦器12在步驟50查看是否結(jié)果子集R’已經(jīng)被填充了k個項目,如果否,則執(zhí)行步驟46和48的另一次循環(huán)以向結(jié)果子集R’加上附加成員r’m。
以這種方式,在每個循環(huán)中具有最高品質(zhì)的k個項目的集R’被填充,并且在步驟52向用戶返回結(jié)果集R’。這個處理從用戶的角度來看可以發(fā)生在背景中,因此用戶將在步驟30填充一個表格,并且在包括所述表格的頁面上單擊“提交”。用戶等待載入下一個頁面,并且在圖8的處理結(jié)束時動態(tài)建立這個頁面,到達(dá)作為一個頁面的用戶的固定電話或WAP電話,所述頁面可以提供每個工作的細(xì)節(jié),或者如圖7所示,可以僅僅是鏈接22的頁面,可以單擊所述鏈接22以從多樣性增強(qiáng)推薦器12或數(shù)據(jù)庫18檢索工作細(xì)節(jié)16a-16b。
如上所述,本發(fā)明在諸如被設(shè)計用于WAP使能的移動電話的推薦器系統(tǒng)的應(yīng)用中特別有益。因為這些器件的有限能力,諸如縮小的屏幕尺寸或受限的輸入選項,因此標(biāo)準(zhǔn)的、相似性驅(qū)動的、基于范例的推薦器由于推薦結(jié)果的有限的多樣性而不會成功。例如,向一種典型的交互可能看到對科學(xué)幻想和戲劇感興趣并且偏好Stephen Spielberg影片的用戶作為頂級建議推薦返回未來(Back to the Future)1、2和3——確實是有限的選擇。很清楚,最好是有更多樣的一組推薦(諸如返回未來1、侏羅紀(jì)公園和拯救大兵來恩)。
通過使用本發(fā)明的有界貪婪多樣性技術(shù),有可能開發(fā)一種基于WAP的電影推薦器,它能夠提供更多樣的和更適當(dāng)?shù)耐扑]。
CBR僅僅是多個基于相似性的推理的模式之一。在推薦器系統(tǒng)中,例如自動的合作篩選(ACF)是基于用戶簡檔的檢索和重新使用而不是解決方案范例的相關(guān)策略(見例如Konstan,J.A.,Miller,B.N.,Maltz,D.,Herlocker,J.L.,Gorgan,L.R.,and J.Riedl.Applying collaborative filtering to Usenet news.Communications of the ACM,40(3)77-87,1997;Smyth,B.and Cotter,P.APersonalized TV Listings Service for the Digital TV Age.Journal ofKnowledge-Based Systems,13(2-3)53-59,2000)。用戶簡檔包括先前的內(nèi)容項目等級,在所選擇的相似用戶的簡檔內(nèi)包括的登記被用作對于目標(biāo)用戶的分級推薦的來源。
經(jīng)常地,ACF技術(shù)也為盲從相似性假定而犯過失。一組所檢索的類似用戶簡檔可以彼此全部很類似。因此,它們可以包括用于同樣窄的內(nèi)容項目集的等級,因此限制了可能的推薦。有界貪婪算法可以用于任何基于相似性的推理系統(tǒng),包括ACF系統(tǒng)。取代檢索一組與目標(biāo)用戶最類似的k個簡檔,選擇與目標(biāo)類似并且同時彼此不同的的簡檔。再一次,全部所需要的是現(xiàn)有的簡檔相似性度量。結(jié)果產(chǎn)生的簡檔將區(qū)域性覆蓋較大的分級內(nèi)容項目空間,因此提供更多樣的推薦資源。
在上面,我們已經(jīng)提出一種品質(zhì)度量(方程3)來驅(qū)動多樣性保護(hù)算法。但是,也可以使用其他的品質(zhì)度量,參見例如圖5和圖6。方程5允許通過修改α來控制相似性和多樣性的相對重要性,這可能在應(yīng)用層是有益的。方程6限定了品質(zhì)作為相似性和相對多樣性值的調(diào)和平均值。一種加權(quán)的調(diào)和平均值也能提供一種平衡相似性和多樣性的相對重要性的方式,如在方程5中那樣;這與在信息檢索搜索中的F-措施相關(guān)。品質(zhì)(t,c,R)=α*相似性(t,c)+(1-α)*RelDiversity(c,R)......方程5 ......方程6在前面的示例中作為在bk個項目中的一個項目和已經(jīng)被加到結(jié)果子集R{r1,...,rm}的項目之間的不相似性的測量,已經(jīng)測量了相對多樣性。這個在c和R中的每個范例之間的不相似的測量被給出為(1-相似性(c,ri)),其中相似性作為在0和1之間的值被返回。這決不是唯一的一種測量相對多樣性的方法,在一些情況下,一種替代的測量更為有益。
一種替代是改變計算相對多樣性的方式,以便取代測量在c和R內(nèi)的每個范例之間的不相似,我們僅僅計算在c和ri之間的不同特征的百分比。即,相對多樣性=1,如果R={}=Σi=1...mDiffFeature(c,ri)m,]]>否則......方程7其中DiffFeature(c,ri)=與ri中的等同特征具有不同的值的在c中的特征的數(shù)量。
雖然上述的實施例已經(jīng)在推薦器系統(tǒng)中實現(xiàn)了本發(fā)明,更一般而言,多樣性在模糊目標(biāo)查詢是規(guī)范的,并且因此檢索結(jié)果必須提供寬的查詢覆蓋范圍的CBR應(yīng)用中是重要的。這在許多交互CBR設(shè)置中尤其正確,其中終端用戶被提供了候選范例集,并且從這個集中依序選擇,以便解決目標(biāo)問題。推薦器系統(tǒng)是這個的良好示例,它們是問詢臺系統(tǒng)和許多傳統(tǒng)的基于范例的推理系統(tǒng)。
本發(fā)明也適用于篩選傳統(tǒng)搜索引擎的結(jié)果,因此許多現(xiàn)有的搜索引擎以結(jié)果集來返回對于每個結(jié)果的相似性測量。因特網(wǎng)搜索引擎,例如可以按照在標(biāo)引或緩存的網(wǎng)頁中的一個搜索項目的發(fā)生次數(shù)、在網(wǎng)頁上的項目的位置、在元標(biāo)簽中的項目存在與否等(所有這些標(biāo)準(zhǔn)使用具有加權(quán)的相似性算法被評估,并且結(jié)果經(jīng)常作為百分比被返回)來基于搜索項目對結(jié)果分級。多樣性增強(qiáng)推薦器系統(tǒng)12可以被實現(xiàn)為“前端”方案,它在用戶和傳統(tǒng)的搜索引擎之間協(xié)調(diào),以便將具有高相似性的諸如300個網(wǎng)頁的結(jié)果集篩選為具有改進(jìn)的多樣性的100個網(wǎng)頁的增強(qiáng)結(jié)果集。
可以明白,具有用于與搜索引擎的檢索交互的多樣性增強(qiáng)推薦器12的所述實施例不是唯一的實現(xiàn)方式。具體上,可以設(shè)想能將多樣性增強(qiáng)推薦器12并入到檢索引擎中,所述檢索引擎隨后進(jìn)行兩個步驟的檢索處理確定最佳的bk個匹配,并且隨后建立基于品質(zhì)函數(shù)的結(jié)果集。
當(dāng)在上述的情況中向用戶返回k個項目的結(jié)果子集R’時,將存在被丟棄的結(jié)果集,即,來自集R的b(k-1)個項目,它們未被選擇以包括在多樣性增強(qiáng)子集R’中。通過定義,一些這樣的被丟棄結(jié)果比一些R’成員更最佳匹配地與目標(biāo)查詢t相似(因為它們與R’的成員相比較少多樣性)。保留這些結(jié)果以提供給用戶可能是有益的。
圖9A-9D示出了多個結(jié)果表格,說明了一種實現(xiàn)這個目標(biāo)的方法。在這個簡單的示例中,已經(jīng)如上所述進(jìn)行了對于匹配目標(biāo)查詢t的工作的搜索。為了簡潔,已經(jīng)選擇了參數(shù)k=5和b=3。因此,檢索引擎14返回一個工作結(jié)果集R(圖9A),其中包括bk=15個項目(r1,r2,...,r15),每個由工作ID號碼(在這個號碼下它在數(shù)據(jù)庫中被標(biāo)引)識別,并且具有由檢索引擎確定的相似性等級。因此,對于這個查詢t,檢索引擎已經(jīng)使用了相似性算法來檢索最上面的15個匹配,它們與目標(biāo)的相似性的范圍從0.99降到0.70。數(shù)據(jù)庫將包括更多的(n-bk)個具有降低相似性的項目,它們從此被忽略。
多樣性增強(qiáng)推薦器12然后選擇項目r1來作為集R’的第一元素(即,項目r1被從集R中刪除,并且被作為項目r’1加到集R’)。利用品質(zhì)評估來定位與t具有最高相似性和相對于r’1具有最佳多樣性的項目,項目r4被選擇作為集R’的下一個成員。項目r4因此被從集R中刪除,并且作為項目r’2被增加到集R’。以這種方式,具有最高循環(huán)確定的品質(zhì)的5個項目被加到集R’(圖9B并且從集R被刪除(圖9C)。
多樣性增強(qiáng)推薦器然后分析在R中的每個剩余項目,并且使用相似性比較方程來將它們依次與r’1,r’2,...相比較。以這種方式,對于在R中的每個剩余項目確定在R’中的最接近的匹配。注意不一定是,具有與t的最大相似性分?jǐn)?shù)的項目將是最接近的匹配,即,原始項目r10、r11和r12都具有與目保的0.79的相似性,但是不必彼此相似。當(dāng)將項目r11和r12與R’的成員相比較時,可以發(fā)現(xiàn)項目r11確實與r’4(最初的r10)相似,但是項目r12比r’4更與r’1相似。
因此在R’的表格中建立列(圖9D),示出對于R’的每個成員的、在R的剩余成員中的最接近匹配。當(dāng)向用戶提供結(jié)果時,也可以提供對于詳細(xì)匹配的獨立鏈接(從圖9D的表格中的這個新列得到),以便檢索具有降低多樣性,并且較高相似性的匹配。
當(dāng)然,這個對于集R的每個剩余成員確定在R’中最接近匹配成員的附加步驟加進(jìn)了進(jìn)一步的處理步驟,但是總的處理成本仍然比用于貪婪算法的成本小得多,并且在特定的應(yīng)用中,這個附加的成本可能被證明提高了結(jié)果的可用性。
不是進(jìn)行R內(nèi)的剩余成員與R’的成員的獨立比較,多樣性增強(qiáng)推薦器可以將這個任務(wù)轉(zhuǎn)給檢索引擎或完全繞過它。在繞過的方式中,要利用這樣的事實當(dāng)對于集R’選擇第k個項目時,將在這個循環(huán)期間在R中的(b(k-1)+1)個剩余成員的每個與已經(jīng)被加到R’的(k-1)個成員比較多樣性。參見方程4(其中已經(jīng)被加上的范例被稱為R的而非R’的成員),可以看出在最后一次循環(huán)中的相對多樣性計算包括將在R中的每個剩余項目與已經(jīng)加到R’的每個項目相比較。對于在R中的每個項目,在這個計算期間給出最高相似性的在R’中的項目可以被標(biāo)引以用于向用戶提供相似性匹配。(這個方法不允許相對于被加到R’的第k個成員來標(biāo)引任何成員,而是可以由用戶檢索最相似的“被丟棄”匹配,并且沒有附加的處理成本,而僅僅較小地提高所需要的存儲容量)。
本發(fā)明的有界貪婪技術(shù)一般是可適用的,僅僅需要訪問相似性度量。當(dāng)然,最大化多樣性的能力依賴于所關(guān)心的范例庫的特定特征,諸如它的范例的分布。例如,可以在大量的范例的庫中以最小的相似性犧牲來大大地改善多樣性,其中一般,以較差的多樣性特征檢索范例的風(fēng)險大大提高。
在上面,我們已經(jīng)示出有界貪婪算法,改善了多樣性而不大大交替使用相似性,并且這樣做不會負(fù)面地影響檢索時間。而且,這個技術(shù)一般適用于所有的范例檢索系統(tǒng)——全部所需要的是標(biāo)準(zhǔn)(或其他)的相似性度量。事實上,可以在諸如合作篩選的其他基于相似性的推理框架中使用它來獲得良好的效果。
本發(fā)明不限于在此所述的實施例,它可以在不脫離本發(fā)明的范圍的情況下被修改或改變。
權(quán)利要求
1.一種數(shù)據(jù)處理方法,用于從n個項目的數(shù)據(jù)庫檢索k個項目的子集(n>>k),所述方法包括(a)確定在n個項目的數(shù)據(jù)庫中的bk(b>1)個項目,所述n個項目按照給定的相似性函數(shù)S而與輸入的查詢t具有最大相似性;(b)選擇與查詢t具有最高相似性S的在bk個項目中的那個項目來作為子集的第一成員;(c)循環(huán)地選擇作為具有最高品質(zhì)Q的bk個項目中的剩余項目的子集中的每個接續(xù)成員,其中Q是針對輸入的查詢t的相似性S和相對多樣性RD的給定函數(shù),其中相對的多樣性RD是對于在前面的循環(huán)期間所選擇的項目中的那個剩余項目的給定多樣性函數(shù)。
2.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中所述輸入查詢t和數(shù)據(jù)庫項目的每個被以多個參數(shù)的形式來定義,其中所述相似性函數(shù)S包括在查詢t和所述查詢被比較的項目的相應(yīng)參數(shù)之間進(jìn)行比較,以獲得特征相似性度量,并且將所述特征相似性度量求和以達(dá)到在所述查詢t和所述查詢被比較的項目之間的相似性度量。
3.按照權(quán)利要求2的數(shù)據(jù)處理方法,其中所述不同的特征相似性度量被提供不同的相對的加權(quán)。
4.按照權(quán)利要求3的數(shù)據(jù)處理方法,其中在查詢t和項目c之間定義所述相似性函數(shù)S,每個具有n個特征供比較相似性(t,c)=Σi=1...nwi*sim(ti,ci)Σi=1...nwi]]>其中sim(ti,ci)是用于特征i的給定特征相似性度量,wi是對于特征i的加權(quán)。
5.按照權(quán)利要求4的數(shù)據(jù)處理方法,其中所述特征相似性度量sim(ti,ci)被定義為返回從0到1的值。
6.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中在所述查詢t和在前m個循環(huán)中選擇的項目(r1,...,rm)之間的相對多樣性RD的所述函數(shù)包括對于t和每個項目(r1,...,rm)之間的不相似求和,以相似性函數(shù)S來測量不相似。
7.按照權(quán)利要求6的數(shù)據(jù)處理方法,其中所述相似性函數(shù)S返回從0到1的值,其中所述不相似性函數(shù)被定義為從1減去相似性函數(shù)的值。
8.按照權(quán)利要求6或7的數(shù)據(jù)處理方法,其中所述相對多樣性函數(shù)還包括通過除以m將求和的不相似性度量正?;?。
9.按照權(quán)利要求8的數(shù)據(jù)處理方法,其中在范例c和子集R的在前選擇的成員(r1,...,rm)之間,所述相對多樣性函數(shù)RelDiversity被定義如下
10.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中在范例c和子集R的在前選擇的成員(r1,...,rm)之間,所述相對多樣性函數(shù)RelDiversity被定義如下RelDiversity=1,如果R={}=Σi=1...mDiffFeature(c,ri)m,]]>否則其中DiffFeature(c,ri)=與ri中的等同特征具有不同值的c中的特征的數(shù)量。
11.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為目標(biāo)t與項目c的相似性以及項目c對于在先選擇的項目的相對多樣性的乘積。
12.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為由第一加權(quán)因子調(diào)整的目標(biāo)t與項目c的相似性以及由第二加權(quán)因子調(diào)整的項目c對于先前選擇的項目的相對多樣性的和。
13.按照權(quán)利要求12的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為品質(zhì)(t,c,R)=α*相似性(t,c)+(1-α)*RelDiversity(c,R)
14.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為目標(biāo)t對項目c的相似性以及項目c對于在先選擇的項目的相對多樣性的調(diào)和平均值。
15.按照權(quán)利要求12的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為品質(zhì)
16.按照權(quán)利要求1的數(shù)據(jù)處理方法,其中項目c的品質(zhì)Q被定義為目標(biāo)t對項目c的相似性以及項目c對于在先選擇的項目的相對多樣性的加權(quán)調(diào)和平均值。
17.一種數(shù)據(jù)處理系統(tǒng),用于從n個項目的數(shù)據(jù)庫檢索k個項目的子集(n>>k),所述系統(tǒng)包括(a)第一存儲區(qū)域,用于按照給定的相似性函數(shù)S在與輸入的查詢t具有最大相似性的n個項目的數(shù)據(jù)庫內(nèi)的bk存儲項目(b>1);(b)第二存儲區(qū)域,用于存儲從所述bk個項目構(gòu)建的所述子集;(c)處理器,用于(i)選擇與查詢t具有最高相似性S的bk個項目中的那個項目來作為子集的第一成員;(ii)循環(huán)地選擇作為具有最高品質(zhì)Q的bk個項目中的剩余項目的子集的每個接續(xù)成員,其中Q是針對輸入的查詢t的相似性S和相對多樣性RD的給定函數(shù),其中相對多樣性RD是相對于在前面的循環(huán)期間所選擇的項目的那個剩余項目的給定多樣性函數(shù)。
18.按照權(quán)利要求17的數(shù)據(jù)處理系統(tǒng),它被實現(xiàn)為一個計算機(jī)運行的軟件,包括分配所述第一和第二存儲區(qū)域的指令、按照定義相似性S、相對多樣性RD和品質(zhì)Q的所述度量的規(guī)則來選擇所述子集的所述第一成員和循環(huán)地選擇所述接續(xù)成員。
19.按照權(quán)利要求17或18的數(shù)據(jù)處理系統(tǒng),還包括處理裝置,用于從所述數(shù)據(jù)庫選擇所述bk個項目。
20.按照權(quán)利要求17或18的數(shù)據(jù)處理系統(tǒng),還包括對從所述數(shù)據(jù)庫選擇所述bk個項目的檢索系統(tǒng)的通信鏈接。
21.按照權(quán)利要求17、18或19的數(shù)據(jù)處理系統(tǒng),還包括所述數(shù)據(jù)庫。
22.一種計算機(jī)程序,包括這樣的指令,當(dāng)所述指令在數(shù)據(jù)處理系統(tǒng)上執(zhí)行時,有效地使得所述數(shù)據(jù)處理系統(tǒng)執(zhí)行按照權(quán)利要求1-16中的任何一個的方法。
23.一種機(jī)器可讀形式的計算機(jī)程序產(chǎn)品,包括權(quán)利要求22的計算機(jī)程序。
24.一種對權(quán)利要求22的計算機(jī)程序進(jìn)行編碼的電子信號。
全文摘要
一種用于從n個項目的數(shù)據(jù)庫檢索k個項目的子集(n>>k)的數(shù)據(jù)處理方法和系統(tǒng),首先確定在所述數(shù)據(jù)庫內(nèi)的bk(b>1)個項目的有限子集,所述項目按照給定的相似性函數(shù)S而與輸入的查詢t具有最大相似性。然后通過下列方式來建立結(jié)果子集將與查詢t具有最高相似性S的那個項目來作為第一成員;循環(huán)地選擇作為具有最高品質(zhì)Q的bk個項目中的剩余項目的子集的每個接續(xù)成員,其中Q是針對輸入的查詢t的相似性S和相對于已經(jīng)在結(jié)果子集中的項目的相對多樣性RD的給定函數(shù)。以這種方式,結(jié)果子集的多樣性相對于k個對查詢t的最相似項目的簡單選擇被大大地提高,而僅僅在處理要求中有適度的額外增加。
文檔編號G06F17/30GK1537290SQ02815097
公開日2004年10月13日 申請日期2002年7月30日 優(yōu)先權(quán)日2001年7月30日
發(fā)明者巴里·J·史密斯, 巴里 J 史密斯 申請人:都柏林大學(xué)