欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模糊重復的魯棒檢測器的制作方法

文檔序號:6633891閱讀:181來源:國知局
專利名稱:模糊重復的魯棒檢測器的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及有關(guān)數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)。
背景技術(shù)
對數(shù)據(jù)倉庫的決策支持分析影響重要的商業(yè)決策;因此,這種分析的準確性就十分重要。然而,在數(shù)據(jù)倉庫接收的來自外部源的數(shù)據(jù)常常包含錯誤(例如拼寫錯誤、各數(shù)據(jù)源之間的不一致慣例)。這些錯誤常常導致多元組(tuple)的重復輸入。因此,大量時間和金錢花費在作為檢測和糾正數(shù)據(jù)中錯誤的任務(wù)的數(shù)據(jù)清理。
數(shù)據(jù)庫中重復多元組的檢測和消除的問題是數(shù)據(jù)清除和數(shù)據(jù)質(zhì)量的廣泛領(lǐng)域內(nèi)的主要問題之一。它常常是同一邏輯實際實體在數(shù)據(jù)倉庫內(nèi)可具有多個表示的情形。
例如,當名為Isabel的顧客從SuperMegaMarket購物兩次時,她的名字可能顯現(xiàn)為兩個不同記錄[Isabel Christie,Seattle,WA,USA,98025]和[Christy Isabel,Seattle,WA,United States,98025]。該差異可能是由于數(shù)據(jù)輸入錯誤和/或輸入數(shù)據(jù)的銷售人員的喜好不同。
這樣的重復信息可大大增加直接郵寄成本,因為若干像Isabel的客戶會接收多份目錄。在受緊張預(yù)算約束的直接郵寄活動中,這樣的錯誤可能就會導致活動成敗之間的差異。此外,這種錯誤可導致錯誤的查詢結(jié)果(例如,在西雅圖有多少SuperMegaMarket客戶?)以及錯誤的分析模型創(chuàng)建。
從數(shù)據(jù)庫中去除看起來不同,但實際重復的條目就是模糊重復消除(fuzzyduplicates elimination)問題。在這里,“模糊重復”是非準確匹配但表示同一實際實體或現(xiàn)象的看起來不同的多元組(即記錄)。
該問題不同于標準的準確重復消除問題,其中僅當兩個多元組準確匹配所有屬性才被認為是重復。除非上下文明確指出,否則此后將假設(shè)對重復檢測和消除的引用集中在模糊重復消除問題上。
以前對模糊重復消除的解決方案可分成有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法從由已知重復組成的訓練數(shù)據(jù)中學習特征化重復對的規(guī)則。此外,這些方法假設(shè)訓練數(shù)據(jù)展現(xiàn)了在實踐中觀察到的各種各樣的錯誤。要獲取這樣的綜合性訓練數(shù)據(jù)是困難的(如果不是不可能的),在一定程度上,通過存在著需要交互式手動引導缺點的主動學習方法可解決一問題。在許多實際的數(shù)據(jù)集成情形中,要獲取好的訓練數(shù)據(jù)或交互式用戶引導是不可能的。
無監(jiān)督重復消除方法的問題與群集技術(shù)的問題相似,因為它們都嘗試將一數(shù)據(jù)集分成不相交的組合。但是,在標準群集設(shè)計和重復消除問題之間還是有某些明顯的差異。這些差異將在后面討論。
當前的無監(jiān)督方法旨在略去這些差異,而相反依賴于適用于檢測重復對的多屬性多元組和基于閾值約束之間的標準文本相似性函數(shù)(例如眾所周知的諸如編輯距離和余弦度量的單鏈接群集算法)。然而,這種基于閾值方法導致大量的假陽性(不是真正的重復但被推測成是的多元組)或大量的假陰性(實際上是重復但不能識別出的多元組)。

發(fā)明內(nèi)容
在此所述的至少一個實現(xiàn)可檢測出模糊重復并消除這樣的重復。模糊重復是在數(shù)據(jù)庫中表示同一實際實體或現(xiàn)象的多個看起來不同的多元組(即記錄)。


相同的標號在附圖中用來引用相似元件和特征。
圖1是本文所述一個實現(xiàn)的框圖。
圖2是示出本文所述一方法實現(xiàn)的流程圖。
圖3是能夠(全部或部分)實現(xiàn)本文所述的至少一實施例的計算操作環(huán)境的一個示例。
具體實施例方式
以下描述陳述便于數(shù)據(jù)庫中模糊重復多元組的檢測和消除的技術(shù)。這些技術(shù)可用許多方法實現(xiàn),包括(但不限于)程序模塊、通用和專用計算系統(tǒng)、專用電器、以及一個或多個計算機網(wǎng)絡(luò)的一部分。
這些技術(shù)的一示例性實現(xiàn)可被稱為“示例性模糊重復檢測器”,并如下所述。
示例性模糊重復檢測器可解決模糊重復消除問題。在這里,“模糊重復”是非準確匹配但表示同一實際實體或現(xiàn)象的看起來不同的多元組(即記錄)。檢測和消除模糊重復就是模糊重復消除問題。
標準特征化重復在檢測模糊重復時,示例性模糊重復檢測器利用常規(guī)方法不使用的至少兩個新的約束。特別地,這兩個新標準被稱為緊密集(CS)和稀疏鄰域(SN)。這些標準明確地捕捉數(shù)據(jù)的本地結(jié)構(gòu)性屬性,用來特征化重復多元組的組合。
該CS和SN標準捕捉這些屬性·組合中的重復彼此比其它更相近;以及·重復多元組的“本地領(lǐng)域”是空的或稀疏的。
滿足這些標準的多元組可組合在一起成為重復,即使它們相距遙遠,而較相近但不滿足這些標準的多元組則不能組合在一起。這些本地化的結(jié)構(gòu)化屬性將重復消除問題與標準群集設(shè)計區(qū)分開來。

表格1來自媒體數(shù)據(jù)庫的示例。標有星號的多元組為重復多元組。
表格1提供了典型音樂數(shù)據(jù)庫的一個示例。前6個多元組(標有星號“*”)為重復多元組,而剩下的多元組(7-14)是唯一的。
緊密集標準緊密集(CS)標準是重復集也是互相最相近鄰居的緊密集。該標準的前提是重復多元組彼此比與其它不同多元組更相近。即,重復多元組常?;ハ嗍亲钕嘟泥従?。對于表格1中的示例,多元組1是多元組2的最相近鄰居,反之亦然。相反,多元組8可以是多元組7的最相近鄰居,而多元組9則是多元組8的最相近鄰居。
相反,基于單鏈接群集的常規(guī)的基于閾值方法則假設(shè)傳遞性(即如果‘a(chǎn)’是‘b’的重復,且‘b’是‘c’的重復,則‘a(chǎn)’是‘c’的重復)并在閾值圖中標識相連組件。因此,它們更可能產(chǎn)生大量的假陽性。
稀疏鄰域標準稀疏鄰域(SN)標準的前提是一組重復的本地鄰域是稀疏的。例如。表格1中唯一多元組7-14都不滿足該標準,其中出現(xiàn)了比重復集更大的組(自此例中為4)。
從一個角度而言,多元組組合的本地鄰域是根據(jù)周圍區(qū)域大小所定義的緊鄰,它取決于多元組本地分布。例如,它可以是半徑為2·nn(v)的球,其中nn(v)是多元組v的最相近鄰居的距離。
如果多元組周圍的增長率一外部球中多元組的數(shù)量一較小,則本地鄰域可被稱為“稀疏”。該概念可擴展成一個多元組組合,而如果多元組的單個增長率的集聚較小(例如限于閾值c)則它們的聯(lián)合本地鄰域被稱為“稀疏”。例如,集聚函數(shù)maximum(最多)要求該組合中所有多元組的鄰域值應(yīng)小于閾值,而函數(shù)average(平均)則僅要求所有增長率的平均值較小。Maximum函數(shù)比average函數(shù)更為嚴格。
標準的定形在以下定義中,設(shè)R為一關(guān)系(即數(shù)據(jù)集)且dRxR→
是R中多元組之間的對稱距離函數(shù)。為了清楚地展示,因此假設(shè)(i)僅當多元組完全相同時兩個多元組之間的距離為零;以及(ii)R中沒有兩個多元組是彼此相同的。該假設(shè)的有效性可通過更改d以當多元組完全相同時返回0否則返回d(v1,v2)+ε,其中ε為>0的較小值。
CS標準一來自R的多元組集S是緊密集,如果對于S中的每個多元組v,v和S中任何其它多元組v’之間的距離d(v,v’)都小于v和R-S中任何其它v”之間的距離d(v,v”)。
SN標準對于一多元組v,考慮兩個同心球較小球具有半徑nn(v)為v與其最相近鄰居之間距離,且較大球具有半徑g(nn(v))(>nn(v))。這里,使用g(x)=2x。鄰域增長率ng(v)是在v周圍較大球中的點的數(shù)量。
設(shè)AGG2R→R是一集聚函數(shù)且c(>0)是一常數(shù)。如果(i)|S|=1或(ii)S中所有多元組的鄰域增長率的集聚值小于c(即AGG({ng(v)vin S})<c),則多元組集S是一SN(AGG,c)組合。
SG(小組合)標準多元組組合的另一個特征可被視為是它們常常非常小。重復組合G如果|G|≤K,K為某大于1的預(yù)定義常數(shù),則該組合較小。這也可被稱為“小集勢”標準,因為組合的集勢(即成員的數(shù)量)較小。
示例性模糊重復檢測器一般而言,示例性模糊重復檢測器將輸入關(guān)系R(例如數(shù)據(jù)庫的數(shù)據(jù)集)分成最少量的“有效”組合,其中如果組合較小并滿足CS和SN標準則該組合有效。
在示例性模糊重復檢測器的環(huán)境中,這是重復消除(DE)問題給定一關(guān)系R,距離函數(shù)d,正整數(shù)K(>1),集聚函數(shù)AGG,以及一正實數(shù)c,示例性模糊重復檢測器將R分成最少量的組合{G1,...,Gm},使得對于所有的1≤i≤m·|Gi|≤K,·Gi是一緊密集,以及·Gi是一SN(AGG,c組合。
圖1示出一個模糊重復檢測和消除(FDDE)系統(tǒng)100。該示例性模糊重復檢測器可由在此所述的FDDE系統(tǒng)100實現(xiàn)。該FDDE系統(tǒng)100的組件可用軟件、硬件、或其組合來實現(xiàn)。一般而言,F(xiàn)DDE系統(tǒng)100確定最相近鄰居集相等的多元組對,然后將對的等同性擴展到多元組組合中。
FDDE系統(tǒng)100可以是服務(wù)器或客戶機的一部分。該FDDE系統(tǒng)100可以是能夠管理數(shù)據(jù)庫的通用計算機、專用計算機、便攜式計算機、個人數(shù)字助理(PDA)、電子設(shè)備、專用電器、或其它這種計算和電器裝置上實現(xiàn)。
FDDE系統(tǒng)100的組件在圖1虛線內(nèi)示出。所示系統(tǒng)100包括數(shù)據(jù)集獲取子系統(tǒng)110、最相近鄰居計算子系統(tǒng)120、劃分子系統(tǒng)130、以及重復消除子系統(tǒng)140。
系統(tǒng)100與數(shù)據(jù)倉庫服務(wù)器160耦合(例如,通過直接連接或諸如因特網(wǎng)的網(wǎng)絡(luò))。在這樣的服務(wù)器160上是數(shù)據(jù)庫170。系統(tǒng)100和數(shù)據(jù)庫170可駐留在同一計算裝置上(諸如服務(wù)器160)或不同裝置上。
使用該系統(tǒng)100,獲取器110從數(shù)據(jù)庫170獲取一數(shù)據(jù)集。該數(shù)據(jù)集是系統(tǒng)100的操作的主題。該數(shù)據(jù)集還可被稱為“關(guān)系”和/或簡稱為“R”。這樣的獲取示例包括接收帶有多元組集的數(shù)據(jù)包、訪問包含多元組的已存儲文件、和/或發(fā)送查詢并接收該查詢的結(jié)果。
最相近鄰居計算子系統(tǒng)120確定在已獲取關(guān)系中每個多元組的K個最相近鄰居。該子系統(tǒng)120生成索引或利用現(xiàn)有索引,這些索引允許對以下查詢進行有效回應(yīng)對于R中任何給定多元組v,取得其K個最相近鄰居。
對于關(guān)系R中的每個多元組,最相近鄰居計算子系統(tǒng)120確定其最相近的K個鄰居及其鄰域增長率。該子系統(tǒng)的輸出是一關(guān)系NN_Reln[ID,ID1,...,IDK,NG],其中ID1,...,IDK是多元組v的帶有標識符D和鄰域增長率NG的K個最相近鄰居的標識符。給定可用來取得K個最相近鄰居并計算鄰域增長率的的一個索引,該子系統(tǒng)對R中的每個多元組v掃描輸入關(guān)系R,查找索引并將多元組[v,v1,...,vK,ng(v)]寫入輸出。
劃分子系統(tǒng)130將該關(guān)系劃分成最少量的有效重復組合。在至少一個實現(xiàn)中,該子系統(tǒng)利用標準數(shù)據(jù)庫(例如SQL)進行查詢。這樣,劃分子系統(tǒng)130采用數(shù)據(jù)庫系統(tǒng)的查詢處理能力并避免在客戶機和服務(wù)器之間移動大量數(shù)據(jù)。
劃分子系統(tǒng)130使用第一階段的輸出將輸入關(guān)系劃分成最少量的緊密SN集。最終所產(chǎn)生的劃分是對DE問題的解決方案。
基于由劃分子系統(tǒng)對模糊重復的標識,重復消除子系統(tǒng)140通過去除過量的重復多元組來清理數(shù)據(jù)庫。該子系統(tǒng)更改數(shù)據(jù)庫170以去除這些標識的重復。
索引查找順序在這里,討論有關(guān)最相近鄰居計算子系統(tǒng)120的操作的其它細節(jié)。特別地,訪問索引的順序是此處的焦點。
通常用來獲取K個最相近鄰居的索引結(jié)構(gòu)是基于盤的。換言之,它們訪問存儲在較慢次要存儲系統(tǒng)(像硬盤)上的數(shù)據(jù),而不是存儲在可較快訪問的主要存儲器上的數(shù)據(jù)(例如隨機存取存儲器)。
如果以常用的基于盤的最相近鄰居索引查找的連續(xù)多元組彼此相近,則查找過程可能訪問索引的同一部分。因而,第二次查找獲益于第一次查找。這大大改進了緩沖器命中率和整體運行時間。該示例性模糊重復檢測器利用可有效實現(xiàn)的查找順序。
考慮表格1中的示例多元組。假設(shè)系統(tǒng)查找R中多元組的最相近鄰居的順序是1、12、5等。為了獲取多元組1(“The Doors,LA Woman”)的最相近鄰居,索引過程將訪問索引的一部分,且在該過程中將其緩存在數(shù)據(jù)庫緩沖器中。對多元組12(“Aliyah,Are you ready”)的最相近鄰居的相似查找將訪問索引的完全不同部分,因為多元組12距離多元組1非常遙遠?;蛘?,如果我們在處理多元組1之后查找多元組2(“Doors,LA Woman”)的最相近鄰居,系統(tǒng)將使用索引的幾乎同一部分。因此,系統(tǒng)將利用它已在數(shù)據(jù)庫緩沖器中的優(yōu)點。
該示例性模糊重復檢測器采用滿足良好查找順序的兩個屬性的寬度優(yōu)先(BF)順序首先,在順序上緊接任何多元組之前的多元組必須與其相近。其次,用于排序輸入多元組的過程必須有效。
該順序?qū)?yīng)于對構(gòu)建如下的樹T的寬度優(yōu)先遍歷任何輸入多元組被選為樹的根。樹中任何節(jié)點的子節(jié)點是其還未插入樹中的K個最相近鄰居。注意,該示例性模糊重復檢測器實際上并不需要建立這樣的樹而只需獲取適當順序的輸入多元組。
BF順序中的每個多元組(除根外)總被其兄弟節(jié)點或其父節(jié)點的兄弟節(jié)點的子節(jié)點領(lǐng)先。這些多元組彼此之間比任意的多元組對更為相近。因此,該查找順序中的所有多元組被與它們非常相近的多元組領(lǐng)先。從而,查找算法形成本地化的索引訪問。
對于輸入多元組的每次查找,都可獲取其K個最相近多元組。因此,當遇到一多元組時,系統(tǒng)在查找其父多元組時已經(jīng)按BF順序獲得了它。因此,數(shù)據(jù)庫緩沖器已緩存該多元組。系統(tǒng)可顯式地緩存這些多元組(如果存儲器允許)或依賴數(shù)據(jù)庫系統(tǒng)來保護最近的訪問。
在這里,對最相近鄰居索引的引用預(yù)期對準確或概率性的最相近鄰居索引的使用。本鄰域技術(shù)人員熟悉基于標準距離函數(shù)(例如余弦度量、編輯距離和模糊匹配相似性)利用近似和概率的許多常規(guī)索引。
方法論實現(xiàn)圖2示出FDDE系統(tǒng)100的方法實現(xiàn)。該方法論實現(xiàn)可用軟件、硬件或其組合來實現(xiàn)。為便于理解,方法步驟可被視為單獨步驟;然而,這些單獨示出的步驟不必被解釋為是其執(zhí)行中決定的必須順序。
為作說明,該方法論實現(xiàn)的描述討論了其在一特定示例中的應(yīng)用。在該示例中,組合{10,50,100,150}形成一緊密SN集。除每個多元組的鄰域增長(NG)值之外,足以知道{10,50},{10,100},{10,150}對的4個最相近鄰居集都是相等的??蓮膶Φ牡韧院图韧缘膫鬟f性中推斷,該組合{10,50,100,150}是一密集組合。
在圖2的212,F(xiàn)DDE系統(tǒng)100可從數(shù)據(jù)庫170中獲取一數(shù)據(jù)集(即關(guān)系)。
在214,F(xiàn)DDE系統(tǒng)100計算在獲取關(guān)系中每個多元組的K個最相近鄰居。為此,它可利用現(xiàn)有索引或生成它自己的索引。
作為框214的一部分,F(xiàn)DDE系統(tǒng)100計算多元組對之間變化尺寸的鄰居集的等同性。即,對于一多元組對(10,100),該系統(tǒng)確定K個最相近鄰居集中它們的2個-最相近鄰居集、3個-最相近鄰居集等都相等。在多元組v1和v2之間的這種比較產(chǎn)生布爾結(jié)果CS2,...,CSK,以及它們的鄰域增長率ng(v1)和ng(v2)。數(shù)值CSi(2≤i≤K)表示v1和v2的I-鄰居集是否相等。該結(jié)果被存儲在一臨時的關(guān)系CS對(CSPair)中。
仍作為框214的一部分,F(xiàn)DDE系統(tǒng)100可根據(jù)第一階段的輸出(NN_Reln)發(fā)出一數(shù)據(jù)庫查詢(例如SQL(select into)查詢)來計算CSPair關(guān)系。該查詢涉及在多元組NN_Reln1.ID小于NN_Reln2.ID且它在NN_Reln2.ID的K個-最相近鄰居集中的謂詞上NN_Reln的自結(jié)合(例如FROM NN_Reln1,NN_Reln2),反之亦然。
選定列列表具有以下兩部分(i)NN_Reln1.ID,NN_Reln2.ID,NN_Reln1.NG,NN_Reln2.NG,以及(ii)對于2和K之間的每個j,如果NN_Reln1.ID的j個-最相近鄰居集等于NN_Reln2.ID的j個-最相近鄰居集,case語句返回1。注意,該查詢可使用標準SQL來表達,并在數(shù)據(jù)庫服務(wù)器上執(zhí)行所有的計算。
在216,F(xiàn)DDE系統(tǒng)100將關(guān)系劃分成最少量的有效重復組合。所產(chǎn)生的有效重復組合滿足以下標準的每一項·|Gi|≤K,·Gi是一緊密集,以及·Gi是一SN(AGG,c)組合。
表格2示出劃分的示例作為框216的一部分,F(xiàn)DDE系統(tǒng)100將多元組對的鄰居集之間的等同性擴展到多元組集,并確定鄰居集是否緊密并滿足SN標準。在表格2,多元組對(10,50),(10,100)和(10,150)的4個-鄰居集相等,且因此形成大小為4的緊密集。集{10,50,100,150}可輸出一重復組合,假如(i)該組合的集聚SN值小于閾值c,以及(ii)它不能擴展為較大的密集SN組合。對(50,100),(50,150)對的4個-鄰居集是否因集等同性是可傳遞的而相等未作顯式檢查。
FDDE系統(tǒng)100通過發(fā)出以下CS-組合查詢“select*from CSPairs order by ID”來處理CSPair關(guān)系(框214的輸出)以組合多元組v及其鄰居v’(其中v.ID<v’.ID)之間所有鄰居集的比較結(jié)果。注意,在CS-組合查詢的結(jié)果中,每個緊密SN集G將在G中帶有最小ID的多元組下組合在一起。
FDDE系統(tǒng)100處理CS-組合查詢的結(jié)果中多元組的每個組合Q[ID=v](由同一ID標識)。對于多元組的一個組合Q[ID=v],如果v未被標識為屬于一緊密SN集,則系統(tǒng)確定v所屬的最大的非瑣碎(尺寸大于1)緊密SN集。該集可僅從組合Q[ID=v]中標識。系統(tǒng)輸出集Gv并標記Gv中每個多元組以指示其向緊密集的分配。例如,對多元組10的集是{10,50,100,150}。集{10,50,100,150}可輸出,并將多元組標識符10,50,100,150標記為屬于一有效緊密SN集,從而不必再次處理它們。
在218,F(xiàn)DDE系統(tǒng)100通過去移除過多的重復多元組來清理數(shù)據(jù)庫170,其中這些重復多元組的標識是基于框216的結(jié)果。
其它實現(xiàn)細節(jié)由示例性模糊重復檢測器提供的模糊重復消除問題的解決方案比現(xiàn)有的常規(guī)方法更準確有效。它是比例不變的,使得距離函數(shù)的比例的確影響多元組的本地結(jié)構(gòu)化屬性。它是分/合一致的,因為重復組合中多元組之間的距離縮小和組合中多元組之間的距離擴大可僅在有限方面改變劃分。它具有受限豐富性,從而重復消除函數(shù)的范圍允許在實踐中有用的所有組合。
在至少一個實現(xiàn)中,用戶可指定稀疏鄰域閾值c。然而,計算可自動完成或可在閾值c的計算中提供對用戶的幫助。
示例性計算系統(tǒng)和環(huán)境圖3示出其中可(全部或部分)實現(xiàn)本文所述的示例性模糊重復檢測器的適當計算環(huán)境300的一個示例。計算環(huán)境300可在本文所述的計算機和網(wǎng)絡(luò)體系結(jié)構(gòu)中利用。
該計算機環(huán)境300僅是適當計算環(huán)境的一個示例,并非旨在提出對本發(fā)明使用或功能性范圍作任何限制。計算環(huán)境300也不應(yīng)被解釋為對示例性操作環(huán)境300中所示的任一組件或其組合有任何依賴性或任何需求。
示例性模糊重復檢測器可在很多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置中實現(xiàn)。適于本發(fā)明使用的眾所周知的計算系統(tǒng)、環(huán)境、和/或配置的示例包括,但不限于,個人計算機、服務(wù)器計算機、瘦客戶機、手持式或膝上型裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、個人數(shù)字助理(PDA)、電器、專用電器(例如DVD播放器)、可編程消費電器、網(wǎng)絡(luò)PC、小型計算機、大型機、包括任一種以上系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
示例性模糊重復檢測器可在處理器可執(zhí)行指令的一般環(huán)境中進行說明,諸如由計算機執(zhí)行的程序模塊。一般而言,程序模塊包括執(zhí)行具體任務(wù)或?qū)崿F(xiàn)具體抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。示例性模糊重復檢測器還可在任務(wù)由經(jīng)通信網(wǎng)絡(luò)或其它數(shù)據(jù)傳輸介質(zhì)連接的遠程處理裝置執(zhí)行的分布式計算環(huán)境中實踐。在分布式計算環(huán)境中,程序模塊和其它數(shù)據(jù)可置于包括存儲器存儲設(shè)備的本地和遠程計算機存儲介質(zhì)中。
計算機環(huán)境300包括以計算機320形式的通用計算裝置。計算機320的組件可包括,但不限于,一個或多個處理器或處理單元304、系統(tǒng)存儲器306以及把包括處理器304在內(nèi)的各種系統(tǒng)組件耦合到系統(tǒng)存儲器306的系統(tǒng)總線308。
系統(tǒng)總線308代表任一若干總線結(jié)構(gòu)類型中的一種或多種,包括存儲器總線或存儲器控制器、外圍總線、加速圖形端口、以及使用各種總線架構(gòu)的任一種的處理器或本地總線。作為示例,這些架構(gòu)可包括卡總線、個人計算機存儲卡國際協(xié)會(PCMCIA)、加速圖形端口(AGP)、小型計算機系統(tǒng)接口(SCSI)、通用串行總線(USB)、IEEE 1394、視頻電子標準協(xié)會(VESA)局部總線和也稱為Mezzanine總線的外圍部件互連(PCI)總線。
計算機302通常包括各種處理器可讀介質(zhì)。這些介質(zhì)可以是能被計算機302訪問的任何可用介質(zhì),并包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。
系統(tǒng)存儲器306包括諸如只讀存儲器(ROM)312和隨機存取存儲器(RAM)310的易失性和/或非易失性存儲器形式的計算機可讀介質(zhì)。包含有助于如起動時在計算機302內(nèi)元件間傳送信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS)314通常存儲在ROM 312中。RAM 310通常包含可被處理單元304立即訪問和/或當時正被操作的數(shù)據(jù)和/或程序模塊。
計算機302還可包括其它可移動/不可移動、易失/非易失計算機存儲介質(zhì)。作為示例,圖3示出了讀取和寫入不可移動、非易失性介質(zhì)(未示出)的硬盤驅(qū)動器316,讀取和寫入可移動、非易失磁盤320(例如“軟盤”)的磁盤驅(qū)動器318,讀取和寫入可移動、非易失光盤324,諸如CD-ROM、DVD-ROM、或其它光學介質(zhì)的光盤驅(qū)動器322。硬盤驅(qū)動器316、磁盤驅(qū)動器318和光盤驅(qū)動器322分別通過一個或多個數(shù)據(jù)介質(zhì)接口325與系統(tǒng)總線308連接?;蛘?,硬盤驅(qū)動器316、磁盤驅(qū)動器318和光盤驅(qū)動器322分別通過一個或多個接口(未示出)與系統(tǒng)總線308連接。
盤驅(qū)動器及其相關(guān)聯(lián)的計算機可讀介質(zhì)為計算機302提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、和其它數(shù)據(jù)的非易失性存儲。盡管示例示出硬盤316、可移動磁盤320和可移動光盤324,可以理解可利用其它類型的可存儲數(shù)據(jù)可由計算機訪問的計算機可讀介質(zhì)來實現(xiàn)示例性計算系統(tǒng)和環(huán)境,諸如磁卡或其它磁性存儲裝置、閃存卡、CD-ROM、數(shù)字多功能盤(DVD)或其它光學存儲、隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除只讀存儲器(EEPROM)等。
包括作為示例的操作系統(tǒng)326、一個或多個應(yīng)用程序328、其它程序模塊330和程序數(shù)據(jù)332的任何數(shù)量的程序模塊可被存儲在硬盤316、磁盤320、光盤324、ROM 312、和/或RAM 310中。
用戶可通過輸入裝置如鍵盤334和定位裝置336(例如“鼠標”)向計算機302輸入命令和信息。其它輸入裝置338(未具體示出)可包括話筒、游戲桿、游戲墊、衛(wèi)星接收器、串行端口、掃描儀等等。這些和其它輸入裝置常常通過與系統(tǒng)總線308耦合的輸入/輸出接口340與處理單元304相連,但也可通過諸如并行端口、游戲端口或通用串行總線(USB)的其它接口和總線結(jié)構(gòu)連接。
監(jiān)視器342或其它類型的顯示裝置也可通過諸如視頻接口344的接口與系統(tǒng)總線308相連。除了監(jiān)視器342,其它輸出外圍裝置還可包括通過輸入/輸出接口340與計算機302相連的諸如揚聲器(未示出)和打印機346的組件。
計算機302可以在使用與一臺或多臺遠程計算機,諸如遠程計算裝置348的邏輯連接的網(wǎng)絡(luò)化環(huán)境中運行。作為示例,遠程計算裝置348可以是個人計算機、服務(wù)器、路由器、網(wǎng)絡(luò)計算機、對等裝置或其它公共網(wǎng)絡(luò)節(jié)點等。遠程計算裝置348被示為包括本文所述與計算機302相關(guān)的許多或全部元件的便攜式計算機。
計算機302和遠程計算機348之間的邏輯連接被示為局域網(wǎng)(LAN)350和廣域網(wǎng)(WAN)352。這樣的網(wǎng)絡(luò)化環(huán)境在家庭、辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)上是常見的。這樣的網(wǎng)絡(luò)化環(huán)境可以是有線或無線的。
當在LAN網(wǎng)絡(luò)化環(huán)境中實現(xiàn)時,計算機302通過網(wǎng)絡(luò)接口或適配器354與局域網(wǎng)350連接。當在WAN網(wǎng)絡(luò)化環(huán)境中實現(xiàn)時,計算機302通常包括調(diào)制解調(diào)器356或其它用于在廣域網(wǎng)352上建立通信的裝置。可以在計算機302內(nèi)部或外部的調(diào)制解調(diào)器356與系統(tǒng)總線308通過輸入/輸出接口340或其它適當機制連接。應(yīng)當理解,所示網(wǎng)絡(luò)連接是示例性的,且也可以使用其它在計算機302和348之間建立通信鏈接的技術(shù)。
在諸如計算環(huán)境300所示的網(wǎng)絡(luò)化環(huán)境中,所示與計算機302相關(guān)的程序模塊或其一部分可存儲在遠程存儲器存儲裝置中。作為示例,遠程應(yīng)用程序358駐留于遠程計算機348的存儲裝置上。為進行說明,應(yīng)用程序和諸如操作系統(tǒng)的其它可執(zhí)行程序組件在此被示為單獨的框,盡管可以理解這種程序和組件在不同時間駐留在計算裝置302的不同存儲組件上,并由該計算機的數(shù)據(jù)處理器執(zhí)行。
處理器-可執(zhí)行指令示例性模糊重復檢測器可在由一個或多個計算機或其它裝置執(zhí)行的諸如程序模塊的計算機可執(zhí)行指令的一般環(huán)境中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。通常,程序模塊的功能可在各個實施例中按需組合或分布。
示例性操作環(huán)境圖3示出其中可實現(xiàn)示例性模糊重復檢測器的適當計算環(huán)境300的一個示例。特別地,本文所述的示例性模糊重復檢測器可(全部或部分地)由圖3中的任何程序模塊328-330和/或操作系統(tǒng)326或其一部分來實現(xiàn)。
該操作環(huán)境僅是適當操作環(huán)境的一個示例,并非旨在提出對示例性模糊重復檢測器的范圍或功能性使用作任何限制。其它適于使用的眾所周知的計算系統(tǒng)、環(huán)境、和/或配置的示例包括,但不限于,個人計算機、服務(wù)器計算機、手持式或膝上型裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費電器、無線電話或裝置、通用或?qū)S秒娖鳌?yīng)用程序?qū)S眉呻娐?、網(wǎng)絡(luò)PC、小型計算機、大型計算機機、包括任一種以上系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
處理器-可讀介質(zhì)示例性模糊重復檢測器的實現(xiàn)可存儲于某些形式的計算機可讀介質(zhì)上或在其上傳輸。處理器可讀介質(zhì)可以是處理器可訪問的任何可用介質(zhì)。作為示例,處理器可讀介質(zhì)可包括但不限制“計算機存儲介質(zhì)”和“通信介質(zhì)”。
“計算機存儲介質(zhì)”包括以任何方法或技術(shù)實現(xiàn)的用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或其它數(shù)據(jù)的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光學存儲、磁卡、磁帶、磁盤存儲或其它磁性存儲裝置、或任何其它可用來存儲所需信息并可由計算機訪問的介質(zhì)。
“通信介質(zhì)”通常包括計算機可讀指令、程序模塊、或在諸如載波或其它傳輸介質(zhì)的已調(diào)制數(shù)據(jù)信號中的其它數(shù)據(jù)。通信介質(zhì)還包括任何信息傳送介質(zhì)。
術(shù)語“已調(diào)制數(shù)據(jù)信號”指其特征的一個或多個以在信號中編碼信息的方式設(shè)置或改變的信號。作為示例,而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直接接線連接的有線介質(zhì),以及諸如聲學、RF、紅外線或其它無線介質(zhì)的無線介質(zhì)。以上的任意組合也被包括在計算機可讀介質(zhì)的范圍內(nèi)。
結(jié)論盡管一個或多個上述實現(xiàn)使用了結(jié)構(gòu)化特征和/或方法論動作的專用語言進行描述,可以理解其它實現(xiàn)無需所述特定特征或動作就可實踐。相反,特定特征和動作被揭示為一個或多個實現(xiàn)的優(yōu)選形式。
權(quán)利要求
1.一種或多種具有計算機可執(zhí)行指令的處理器可讀程序介質(zhì),其特征在于,所述指令在由處理器執(zhí)行時執(zhí)行以下動作,包括從數(shù)據(jù)庫獲取包括多個多元組的數(shù)據(jù)集;對于所述數(shù)據(jù)集的多個多元組的每一個,計算所述數(shù)據(jù)集的一個或多個最相近鄰居多元組;定義多個多元組的多個不相交部分,其中每個部分包括彼此的模糊重復,以致一部分中的每個模糊重復可表示一共同實際實體或現(xiàn)象。
2.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,還包括消除在多個模糊重復多元組的多個部分內(nèi)的重復,從而使每一部分中都只剩下不重復的多元組。
3.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,所述計算還包括在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組。
4.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,所述計算還包括在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組,并將每個多元組的已定義數(shù)量的最相近鄰居多元組集定義為一“鄰域”;對每個鄰域計算“鄰域增長率”。
5.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,所述計算還包括通過所述數(shù)據(jù)集中所述多元組的索引來查找最相近的鄰居。
6.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,所述定義還包括基于是“緊密集”和“稀疏鄰域”的每個部分來定義多個多元組的多個部分。
7.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,所述定義還包括基于是“緊密集”、“稀疏鄰域”和“小集勢”的每個部分來定義多個多元組的多個部分。
8.如權(quán)利要求1所述的一種或多種處理器可讀程序介質(zhì),其特征在于,每個部分中的所述多元組還包括彼此的準確重復。
9.一種模糊重復消除系統(tǒng),其特征在于,包括一數(shù)據(jù)集獲取裝置,用于從數(shù)據(jù)庫獲取包括多個多元組的數(shù)據(jù)集;一計算裝置,用于對所述數(shù)據(jù)集的多個多元組的每一個,計算所述數(shù)據(jù)集的一個或多個最相近鄰居多元組;一劃分裝置,用于定義多個多元組的多個不相交部分,其中每個部分中看起來不同的多元組包括彼此的模糊重復,以致一部分中的每個模糊重復表示一共同實際實體或現(xiàn)象;一重復-消除裝置,用于消除在多個模糊重復多元組的多個部分內(nèi)的重復,從而使每一部分中都只剩下不重復的多元組。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,每個部分中的所述多元組還包括彼此的準確重復。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述計算裝置用于在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組。
12.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述計算裝置還用于在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組,并將每個多元組的已定義數(shù)量的最相近鄰居多元組集定義為一“鄰域”;對每個鄰域計算“鄰域增長率”。
13.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述計算裝置還用于通過所述數(shù)據(jù)集中所述多元組的索引查找最相近的鄰居。
14.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述劃分裝置用來基于是“緊密集”和“稀疏鄰域”的每個部分來定義多個多元組的多個部分。
15.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述劃分裝置用來基于是“緊密集”、“稀疏鄰域”和“小集勢”的每個部分來定義多個多元組的多個部分。
16.一種用于消除數(shù)據(jù)集中模糊重復多元組的方法,其特征在于,所述方法包括對于所述數(shù)據(jù)集的多個多元組的每一個,計算一個或多個最相近鄰居多元組;劃分多個多元組的多個不相交部分,其中每個部分中看起來不同的多元組包括彼此的模糊重復,從而一部分中的每個模糊重復表示一共同實際實體或現(xiàn)象;消除在多個模糊重復多元組的多個部分內(nèi)的重復,從而使每一部分中都只剩下不重復的多元組。
17.如權(quán)利要求16所述的方法,其特征在于,所述計算包括在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組。
18.如權(quán)利要求16所述的方法,其特征在于,所述計算包括在所述數(shù)據(jù)集中計算已定義數(shù)量的最相近鄰居多元組,并將每個多元組的已定義數(shù)量的最相近鄰居多元組集定義為一“鄰域”;對每個鄰域計算“鄰域增長率”。
19.如權(quán)利要求16所述的方法,其特征在于,所述計算還包括通過所述數(shù)據(jù)集中所述多元組的索引查找最相近的鄰居。
20.如權(quán)利要求16所述的方法,其特征在于,所述劃分包括基于是“緊密集”和“稀疏鄰域”的每個部分來定義多個多元組的多個部分。
21.如權(quán)利要求16所述的方法,其特征在于,所述劃分包括基于是“緊密集”、“稀疏鄰域”和“小集勢”的每個部分來定義多個多元組的多個部分。
全文摘要
在此所述的至少一個實現(xiàn)檢測模糊重復并消除這樣的重復。模糊重復是數(shù)據(jù)庫中表示同一實際實體或現(xiàn)象的多個看起來不同的多元組(即記錄)。
文檔編號G06F17/30GK1744083SQ20051008851
公開日2006年3月8日 申請日期2005年7月29日 優(yōu)先權(quán)日2004年8月30日
發(fā)明者R·莫特瓦尼, S·喬德里, V·甘提 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
邢台县| 枞阳县| 临泉县| 五大连池市| 古浪县| 和田县| 海丰县| 钦州市| 富顺县| 大庆市| 德阳市| 雷山县| 常宁市| 巴东县| 寿阳县| 府谷县| 清新县| 准格尔旗| 射阳县| 平凉市| 清丰县| 榆中县| 定边县| 马边| 凤阳县| 司法| 绥中县| 赣州市| 临安市| 油尖旺区| 天津市| 新野县| 大厂| 定州市| 双桥区| 张家口市| 化隆| 金沙县| 永胜县| 仁寿县| 吉林市|