專利名稱:交互式書法字k近鄰查詢方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫與多媒體領(lǐng)域,尤其涉及一種交互式書法字k近鄰查詢方法。
背景技術(shù):
中國歷代的書法作品,積淀了中華民族傳統(tǒng)的審美情趣、哲學思考和文化心理特質(zhì),是中華民族傳統(tǒng)文化中的瑰寶。書法作品的保存介質(zhì)通常是石、骨、金屬、竹、紙等,不方便攜帶,容易破損,不易于資源的共享,不利于人們對文化資源的再利用。將這些書法作品進行數(shù)字化,對其進行描述、管理,并通過數(shù)字圖書館門戶為用戶提供中國書法字的檢索服務(wù),達到資源共享,以幫助藝術(shù)愛好者欣賞不同朝代不同作者不同風格的藝術(shù)美,研究書法家不同年代書法風格的變化,幫助歷史愛好者學習歷史文化和歷史文化,使得藝術(shù)和歷史重生。這對宣傳和弘揚中國的文明與歷史,展現(xiàn)中國的優(yōu)秀文化,使人們更加便捷地學習、欣賞中國書法藝術(shù)具有重要的社會意義和學術(shù)意義,產(chǎn)生巨大的社會效益和經(jīng)濟效益。
中國幾千年來的變遷,使得同一個漢字的不同書法體形態(tài)各異。書法字具有如下特性(1)筆劃變形橫筆不平,豎筆不直,折筆拐角變圓弧。有時甚至是為美感而故意扭曲,如枯筆字。
(2)復雜性風格各異,該連接的筆畫沒連接上,而不該連接的卻連接在一起。據(jù)統(tǒng)計,一個漢字平均有12.71個筆畫[1],每一個筆畫的大小取決于該字總筆畫數(shù),而每一筆段的大小取決于該筆畫總筆段數(shù)。
(3)模糊性由于作品飽經(jīng)歷史滄桑,受自然因素的影響,部分筆畫可能模糊不清。
本質(zhì)上說,書法字是一種手寫體。關(guān)于手寫體的識別有過很多研究,文獻[3]回顧了在線和離線手寫體識別的主流技術(shù).目前已出現(xiàn)一些較為成功的關(guān)于手寫體識別的研究,如文獻[4]對華盛頓手稿進行識別,文獻[5]對希伯來語的書寫體進行分類.然而較少有文獻介紹中文書法字的檢索和索引方面的研究工作.在文獻[2]里,施伯樂等人提出了一種古籍內(nèi)容檢索方法,該方法通過多級計算古籍書中漢字質(zhì)心的方式,成功地對書寫規(guī)范的古籍漢字進行檢索,然而對于書寫不規(guī)范且來自不同朝代的書法作品,該方法難以湊效。
高維索引技術(shù)經(jīng)歷了20多年的研究[7],采用的技術(shù)主要分為三類第一類是基于數(shù)據(jù)和空間分片的樹形索引,如R-tree[8]及其變種[9,10]等。但是這些樹形索引方法只適合維數(shù)較低的情況,隨著維數(shù)的增加,其索引的性能往往劣于順序檢索,并且維數(shù)一旦增加,其查詢覆蓋區(qū)域增長很快,導致查詢速度的急劇下降,產(chǎn)生“維數(shù)災難″;第二類是采用近似的方法來表示原始向量,如VA-file[11]和IQ-tree[12]等.該類方法的基本思想是通過對高維點數(shù)據(jù)進行壓縮和近似存儲來加速順序查找速度。然而數(shù)據(jù)壓縮和量化帶來的信息丟失使得其首次過濾后的查詢精度并不令人滿意。同時盡管減少了磁盤的IO次數(shù),但由于需要對位串解碼同時計算對查詢點距離的上界和下界,導致很高的CPU運算代價;最后一類是通過將高維數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)來進行高維查詢,包括NB-Tree[13]和iDistance[14]等。NB-Tree通過計算高維空間的每個點與原點O(0,0...0)的尺度距離,將高維數(shù)據(jù)點映射到一維空間,然后將這些距離值用B+樹建立索引,從而將高維查詢轉(zhuǎn)變?yōu)橐痪S空間的范圍查詢。盡管它能夠快速得到結(jié)果,但是由于它不能有效的縮減查詢空間,特別是當維數(shù)很高時,范圍查詢效率急劇惡化。NB-Tree是一種基于單參考點的方法,iDistance是基于多參考點的方法,通過引入多參考點并結(jié)合聚類的方法有效地縮減了高維數(shù)據(jù)空間的搜索范圍,提高了查詢精度,然而其查詢效率很大程度上取決于參考點的選取并且依賴數(shù)據(jù)聚類和分片。同時由于iDistance在對高維數(shù)據(jù)映射到一維距離時不可避免存在信息丟失,導致查詢精度不是非常理想。最壞的情況下,查詢空間幾乎會覆蓋整個高維空間。
1吳佑壽,丁曉青,《漢字識別-原理、方法與實現(xiàn)》.北京高等教育出版社,19922施伯樂,張亮,王勇,陳智鋒,基于視覺相似性的計算機古籍內(nèi)容檢索方法.軟件學報.12(9),2001,pp.1336-13423R.Palmondon and S.N.Srihari,On-Line and Off-Line Handwriting RecognitionAComprehensive Survey,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.22,No.1,January 2000,pp.63-84.
4T.M.Rath,S.Kane,A.Lehman,E.Partridge and R.Manmatha,Indexing for a Digital Libraryof George Washington’s ManuscriptsA Study of Word Matching Techniques,Technical Report,Center for Intelligent Information Retrieval,University of Massachusetts,2002.
5Itay Bar Yosef,Klara Kedem,etc,Classification of Hebrew Calligraphic Handwriting StylesPreliminary Results.In Proc.of the First International Workshop on Document Image Analysisfor Libraries(DIAL’04),Palo Alto,California,2004,pp.299-305.
6Yueting Zhuang,Xiafeng Zhang,et al,Retrieval of Chinese Calligraphic Character Image.InProc.of PCM 2004
7Christian Bhm,Stefan Berchtold,Daniel KeimSearching in High-dimensional SpacesIndexStructurcs for Improving the Performance of Multimedia Databases.ACM Computing Surveys33(3),2001.
8A.Guttman.R-treeA dynamic index structure for spatial searching.In Proc.of the ACMSIGMOD Int.Conf.on Management of Data.1984.pp.47-54.
9N.Beckmann,H.-P.Kriegel,R.Schneider,B.Seeger.The R*-treeAn Efficient and RobustAccess Method for Points and Rectangles.In Proc.ACM SIGMOD Int.Conf.on Managementof Data.1990,pp.322-331.
10S.Berchtold,D.A.Keim and H.P.Kriegel.The X-treeAn index structure for high-dimensionaldata.In Proc.22th Int.Conf.on Very Large Data Bases,1996,pp.28-37.
11R.Weber,H.Schek and S.Blott.A quantitative analysis and performance study forsimilarity-search methods in high-dimensional spaces.In Proc.24th Iht.Conf.on Very LargeData Bases,1998,pp.194-205.
12S.Berchtold,C.Bohm,H.P.Kriegel,J.Sander and H.V.Jagadish.Independent quantizationAn index compression technique for high-dimensional data spaces.In Proc.16th Int.Conf.onData Engineering,2000,pp.577-588.
13M J.Fonseca and J A.Jorge.NB-TreeAn Indexing Structure for Content-Based Retrieval inLarge Databases.In Proc.of the 8th International Conference on Database Systems forAdvanced Applications,Kyoto,Japan,Mar 2003,pp.267-274.
14H.V.Jagadish,B.C.Ooi,K.L.Tan,C.Yu,R.ZhangiDistanceAn Adaptive B+-tree BasedIndexing Method for Nearest Neighbor Search.ACM Transactions on Data Base Systems,30,2,364-397,June 2005.
發(fā)明內(nèi)容
本發(fā)明目的是為了提高k近鄰查詢的性能,提高查詢精度,提供一種交互式書法字k近鄰查詢方法。
本發(fā)明解決技術(shù)問題所采用的技術(shù)方案是1)首先將高維空間中的每個字都當作參考字,分別在對應(yīng)虛擬距離闕值條件下計算并且得到與該字相似的候選字,通過循環(huán),生成一張局部距離圖,并對該圖建立基于B+樹的索引;之后通過用戶的每次查詢,通過相關(guān)反饋動態(tài)調(diào)整該局部距離圖;2)采用基于層次聚類和統(tǒng)一化始點距離的超球心重定位,找到查詢Vq的最近鄰字Vp;3)通過最近鄰字Vp和相關(guān)反饋完成偽k近鄰查詢Pk-NN,返回查詢結(jié)果。
所述的采用基于層次聚類和統(tǒng)一化始點距離USD的超球心重定位通過對書法字進行層次聚類,將其聚成T個類,聚類后的每個字可以表示為字(Vi)∷=<編號(i),所屬類的編號(CID)> (3)然后將其對應(yīng)的USD與該字所在類的編號結(jié)合得到該字的索引鍵值,如式(4)所示
key(Vi)=CID+USD(Vi)MAX_USD---(4)]]>其中CID表示字Vq所屬的類的編號,MAX_USD為一常數(shù),設(shè)置足夠大使得每個字的最大查詢范圍為[CID,CID+1],最后將n個鍵值建立基于B+樹索引;對于查詢字Vq,令找到其最近鄰字所需要的最小半徑值為ε,該值的大小通過對書法字庫里的每個書法字的最近鄰距離Δ的統(tǒng)計分布情況來估計得到;當用戶提交一個查詢字Vq,首先以ε為半徑通過T次循環(huán)計算判斷與查詢超球Θ(Vq,ε)相交的類超球;然后在這些類超球中求得查詢字的最近鄰字Vp作為候選的新超球心;同理,當兩個超球相交時,先得到與Vq最近鄰的字,然后和上一次循環(huán)得到的候選最近鄰字作比較,求得距離Vq最近的字;最后,當兩個超球都不相交時,繼續(xù)循環(huán),最終得到字Vq的最近鄰字Vp。
通過最近鄰字Vp和相關(guān)反饋完成偽k近鄰查詢Pk-NN引入了相關(guān)反饋,當k取較大時,對Vq的偽k-NN查詢只返回小于k個最近鄰字;當k取較小時,對Vq的偽k-NN查詢返回k個最近鄰字。
本發(fā)明的有益效果能夠顯著提高書法字查詢效率同時索引的查詢精度也隨著用戶的相關(guān)反饋持續(xù)提高,使得用戶能快速得到基于相同語義的書法字。
圖1是交互式書法字k近鄰查詢系統(tǒng)體系結(jié)構(gòu)示意圖;圖2是交互式書法字k近鄰查詢方法的流程框圖;圖3(a)是滿足VDT(Vp)≥Δ+r條件的“之”字對應(yīng)的虛擬查詢半徑示意圖;圖3(b)是滿足VDT(Vp)<Δ+r條件的“之”字對應(yīng)的虛擬查詢半徑示意圖;圖4是Δ的高斯分布例子示意圖;圖5是超球心重定位示意圖;圖6是近似最小包圍超球示意圖;圖7未經(jīng)過反饋的檢索例子示意圖;圖8經(jīng)過反饋的檢索例子示意圖。
具體實施方法交互式書法字k近鄰查詢方法的具體實施步驟如下(一)局部距離圖索引為支持高效精確的基于內(nèi)容的書法字相似查詢,提出一種針對書法字檢索特點的交互式高維索引結(jié)構(gòu)——局部距離圖(PDM)。通過結(jié)合用戶的相關(guān)反饋信息,能更有效縮小查詢空間,提高查詢效率的同時保證了較高的查準率。PDM索引的基本思想是對于一個查詢字Vq,借助其最近鄰(最相似)字Vp和預生成的局部距離圖來完成查詢。
根據(jù)對書法字檢索結(jié)果的觀察,對于一個任意給定的書法字Vi,與該字距離值小于150(下面定義為MAX_VDT)的字都很有可能與其相似,換而言之,兩個距離大于150的字就完全不可能相似,因此只需考慮對與該字距離小于150的字作為候選索引鍵值即可。同時對于任意字Vi來說,與它相似且離它最遠的距離值(下面定義為VDT(Vi))都可能不完全一樣,可借助用戶的相關(guān)反饋來設(shè)定。因此,在PDM中,分別將每個書法字作為參考字,將與其距離值小于某一闕值的鄰近的字作為索引的鍵值。
定義1(虛擬距離闕值).給定兩個書法字Vi和Vj,Vi的虛擬距離闕值(記為VDT(Vi))是指Vi與Vj的距離,其中Vj是通過用戶相關(guān)反饋指定為與Vi相似且距離最長的字,形式化表示為VDT(Vi)=d(Vi,Vj),其中Vj與Vi的距離最遠并且與Vi相似且Vi,Vj∈Ω。
舉例,如圖3所示,給定一個查詢書法字Vq且VqΩ,Vp為Vq的最鄰近書法字。必定存在一個字VR,使得它與VP語義相同且距離最長,那么將VR與VP的距離表示為VDT(VP)。不同的書法字Vi存在不同的VDT。虛擬距離闕值表(VDTT)用來記錄每個字的VDT,同時通過用戶的相關(guān)反饋更新VDTT并且修正PDM從而能夠持續(xù)地保證一個高的查準率。
定義2(局部距離圖).局部距離圖(記為PDM)表示為一個鄰接表,其中dij∈PDM且Dij表示第i個字與它鄰近的第j個字的距離.
虛擬距離闕值表(記為VDTT)是一個記錄每個字對應(yīng)的VDT的序列,表示為VDTT=<<1,VDT(V1)>,<2,VDT(V2)>,…,<n,VDT(Vn)>>,其中VDT(Vi)表示第i個字的虛擬距離闕值.
定義3(最大虛擬距離闕值).最大虛擬距離闕值(記為MAX_VDT)指每個字的初始虛擬距離闕值,都要大于其本身的VDT,即MAX_VDT≥max{VDT(V1),VDT(V2),...,VDT(Vn)}.
對于書法字來說,根據(jù)經(jīng)驗將MAX VDT設(shè)為150,表示VDTT中每個字的初始VDT值為150。根據(jù)用戶的相關(guān)反饋信息,逐步調(diào)整每個字的VDT值。以下為VDTT的增量式維護,它是一個持續(xù)和動態(tài)的過程。首先通過用戶的每次偽k近鄰查詢(記為PkNNQuery)的相關(guān)反饋信息,分成兩種情況動態(tài)更新VDTT。需要注意的是,對于VDTT的更新,MIN_K為用戶設(shè)定的在書法字庫中所有與查詢字相似的字的最小個數(shù),一般設(shè)定為40。只有當k大于MIN_K時,返回的候選字才能包括書法字庫中與Vq相似的全部字,沒有遺漏(即查全率為100%),否則不授權(quán)用戶進行相關(guān)反饋。另外Vq的最近鄰字Vp已在算法第2步通過Vq的超球心重定位得到。flag[Vp]=TRUE表示對Vp已經(jīng)過相關(guān)反饋。
輸入a VDTT,PDM索引RI,Vq;輸出更新后的VDTT和PDM索引(1)進入循環(huán)(2)S←PkNNQuery(Vq,k);(3)當k>MIN_K并且flag[Vp]=FALSE則(4)通過用戶相關(guān)反饋,得到距Vp最遠且相似的字Vr;(5)計算Vp與Vr距離并更新VDTT;(6)否則當k<MIN_K并且flag[Vp]=TRUE則(7)通過用戶相關(guān)反饋,得到距Vp最遠且相似的字Vr;(8)如果VDT(Vp)<d(Vp,Vr)則(9)將Vr添加到PDM索引并且更新VDTT;(10)返回更新后的VDTT和PDM索引;(11)結(jié)束循環(huán);與其它基于距離的索引方法不同的是,在局部距離圖中,高維空間中的每個字都被當作參考字,分別以各自的VDT為半徑(距離)上限計算在其半徑(距離)范圍內(nèi)的每個候選字的相似距離。這樣高維空間的n個字就轉(zhuǎn)變?yōu)橐痪S空間的O(n×k)個距離值,其中k<<n。為了對這些距離值進行快速查詢,需要對其建立高效索引。同時由于任意兩個書法字的相似距離值遠遠大于1,需要對其進行規(guī)一化處理,使得處理后的任意兩個書法字距離小于或等于1,這樣對于書法字Vi來說,其索引關(guān)鍵字可表示為key(Vi)=i+d(Vi,Vj)MAX_VDT---(5)]]>對于這些一維的鍵值采用B+樹進行索引.從式(4)可以看出單個字的最大查詢范圍為[i,i+1]。下面是局部距離圖索引的生成算法,包括VDTT和PDM索引的初始化(第1-3行)和對PDM建立索引(第4-12行)兩部分,其中函數(shù)TransValue()表示距離值的轉(zhuǎn)換.
輸入書法字庫Ω輸出PDM索引RI(1)對于書法字庫Ω中的每個字Vi來說(2)VDTT初始化;(3)創(chuàng)建B+樹索引RI;
(4)通過兩重循環(huán),當d(Vi,Vj)小于VDT(Vi)則(5)對距離值d(Vi,Vj)進行轉(zhuǎn)換得到鍵值并將其插入B+樹;(6)返回PDM索引RI;(二)基于聚類與統(tǒng)一化始點距離的超球心重定位超球心重定位是找到距查詢字Vq最近的那個字Vp。本發(fā)明采用基于聚類與統(tǒng)一化始點距離索引方法來加速最近鄰字(1-NN)的查詢,通過預先對書法字進行層次聚類,將其聚成T個類,聚類后的每個字可以表示為字(Vi)∷=<編號(i),所屬類的編號(CID)> (6)然后將其對應(yīng)的統(tǒng)一化試點距離與該字所在類的編號結(jié)合得到其索引鍵值,如式(7)所示key(Vi)=CID+USD(Vi)MAX_USD---(7)]]>其中CID表示字Vq所屬的類的編號,MAX_USD為一常數(shù),設(shè)置足夠大使得每個字的最大查詢范圍為[CID,CID+1]。最后將n個鍵值建立基于B+樹索引。
對于查詢字Vq,令找到其最近鄰字所需要的最小半徑值為ε。該值的大小可以通過對書法字庫里的每個書法字的最近鄰距離Δ的統(tǒng)計分布情況來估計,如圖4所示,每個字對應(yīng)的Δ值落在不同范圍的頻率滿足高斯分布(紅線表示高斯擬合的結(jié)果),因此可以得到對應(yīng)σ的最大似然估計值。又根據(jù)“3σ原則”,任意隨機變量X滿足P(μ-3σ<X≤μ+3σ)=0.9974,也就是說,當X的范圍值為3σ時,取到最近鄰字的概率為99.74%,接近100%。故令ε=3σ。
當用戶提交一個查詢字Vq后,如圖5所示,首先以ε為半徑通過T次(聚類個數(shù))循環(huán)計算判斷超球Θ(Vq,ε)與這些類超球的位置關(guān)系(第2行).當滿足某個類超球包含Θ(Vq,ε)時(第3行),借助索引進行子范圍查詢,對本次查詢得到的候選字計算與Vq的距離,取距離值最小的那個字Vp作為候選的新超球心(第4行),最后退出循環(huán)(第5行);同理,當兩個超球相交時(第6行),先得到與Vq最近鄰的字(第7行),然后和上一次循環(huán)得到的候選最近鄰字作比較(第8行),為了比較與其它類超球是否相交,不需要結(jié)束循環(huán);最后,當兩個超球都不相交時(第9行),繼續(xù)循環(huán)(第10行)。以下為超球心重定位算法輸入書法字Ω及查詢例子書法字Vq輸出Vq的最近鄰字Vp(1)初始化;(2)對于每個類超球Θ(Oj,CRj)來說
(3)當Θ(Oj,CRj)包含Θ(Vq,ε)則(4)在第j個類超球中返回距Vq最近的字Vp且退出循環(huán);(5)當Θ(Oj,CRj)與Θ(Vq,ε)相交則(7)在第j個類超球中返回距Vq最近的字Vp;(8)與上次得到的候選最近鄰字作比較,返回最近鄰字;(9)否則繼續(xù)循環(huán)直到結(jié)束;(10)返回最近鄰字Vp;(三)偽k近鄰查詢算法針對基于PDM的書法字索引特點,本發(fā)明提出一種k-NN查詢的改進——偽k近鄰查詢(記為Pk-NN)。由于引入了相關(guān)反饋,使得當k取較大時,對Vq的近似k-NN查詢不一定保證能夠返回k個最近鄰字。因為書法庫中與Vq相似的字的數(shù)量是有限的,可能會小于用戶設(shè)定的k,所以稱為偽k-NN查詢。需要說明的是如果沒有加入相關(guān)反饋,Pk-NN查詢就變成了普通的k-NN查詢。
基于PDM的偽k-NN查詢的搜索范圍如圖6中的虛線圓(近似最小包圍超球)所示,其中陰影部分表示真實的查詢范圍;它共分兩個階段,如圖2所示,首先通過超球心重定位找到查詢字Vq的最近鄰字Vp,最后是執(zhí)行基于Vp的偽k-NN查詢,其本質(zhì)是通過嵌套地調(diào)用范圍查詢算法來得到k個最近鄰書法字。具體步驟如下所示給定一個Vq和k,首先通過對Vq的超球心重定位(第1行)找到其最近鄰字Vp,然后初始化并計算Vq與Vp的距離(第2行),最后進入循環(huán),開始是用一個較小的半徑去進行范圍查詢(第4-5行),當?shù)玫降暮蜻x字個數(shù)大于k時,則通過循環(huán)(第8行)找到在該候選字集S中距離查詢字Vq最遠的(‖S‖-k-1)個字并且將它們刪除(第6-7行)。這樣恰好得到k個最近鄰字。最后跳出While循環(huán)(第9行)。否則,當查詢半徑r大于Vp的虛擬查詢半徑時,停止查詢(第10行)。需要說明的是,在這種情況下,返回的候選字個數(shù)會小于k。輸入查詢字Vq,k輸出查詢結(jié)果s(1)對Vq的超球心重定位得到Vp;(2)初始化;(3)當候選字個數(shù)‖S‖不大于k且(bStop=FALSE),繼續(xù)循環(huán);(4)增加半徑r;(5)對Vp進行半徑為r的范圍查詢,得到查詢結(jié)果S;
(6)當返回候選字個數(shù)‖S‖大于k則(7)在候選字中刪除距Vq最遠的‖S‖-k-1個字且跳出循環(huán);(8)否則當r>VQR(Vp)則(9)沒有k個與查詢字相似的字,退出循環(huán);(10)結(jié)束循環(huán)返回結(jié)果S;如附圖7所示,當用戶提交一個“天”字,通過PDM索引從書法字庫中檢索出與該字形狀相似的候選字,然后用戶可以根據(jù)相關(guān)反饋判斷在這些候選字中哪些字是與“天”語義相同的,哪些是不同的。通過這種方式,動態(tài)更新局部距離圖,使得該檢索系統(tǒng)的保持一個較高的查準率。圖7為未經(jīng)反饋的交互式書法字檢索的結(jié)果。
類似地,如附圖8所示,當用戶提交一個“題”字,通過PDM索引檢索出與“題”相似的候選字。通過這種方式,動態(tài)更新局部距離圖,使得該檢索系統(tǒng)的保持一個較高的查準率。圖8為經(jīng)過反饋的交互式書法字檢索的結(jié)果。
權(quán)利要求
1.一種交互式書法字k近鄰查詢方法,其特征在于1)首先將高維空間中的每個字都當作參考字,分別在對應(yīng)虛擬距離闕值條件下計算并且得到與該字相似的候選字,通過循環(huán),生成一張局部距離圖,并對該圖建立基于B+樹的索引;之后通過用戶的每次查詢,通過相關(guān)反饋動態(tài)調(diào)整該局部距離圖;2)采用基于層次聚類和統(tǒng)一化始點距離的超球心重定位,找到查詢Vq的最近鄰字Vp;3)通過最近鄰字Vp和相關(guān)反饋完成偽k近鄰查詢Pk-NN,返回查詢結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種交互式書法字k近鄰查詢方法,其特征在于,所述的采用基于層次聚類和統(tǒng)一化始點距離USD的超球心重定位通過對書法字進行層次聚類,將其聚成T個類,聚類后的每個字可以表示為字(Vi)::=<編號(i),所屬類的編號(CID)>(1)然后將其對應(yīng)的USD與該字所在類的編號結(jié)合得到該字的索引鍵值,如式(2)所示key(Vi)=CID+USD(Vi)MAX_USD...(2)]]>其中CID表示字Vq所屬的類的編號,MAX_USD為一常數(shù),設(shè)置足夠大使得每個字的最大查詢范圍為[CID,CID+1],最后將n個鍵值建立基于B+樹索引;對于查詢字Vq,令找到其最近鄰字所需要的最小半徑值為ε,該值的大小通過對書法字庫里的每個書法字的最近鄰距離Δ的統(tǒng)計分布情況來估計得到;當用戶提交一個查詢字Vq,首先以ε為半徑通過T次循環(huán)計算判斷與查詢超球Θ(Vq,ε)相交的類超球;然后在這些類超球中求得查詢字的最近鄰字Vp作為候選的新超球心;同理,當兩個超球相交時,先得到與Vq最近鄰的字,然后和上一次循環(huán)得到的候選最近鄰字作比較,求得距離Vq最近的字;最后,當兩個超球都不相交時,繼續(xù)循環(huán),最終得到字Vq的最近鄰字Vp。
3.根據(jù)權(quán)利要求1所述的一種交互式書法字k近鄰查詢方法,其特征在于,所述的通過最近鄰字Vp和相關(guān)反饋完成偽k近鄰查詢Pk-NN引入了相關(guān)反饋,當k取較大時,對Vq的偽k-NN查詢只返回小于k個最近鄰字;當k取較小時,對Vq的偽k-NN查詢返回k個最近鄰字。
全文摘要
本發(fā)明公開了一種交互式書法字k近鄰查詢方法。利用該方法可以實現(xiàn)書法字的基于語義的交互式索引和檢索,即用戶可以參與調(diào)整索引的過程,使查詢精度進一步提高。在實施本方法的過程中,首先對書法字庫中的每對書法字在一定闕值條件下求得距離,生成一個局部距離圖,并對該圖建立基于B+樹的索引。當用戶提交一個例子書法字后,系統(tǒng)根據(jù)要求檢索出與該字相似的字,然后用戶可以根據(jù)相關(guān)反饋動態(tài)選擇與該字語義相同的字。這樣系統(tǒng)會根據(jù)用戶的反饋信息動態(tài)調(diào)整局部距離圖,排除不相關(guān)的字,使得保持較高的查詢精度。
文檔編號G06F17/30GK1920822SQ200610053409
公開日2007年2月28日 申請日期2006年9月14日 優(yōu)先權(quán)日2006年9月14日
發(fā)明者莊越挺, 吳飛, 莊毅 申請人:浙江大學