面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法
【專利摘要】本發(fā)明公開了面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,包括:利用圖像的視覺特征訓練增強型殘差量化所需的多層碼書,并利用所訓練的碼書構(gòu)建多維倒排索引;根據(jù)已訓練完成的碼書,對圖像視覺特征進行量化和編碼,同時根據(jù)計算得到的編碼將其插入到倒排索引中對應的倒排列表;利用查詢圖像視覺特征對所構(gòu)建的多維倒排索引進行查詢,獲得查詢候選集;利用自適應超球體過濾對查詢候選集進行優(yōu)化,對過濾后的查詢結(jié)果排序,從而完成圖像視覺特征的檢索。本發(fā)明的方法通過對圖像特征進行量化和編碼,提高圖像特征的量化效率;利用所生成的圖像編碼構(gòu)建多維倒排索引,只需要訓練少量碼書就可以構(gòu)建倒排索引并提高索引結(jié)構(gòu)的構(gòu)建速度。
【專利說明】面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像檢索【技術(shù)領(lǐng)域】,更具體地,涉及一種面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法。
【背景技術(shù)】
[0002]當前,全球網(wǎng)絡的發(fā)展和普及已經(jīng)達到空前的規(guī)模,來自微博、手機、社交網(wǎng)站、新聞網(wǎng)站以及多媒體共享網(wǎng)站中以圖像為代表的多媒體數(shù)據(jù)每天以驚人速度迅猛增長。面對海量的圖像庫,只有對圖像進行有效地組織以便于瀏覽、訪問和檢索,人們才能快速并準確地獲取自己感興趣和喜愛的圖片。傳統(tǒng)的文本通常需要人工對圖像內(nèi)容進行標注,然而,隨著圖像庫規(guī)模的增大,人工標注既費時又費力,其局限性越來越明顯。此外,圖像文本描述通常來源于人工標注或者網(wǎng)頁上圖像的文本描述,但圖像的文本描述本身帶有強烈的主觀色彩,因而,基于內(nèi)容的圖像檢索應運而生。顧名思義,其根據(jù)用戶提交的圖片,分析圖片中的視覺特征,再查找包含相似內(nèi)容的圖片,其中,如何根據(jù)圖像的視覺特征檢索到與其相似的視覺特征是關(guān)鍵之一。
[0003]圖像視覺特征檢索主要包括基于樹形結(jié)構(gòu)的索引與檢索、基于哈希的索引與檢索以及基于視覺單詞的倒排索引與檢索。
[0004]近年來,國內(nèi)外研究人員在樹形結(jié)構(gòu)的索引與檢索進行了很多研究,并在維度較低的特征空間獲得較好的檢索效果,但是這些方法在處理高維數(shù)據(jù)時會面臨“維度災難”。于是,基于哈希的索引與檢索成為研究者們的關(guān)注重點,其中包括:以精確歐式位置敏感哈希(Exact Euclidian Locality Sensitive Hashing, E2LSH)為代表的方法將特征點映射到低維歐式空間,并使用歐式距離衡量特征點之間的相似度;以譜哈希為代表的將特征點映射到低維漢明空間并保證歐式空間中相似的特征點具有相似的二進制編碼,通常使用漢明距離衡量特征點之間的相似度。E2LSH這類方法由于需要將圖像特征數(shù)據(jù)存儲在內(nèi)存中以提高檢索速度,因而其占用內(nèi)存空間過大,限制了可以處理的數(shù)據(jù)庫規(guī)模。哈希編碼使用二進制編碼表示圖像視覺特征并用編碼之間漢明距離來計算相似度,可以顯著降低存儲空間需求和提高檢索速度,然而,二進制編碼的長度限制了漢明距離的區(qū)分能力。以詞袋模型為代表的基于視覺單詞的倒排索引與檢索是從文本檢索領(lǐng)域引入,成為近幾年來圖像檢索領(lǐng)域的研究熱點。這類方法通常首先對一系列的方法圖像視覺特征進行量化和編碼,比如:漢明嵌入、積量化、轉(zhuǎn)換編碼以及殘差量化等;然后通過構(gòu)建一個倒排索引來存儲圖像的編碼等元數(shù)據(jù)和提高查詢速度。這類方法既保持了哈希編碼的低存儲需求又具有歐式距離的高區(qū)分能力的優(yōu)點,進而使查詢精度和檢索效率都得到顯著的提高。
[0005]雖然目前關(guān)于圖像視覺特征的檢索取得了很多研究成果,但是其檢索性能仍然有進一步提高的空間。比如:如何訓練更準確的碼書用于對圖像視覺特征進行量化和編碼,降低存儲空間需求;如何提高特征量化的效率;如何快速構(gòu)建包含較大規(guī)模倒排列表的倒排索引;以及如何進一步提升圖像視覺特征檢索的速度。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,旨在通過對圖像視覺特征進行量化和編碼,降低存儲圖像視覺特征所需的空間需求;通過構(gòu)建多維倒排索引來提高圖像視覺特征插入倒排索引的效率和提高查詢性能;通過自適應超球體過濾算法過濾非相關(guān)查詢結(jié)果,在不影響查詢準確率的情況下,降低排序特征的數(shù)量,提高圖像視覺特征的檢索速度。
[0007]實現(xiàn)本發(fā)明目的所采用的具體技術(shù)方案如下:
[0008]面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,通過對圖像視覺特征進行量化、編碼、構(gòu)建倒排索引以及查詢,從而實現(xiàn)圖像的檢索,該方法包括:
[0009]利用圖像的視覺特征訓練增強型殘差量化所需的多層碼書,包括初始碼書訓練和優(yōu)化碼書兩個階段,并利用所訓練的碼書構(gòu)建多維倒排索引;
[0010]根據(jù)已訓練完成的增強型殘差量化的碼書,對圖像視覺特征進行量化和編碼,同時根據(jù)計算得到的編碼將其插入到倒排索引中對應的倒排列表;
[0011]利用查詢圖像視覺特征對所構(gòu)建的多維倒排索引進行查詢,獲得查詢候選集;
[0012]利用自適應超球體過濾對查詢候選集進行優(yōu)化,對過濾后的查詢結(jié)果排序,從而完成圖像視覺特征的檢索。
[0013]本發(fā)明首先利用圖像視覺特征訓練集訓練增強型殘差量化所需的多層碼書并構(gòu)建倒排索引;然后根據(jù)已訓練完成的增強型殘差量化的碼書,利用基于非線性過濾的最近鄰查找方法對圖像視覺特征庫進行量化和編碼;接著利用查詢圖像視覺特征對多維倒排索引進行查詢;最后利用自適應超球體過濾方法來過濾不相關(guān)查詢結(jié)果并排序。具體步驟如下:
[0014](I)碼書訓練與多維索引構(gòu)建
[0015]首先,利用殘差量化方法在一個圖像視覺特征集上用k-means方法訓練L層碼書,每層碼書包含k個聚類重心;然后利用聯(lián)合優(yōu)化的方法對這L層碼書進行優(yōu)化得到增強新殘差量化的L層碼書。基于此,利用前M層碼書中聚類重心的組合關(guān)系,構(gòu)建一個最多包含kM個倒排列表的多維倒排索引。
[0016](2)圖像視覺特征量化和編碼
[0017]首先,利用訓練好的增強型殘差量化的碼書,逐層對圖像視覺特征進行量化,得到L層編碼;然后,根據(jù)圖像視覺特征的前M層編碼,將其插入到多維倒排索引中對應的倒排列表,保存到內(nèi)容為圖像視覺特征的ID及其L層編碼。另外,在對圖像視覺特征量化的過程中,設計一種非線性過濾精確最近鄰查找方法,在低維空間上利用歐式距離的下限過濾非近鄰聚類重心來計算最近鄰聚類重心。
[0018](3)圖像視覺特征查詢
[0019]首先,計算查詢圖像視覺特征q與所有倒排列表對應的關(guān)鍵字之間距離;然后,選取距離最小的w個關(guān)鍵字對應的倒排列表;最后將這w個倒排列表中特征取出作為查詢候選集。
[0020](4)自適應超球體過濾及排序
[0021]首先,構(gòu)造一個以q為球心的超球體,其半徑是根據(jù)q到w個最近索引關(guān)鍵字來計算的;然后,計算q與查詢候選集中所有結(jié)果之間的距離并將距離小于超球體半徑對應的查詢結(jié)果認為是不相關(guān)查詢結(jié)果,只保留位于超球體內(nèi)部的查詢結(jié)果;最后,對過濾后的查詢結(jié)果排序,完成圖像視覺特征的檢索過程。
[0022]本發(fā)明設計了增強型殘差量化方法、非線性過濾精確最近鄰聚類重心查找方法、多維倒排索引構(gòu)建和基于自適應超球體過濾的檢索方法,提高圖像視覺特征檢索的性能。具體而言,本發(fā)明具有以下優(yōu)點:
[0023](I)提高查詢準確率和降低圖像視覺特征的存儲空間,本發(fā)明利用增強型殘差量化方法對圖像視覺特征進行量化,使得圖像視覺特征得到更精確的近似表示,進而提高查詢準確率,此外,量化得到的編碼用以代替圖像視覺特征保存在倒排索引結(jié)構(gòu)中,從而降低了存儲空間需求。
[0024](2)提高圖像視覺特征量化和效率,本發(fā)明利用非線性過濾來查找精確最近鄰聚類重心,降低了計算最近鄰聚類重心所需的時間。
[0025](3)提高倒排索引構(gòu)建速度,本發(fā)明只需少量的聚類重心,就可以構(gòu)建包含較大規(guī)模倒排列表的倒排索引,此外,圖像視覺特征只需根據(jù)其前M層編碼就可以插入到對應的倒排列表,降低了時間開銷。
[0026](4)提高查詢速度,本發(fā)明利用自適應超球體過濾來降低排序結(jié)果的數(shù)量,降低排序的時間開銷,進而在保證查詢準確率的情況下,提高查詢速度。
【專利附圖】
【附圖說明】
[0027]圖1為本發(fā)明實施例的多維倒排索引與快速檢索算法流程圖;
[0028]圖2為本發(fā)明實施例的多維倒排索引示意圖;
[0029]圖3為本發(fā)明實施例的ERVQ對圖像視覺特征量化和編碼的示意圖;
[0030]圖4為本發(fā)明實施例的自適應超球體過濾示意圖。
【具體實施方式】
[0031]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
[0032]本發(fā)明實施例中選取sift特征作為圖像的視覺特征。本發(fā)明實施例主要分為三個部分:訓練模塊,生成增強型殘差量化的多層碼書并利用這些碼書構(gòu)建多維倒排索引;特征量化模塊:對圖像視覺特征進行量化和編碼,同時將其插入到相應的倒排列表;查詢模塊,根據(jù)查詢圖像視覺特征,在倒排索引結(jié)構(gòu)中查找相似特征返回。本實施例中,圖像視覺特征采用的是國際上公開的數(shù)據(jù)集。
[0033]具體地,如圖1所示,本實施例的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法具體包括如下過程:
[0034](I)增強型殘差量化的碼書訓練以及多維倒排索引構(gòu)建
[0035]碼書訓練包括兩個階段:初始碼書訓練和碼書的聯(lián)合優(yōu)化。
[0036](1.1)初始碼書訓練
[0037]初始碼書的訓練過程如算法I所示,給定一個圖像視覺特征訓練集X =(X1, X2,...Xi,...xN},首先利用k-means算法對其聚類得到k個聚類重心,得到第一層的初始碼書;然后,計算訓練集中特征向量與其在該層碼書中最近聚類重心之間的殘差向量得到El ;緊接著將El作為訓練第二層碼書的訓練數(shù)據(jù),采用的聚類方法仍然是k-means算法,進而得到第2層碼書。如果需要訓練的碼書層數(shù)L>2,那么需要再次計算殘差向量并聚類。該過程循環(huán)至最后一層初始碼書訓練完成為止,得到初始碼書C1 = {Cu,C1,2)C1, J
IL ο
[0038]除此之外,初始碼書的訓練過程還要生成其它一些用于聯(lián)合優(yōu)化的數(shù)據(jù),包括:各層碼書對訓練樣本集的劃分情況統(tǒng)計R1 = {R1;J} (j = 1,2,.k,I = 1,2,.L),R1;J表示第 I 層訓練樣本集(第 I 層:X = Ix1, x2,...,Xi,...xN}、第 2-L 層:Εη= ε ε 2,η,…,中與該層碼書的k個聚類重心中第j個聚類重心為最近距離的樣本特征點集合
Rl4其中Ii1,」為落入Clj的特征向量個數(shù);訓練特征向量的各層量化結(jié)
果焉=*%};訓練樣本集的總體量化誤差MSE,其計算方式如下:
【權(quán)利要求】
1.一種面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,通過對圖像視覺特征進行量化、編碼、構(gòu)建倒排索引以及查詢,從而實現(xiàn)圖像的檢索,其特征在于,該方法包括: 利用圖像的視覺特征訓練增強型殘差量化所需的多層碼書,包括初始碼書訓練和優(yōu)化碼書兩個階段,并利用所訓練的碼書構(gòu)建多維倒排索引; 根據(jù)已訓練完成的增強型殘差量化的碼書,對圖像視覺特征進行量化和編碼,同時根據(jù)計算得到的編碼將其插入到倒排索引中對應的倒排列表; 利用查詢圖像視覺特征對所構(gòu)建的多維倒排索引進行查詢,獲得查詢候選集; 利用自適應超球體過濾對查詢候選集進行優(yōu)化,對過濾后的查詢結(jié)果排序,從而完成圖像視覺特征的檢索。
2.根據(jù)權(quán)利要求1所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述初始碼書訓練過程為: 對圖像視覺特征訓練集Y進行聚類,將得到的聚類重心作為第一層量化器的碼書;通過該第一層量化器殘差得到近似向量AY1和量化誤差E1,對該量化誤差E1進行聚類,將得到的聚類重心作為第二層量化器的碼書; 通過該第二量化器殘差得到近似向量AY2和量化誤差E2 ; 依次循環(huán)進行,經(jīng)過多層量化器量化后,得到對應量化器的碼書,從而獲得訓練增強型殘差量化方法所需的初始碼書;其中,所述圖像視覺特征訓練集Y為全局特征或者局部特征。
3.根據(jù)權(quán)利要求2所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述優(yōu)化碼書的過程為: 根據(jù)已訓練好的初始碼書,對圖像視覺特征訓練集Y進行量化得到相應的多層量化結(jié)果; 針對每一層碼書,利用Y與其對應的其它所有層的量化結(jié)果之間的向量殘差,重新計算該層碼書并更新Y在各層量化器的量化結(jié)果; 此優(yōu)化過程從第一層碼書到最后一層碼書依次循環(huán)進行,直到滿足優(yōu)化停止條件為止。
4.根據(jù)權(quán)利要求2或3所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,圖像視覺特征的量化和編碼過程如下: 對于圖像視覺特征X,在第一層碼書中尋找距離最近的聚類重心作為其量化結(jié)果并將該聚類重心的ID作為X在第一層量化器中的編碼; 將第一層量化過程中所產(chǎn)生的量化誤差在第二層碼書中尋找距離最近的聚類重心作為其量化結(jié)果并將該聚類重心的ID作為X在第該層量化器中的編碼; 此過程依次循環(huán)進行直至最后一層量化器,從而完成對X的量化和編碼。
5.根據(jù)權(quán)利要求4所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,特征量化和編碼過程中精確最近鄰聚類重心的查找方法如下: 首先,將圖像視覺特征向量和碼書中聚類重心都映射到一個低維空間并在該低維空間中計算特征向量與聚類重心之間歐式距離的下限; 然后,根據(jù)歐式距離的下限來依次過濾非近鄰聚類重心,進而完成精確最近鄰聚類重心查找。
6.根據(jù)權(quán)利要求1所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述的多維倒排索引構(gòu)建過程如下: 利用已訓練完成的多層碼書的前M層,從這M個碼書中分別取出一個聚類重心然后進行一一組合,從而實現(xiàn)構(gòu)建一個最多包含kM個倒排列表的倒排索引結(jié)構(gòu),其中k為每層碼書中聚類重心的數(shù)量;倒排列表對應的索引關(guān)鍵字為這M個聚類重心的向量之和。
7.根據(jù)權(quán)利要求1至6任一項所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述的將圖像視覺特征插入多維倒排索引的具體過程如下: 根據(jù)計算得到的圖像視覺特征的前M層編碼,將其插入到倒排索引結(jié)構(gòu)中對應的倒排列表。
8.根據(jù)權(quán)利要求1至7任一項所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述利用查詢圖像視覺特征對所構(gòu)建的多維倒排索引進行查詢,具體步驟如下: 首先,查找多維倒排索引中距離查詢圖像視覺特征最近的w(w ^ I)條倒排列表; 然后,將相應的倒排鏈表中的圖像視覺特征取出作為候選集。
9.根據(jù)權(quán)利要求8所述的面向大規(guī)模圖像視覺特征的多維倒排索引與快速檢索算法,其特征在于,所述利用自適應超球體過濾對查詢候選集進行優(yōu)化,過程如下: 首先,根據(jù)查詢圖像視覺特征q與最近的w個倒排列表對應的索引關(guān)鍵字的距離,構(gòu)建一個以q為球心的超球體; 然后,將查詢候選集中位于超球體之外的圖像視覺特征過濾掉,只保留位于超球體內(nèi)部的查詢結(jié)果。
【文檔編號】G06F17/30GK103902704SQ201410126920
【公開日】2014年7月2日 申請日期:2014年3月31日 優(yōu)先權(quán)日:2014年3月31日
【發(fā)明者】于俊清, 艾列富, 唐九飛, 何云峰, 管濤 申請人:華中科技大學