多特征聯(lián)合哈希信息檢索方法
【專利摘要】本發(fā)明涉及一種多特征聯(lián)合哈希信息檢索方法,其特征在于包括如下基本步驟:一是建立目標(biāo)函數(shù):保護(hù)目標(biāo)空間的數(shù)據(jù)分布,同時(shí)得到NMF中的緊湊矩陣基并且減少冗余;二是交替優(yōu)化:通過一個(gè)迭代的過程,優(yōu)化U和V,得到基算子U和低維數(shù)據(jù)V的更新規(guī)則;三是整體收斂:通過原始的目標(biāo)函數(shù),然后進(jìn)行交替迭代;四是哈希函數(shù)的生成:通過計(jì)算訓(xùn)練數(shù)據(jù)和測試樣本之間的漢明距即XOR運(yùn)算,得出最終的結(jié)果;五是復(fù)雜度分析:對上述步驟1-4的方法進(jìn)行復(fù)雜度分析。本發(fā)明能夠有效地保護(hù)數(shù)據(jù)的概率分布,減少低維數(shù)據(jù)的冗余,使得學(xué)習(xí)到一個(gè)可融合從多個(gè)源中得到的多種表示,同時(shí)通過RKNMF來保護(hù)高維聯(lián)合分布和獲得正交基的哈希嵌入函數(shù)。
【專利說明】多特征聯(lián)合哈希信息檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)信息數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種用于計(jì)算機(jī)視覺、數(shù) 據(jù)挖掘、機(jī)器學(xué)習(xí)或相似搜索的多特征聯(lián)合哈希信息檢索方法。
【背景技術(shù)】
[0002] 哈希碼的學(xué)習(xí)在信息處理及分析等領(lǐng)域中起著關(guān)鍵的作用,如物體識別、圖像檢 索和文檔理解等。隨著計(jì)算機(jī)技術(shù)的進(jìn)步和萬維網(wǎng)的發(fā)展,大量的數(shù)字?jǐn)?shù)據(jù)需要相似信息 的可拓展檢索。相似性搜索的最基本也即最本質(zhì)的方法是最近鄰搜索:給一個(gè)查詢圖像, 在一個(gè)巨大的數(shù)據(jù)庫中尋找出和其最相似的一張圖片并且對這個(gè)查詢圖像貼上與最近鄰 域相同的標(biāo)簽。由于實(shí)際應(yīng)用中數(shù)據(jù)庫較大,最近鄰域搜索是不可擴(kuò)展的線性搜索方法 (O(N))。為了克服計(jì)算的復(fù)雜度問題,近來一些基于樹的搜索方法被提出去分割數(shù)據(jù)空間, 其中,KD-樹和R-樹被成功地應(yīng)用在了快速響應(yīng)檢索數(shù)據(jù)中。然而,這些方法并不適合于 高維數(shù)據(jù)并且相對于線性而言不能保證快速搜索。實(shí)際上,由于視覺算子經(jīng)常會有成百甚 至上千的維度,大部分的基于視覺的任務(wù)都會遭受維度災(zāi)難。于是,又有一些哈希方法提出 了有效地從高維特征空間到保形的低維漢明空間的數(shù)據(jù)嵌入,其中在低維空間的中,可以 找到給出的測試樣本的最近鄰的估計(jì)和次線性的時(shí)間復(fù)雜度。
[0003] 最著名的哈希方法之一是基于保形的局部敏感哈希(LSH)。LSH簡單的使用隨機(jī) 線性投影(隨機(jī)門限值)使歐幾里德空間中的數(shù)據(jù)點(diǎn)靠近。譜哈希是典型的非監(jiān)督哈希方 法,用多樣本的拉普拉斯-貝爾特拉米特征函數(shù)去確定二進(jìn)制碼。此外,PCA哈希(PCAH) 這樣的原則線形投影比隨機(jī)投影哈希有著更好的量化。另外一種比較出名的哈希方法,錨 圖哈希(AGH)可以通過易處理的低階鄰接矩陣學(xué)習(xí)緊湊的二進(jìn)制碼。AGH可以把圖拉普拉 斯特征向量推到特征函數(shù)上。
[0004] 然而,以前的哈希方法都是主要集中于單個(gè)特征。在它們的構(gòu)架中,只有一種特征 算子被用作學(xué)習(xí)哈希函數(shù)。事實(shí)上,為了獲得一個(gè)更綜合的描述,圖片或者物體經(jīng)常通過不 同種類的特征表示,同時(shí)每一個(gè)特征有它自己的特點(diǎn)。只有融合這些不同的特征算子到哈 希函數(shù)中,才會得到多特征的哈希方法。最近,為了有效的相似性搜索,一些多特征的哈希 方法被提出,如多特征的錨圖哈希(MVAGH),連續(xù)更新的多特征譜哈希(SU-MVSH),多特征 哈希(MVHCS),多信息源的復(fù)合哈希(CHMIS)和深度多特征哈希(DMVH)。這些方法主要依 靠譜,圖和深度學(xué)習(xí)的方法去完成數(shù)據(jù)結(jié)構(gòu)的保形。然而,單純的只結(jié)合以上方法的哈希對 噪聲敏感,并且有著很高的計(jì)算復(fù)雜度。
[0005] 在數(shù)據(jù)挖掘中,NMF方法不同于其它的含有正負(fù)值的嵌入方法,適合子空間的學(xué) 習(xí),它提供了包含物體局部部分的基,可用于聚類,協(xié)同過濾,孤立點(diǎn)監(jiān)測等。如NMF可以 學(xué)習(xí)物體的非負(fù)部分,給出一個(gè)非負(fù)數(shù)據(jù)的矩陣:X=[^,···,X的每一列都是一 個(gè)樣本數(shù)據(jù),NMF的目標(biāo)是找到可以近似的表達(dá)原始矩陣的兩個(gè)滿秩的非負(fù)矩陣lie 和 Ve 如X ^ UV ;實(shí)際上總是有d < min(D,N),于是得到以下最小化的目標(biāo)函數(shù):
[0006]
【權(quán)利要求】
1. 一種多特征聯(lián)合哈希信息檢索方法,其特征在于包括如下基本步驟: 步驟1建立目標(biāo)函數(shù):保護(hù)目標(biāo)空間的數(shù)據(jù)分布,用熱核公式構(gòu)建相關(guān)的NXN的核矩 陣,同時(shí)得到NMF中的緊湊矩陣基并且減少冗余; 步驟2交替優(yōu)化:通過一個(gè)迭代的過程,優(yōu)化U和V,得到基算子U和低維數(shù)據(jù)V的更 新規(guī)則; 步驟3整體收斂:通過原始的目標(biāo)函數(shù),然后進(jìn)行交替迭代; 步驟4哈希函數(shù)的生成:將得出的低維實(shí)數(shù)根據(jù)門限值的劃分轉(zhuǎn)換為二進(jìn)制碼,使用 多變量的回歸方法來準(zhǔn)確地找到相關(guān)的哈希函數(shù),計(jì)算訓(xùn)練數(shù)據(jù)和測試樣本之間的漢明距 即XOR運(yùn)算,得出最終的結(jié)果; 步驟5復(fù)雜度分析:對上述步驟1-4的多特征聯(lián)合哈希信息檢索方法進(jìn)行復(fù)雜度分析。
2. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法,其特征在于所述步驟1 建立目標(biāo)函數(shù)包括如下具體步驟: 步驟I. 1 :給出第i個(gè)特征訓(xùn)練數(shù)據(jù)用熱核公式構(gòu)建相關(guān)的 NXN的核矩陣:Ifr (xf, ) =cxpCHUjfx|-:l2/2r:),vp,q,其中τ是相關(guān)的可變參 數(shù),從每一個(gè)特征數(shù)據(jù)IK1,…,KJ可以計(jì)算出多核矩陣,If:e?g:y,V:-; 步驟I. 2 :定義融合矩陣為具*其中= 1,β·: 2〇, 為得到一個(gè)更加有 意義的低維矩陣分解,為二進(jìn)制碼V= [V1,…,vN]設(shè)定一個(gè)約束作為相似概率正則化,可 利用它保護(hù)目標(biāo)空間的數(shù)據(jù)分布,其優(yōu)化可表示如下:
其中,= 是在第i個(gè)特征空間中之間的對稱聯(lián)合概率; 采用高斯函數(shù)去衡量它:
其中,σ是高斯平滑參數(shù),可以估量歐幾里德距離; 步驟1. 3 :第i個(gè)特征的相似概率正則化可以被降低成:
其中,Li =D⑴-w(i),『) €rvc是對稱相似矩陣,D⑴是輸入為 的對角矩陣;為同時(shí)得到NMF中的緊湊矩陣基和減少冗余,希望NMF的基矩 陣盡可能的正交,如UtU-I= 0,同時(shí)最小化I|UTU-I|I2并且讓U近似正交; 步驟1. 4 :結(jié)合以上的兩個(gè)約束條件進(jìn)行優(yōu)化如下:
其中,Y和η是兩個(gè)可以平衡NMF的近似誤差和附加約束的正系數(shù)。
3.根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法,其特征在于所述步驟2 交替優(yōu)化包括如下具體步驟: 步驟2. 1 :首先把公式(6)中不連續(xù)的Ve{〇,l}dXN放到域VeRdXN上,為保持NMF去 獲得一個(gè)更優(yōu)化的解,通過一個(gè)迭代的過程,優(yōu)化(U,V)分為兩步,其α在區(qū)間U1,…, αη)之間,每一步的U、V和α都被不停的優(yōu)化,并且下一步再次迭代,直到收斂迭代過程才 停止; 步驟2. 2 :優(yōu)化U和V首先確定α,替換和Ι.=Σ?Ι?;運(yùn)用拉格朗日乘數(shù)函 數(shù):
公式(7)中的Φ和Ψ是兩個(gè)矩陣,為使U和V都大于等于0,其中所有的元素均為拉 格朗日乘數(shù),然后讓A的偏導(dǎo)數(shù)相對于U和V為0,如t.rA=〇,即可得:
步驟2. 3 :運(yùn)用KKT條件,有互補(bǔ)松弛性條件Φ= 0和在公式⑶ 和(9)的相關(guān)元素乘上Uij和Vij,對Uij和Vij有以下的公式: (-kvt+uvvt+2nuuTu-2nu)JjUij =ο(?ο), (-UTK+UTUV+yVL)JjVij =O(11), 于是,和標(biāo)準(zhǔn)的NMF過程類似,可得到更新規(guī)則如下:
其中?+:i:和胃=SiUff舊:::,為確保U和V中的所有元素均為正值,U需要進(jìn) 行歸一化,U和V都具有收斂性,已經(jīng)證明了U和V的每一次更新,目標(biāo)函數(shù)都單調(diào)不增加; 步驟2. 4 :為確定U和V,忽略不相干的范數(shù),定義拉格朗日函數(shù)如下:
其中,λ和β= (P1,…,βη)是拉格朗日乘數(shù),相對于α,λ和β的£:的偏導(dǎo)數(shù), 如^^4=〇和%4 2〇,需要:
同時(shí)有互補(bǔ)松弛條件: βjα』=0,j= 1,…,η (18), 步驟2. 5 :對一些j而言,α」=〇,尤其J={jIα」=〇},優(yōu)化的結(jié)果會包含一些〇 ;在 這種情況下,與最小化+〗-UYF的優(yōu)化過程不同;不失一般性,設(shè),> 0,巧;然后, β= 0 ;從公式(15),可得:
如果將以上的公式轉(zhuǎn)化到矩陣中并且定義Tj =tr(UVKj)-Ytr(VL」VT)/2,可得:
可用AaT =B表示公式(20),矩陣A實(shí)際上是Ki基于F內(nèi)積的格拉姆矩陣〈ΚρK,=tr^K/) =tr(KiKj); 步驟 2· 6 :讓M=(vec(K1),…,vec(Kn)),其中vec(Ki)是Ki 的向量化,然后A=MTM, 從η個(gè)不同的特征得出的核矩陣K1,…,Kn是線性不相關(guān)的;結(jié)合公式(17)且消除λ,可 得到以下線性公式:
可用表示公式(21);根據(jù)不同特征的變化,I= (1,…,1)和A中所有行都是線 性不相關(guān)的;然后有r(i)=rL4) -1 +?=0;于是,I的逆存在并且,=H,,
4. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法,其特征在于所述步驟3 整體收斂為如下具體步驟: 步驟3. 1:通過L(U,V,α)在公式(6)定義原始的目標(biāo)函數(shù),然后交替迭代過程可以表 示為:
干縣,有下而的不等式:
即:m-c?時(shí),L(u?,ν?,α ?)是單調(diào)不增加的,有L(u,V,α)彡〇,然后交替迭代收 斂。
5. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法,其特征在于所述步驟4 哈希函數(shù)的生成包括如下具體步驟: 步驟4.1:計(jì)算出權(quán)向量a= (Ci1,…,αη),融合核矩陣K和聯(lián)合概率拉普拉斯矩陣L。于是,從公式(12)和公式(13)得到多特征RKNMF基UeRNXd和低維表示VeRdXN,其中 d <<Di,i=丨,…,n,將以上的低維實(shí)數(shù)V= [Vi,…,Vn]表示且根據(jù)門限值的劃分轉(zhuǎn)換 為二進(jìn)制碼,如果Vp中的第1個(gè)元素比門限值大,那么iVS: =1;否則為〇,其中P= 1,…,N和 1 = 1,…,d; 步驟4. 2:為確保語義哈希的效率,一個(gè)好的語義哈希算法應(yīng)該是熵最大化的;同時(shí), 從信息量的原則可知,通過一個(gè)均勻的概率分布,信源可以到達(dá)一個(gè)最大的熵;如果在數(shù) 據(jù)上的碼的熵很小,整個(gè)文件會被映射到一小部分的碼上;為滿足熵最大化原則,Vp中元素 的門限值采用Vp的中值;因此,一半數(shù)值會被設(shè)為1,另外一半設(shè)為0,以將實(shí)數(shù)碼計(jì)算成二 進(jìn)制碼; 步驟4. 3:使用多變量的回歸方法來準(zhǔn)確地找到相關(guān)的哈希函數(shù);在分布中YiIXi?Bernoulli(Pi),i=l,···,]!,對參數(shù)為Θ的函數(shù)Pr(Yi =IlXi=X)=Ii0(X),似然函數(shù)為 KUHrΧ=λ+;)=區(qū)AClPCi- 根據(jù)最大對數(shù)似然函數(shù)準(zhǔn)則,定義邏輯回 歸函數(shù)為:
其中,= (1/(1,是Vp中的每一個(gè)部分的回歸函數(shù); 公式; log(x) = (Iog(X1), .",I(Dg(Xn))1^X= (X1, .",xn)TeRn ;<,,> 表示了 內(nèi)積;Θ是 大小為dXd的相關(guān)的回歸矩陣;1表示了NX1矩陣,采用δI IΘI I2作為邏輯回歸中避免 過擬合的正則化項(xiàng); 步驟4. 4:為了最小化J(?),提供一個(gè)標(biāo)準(zhǔn)的梯度下降算法;學(xué)習(xí)率為Y的更新公式 為:
更新公式會當(dāng)?付和之間的差異,11 ?付-?」I2,到達(dá)收斂,然后可得到回歸矩陣Θ,再通過公式(24)的嵌入,如最近整數(shù)函數(shù); 步驟4. 5:上述方法給出一個(gè)樣本,可通過熱核函數(shù),先計(jì)算出每一個(gè)特征的相關(guān) 核矩陣…其中#w是NX1矩陣,Vi,然后通過優(yōu)化權(quán)重α融合這些核: 和通過線性映射矩陣P= (UtUK1Ut獲得低維實(shí)數(shù)表示,由于he 函數(shù),最終新的樣本的哈希碼被計(jì)算得出:
其中,函數(shù)Ll是對he每一個(gè)值取最近整數(shù)。事實(shí)上,門限值為0.5,它有屬性hee(〇,1)去二進(jìn)制化如果he(P*Kn?)的輸出比特比0.5大,標(biāo)這個(gè)比特為1,否則 為0,這種情況下,可得到對任意數(shù)據(jù)點(diǎn)的最終多特征聯(lián)合哈希碼; 步驟4. 6 :上述是一種嵌入方法,所有的訓(xùn)練樣本和測試樣本都是經(jīng)過多特征RKNMF優(yōu) 化和邏輯回歸去確保它們在同一個(gè)子空間,不需要再訓(xùn)練,相關(guān)的MH在下面的過程中描 述: 多特征聯(lián)合哈希檢索方法(MH),輸入: 通過熱核計(jì)算從η個(gè)不同的特征得到的一組訓(xùn)練核矩陣:IK1,…,KJ; 哈希碼的目標(biāo)維度d; 邏輯回歸的學(xué)習(xí)率r和正則化參數(shù){γ,η,ξ}; 輸出:核權(quán)重α= (Q1,…,αη)基矩陣U和回歸矩陣θ;具體表達(dá)如下: 一是通過公式(4)對每一個(gè)特征計(jì)算相似矩陣W(i); 二是初始化ct= (1/n, 1/n,…,1/n); 二是重復(fù); 四是通過公式(12)和公式(13)計(jì)算基矩陣U和低維矩陣表示V; 五是通過公式(21)獲取核權(quán)重,=,4夂鳥 六是直到收斂; 七是通過公式(23)計(jì)算回歸矩陣Θ,最終的對一個(gè)樣本的MH編碼在公式(24)中定 義。
6.根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法,其特征在于所述步驟5 復(fù)雜度分析為如下具體步驟: MH學(xué)習(xí)的復(fù)雜度主要包含兩個(gè)部分:第一部分是熱核的構(gòu)建和對不同特征的相似概 率的正則化,如KJPLi ;從3. 1可得,該部分的時(shí)間復(fù)雜度為〇(2 Λ=);第二部分是 交替優(yōu)化,在更新(U,V)的步驟,矩陣分解的時(shí)間復(fù)雜度為0(N2d),α的更新在MH中的復(fù) 雜度為〇(n2N2);所以,MAH的時(shí)間復(fù)雜度為ο(2(ΣΓ=5Λ)妒+Tx(爐rl+fiT)),其中T為 交替優(yōu)化的迭代次數(shù);從經(jīng)驗(yàn)分析得出,T會比10小,也就是MH會在10個(gè)循環(huán)內(nèi)收斂。
【文檔編號】G06F17/30GK104462196SQ201410598595
【公開日】2015年3月25日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】邵嶺, 蔡子贇, 劉力, 余孟洋 申請人:南京信息工程大學(xué)