多特征聯(lián)合哈希信息檢索方法

文檔序號：6632410閱讀：1166來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

多特征聯(lián)合哈希信息檢索方法
【專利摘要】本發(fā)明涉及一種多特征聯(lián)合哈希信息檢索方法，其特征在于包括如下基本步驟：一是建立目標(biāo)函數(shù)：保護(hù)目標(biāo)空間的數(shù)據(jù)分布，同時(shí)得到NMF中的緊湊矩陣基并且減少冗余；二是交替優(yōu)化：通過一個(gè)迭代的過程，優(yōu)化U和V，得到基算子U和低維數(shù)據(jù)V的更新規(guī)則；三是整體收斂：通過原始的目標(biāo)函數(shù)，然后進(jìn)行交替迭代；四是哈希函數(shù)的生成：通過計(jì)算訓(xùn)練數(shù)據(jù)和測試樣本之間的漢明距即XOR運(yùn)算，得出最終的結(jié)果；五是復(fù)雜度分析：對上述步驟1-4的方法進(jìn)行復(fù)雜度分析。本發(fā)明能夠有效地保護(hù)數(shù)據(jù)的概率分布，減少低維數(shù)據(jù)的冗余，使得學(xué)習(xí)到一個(gè)可融合從多個(gè)源中得到的多種表示，同時(shí)通過RKNMF來保護(hù)高維聯(lián)合分布和獲得正交基的哈希嵌入函數(shù)。
【專利說明】多特征聯(lián)合哈希信息檢索方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)信息數(shù)據(jù)處理【技術(shù)領(lǐng)域】，特別是涉及一種用于計(jì)算機(jī)視覺、數(shù) 據(jù)挖掘、機(jī)器學(xué)習(xí)或相似搜索的多特征聯(lián)合哈希信息檢索方法。

【背景技術(shù)】
[0002] 哈希碼的學(xué)習(xí)在信息處理及分析等領(lǐng)域中起著關(guān)鍵的作用，如物體識別、圖像檢索和文檔理解等。隨著計(jì)算機(jī)技術(shù)的進(jìn)步和萬維網(wǎng)的發(fā)展，大量的數(shù)字?jǐn)?shù)據(jù)需要相似信息的可拓展檢索。相似性搜索的最基本也即最本質(zhì)的方法是最近鄰搜索：給一個(gè)查詢圖像，在一個(gè)巨大的數(shù)據(jù)庫中尋找出和其最相似的一張圖片并且對這個(gè)查詢圖像貼上與最近鄰域相同的標(biāo)簽。由于實(shí)際應(yīng)用中數(shù)據(jù)庫較大，最近鄰域搜索是不可擴(kuò)展的線性搜索方法 (O(N))。為了克服計(jì)算的復(fù)雜度問題，近來一些基于樹的搜索方法被提出去分割數(shù)據(jù)空間，其中，KD-樹和R-樹被成功地應(yīng)用在了快速響應(yīng)檢索數(shù)據(jù)中。然而，這些方法并不適合于高維數(shù)據(jù)并且相對于線性而言不能保證快速搜索。實(shí)際上，由于視覺算子經(jīng)常會有成百甚至上千的維度，大部分的基于視覺的任務(wù)都會遭受維度災(zāi)難。于是，又有一些哈希方法提出了有效地從高維特征空間到保形的低維漢明空間的數(shù)據(jù)嵌入，其中在低維空間的中，可以找到給出的測試樣本的最近鄰的估計(jì)和次線性的時(shí)間復(fù)雜度。
[0003] 最著名的哈希方法之一是基于保形的局部敏感哈希（LSH)。LSH簡單的使用隨機(jī) 線性投影（隨機(jī)門限值）使歐幾里德空間中的數(shù)據(jù)點(diǎn)靠近。譜哈希是典型的非監(jiān)督哈希方法，用多樣本的拉普拉斯-貝爾特拉米特征函數(shù)去確定二進(jìn)制碼。此外，PCA哈希（PCAH) 這樣的原則線形投影比隨機(jī)投影哈希有著更好的量化。另外一種比較出名的哈希方法，錨圖哈希（AGH)可以通過易處理的低階鄰接矩陣學(xué)習(xí)緊湊的二進(jìn)制碼。AGH可以把圖拉普拉斯特征向量推到特征函數(shù)上。
[0004] 然而，以前的哈希方法都是主要集中于單個(gè)特征。在它們的構(gòu)架中，只有一種特征算子被用作學(xué)習(xí)哈希函數(shù)。事實(shí)上，為了獲得一個(gè)更綜合的描述，圖片或者物體經(jīng)常通過不同種類的特征表示，同時(shí)每一個(gè)特征有它自己的特點(diǎn)。只有融合這些不同的特征算子到哈希函數(shù)中，才會得到多特征的哈希方法。最近，為了有效的相似性搜索，一些多特征的哈希方法被提出，如多特征的錨圖哈希（MVAGH)，連續(xù)更新的多特征譜哈希（SU-MVSH)，多特征哈希（MVHCS)，多信息源的復(fù)合哈希（CHMIS)和深度多特征哈希（DMVH)。這些方法主要依靠譜，圖和深度學(xué)習(xí)的方法去完成數(shù)據(jù)結(jié)構(gòu)的保形。然而，單純的只結(jié)合以上方法的哈希對噪聲敏感，并且有著很高的計(jì)算復(fù)雜度。
[0005] 在數(shù)據(jù)挖掘中，NMF方法不同于其它的含有正負(fù)值的嵌入方法，適合子空間的學(xué) 習(xí)，它提供了包含物體局部部分的基，可用于聚類，協(xié)同過濾，孤立點(diǎn)監(jiān)測等。如NMF可以學(xué)習(xí)物體的非負(fù)部分，給出一個(gè)非負(fù)數(shù)據(jù)的矩陣：X=[^，···，X的每一列都是一個(gè)樣本數(shù)據(jù)，NMF的目標(biāo)是找到可以近似的表達(dá)原始矩陣的兩個(gè)滿秩的非負(fù)矩陣lie 和 Ve 如X ^ UV ;實(shí)際上總是有d < min(D，N)，于是得到以下最小化的目標(biāo)函數(shù)：
[0006]

【權(quán)利要求】
1. 一種多特征聯(lián)合哈希信息檢索方法，其特征在于包括如下基本步驟：步驟1建立目標(biāo)函數(shù)：保護(hù)目標(biāo)空間的數(shù)據(jù)分布，用熱核公式構(gòu)建相關(guān)的NXN的核矩陣，同時(shí)得到NMF中的緊湊矩陣基并且減少冗余；步驟2交替優(yōu)化：通過一個(gè)迭代的過程，優(yōu)化U和V，得到基算子U和低維數(shù)據(jù)V的更新規(guī)則；步驟3整體收斂：通過原始的目標(biāo)函數(shù)，然后進(jìn)行交替迭代；步驟4哈希函數(shù)的生成：將得出的低維實(shí)數(shù)根據(jù)門限值的劃分轉(zhuǎn)換為二進(jìn)制碼，使用多變量的回歸方法來準(zhǔn)確地找到相關(guān)的哈希函數(shù)，計(jì)算訓(xùn)練數(shù)據(jù)和測試樣本之間的漢明距即XOR運(yùn)算，得出最終的結(jié)果；步驟5復(fù)雜度分析：對上述步驟1-4的多特征聯(lián)合哈希信息檢索方法進(jìn)行復(fù)雜度分析。
2. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法，其特征在于所述步驟1 建立目標(biāo)函數(shù)包括如下具體步驟：步驟I. 1 :給出第i個(gè)特征訓(xùn)練數(shù)據(jù)用熱核公式構(gòu)建相關(guān)的 NXN的核矩陣：Ifr (xf, ) =cxpCHUjfx|-:l2/2r:)，vp,q，其中τ是相關(guān)的可變參數(shù)，從每一個(gè)特征數(shù)據(jù)IK1，…，KJ可以計(jì)算出多核矩陣，If:e?g:y，V:-; 步驟I. 2 :定義融合矩陣為具*其中= 1，β·: 2〇, 為得到一個(gè)更加有意義的低維矩陣分解，為二進(jìn)制碼V= [V1，…，vN]設(shè)定一個(gè)約束作為相似概率正則化，可利用它保護(hù)目標(biāo)空間的數(shù)據(jù)分布，其優(yōu)化可表示如下：
其中，= 是在第i個(gè)特征空間中之間的對稱聯(lián)合概率；采用高斯函數(shù)去衡量它：
其中，σ是高斯平滑參數(shù)，可以估量歐幾里德距離；步驟1. 3 :第i個(gè)特征的相似概率正則化可以被降低成：
其中，Li =D⑴-w(i)，『) €rvc是對稱相似矩陣，D⑴是輸入為的對角矩陣；為同時(shí)得到NMF中的緊湊矩陣基和減少冗余，希望NMF的基矩陣盡可能的正交，如UtU-I= 0,同時(shí)最小化I|UTU-I|I2并且讓U近似正交；步驟1. 4 :結(jié)合以上的兩個(gè)約束條件進(jìn)行優(yōu)化如下：
其中，Y和η是兩個(gè)可以平衡NMF的近似誤差和附加約束的正系數(shù)。
3.根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法，其特征在于所述步驟2 交替優(yōu)化包括如下具體步驟：步驟2. 1 :首先把公式（6)中不連續(xù)的Ve{〇，l}dXN放到域VeRdXN上，為保持NMF去獲得一個(gè)更優(yōu)化的解，通過一個(gè)迭代的過程，優(yōu)化（U，V)分為兩步，其α在區(qū)間U1，…， αη)之間，每一步的U、V和α都被不停的優(yōu)化，并且下一步再次迭代，直到收斂迭代過程才停止；步驟2. 2 :優(yōu)化U和V首先確定α，替換和Ι.=Σ?Ι?;運(yùn)用拉格朗日乘數(shù)函數(shù)：
公式（7)中的Φ和Ψ是兩個(gè)矩陣，為使U和V都大于等于0,其中所有的元素均為拉格朗日乘數(shù),然后讓A的偏導(dǎo)數(shù)相對于U和V為0,如t.rA=〇,即可得：
步驟2. 3 :運(yùn)用KKT條件，有互補(bǔ)松弛性條件Φ= 0和在公式⑶ 和（9)的相關(guān)元素乘上Uij和Vij，對Uij和Vij有以下的公式： (-kvt+uvvt+2nuuTu-2nu)JjUij =ο(?ο), (-UTK+UTUV+yVL)JjVij =O(11)，于是，和標(biāo)準(zhǔn)的NMF過程類似，可得到更新規(guī)則如下：
其中?+:i:和胃=SiUff舊：:：，為確保U和V中的所有元素均為正值，U需要進(jìn) 行歸一化，U和V都具有收斂性，已經(jīng)證明了U和V的每一次更新，目標(biāo)函數(shù)都單調(diào)不增加；步驟2. 4 :為確定U和V，忽略不相干的范數(shù)，定義拉格朗日函數(shù)如下：
其中，λ和β= (P1，…，βη)是拉格朗日乘數(shù)，相對于α，λ和β的￡:的偏導(dǎo)數(shù)，如^^4=〇和％4 2〇,需要：
同時(shí)有互補(bǔ)松弛條件： βjα』=0,j= 1，…，η (18), 步驟2. 5 :對一些j而言，α」=〇,尤其J={jIα」=〇}，優(yōu)化的結(jié)果會包含一些〇 ;在這種情況下，與最小化+〗-UYF的優(yōu)化過程不同；不失一般性，設(shè)，> 0,巧;然后， β= 0 ;從公式（15)，可得：
如果將以上的公式轉(zhuǎn)化到矩陣中并且定義Tj =tr(UVKj)-Ytr(VL」VT)/2,可得：
可用AaT =B表示公式（20)，矩陣A實(shí)際上是Ki基于F內(nèi)積的格拉姆矩陣〈ΚρK,=tr^K/) =tr(KiKj)；步驟 2· 6 :讓M=(vec(K1)，…，vec(Kn))，其中vec(Ki)是Ki 的向量化，然后A=MTM，從η個(gè)不同的特征得出的核矩陣K1，…，Kn是線性不相關(guān)的；結(jié)合公式（17)且消除λ，可得到以下線性公式：
可用表示公式（21);根據(jù)不同特征的變化，I= (1，…，1)和A中所有行都是線性不相關(guān)的；然后有r(i)=rL4) -1 +?=0;于是，I的逆存在并且，=H,,
4. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法，其特征在于所述步驟3 整體收斂為如下具體步驟：步驟3. 1:通過L(U，V，α)在公式（6)定義原始的目標(biāo)函數(shù)，然后交替迭代過程可以表示為：
干縣，有下而的不等式：
即：m-c?時(shí)，L(u?，ν?，α ?)是單調(diào)不增加的，有L(u，V，α)彡〇,然后交替迭代收斂。
5. 根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法，其特征在于所述步驟4 哈希函數(shù)的生成包括如下具體步驟：步驟4.1:計(jì)算出權(quán)向量a= (Ci1，…，αη)，融合核矩陣K和聯(lián)合概率拉普拉斯矩陣L。于是，從公式（12)和公式（13)得到多特征RKNMF基UeRNXd和低維表示VeRdXN，其中 d <<Di，i=丨，…，n，將以上的低維實(shí)數(shù)V= [Vi，…，Vn]表示且根據(jù)門限值的劃分轉(zhuǎn)換為二進(jìn)制碼，如果Vp中的第1個(gè)元素比門限值大，那么iVS: =1;否則為〇,其中P= 1，…，N和 1 = 1，…，d; 步驟4. 2:為確保語義哈希的效率，一個(gè)好的語義哈希算法應(yīng)該是熵最大化的；同時(shí)，從信息量的原則可知，通過一個(gè)均勻的概率分布，信源可以到達(dá)一個(gè)最大的熵；如果在數(shù) 據(jù)上的碼的熵很小，整個(gè)文件會被映射到一小部分的碼上；為滿足熵最大化原則，Vp中元素的門限值采用Vp的中值；因此，一半數(shù)值會被設(shè)為1，另外一半設(shè)為0,以將實(shí)數(shù)碼計(jì)算成二進(jìn)制碼；步驟4. 3:使用多變量的回歸方法來準(zhǔn)確地找到相關(guān)的哈希函數(shù)；在分布中YiIXi?Bernoulli(Pi)，i=l，···，]!，對參數(shù)為Θ的函數(shù)Pr(Yi =IlXi=X)=Ii0(X),似然函數(shù)為 KUHrΧ=λ+;)=區(qū)AClPCi- 根據(jù)最大對數(shù)似然函數(shù)準(zhǔn)則，定義邏輯回歸函數(shù)為：
其中，= (1/(1，是Vp中的每一個(gè)部分的回歸函數(shù)；公式； log(x) = (Iog(X1), .",I(Dg(Xn))1^X= (X1, ."，xn)TeRn ;<,，> 表示了內(nèi)積；Θ是大小為dXd的相關(guān)的回歸矩陣；1表示了NX1矩陣，采用δI IΘI I2作為邏輯回歸中避免過擬合的正則化項(xiàng)；步驟4. 4:為了最小化J(?)，提供一個(gè)標(biāo)準(zhǔn)的梯度下降算法；學(xué)習(xí)率為Y的更新公式為：
更新公式會當(dāng)?付和之間的差異，11 ?付-?」I2,到達(dá)收斂，然后可得到回歸矩陣Θ，再通過公式（24)的嵌入，如最近整數(shù)函數(shù)；步驟4. 5:上述方法給出一個(gè)樣本，可通過熱核函數(shù)，先計(jì)算出每一個(gè)特征的相關(guān) 核矩陣…其中#w是NX1矩陣，Vi,然后通過優(yōu)化權(quán)重α融合這些核：和通過線性映射矩陣P= (UtUK1Ut獲得低維實(shí)數(shù)表示，由于he 函數(shù)，最終新的樣本的哈希碼被計(jì)算得出：
其中，函數(shù)Ll是對he每一個(gè)值取最近整數(shù)。事實(shí)上，門限值為0.5,它有屬性hee(〇，1)去二進(jìn)制化如果he(P*Kn?)的輸出比特比0.5大，標(biāo)這個(gè)比特為1，否則為0,這種情況下，可得到對任意數(shù)據(jù)點(diǎn)的最終多特征聯(lián)合哈希碼；步驟4. 6 :上述是一種嵌入方法，所有的訓(xùn)練樣本和測試樣本都是經(jīng)過多特征RKNMF優(yōu) 化和邏輯回歸去確保它們在同一個(gè)子空間，不需要再訓(xùn)練，相關(guān)的MH在下面的過程中描述：多特征聯(lián)合哈希檢索方法（MH)，輸入：通過熱核計(jì)算從η個(gè)不同的特征得到的一組訓(xùn)練核矩陣：IK1，…，KJ; 哈希碼的目標(biāo)維度d; 邏輯回歸的學(xué)習(xí)率r和正則化參數(shù){γ，η，ξ}; 輸出：核權(quán)重α= (Q1，…，αη)基矩陣U和回歸矩陣θ;具體表達(dá)如下：一是通過公式（4)對每一個(gè)特征計(jì)算相似矩陣W(i); 二是初始化ct= (1/n, 1/n,…，1/n); 二是重復(fù)；四是通過公式（12)和公式（13)計(jì)算基矩陣U和低維矩陣表示V; 五是通過公式（21)獲取核權(quán)重，=,4夂鳥六是直到收斂；七是通過公式（23)計(jì)算回歸矩陣Θ，最終的對一個(gè)樣本的MH編碼在公式（24)中定義。
6.根據(jù)權(quán)利要求1所述的一種多特征聯(lián)合哈希信息檢索方法，其特征在于所述步驟5 復(fù)雜度分析為如下具體步驟： MH學(xué)習(xí)的復(fù)雜度主要包含兩個(gè)部分：第一部分是熱核的構(gòu)建和對不同特征的相似概率的正則化，如KJPLi ;從3. 1可得，該部分的時(shí)間復(fù)雜度為〇(2 Λ=);第二部分是交替優(yōu)化，在更新（U，V)的步驟，矩陣分解的時(shí)間復(fù)雜度為0(N2d)，α的更新在MH中的復(fù) 雜度為〇(n2N2);所以，MAH的時(shí)間復(fù)雜度為ο(2(ΣΓ=5Λ)妒+Tx(爐rl+fiT))，其中T為交替優(yōu)化的迭代次數(shù)；從經(jīng)驗(yàn)分析得出，T會比10小，也就是MH會在10個(gè)循環(huán)內(nèi)收斂。
【文檔編號】G06F17/30GK104462196SQ201410598595
【公開日】2015年3月25日申請日期:2014年10月30日優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】邵嶺, 蔡子贇, 劉力, 余孟洋申請人:南京信息工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵嶺;蔡子贇;劉力;余孟洋;
技術(shù)所有人：南京信息工程大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

哈希檢索相關(guān)技術(shù)

基于哈希的圖像檢索相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多特征聯(lián)合哈希信息檢索方法