一種基于深層模型的跨模態(tài)檢索方法
【專利摘要】本發(fā)明提出了一種基于深層模型的跨模態(tài)檢索方法,該方法包括:利用特征提取方法分別獲得目標(biāo)檢索模態(tài)與檢索庫中每一個被檢索模態(tài)的低級表達(dá)向量;目標(biāo)檢索模態(tài)的低級表達(dá)向量分別與檢索庫中每一個被檢索模態(tài)的低級表達(dá)向量,通過堆疊對應(yīng)的受限波爾茲曼機(jī)Corr-RBMs深層模型獲得目標(biāo)檢索模態(tài)的高級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的高級表達(dá)向量;利用目標(biāo)檢索模態(tài)的高級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的高級表達(dá)向量計算目標(biāo)檢索模態(tài)與檢索庫中每一個被檢索模態(tài)的距離;將檢索庫中與目標(biāo)檢索模態(tài)距離最近的至少一個被檢索模態(tài)確定為與目標(biāo)檢索模態(tài)匹配的對象。
【專利說明】一種基于深層模型的跨模態(tài)檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體檢索技術(shù),特別是一種基于深層模型的跨模態(tài)檢索方法。
【背景技術(shù)】
[0002] 近些年互聯(lián)網(wǎng)的發(fā)展使得多模態(tài)的數(shù)據(jù)呈現(xiàn)爆炸式增長。例如,電子商務(wù)網(wǎng)站上 的產(chǎn)品通常包含主干文字、簡短的文本描述、以及相關(guān)的圖片;社交網(wǎng)站上分享的圖片通常 伴有標(biāo)記的描述詞;一些在線新聞上包含的圖片和視頻信息比單純的文字報道更具有吸引 力,多模態(tài)數(shù)據(jù)的快速增長帶來了巨大的跨模態(tài)檢索需求。
[0003] 與傳統(tǒng)的單模態(tài)檢索不同,跨模態(tài)檢索更多關(guān)注不同模態(tài)間的關(guān)系。因此,跨模態(tài) 檢索問題包含兩個挑戰(zhàn)問題:一是來自不同模態(tài)的數(shù)據(jù)具有完全不同的統(tǒng)計特性,這使得 很難直接獲得不同模態(tài)數(shù)據(jù)的關(guān)聯(lián)關(guān)系;二是從不同模態(tài)數(shù)據(jù)中抽取的特征通常具有高維 的特性并且數(shù)據(jù)集的規(guī)模非常大,這使得高效的檢索不容易實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供了一種基于深層模型的跨模態(tài)檢索方法,應(yīng)用深層模型解 決跨模態(tài)數(shù)據(jù)的處理問題,使得經(jīng)深層模型處理后的跨模態(tài)數(shù)據(jù)能夠高效的進(jìn)行距離計 算,從而得到較優(yōu)的檢索結(jié)果。本發(fā)明提出的技術(shù)方案是:
[0005] -種基于深層模型的跨模態(tài)檢索方法,該方法包括:
[0006] 利用特征提取方法分別獲得目標(biāo)檢索模態(tài)與檢索庫中每一個被檢索模態(tài)的低級 表達(dá)向量;
[0007] 所述目標(biāo)檢索模態(tài)的低級表達(dá)向量分別與所述檢索庫中每一個被檢索模態(tài)的低 級表達(dá)向量,通過堆疊對應(yīng)的受限波爾茲曼機(jī)Corr-RBMs深層模型獲得所述目標(biāo)檢索模態(tài) 的商級表達(dá)向量和所述檢索庫中每一個被檢索1旲態(tài)的商級表達(dá)向量;
[0008] 利用所述目標(biāo)檢索模態(tài)的高級表達(dá)向量和所述檢索庫中每一個被檢索模態(tài)的高 級表達(dá)向量計算所述目標(biāo)檢索模態(tài)與所述檢索庫中每一個被檢索模態(tài)的距離;
[0009] 將所述檢索庫中與所述目標(biāo)檢索模態(tài)距離最近的至少一個被檢索模態(tài)確定為與 所述目標(biāo)檢索模態(tài)匹配的對象。
[0010] 綜上所述,本發(fā)明技術(shù)方案提出了一種基于深層模型的跨模態(tài)檢索方法,對于跨 模態(tài)原始數(shù)據(jù)進(jìn)行特征提取獲得的低級表達(dá),通過堆疊對應(yīng)的受限波爾茲曼機(jī)(Corr-RBM, Correspondence Restricted Boltzmann Machine)的 Corr-RBMs 深層模型的處理,得到跨 模態(tài)數(shù)據(jù)在相同表示空間中的低維高級表達(dá),進(jìn)而對跨模態(tài)數(shù)據(jù)的低維高級表達(dá)進(jìn)行距離 計算,根據(jù)距離確定檢索結(jié)果。
【專利附圖】
【附圖說明】
[0011] 圖1為本發(fā)明技術(shù)方案的流程圖;
[0012] 圖2為本發(fā)明Corr-RBMs深層模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0013] 圖3為本發(fā)明Corr-RBM模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0014] 圖4為受限波爾茲曼機(jī)RBM模型的結(jié)構(gòu)圖;
[0015] 圖5為根據(jù)目標(biāo)函數(shù)F確定Θ的方法流程圖;
[0016] 圖6為本發(fā)明實(shí)施例的流程圖。
【具體實(shí)施方式】
[0017] 為解決跨模態(tài)間的檢索問題,本發(fā)明提出一種基于Corr-RBMs深層模型的跨模態(tài) 檢索方法,本發(fā)明技術(shù)方案的流程圖如圖1所示,包括以下步驟:
[0018] 步驟101 :利用特征提取方法分別獲得目標(biāo)檢索模態(tài)與檢索庫中任一被檢索模態(tài) 的低級表達(dá)向量。
[0019] 本步驟中,為在檢索庫中檢索與目標(biāo)檢索模態(tài)匹配的對象,首先需要對目標(biāo)檢索 模態(tài)和檢索庫中任一被檢索模態(tài)的低級表達(dá)向量,特征提取方法獲得的低級表達(dá)向量一般 維數(shù)較高,且不同模態(tài)的低級表達(dá)向量元素各異,一般不能直接用于檢索運(yùn)算。
[0020] 步驟102 :目標(biāo)檢索模態(tài)的低級表達(dá)向量分別與檢索庫中每一個被檢索模態(tài)的低 級表達(dá)向量,通過堆疊對應(yīng)的受限波爾茲曼機(jī)Corr-RBMs深層模型獲得目標(biāo)檢索模態(tài)的高 級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的高級表達(dá)向量。
[0021] 本步驟中,將目標(biāo)檢索模態(tài)的低級表達(dá)向量分別與檢索庫中每一個被檢索模態(tài) 的低級表達(dá)向量作為一個組合,通過堆疊對應(yīng)的受限波爾茲曼機(jī)Corr-RBMs深層模型獲 得目標(biāo)檢索模態(tài)的高級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的高級表達(dá)向量。通過 Corr-RBMs深層模型得到的目標(biāo)檢索模態(tài)的高級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的 高級表達(dá)向量具有低維、空間元素一致等特點(diǎn),能夠高效的進(jìn)行檢索運(yùn)算。
[0022] 步驟103 :利用目標(biāo)檢索模態(tài)的高級表達(dá)向量和檢索庫中每一個被檢索模態(tài)的高 級表達(dá)向量計算目標(biāo)檢索模態(tài)與檢索庫中任一被檢索模態(tài)的距離。
[0023] 具體地,可以用歐氏距離表示目標(biāo)檢索模態(tài)與檢索庫中每一個被檢索模態(tài)的距 離。
[0024] 步驟104 :將檢索庫中與目標(biāo)檢索模態(tài)距離最近的至少一個被檢索模態(tài)確定為與 目標(biāo)檢索模態(tài)匹配的對象。
[0025] 本步驟中,將檢索庫中每個被檢索模態(tài)與目標(biāo)檢索模態(tài)的距離進(jìn)行排序,選擇距 離目標(biāo)檢索模態(tài)最近的至少一個被檢索模態(tài)確定為與目標(biāo)檢索模態(tài)匹配的對象。
[0026] 本發(fā)明提出了一種使用堆疊 Corr-RBM的Corr-RBMs深層模型進(jìn)行跨模態(tài)檢索 的方法,圖2為本發(fā)明堆疊 Corr-RBM的Corr-RBMs深層模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖2所 示,Corr-RBMs深層模型由至少兩層Corr-RBM模型堆疊而成,該Corr-RBMs深層模型能 夠由兩種不同模態(tài)原始數(shù)據(jù)的低級表達(dá)獲得該兩種不同模態(tài)原始數(shù)據(jù)的高級表達(dá);每層 Corr-RBM模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示,Corr-RBM模型是在受限波爾茲曼機(jī)RBM的基礎(chǔ) 上建立的,圖4為受限波爾茲曼機(jī)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,下面分別對RBM模型、Corr-RBM模型 以及Corr-RBMs深層模型進(jìn)行詳細(xì)介紹。
[0027] (一)RBM 模型:
[0028] 圖4為RBM的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖4所示,RBM可見層V包含m個神經(jīng)單元V1? Vm,每個神經(jīng)單元Vi的偏置為4,可見層神經(jīng)單元之間沒有連接;隱藏層H包含s個神經(jīng)單 元hi?hs,每個神經(jīng)單元hj的偏置為Cj,可見層神經(jīng)單元之間沒有連接;可見層神經(jīng)單元 Vi與隱藏層神經(jīng)單元hj的連接權(quán)值為Wij。為了便于理解,圖4中僅畫出了部分可見層神經(jīng) 單元與隱藏層神經(jīng)單元的連接權(quán)值。
[0029] RBM具有無向圖的結(jié)構(gòu),具有Logistic激活函數(shù)δ (X) = l/(l+exp (-X)),則可見 層V和隱藏層H神經(jīng)單元的聯(lián)合概率分布為:
【權(quán)利要求】
1. 一種基于深層模型的跨模態(tài)檢索方法,其特征在于,該方法包括: 利用特征提取方法分別獲得目標(biāo)檢索模態(tài)與檢索庫中每一個被檢索模態(tài)的低級表達(dá) 向量; 所述目標(biāo)檢索模態(tài)的低級表達(dá)向量分別與所述檢索庫中每一個被檢索模態(tài)的低級表 達(dá)向量,通過堆疊對應(yīng)的受限波爾茲曼機(jī)Corr-RBMs深層模型獲得所述目標(biāo)檢索模態(tài)的高 級表達(dá)向量和所述檢索庫中每一個被檢索I吳態(tài)的商級表達(dá)向量; 利用所述目標(biāo)檢索1?態(tài)的1?級表達(dá)向量和所述檢索庫中每一個被檢索|吳態(tài)的1?級表 達(dá)向量計算所述目標(biāo)檢索模態(tài)與所述檢索庫中每一個被檢索模態(tài)的距離; 將所述檢索庫中與所述目標(biāo)檢索模態(tài)距離最近的至少一個被檢索模態(tài)確定為與所述 目標(biāo)檢索模態(tài)匹配的對象。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述Corr-RBMs深層模型由至少兩層 對應(yīng)的受限波爾茲曼機(jī)Corr-RBM模型堆疊而成,所述Corr-RBMs深層模型包括第一模態(tài) Corr-RBMs和第二模態(tài)Corr-RBMs,所述第一模態(tài)Corr-RBMs處理所述目標(biāo)檢索模態(tài)低級表 達(dá)向量,所述第二模態(tài)Corr-RBMs處理所述檢索庫中任一被檢索模態(tài)的低級表達(dá)向量。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述Corr-RBM包含第一模態(tài)受限波爾茲 曼機(jī)RBM和第二模態(tài)受限波爾茲曼機(jī)RBM,所述第一模態(tài)RBM與所述第二模態(tài)RBM包含有相 同的可見層神經(jīng)單元數(shù)目m和相同的隱藏層神經(jīng)單元數(shù)目s,所述第一模態(tài)RBM與所述第二 模態(tài)RBM的隱藏層之間具有相關(guān)性約束。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,該方法進(jìn)一步包括: 所述Corr-RBM的配置參數(shù)0 = {W1,C1,B1,WT,CT,Βτ},其中,上標(biāo)I表示第一模態(tài),上標(biāo)T表示第二模態(tài),具體地,W1為第一模態(tài)RBM的各可見層神經(jīng)單元與隱藏層神經(jīng)單元之間的 連接權(quán)值參數(shù)集合,C1為第一模態(tài)RBM的可見層神經(jīng)單元偏置參數(shù)集合,B1為第一模態(tài)RBM 的隱藏層神經(jīng)單元偏置參數(shù)集合,Wt為第二模態(tài)RBM的各可見層神經(jīng)單元與隱藏層神經(jīng)單 元之間的連接權(quán)值參數(shù)集合,Ct為第二模態(tài)RBM的可見層神經(jīng)單元偏置參數(shù)集合,Bt為第 二模態(tài)RBM的隱藏層神經(jīng)單元偏置參數(shù)集合; 所述對應(yīng)的受限波爾茲曼機(jī)Corr-RBM的配置參數(shù)Θ為令目標(biāo)函數(shù)F= 1D+aI1+βIt 最小的配置參數(shù),且
其中,α和β是常數(shù),且ae(〇,1),βe(〇,1) ;&(·)是第一模態(tài)RBM可見層到 隱藏層的映射函數(shù),fT( ·)和第二模態(tài)RBM可見層到隱藏層的映射函數(shù);Pl( ·)為第一模 態(tài)RBM可見層和隱藏層神經(jīng)單元的聯(lián)合概率分布,ρτ( ·)為第二模態(tài)RBM可見層和隱藏層 神經(jīng)單元的聯(lián)合概率分布;Il·Il為二范數(shù)映射。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)目標(biāo)函數(shù)F確定0的算法為: Α、第一模態(tài)RBM的可見層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合'<、 可見層神經(jīng)單元的偏置和隱藏層神經(jīng)單元的偏置c;用Θ1統(tǒng)一表示,根據(jù)公式θ1-θ^τ^α^ΛΘ1進(jìn)行更新,其中τ為學(xué)習(xí)速率,且τG(〇,I) ;aG(〇, 1); Δ# 二,并且, CN 104462489 A T乂Λ'?女小 2/2頁
其中,〈· >data為經(jīng)驗(yàn)分布下的數(shù)學(xué)期望,〈· >Π(Λ1為模型分布下的數(shù)學(xué)期望; Β、第二模態(tài)RBM的可見層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合<、 可見層神經(jīng)單元?f的偏置礦和隱藏層神經(jīng)單元 <的偏置4用θτ統(tǒng)一表示,根據(jù)公式θτ -θτ+τ·β·Λ07進(jìn)行更新,其中,βe(〇,l) Adf5Acp,并且,
C、根據(jù)以下公式使用梯度下降的方法更新1D:
其中,δ'(·)=δ(·)(1-δ(·)),且δ(·)為Logistic激活函數(shù)δ(X) = 1/ (l+exp(-x)); 重復(fù)步驟A?C,直至該算法收斂。
【文檔編號】G06N3/02GK104462489SQ201410800393
【公開日】2015年3月25日 申請日期:2014年12月18日 優(yōu)先權(quán)日:2014年12月18日
【發(fā)明者】李睿凡, 魯鵬, 蘆效峰, 馮方向, 李蕾, 劉詠彬, 王小捷 申請人:北京郵電大學(xué)