欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于子空間學習的不完整跨模態(tài)檢索方法與流程

文檔序號:12666627閱讀:275來源:國知局
本發(fā)明涉及跨模態(tài)檢索
技術(shù)領(lǐng)域
,尤其是一種基于子空間學習的不完整跨模態(tài)檢索方法。
背景技術(shù)
:隨著多媒體技術(shù)的迅猛發(fā)展,用戶每天都分享著海量的多媒體信息,如圖像、文本和視頻。往往同一語義的數(shù)據(jù)由以上多種媒體特征進行描述,如一個網(wǎng)頁可以由文本,圖片和超級鏈接進行表征。以上多媒體數(shù)據(jù)的爆炸式增長,極大地促進了跨模態(tài)檢索的應(yīng)用需求,如用文本檢索圖片或者用圖片檢索文本等。因此,跨模態(tài)檢索具有極其重要的研究和應(yīng)用價值。傳統(tǒng)跨模態(tài)檢索方法一般假設(shè)每一個數(shù)據(jù)點都具有完整的多模態(tài)表達,如由網(wǎng)頁組成的數(shù)據(jù)集合,每一個網(wǎng)頁都有完整的文本模態(tài)表達和圖像模態(tài)表達。然而,在更為一般的場景中,一些數(shù)據(jù)點可能僅有部分的多模態(tài)表達,而只有部分數(shù)據(jù)點包含完整的多模態(tài)表達,這樣的數(shù)據(jù)集合稱之為不完整觀測多模態(tài)數(shù)據(jù)。在上述場景中,傳統(tǒng)跨模態(tài)檢索方法一般僅使用具有完整多模態(tài)表達的數(shù)據(jù)點進行建模,不能有效使用那些包含部分模態(tài)特征的數(shù)據(jù)點。因此,傳統(tǒng)跨模態(tài)檢索方法不能有效處理不完整跨模態(tài)檢索問題。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于解決上述技術(shù)問題而提出一種基于子空間學習的不完整跨模態(tài)檢索方法,以解決現(xiàn)有跨模態(tài)檢索方法不能有效滿足不完整跨模態(tài)檢索的需求的問題。本發(fā)明是這樣實現(xiàn)的,一種基于子空間學習的不完整跨模態(tài)檢索方法,包括步驟:步驟S1,收集多模態(tài)數(shù)據(jù)并分別提取各模態(tài)的特征;步驟S2,利用提取的各模態(tài)的特征構(gòu)造不完整觀測多模態(tài)數(shù)據(jù)集;步驟S3,基于回歸方式學習不完整觀測多模態(tài)數(shù)據(jù)集共享子空間表達,并分別學習各模態(tài)數(shù)據(jù)線性投影矩陣;步驟S4,通過各模態(tài)數(shù)據(jù)線性投影矩陣增加結(jié)構(gòu)約束,學習不同模態(tài)數(shù)據(jù)集的特征,選出判別能力符合判別要求的特征;步驟S5,挖掘不完整觀測多模態(tài)集中的各模態(tài)間和模態(tài)內(nèi)相似性關(guān)系,結(jié)合子空間學習和特征學習建立優(yōu)化目標函數(shù);步驟S6,優(yōu)化所述目標函數(shù)得到多模態(tài)數(shù)據(jù)集共享子空間表達以及各模態(tài)的線性投影矩陣;步驟S7,根據(jù)所述各模態(tài)的線性投影矩陣進行跨模態(tài)檢索。本發(fā)明在利用提取的各模態(tài)的特征構(gòu)造不完整觀測多模態(tài)數(shù)據(jù)集后,首先為每一模態(tài)學習一個線性投影矩陣,并使得具有完整模態(tài)表達的數(shù)據(jù)點的不同模態(tài)特征具有相同的子空間表達;然后針對具有不完整模態(tài)表達的數(shù)據(jù)點,同樣將其投影到以上子空間,以得到所有數(shù)據(jù)點的子空間表達;最后引入特征學習,選擇不同模態(tài)符合判別要求的具有較高判別力的特征進行子空間的學習;在此基礎(chǔ)上,還加入模態(tài)間和模態(tài)內(nèi)相似性關(guān)系,以進一步提升跨模態(tài)檢索的性能。本發(fā)明通過線性投影矩陣將不同模態(tài)數(shù)據(jù)投影到同一子空間,解決了模態(tài)間特征異質(zhì)的問題,同時可充分利用具有完整模態(tài)和不完整模態(tài)的數(shù)據(jù)。鑒于不同模態(tài)的特征冗余性較大且可能含有較強噪聲,特征選擇被嵌入到模型中以選擇出具有較強判別能力的特征。最后,本發(fā)明同時將模態(tài)間和模態(tài)內(nèi)的相似性關(guān)系考慮在內(nèi),可以進一步增強跨模態(tài)檢索性能。附圖說明圖1是以圖像和文本兩模態(tài)為例的基于子空間學習的不完整跨模態(tài)檢索方法示意圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。參見圖1所示,一種基于子空間學習的不完整跨模態(tài)檢索方法,包括以下步驟:步驟S1,收集多模態(tài)數(shù)據(jù)并分別提取各個不同模態(tài)的特征;所述多模態(tài)數(shù)據(jù)包括有圖片數(shù)據(jù)以及圖片數(shù)據(jù)相對應(yīng)的文本數(shù)據(jù),如圖像標注詞;所述不同模態(tài)特征,針對圖片數(shù)據(jù)一般是視覺描述算子,比如SIFT或者GIST特征;針對文本數(shù)據(jù)一般是文檔的詞頻向量。步驟S2,利用步驟S1提取的各個模態(tài)的特征,構(gòu)造不完整觀測多模態(tài)數(shù)據(jù)集;所述構(gòu)造不完整觀測多模態(tài)數(shù)據(jù)集,即僅部分數(shù)據(jù)點包含完整的多模態(tài)特征表達,另外一部分數(shù)據(jù)點包含部分的多模態(tài)特征表達。例如,針對由圖像數(shù)據(jù)模態(tài)和對應(yīng)的文本數(shù)據(jù)模態(tài)組成的多模態(tài)數(shù)據(jù)集合,則是部分樣本包含文本模態(tài)與圖片模態(tài)這兩個模態(tài)的特征表達,其余的樣本僅僅包含文本模態(tài)特征表達或者圖片模態(tài)特征表達,其中包含文本模態(tài)與圖片模態(tài)這兩個模態(tài)的特征表達的樣本與包含文本模態(tài)特征表達或者圖片模態(tài)特征表達的比例可隨機確定,具體比例不限。步驟S3,基于回歸方式學習不完整觀測多模態(tài)數(shù)據(jù)集共享子空間表達F,并分別學習各個不同模態(tài)的線性投影矩陣U1和U2。在該步驟S3中,基本的優(yōu)化目標函數(shù)為:s.t.F∈{0,1}n×k;FIk=In其中,為數(shù)據(jù)庫第一個模態(tài)的特征表達(如圖像或者文本),為具有完整模態(tài)特征的數(shù)據(jù)在當前模態(tài)下的特征表達,僅有當前模態(tài)特征的數(shù)據(jù)的特征表達,F(xiàn)c和分別對應(yīng)具有完整模態(tài)特征的數(shù)據(jù)的子空間表達和僅有當前模態(tài)特征的數(shù)據(jù)的子空間表達,且滿足優(yōu)化目標中c表示具有完整模態(tài)數(shù)據(jù)點對應(yīng)的數(shù)據(jù),如Fc表示此部分點的子空間表達,表示此部分點在第一個模態(tài)下的特征表達。約束條件中,n和k別表示數(shù)據(jù)庫樣本總數(shù)目以及類別數(shù)目。和具有相似的解釋。最終的不完整觀測多模態(tài)數(shù)據(jù)集的共享子空間表達為U1和U2分別為兩個模態(tài)的線性投影矩陣。該優(yōu)化目標函數(shù)的約束條件中Ik和In,分別為k維和n維的由1組成的列向量,且k和n分別為多模態(tài)數(shù)據(jù)類別數(shù)目和樣本總數(shù)目。以上約束條件使得學習得到的共享子空間符合數(shù)據(jù)語義類別結(jié)構(gòu),即每一個數(shù)據(jù)點屬于且僅屬于所有類別中的一類。步驟S4,給上述線性投影矩陣U1和U2增加設(shè)計的結(jié)構(gòu)約束,以對不同模態(tài)數(shù)據(jù)集進行特征學習,進而選擇出符合判別要求的具有較強判別能力的特征。步驟S4中,該線性投影矩陣的結(jié)構(gòu)約束為L21范數(shù)約束,其定義為:其中,U1(i,:)表示第一個模態(tài)對應(yīng)投影矩陣的第i行,通過最小化上述目標,可自動選擇出符合判別要求的具有較高判別能力的特征,并同時去除冗余和具有符合預設(shè)噪聲強度的較強噪聲的特征。步驟S5,在選出具有較高判別能力的特征后,挖掘不完整觀測模態(tài)間和模態(tài)內(nèi)相似性關(guān)系,結(jié)合子空間學習和特征學習建立優(yōu)化目標函數(shù)。步驟S5中,模態(tài)間和模態(tài)內(nèi)的相似性關(guān)系Wpq和Wp分別定義為:其中Wpq(ij)表示模態(tài)間相似性關(guān)系矩陣的第i行第j列對應(yīng)的元素值,為由高斯核計算出的相似度,表示兩模態(tài)特征表達對應(yīng)同一數(shù)據(jù)點,其中表示p模態(tài)下第i個數(shù)據(jù)點對應(yīng)的特征,表示q模態(tài)下第j個數(shù)據(jù)點對應(yīng)的特征?;谝陨蟽煞N相似度矩陣,則總體相似度矩陣構(gòu)造為:進而得到拉普拉斯矩陣L=D-W,其中D為對角矩陣,且其每個對角線元素對應(yīng)W矩陣所對應(yīng)行的所有元素之和。具體的L可以表示為其中L值中的元素與W具有相一致的對應(yīng)關(guān)系。結(jié)合子空間學習與特征學習,最終的優(yōu)化目標函數(shù)為:s.t.F∈{0,1}n×k;FIk=In其中α和β為預設(shè)的正整數(shù),用于決定最終的優(yōu)化目標函數(shù)中不同項的權(quán)值大小。步驟S6,采用交替優(yōu)化方式優(yōu)化目標函數(shù)得到多模態(tài)數(shù)據(jù)共享子空間表達F以及各個模態(tài)的線性投影矩陣U。在該步驟S6中,采用交替優(yōu)化方式求解F和U,直至算法收斂。固定U,則目標函數(shù)改寫為s.t.F∈{0,1}n×k;FIk=In首先將約束條件進行松弛為FTF=I;F≥0,之后將子空間表達F進行拆分,則上述優(yōu)化目標變?yōu)椋翰捎美窭嗜粘俗臃ㄟM行求解Fc:其中為拉格朗日乘子法求解上述優(yōu)化目標的拉格朗日乘子,其計算方式為對于任意一個矩陣,假設(shè)用符號表示為Z,則采用梯度方法求解和固定F,則目標函數(shù)改寫為:則U可以依據(jù)梯度進行求解,滿足:其中Q為對角矩陣,且滿足其第m個元素為1/(2||Ui(m,:)||2),其中Ui(m,:)對應(yīng)第Ui第m行,上式中i和j值分別可取1和2。步驟S7,根據(jù)所得投影矩陣進行跨模態(tài)檢索任務(wù)。在該步驟中,利用投影矩陣對多模態(tài)數(shù)據(jù)點進行投影得到各自對應(yīng)的子空間表達,之后便可在此子空間中以歐氏距離進行距離度量進行跨模態(tài)檢索。為了驗證本發(fā)明的實施效果,接下來以PASCALVOC2007數(shù)據(jù)庫為例進行說明。該數(shù)據(jù)庫分別包含5,011和4,952幅訓練和測試圖像,共計20個類別,這些圖像用GIST特征進行描述,同時文本模態(tài)由圖像的標注詞組成。在該PASCALVOC2007數(shù)據(jù)庫上可以進行由圖像檢索標注詞和由標注詞檢索圖像的跨模態(tài)檢索任務(wù)。具體步驟如下:步驟S1,提取PASCALVOC2007圖像的GIST特征和由標注詞組成的文本特征,并以此兩個模態(tài)組成多模態(tài)數(shù)據(jù)集。步驟S2,在上述多模態(tài)數(shù)據(jù)集中,隨機選擇部分數(shù)據(jù)點使其包含完整的多模態(tài)特征表達,其余數(shù)據(jù)點則隨機挑選出一部分僅包含文本特征,另外一部分僅包含圖片特征,以此構(gòu)造不完整觀測多模態(tài)訓練數(shù)據(jù)集合。步驟S3,基于回歸方式學習不完整觀測多模態(tài)數(shù)據(jù)集共享子空間表達F,并分別學習不同模態(tài)的線性投影矩陣U1和U2。步驟S4,設(shè)計上述線性投影矩陣U1和U2的結(jié)構(gòu)約束,實現(xiàn)對不同模態(tài)數(shù)據(jù)集的特征選擇,即||U1||21+||U2||21。步驟S5,挖掘不完整觀測模態(tài)間和模態(tài)內(nèi)相似性關(guān)系W,并結(jié)合子空間學習和特征學習建立優(yōu)化目標函數(shù)。步驟S6,令α和β取值為0.01和0.01,并采用交替優(yōu)化方式求解上述優(yōu)化目標得到多模態(tài)數(shù)據(jù)共享子空間表達以及各個模態(tài)的線性投影矩陣。步驟S7,利用投影矩陣對測試集不同模態(tài)數(shù)據(jù)進行投影,在相同子空間下基于歐氏距離完成跨模態(tài)檢索任務(wù)。表1和表2是本發(fā)明以平均準確率(MAP)為觀測指標在不同模態(tài)缺失情況下分別以圖片和文本作為檢索詞(query)的性能比較。表1圖片(Image)檢索文本(Text)在不同模態(tài)不完整度情況下各個檢索方法的性能比較。表中的數(shù)字表示map(meanaverayprecision)值。各個檢索方法包括現(xiàn)有的PLS、BLM、CCA、CDFE、BMLDA、GMMFA方法以及本發(fā)明的方法MY。Image0%10%30%50%70%90%PLS27.5727.6627.426.7927.8224.45BLM30.6330.6330.0529.5228.7223.99CCA26.6726.3925.2723.5223.2015.99CDFE29.9829.6728.0927.8526.9221.78GMLDA31.0830.5928.6330.4028.6122.84GMMFA30.5730.2028.1230.1427.7022.27My37.4936.7035.8633.1729.9223.61表1表2文本(Text)檢索圖片(Image)在不同模態(tài)不完整度情況下各個方法的性能比較。表中的數(shù)字表示map(meanaverayprecision)值。各個檢索方法包括現(xiàn)有的PLS、BLM、CCA、CDFE、BMLDA、GMMFA方法以及本發(fā)明的方法MY。Text0%10%30%50%70%90%PLS19.9720.1319.8219.7419.9417.91BLM23.0723.0422.4722.0221.3118.30CCA22.2322.0821.5519.6019.5213.67CDFE22.4622.5920.5821.5620.7715.41GMLDA24.6324.2322.5623.6921.8017.07GMMFA24.3423.9522.0723.3421.3917.13My29.6628.0727.4826.3822.7016.24表2以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
甘孜| 进贤县| 景谷| 昭平县| 泾阳县| 咸宁市| 青海省| 隆子县| 正镶白旗| 大荔县| 新邵县| 嘉善县| 周宁县| 青龙| 右玉县| 惠州市| 肥西县| 赤城县| 华坪县| 峨边| 峨山| 大关县| 靖安县| 衢州市| 当雄县| 麻江县| 台湾省| 陇南市| 兴义市| 土默特左旗| 安远县| 湘潭县| 吴旗县| 石城县| 依兰县| 峡江县| 威信县| 马尔康县| 庆安县| 麻栗坡县| 贞丰县|