本發(fā)明涉及多媒體檢索領(lǐng)域,具體涉及一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法。
背景技術(shù):
:近年來,隨著計算機技術(shù)的迅速發(fā)展,信息的獲取與處理已經(jīng)從文字、圖像、音頻、視頻等單一模態(tài)的形式轉(zhuǎn)變?yōu)槎喾N模態(tài)相互融合的形式。多模態(tài)檢索已經(jīng)成為信息檢索領(lǐng)域的一個重要問題,在搜索引擎和大數(shù)據(jù)管理中均有廣泛的應(yīng)用。傳統(tǒng)的檢索方式主要為單一模態(tài)形式,即用戶提交一種模態(tài)類型數(shù)據(jù)作為查詢,檢索系統(tǒng)返回同種模態(tài)的檢索結(jié)果,例如圖像檢索、文本檢索等。這種檢索方式無法直接度量不同模態(tài)數(shù)據(jù)之間的相似性,例如一幅圖像與一個音頻片段的相似性,因此限制了檢索的靈活性。為解決上述問題,跨模態(tài)檢索成為了一個新的研究熱點,其可以根據(jù)用戶上傳的任意一種模態(tài)類型的數(shù)據(jù)作為查詢,檢索得到包含多種模態(tài)類型的相關(guān)結(jié)果。與傳統(tǒng)單模態(tài)檢索相比,跨模態(tài)檢索能夠提供更加靈活且實用的檢索體驗。跨模態(tài)檢索的關(guān)鍵問題在于如何學(xué)習(xí)不同模態(tài)之間的內(nèi)在關(guān)聯(lián)關(guān)系。由于不同模態(tài)數(shù)據(jù)的分布特性以及特征表示不一致,跨模態(tài)的相似性度量具有很大的挑戰(zhàn)性?,F(xiàn)有常見的跨模態(tài)檢索方法主要是為不同模態(tài)數(shù)據(jù)學(xué)習(xí)統(tǒng)一空間,即將不同模態(tài)數(shù)據(jù)的特征表示從原始的單模態(tài)空間映射到跨模態(tài)統(tǒng)一空間,獲得可以直接度量跨模態(tài)相似性的統(tǒng)一表征?,F(xiàn)有方法可以主要分為兩類,一是在傳統(tǒng)框架下學(xué)習(xí)線性映射,包括基于典型相關(guān)分析(canonicalcorrelationanalysis,簡稱cca)的方法,其通過分析不同模態(tài)數(shù)據(jù)的成對關(guān)聯(lián)關(guān)系,將不同模態(tài)的數(shù)據(jù)映射到同一維度的公共子空間中,并最大化成對數(shù)據(jù)之間的關(guān)聯(lián)。此外,還有基于圖規(guī)約的方法,例如zhai等人在文獻“l(fā)earningcross-mediajointrepresentationwithsparseandsemi-supervisedregularization”提出了基于稀疏和半監(jiān)督規(guī)約的跨模態(tài)檢索方法,為不同模態(tài)數(shù)據(jù)構(gòu)建圖模型,同時進行跨模態(tài)關(guān)聯(lián)學(xué)習(xí)和高層語義抽象。另外一類是基于深度神經(jīng)網(wǎng)絡(luò)的跨模態(tài)統(tǒng)一表征學(xué)習(xí)方法,其主要思想是利用深度網(wǎng)絡(luò)強大的建模能力來分析挖掘復(fù)雜的跨模態(tài)關(guān)聯(lián)關(guān)系。如ngiam等人在文獻“multimodaldeeplearning”中提出了多模態(tài)自編碼器,以兩種模態(tài)數(shù)據(jù)作為輸入,在中間層建??缒B(tài)關(guān)聯(lián)信息,同時建模兩者的重構(gòu)誤差。feng等人在文獻“cross-modalretrievalwithcorrespondenceautoencoder”中提出對應(yīng)自編碼器(correspondenceautoencoder,簡稱corr-ae),構(gòu)建了由編碼層連接的兩路網(wǎng)絡(luò),同時建模關(guān)聯(lián)信息與重建信息?,F(xiàn)有基于深度網(wǎng)絡(luò)的跨模態(tài)檢索方法大都可以分為兩個學(xué)習(xí)階段,在第一階段學(xué)習(xí)每種模態(tài)的分離特征表示,在第二階段學(xué)習(xí)跨模態(tài)統(tǒng)一表征。然而現(xiàn)有方法存在三個局限性,一是在第一階段現(xiàn)有方法僅僅建模了模態(tài)內(nèi)的關(guān)聯(lián)關(guān)系,而忽略了模態(tài)間關(guān)聯(lián)對于分離特征表示學(xué)習(xí)的補充作用;二是在第二階段,現(xiàn)有方法僅僅使用了單一的損失函數(shù)進行約束,無法充分平衡模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)學(xué)習(xí)過程;此外,現(xiàn)有方法僅僅考慮了不同模態(tài)的原始數(shù)據(jù),而忽略了其內(nèi)部各個部分提供的豐富細粒度信息,無法充分挖掘跨模態(tài)的關(guān)聯(lián)關(guān)系。技術(shù)實現(xiàn)要素:針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,能夠利用層級網(wǎng)絡(luò)結(jié)構(gòu),充分挖掘模態(tài)內(nèi)和模態(tài)間的多級關(guān)聯(lián)關(guān)系,同時利用多任務(wù)框架動態(tài)平衡模態(tài)內(nèi)語義類別約束以及模態(tài)間成對相似性約束學(xué)習(xí)過程。此外,通過建模不同模態(tài)數(shù)據(jù)的多粒度信息,提高了跨模態(tài)檢索的準確率。為達到以上目的,本發(fā)明采用的技術(shù)方案如下:一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,用于對跨模態(tài)數(shù)據(jù)的多粒度信息以及模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)信息進行全面建模,得到不同模態(tài)數(shù)據(jù)的統(tǒng)一表征,從而實現(xiàn)跨模態(tài)檢索,包括以下步驟:(1)建立包含多種模態(tài)類型的跨模態(tài)數(shù)據(jù)庫,并將跨模態(tài)數(shù)據(jù)庫中的數(shù)據(jù)分為訓(xùn)練集、驗證集和測試集,對跨模態(tài)數(shù)據(jù)庫中不同模態(tài)的數(shù)據(jù)進行分塊處理,提取所有模態(tài)的原始數(shù)據(jù)以及分塊后數(shù)據(jù)的特征向量;(2)利用原始數(shù)據(jù)和分塊后的數(shù)據(jù)訓(xùn)練多粒度層級網(wǎng)絡(luò)結(jié)構(gòu),通過多粒度層級網(wǎng)絡(luò)結(jié)構(gòu)為不同模態(tài)數(shù)據(jù)學(xué)習(xí)統(tǒng)一表征;(3)利用根據(jù)訓(xùn)練好的多粒度層級網(wǎng)絡(luò)結(jié)構(gòu)得到的不同模態(tài)數(shù)據(jù)的統(tǒng)一表征,計算不同模態(tài)數(shù)據(jù)的相似性;(4)使用測試集中的任意一種模態(tài)類型作為查詢模態(tài),以另一種模態(tài)類型作為目標模態(tài),將查詢模態(tài)的每個數(shù)據(jù)作為查詢樣例,檢索目標模態(tài)中的數(shù)據(jù),計算查詢樣例和查詢目標的相似性,根據(jù)相似性得到目標模態(tài)數(shù)據(jù)的相關(guān)結(jié)果列表。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(1)跨模態(tài)數(shù)據(jù)庫可以包含多種模態(tài)類型,例如圖像、文本等。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(1)中對數(shù)據(jù)庫中不同模態(tài)數(shù)據(jù)進行分塊處理過程,可以針對不同模態(tài)數(shù)據(jù)采用不同的分塊處理方法將原始數(shù)據(jù)切分成多個部分。具體地,對于圖像數(shù)據(jù)使用選擇性搜索(selectivesearch)算法提取出包含視覺對象等豐富細粒度信息的多個候選區(qū)域;對于文本數(shù)據(jù),則以句子為單位切分成多塊。同時,可以支持其他的分塊方法,如將圖像切分成2×2或4×4的區(qū)域,將文本按照詞組來切分等。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(1)中的特征向量具體為:文本數(shù)據(jù)是提取詞頻特征向量;圖像數(shù)據(jù)是提取卷積神經(jīng)網(wǎng)絡(luò)特征向量,并且能夠支持其他種類的特征,如圖像的詞袋特征向量,文本的隱狄雷克雷分布特征向量等。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(2)中使用了多路網(wǎng)絡(luò)結(jié)構(gòu),首先對不同模態(tài)數(shù)據(jù)進行分塊處理,充分挖掘其中的多粒度信息,同時建??缒B(tài)數(shù)據(jù)的模態(tài)內(nèi)和模態(tài)間關(guān)聯(lián)關(guān)系,得到單模態(tài)的分離特征表示,再構(gòu)建多任務(wù)學(xué)習(xí)框架,動態(tài)平衡模態(tài)內(nèi)語義類別約束和模態(tài)間成對關(guān)聯(lián)約束的學(xué)習(xí)過程,最終得到跨模態(tài)統(tǒng)一表征。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(3)中的距離度量采用余弦距離,通過計算兩種模態(tài)數(shù)據(jù)統(tǒng)一表征向量夾角的余弦值來度量兩者的相似性。此外,本框架同樣支持其他類型的距離度量,如歐式距離等。進一步,上述一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,所述步驟(4)的檢索方式是,使用測試集中的一種模態(tài)類型作為查詢模態(tài),另外一種模態(tài)類型作為目標模態(tài)。對于測試集中查詢模態(tài)的每個數(shù)據(jù)作為查詢樣例,按照步驟(3)計算得到相似性之后,與測試集中目標模態(tài)的所有數(shù)據(jù)計算相似性,然后按照相似性從大到小排序,得到相關(guān)結(jié)果列表。本發(fā)明的效果在于:與現(xiàn)有方法相比,本方法能夠充分挖掘不同模態(tài)數(shù)據(jù)的多粒度信息,并同時建模模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系來學(xué)習(xí)單模態(tài)的分離特征表示,進而采用多任務(wù)學(xué)習(xí)框架,來動態(tài)平衡模態(tài)內(nèi)語義類別約束和模態(tài)間成對關(guān)聯(lián)約束的學(xué)習(xí)過程,提高了跨模態(tài)檢索的準確率。本方法之所以具有上述發(fā)明效果,其原因在于:針對單模態(tài)分離特征表示學(xué)習(xí)以及跨模態(tài)統(tǒng)一表征學(xué)習(xí)這兩個階段,采用層級網(wǎng)絡(luò)結(jié)構(gòu)充分建模模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系。一方面,在單模態(tài)分離特征表示學(xué)習(xí)過程中,融合不同模態(tài)數(shù)據(jù)的多粒度特征表示,并聯(lián)合優(yōu)化模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)學(xué)習(xí)。另一方面,在跨模態(tài)統(tǒng)一表征學(xué)習(xí)過程中,采用多任務(wù)學(xué)習(xí)框架,動態(tài)平衡模態(tài)內(nèi)語義類別約束和模態(tài)間成對關(guān)聯(lián)約束的學(xué)習(xí)過程,從而提高了跨模態(tài)檢索的準確率。附圖說明圖1是本發(fā)明的一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法流程圖。圖2是本發(fā)明的完整網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細的描述。本發(fā)明的一種基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,其流程如圖1所示,包含以下步驟:(1)建立包含多種模態(tài)類型的跨模態(tài)數(shù)據(jù)庫,并將所述數(shù)據(jù)庫分為訓(xùn)練集、驗證集和測試集,對數(shù)據(jù)庫中不同模態(tài)的數(shù)據(jù)進行分塊處理,提取所有模態(tài)原始數(shù)據(jù)以及分塊后數(shù)據(jù)的特征向量。本實施例中,所述跨模態(tài)數(shù)據(jù)庫可以包含多種模態(tài)類型,并針對不同模態(tài)數(shù)據(jù)采用不同的分塊處理方法將原始數(shù)據(jù)切分成多個部分。以圖像和文本為例,對于圖像數(shù)據(jù)使用選擇性搜索(selectivesearch)算法提取出包含視覺對象等豐富細粒度信息的多個候選區(qū)域;對于文本數(shù)據(jù),則以句子為單位切分成多塊。進一步,對這兩種模態(tài)類型數(shù)據(jù)的特征向量提取方法如下:文本數(shù)據(jù)是提取詞頻特征向量;圖像數(shù)據(jù)是提取深度卷積神經(jīng)網(wǎng)絡(luò)的特征向量。本方法框架同樣支持其它模態(tài)類型數(shù)據(jù),如音頻、視頻等,并且能夠支持其它種類的特征,如圖像的詞袋特征向量,文本的隱狄雷克雷分布特征向量等。用d表示跨模態(tài)數(shù)據(jù)集,d={d(i),d(t)},其中對于媒體類型r,其中r=i,t(i表示圖像,t表示文本),定義n(r)為其數(shù)據(jù)個數(shù)。訓(xùn)練集中的每個數(shù)據(jù)有且只有一個語義類別。定義為媒體類型r中的第p個數(shù)據(jù)的特征向量,其表示結(jié)構(gòu)為一個d(r)×1的向量,其中d(r)表示媒體類型r的特征向量維度。定義的語義標簽定為其表示結(jié)構(gòu)為一個c×1的向量,其中c表示語義類別的總量。中有且只有一維為1,其余為0,表示該數(shù)據(jù)的語義類別為值是1的列所對應(yīng)的標簽。(2)利用原始數(shù)據(jù)和分塊后的數(shù)據(jù)訓(xùn)練多粒度層級網(wǎng)絡(luò)結(jié)構(gòu),為不同模態(tài)數(shù)據(jù)學(xué)習(xí)統(tǒng)一表征。該步驟的過程如圖2所示,其中圓圈表示神經(jīng)網(wǎng)絡(luò)中的隱藏單元,虛線表示神經(jīng)網(wǎng)絡(luò)相鄰兩層的隱藏單元之間的連接。本實施例中,使用兩路網(wǎng)絡(luò)建模原始的圖像和文本數(shù)據(jù)。首先使用兩種深度信念網(wǎng)絡(luò)(deepbeliefnetwork,簡稱dbn)分別建模圖像和文本的特征分布,使用如下的條件概率分布公式:其中h(1)和h(2)表示dbn中的兩個隱藏層,vi表示圖像數(shù)據(jù),vt表示文本數(shù)據(jù)。由此可以得到包含模態(tài)內(nèi)高層語義信息的特征表示q(i)和q(t)。然后利用共享編碼層連接兩路網(wǎng)絡(luò),同時建模圖像和文本數(shù)據(jù)的模態(tài)內(nèi)關(guān)聯(lián)和模態(tài)間關(guān)聯(lián),通過最小化如下?lián)p失函數(shù)聯(lián)合優(yōu)化重建學(xué)習(xí)誤差和關(guān)聯(lián)學(xué)習(xí)誤差:其中和表示每種模態(tài)的重建表示,lr表示重建學(xué)習(xí)誤差,lc表示關(guān)聯(lián)學(xué)習(xí)誤差。因此可以得到包含模態(tài)內(nèi)和模態(tài)間關(guān)聯(lián)的粗粒度特征表示和其中和分別表示圖像和文本兩種媒體類型中第p個數(shù)據(jù)的粗粒度特征表示。本實施例中,利用兩路網(wǎng)絡(luò)建模細粒度的圖像和文本數(shù)據(jù)。具體地,使用兩種深度信念網(wǎng)絡(luò)dbn建模細粒度的圖像和文本數(shù)據(jù),并采用平均融合的策略得到包含模態(tài)內(nèi)細粒度信息的特征表示u(i)和u(t),接著構(gòu)建共享編碼層連接兩路網(wǎng)絡(luò),通過最小化如下?lián)p失函數(shù)同時建模圖像和文本細粒度特征表示的模態(tài)內(nèi)關(guān)聯(lián)和模態(tài)間關(guān)聯(lián):其中和表示每種模態(tài)細粒度特征的重建表示,lr表示重建學(xué)習(xí)誤差,lc表示關(guān)聯(lián)學(xué)習(xí)誤差。因此可以得到包含模態(tài)內(nèi)和模態(tài)間關(guān)聯(lián)的細粒度特征表示和其中和分別表示圖像和文本兩種媒體類型中第p個數(shù)據(jù)的細粒度特征表示。本實施例中,使用聯(lián)合限制玻爾茲曼機(restrictedboltzmannmachines,簡稱rbm)來融合每種模態(tài)的粗粒度表示和細粒度表示(和)。具體地,定義如下聯(lián)合分布:其中,和分別表示聯(lián)合限制玻爾茲曼機中的兩個隱藏層,h(2)表示其中的聯(lián)合層;對于圖像,v1表示圖像的粗粒度特征表示v2表示圖像的細粒度特征表示而對于文本同理,仍使用如上定義的聯(lián)合分布,則其中v1表示文本的粗粒度特征表示v2表示文本的細粒度特征表示由此可以得到同時包含粗粒度和細粒度信息的單模態(tài)特征表示和其中和分別表示圖像和文本兩種媒體類型中第p個數(shù)據(jù)的單模態(tài)特征表示。本實施例中,使用多任務(wù)學(xué)習(xí)框架來建模模態(tài)內(nèi)的語義類別約束以及模態(tài)間的成對相似性約束。具體地,對于模態(tài)間的成對相似性約束,首先對所有圖像和文本數(shù)據(jù)構(gòu)建近鄰圖g=(v,e),其中v表示圖像或文本數(shù)據(jù),e表示圖像和文本數(shù)據(jù)之間的相似性關(guān)系,定義如下:其中和代表圖像和文本數(shù)據(jù)的標簽。然后定義如下對比損失函數(shù)來建模成對的相似與不相似約束:其中和分別表示圖像和文本的單模態(tài)特征表示(s(i)和s(t)),邊界參數(shù)設(shè)為α。然后對于模態(tài)內(nèi)語義類別約束,構(gòu)建一個n路的softmax層,這里n表示類別數(shù)目,并定義如下交叉熵損失函數(shù):其中表示預(yù)測的分布概率,pi表示目標分布概率。通過最小化上述損失函數(shù),可以增強統(tǒng)一表征的語義辨識能力。最后,通過上述多任務(wù)學(xué)習(xí)框架,可以動態(tài)平衡模態(tài)內(nèi)語義類別約束和模態(tài)間成對關(guān)聯(lián)約束的學(xué)習(xí)過程,最終得到更加精確的跨模態(tài)統(tǒng)一表征和其中和分別表示圖像和文本兩種媒體類型中第p個數(shù)據(jù)的跨模態(tài)統(tǒng)一表征。(3)利用根據(jù)訓(xùn)練好的多粒度層級網(wǎng)絡(luò)結(jié)構(gòu)得到的不同模態(tài)數(shù)據(jù)的統(tǒng)一表征,進而計算不同模態(tài)數(shù)據(jù)的相似性。當深度網(wǎng)絡(luò)訓(xùn)練完畢之后,不同媒體的數(shù)據(jù)通過深度網(wǎng)絡(luò)能夠得到相同維度的統(tǒng)一表征,其相似性定義為不同模態(tài)數(shù)據(jù)的統(tǒng)一表征之間的距離度量。本實施例中,距離度量采用余弦距離,通過計算兩種模態(tài)數(shù)據(jù)統(tǒng)一表征向量夾角的余弦值來度量兩者的相似性。此外,本框架同樣支持其他類型的距離度量,如歐式距離等。(4)使用測試集中的任意一種模態(tài)類型作為查詢模態(tài),以另一種模態(tài)類型作為目標模態(tài)。將查詢模態(tài)的每個數(shù)據(jù)作為查詢樣例,檢索目標模態(tài)中的數(shù)據(jù),按照步驟(3)中的方式,計算查詢樣例和查詢目標的相似性,將相似性按照從大到小排序,得到目標模態(tài)數(shù)據(jù)的相關(guān)結(jié)果列表。下面的實驗結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明基于多粒度層級網(wǎng)絡(luò)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法,可以取得更高的檢索準確率。本實施例采用了wikipedia跨模態(tài)數(shù)據(jù)集進行實驗,該數(shù)據(jù)集由文獻“anewapproachtocross-modalmultimediaretrieval”(作者n.rasiwasia,j.pereira,e.coviello,g.doyle,g.lanckriet,r.levy和n.vasconcelos,發(fā)表在2010年的acminternationalconferenceonmultimedia)提出,其中包括2866段文本和2866張圖像,其中文本和圖像是一一對應(yīng)的,總共分為10個類別,其中2173段文本和2173張圖像作為訓(xùn)練集,231段文本和231張圖像作為驗證集,492段文本和492張圖像作為測試集。測試了以下3種方法作為實驗對比:現(xiàn)有方法一:文獻“l(fā)earningcross-mediajointrepresentationwithsparseandsemi-supervisedregularization”(作者x.zhai,y.peng,andj.xiao)中的聯(lián)合表示學(xué)習(xí)(jointrepresentationlearning,簡稱jrl)方法,為不同模態(tài)數(shù)據(jù)構(gòu)建圖模型,同時進行跨模態(tài)關(guān)聯(lián)學(xué)習(xí)和高層語義抽象,并且引入稀疏和半監(jiān)督規(guī)約?,F(xiàn)有方法二:文獻“multimodaldeeplearning”(作者j.ngiam,a.khosla,m.kim,j.nam,h.lee,anda.y.ng)中的多模態(tài)自編碼器(bimodalae)方法,以多種媒體類型作為輸入,在中間層建??缒B(tài)的關(guān)聯(lián)信息得到統(tǒng)一表征,同時還需要網(wǎng)絡(luò)能夠從統(tǒng)一表征對原始特征輸入進行重建,由此可以有效的學(xué)習(xí)不同媒體之間的關(guān)聯(lián)信息,而且能夠保留每種媒體各自內(nèi)部的重建信息?,F(xiàn)有方法三:文獻“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的對應(yīng)自編碼器網(wǎng)絡(luò)(correspondenceautoencoder,簡稱corr-ae)方法,構(gòu)建了兩路網(wǎng)絡(luò),并在中間層相連以同時建模關(guān)聯(lián)信息與重建信息。本發(fā)明:本實施例的方法。實驗采用信息檢索領(lǐng)域常用的map(meanaverageprecision)指標來評測跨模態(tài)檢索的準確性,map是指每個查詢樣例檢索準確性的平均值,map值越大,說明跨模態(tài)檢索的結(jié)果就越好。表1.本發(fā)明的實驗結(jié)果展示圖像查詢文本文本查詢圖像平均現(xiàn)有方法一0.4530.4000.427現(xiàn)有方法二0.3140.2900.302現(xiàn)有方法三0.4020.3950.399本發(fā)明0.5040.4570.481從表1可以看出,本發(fā)明在圖像查詢文本、文本查詢圖像兩個任務(wù)中都比現(xiàn)有方法取得了較大提高?,F(xiàn)有方法一在傳統(tǒng)框架下構(gòu)建圖模型將不同模態(tài)數(shù)據(jù)線性映射到統(tǒng)一空間,難以充分建模復(fù)雜的跨模態(tài)關(guān)聯(lián)關(guān)系。現(xiàn)有方法二和現(xiàn)有方法三均采用深度網(wǎng)絡(luò)結(jié)構(gòu),但僅僅利用不同模態(tài)類型的原始數(shù)據(jù),并通過簡單網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到跨模態(tài)統(tǒng)一表征。本發(fā)明一方面融合不同模態(tài)數(shù)據(jù)的多粒度特征表示,并聯(lián)合優(yōu)化模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)學(xué)習(xí)來得到單模態(tài)分離特征表示。另一方面,采用多任務(wù)學(xué)習(xí)框架,動態(tài)平衡模態(tài)內(nèi)語義類別約束和模態(tài)間成對關(guān)聯(lián)約束的學(xué)習(xí)過程,得到跨模態(tài)統(tǒng)一表征,從而提高了跨模態(tài)檢索的準確率。在其它實施例中,本發(fā)明步驟(2)中的跨模態(tài)統(tǒng)一表征學(xué)習(xí)方法,使用深度信念網(wǎng)絡(luò)(deepbeliefnetwork,簡稱dbn)建模原始的和細粒度的圖像和文本數(shù)據(jù),同樣可以采用棧式自編碼器(stackedautoencoders,簡稱sae)作為替代。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當前第1頁12