本發(fā)明屬于多媒體檢索領(lǐng)域,具體涉及一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法。
背景技術(shù):
:隨著人類(lèi)文明的進(jìn)步和科學(xué)技術(shù)的發(fā)展,圖像、文本、視頻、音頻等多媒體數(shù)據(jù)快速增長(zhǎng),已逐漸成為了信息存儲(chǔ)與傳播的主要形式。在這種情況下,跨媒體檢索成為了人工智能的重要應(yīng)用之一??缑襟w檢索是一種新的檢索形式,能夠根據(jù)任意媒體類(lèi)型的用戶查詢,返回具有相關(guān)語(yǔ)義而媒體類(lèi)型不同的檢索結(jié)果。如用戶可以通過(guò)一張圖像作為查詢檢索相關(guān)的文本,或以文本為查詢檢索符合其描述的圖像。與單媒體檢索相比,跨媒體檢索能夠?yàn)榛ヂ?lián)網(wǎng)用戶提供更加靈活的檢索體驗(yàn),并為多媒體數(shù)據(jù)的統(tǒng)一管理提供技術(shù)支撐。然而,不同媒體類(lèi)型的計(jì)算機(jī)特征表示形式往往不同,構(gòu)成了“媒體鴻溝”,使得跨媒體檢索面臨重要挑戰(zhàn)。針對(duì)該問(wèn)題,現(xiàn)有的主流方法是統(tǒng)一表征學(xué)習(xí),即為不同媒體類(lèi)型學(xué)習(xí)一個(gè)統(tǒng)一的語(yǔ)義空間,進(jìn)而利用常用的距離度量等方式實(shí)現(xiàn)跨媒體檢索。在該空間中,數(shù)據(jù)的距離取決于其語(yǔ)義的相似程度,而與媒體類(lèi)型無(wú)關(guān)。早期工作主要利用統(tǒng)計(jì)分析方法學(xué)習(xí)不同媒體到統(tǒng)一空間的線性映射矩陣。如典型相關(guān)分析(canonicalcorrelationanalysis,簡(jiǎn)稱(chēng)cca)方法能夠?qū)W習(xí)得到最大化兩種媒體數(shù)據(jù)關(guān)聯(lián)的子空間,進(jìn)而利用相同維度的統(tǒng)一表征來(lái)表示不同媒體的數(shù)據(jù)。rasiwasia等人在文獻(xiàn)“anewapproachtocross-modalmultimediaretrieval”中提出了高層語(yǔ)義映射方法,先利用cca學(xué)習(xí)兩種媒體的統(tǒng)一空間,再使用邏輯回歸方法在此空間中得到高層語(yǔ)義表示作為最終的統(tǒng)一表征。該方法在cca的基礎(chǔ)上利用了概念類(lèi)別標(biāo)注信息,因此學(xué)習(xí)到的統(tǒng)一表征具有更好的語(yǔ)義辨別能力。peng等人在文獻(xiàn)“semi-supervisedcross-mediafeaturelearningwithunifiedpatchgraphregularization”中提出了s2upg方法,利用同一個(gè)超圖聯(lián)合建模多種媒體的整體數(shù)據(jù)與語(yǔ)義單元,從而能夠深入挖掘細(xì)粒度的跨媒體關(guān)聯(lián)關(guān)系,取得了更高的檢索準(zhǔn)確率。近年來(lái),深度學(xué)習(xí)在多媒體檢索領(lǐng)域發(fā)揮了重要作用,基于深度網(wǎng)絡(luò)的跨媒體統(tǒng)一表征學(xué)習(xí)成為了一個(gè)研究熱點(diǎn)。如ngiam在文獻(xiàn)“multimodaldeeplearning”中提出多模態(tài)自編碼器方法,通過(guò)同時(shí)考慮單媒體重構(gòu)誤差與跨媒體關(guān)聯(lián)關(guān)系,利用一個(gè)共享編碼層得到統(tǒng)一表征。srivastava等人在文獻(xiàn)“l(fā)earningrepresentationsformultimodaldatawithdeepbeliefnets”中提出多模態(tài)深度信念網(wǎng)絡(luò),通過(guò)一個(gè)關(guān)聯(lián)rbm連接兩個(gè)分離的深度信念網(wǎng)絡(luò)來(lái)得到統(tǒng)一表征。peng等人在文獻(xiàn)“cross-mediaretrievalbymultimodalrepresentationfusionwithdeepnetworks”中提出了跨媒體多深度網(wǎng)絡(luò)方法,通過(guò)結(jié)合多種深度網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)分析媒體內(nèi)、媒體間的關(guān)聯(lián)關(guān)系并進(jìn)行層次化融合,取得了更好的效果。深度學(xué)習(xí)方法的實(shí)際效果往往與訓(xùn)練數(shù)據(jù)的規(guī)模密切相關(guān),而現(xiàn)有基于深度網(wǎng)絡(luò)的跨媒體檢索方法面臨著訓(xùn)練數(shù)據(jù)不足的挑戰(zhàn)。在單媒體檢索中,研究者常常基于遷移學(xué)習(xí)思想,將大規(guī)模數(shù)據(jù)集(源域)中的知識(shí)遷移到訓(xùn)練數(shù)據(jù)不足的具體任務(wù)(目標(biāo)域)中,從而緩解訓(xùn)練數(shù)據(jù)不足的問(wèn)題。如基于imagenet圖像數(shù)據(jù)集的預(yù)訓(xùn)練模型被廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)問(wèn)題,顯著提高了模型的效果。這些大規(guī)模單媒體數(shù)據(jù)集包含的豐富語(yǔ)義知識(shí)不但能夠指導(dǎo)單媒體的語(yǔ)義學(xué)習(xí),也能夠提供與媒體類(lèi)型無(wú)關(guān)的高層語(yǔ)義信息以促進(jìn)跨媒體語(yǔ)義學(xué)習(xí),對(duì)于跨媒體檢索具有重要價(jià)值?,F(xiàn)有方法往往只能利用跨媒體數(shù)據(jù)集進(jìn)行訓(xùn)練,由于訓(xùn)練數(shù)據(jù)不足而容易造成過(guò)擬合,降低了檢索效果;或者只在同種媒體間進(jìn)行知識(shí)遷移,忽略了不同媒體間的知識(shí)遷移,使得知識(shí)的遷移過(guò)程不夠全面,限制了統(tǒng)一表征學(xué)習(xí)的效果。技術(shù)實(shí)現(xiàn)要素:針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,能夠在一個(gè)統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)中實(shí)現(xiàn)單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移。該方法以源域、目標(biāo)域中共有的媒體類(lèi)型為橋梁,將單媒體源域中的語(yǔ)義知識(shí)同時(shí)遷移到跨媒體目標(biāo)域的所有媒體類(lèi)型中,并通過(guò)網(wǎng)絡(luò)層共享的方式強(qiáng)調(diào)了目標(biāo)域中的內(nèi)在跨媒體關(guān)聯(lián)關(guān)系,使得統(tǒng)一表征更加適合于目標(biāo)域上的跨媒體檢索任務(wù),提高了檢索準(zhǔn)確率。為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案如下:一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征,從而實(shí)現(xiàn)跨媒體檢索,包括以下步驟:(1)建立包含一種媒體類(lèi)型的單媒體數(shù)據(jù)庫(kù),同時(shí)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)庫(kù),并將所述跨媒體數(shù)據(jù)庫(kù)中的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集;(2)利用單媒體數(shù)據(jù)庫(kù)和跨媒體數(shù)據(jù)庫(kù)的訓(xùn)練集中的數(shù)據(jù)訓(xùn)練混合遷移網(wǎng)絡(luò),用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征;(3)利用訓(xùn)練好的混合遷移網(wǎng)絡(luò),得到跨媒體數(shù)據(jù)庫(kù)的測(cè)試集中數(shù)據(jù)的統(tǒng)一表征,進(jìn)而計(jì)算跨媒體相似性;(4)使用跨媒體測(cè)試集中的一種媒體類(lèi)型作為查詢集,另一種媒體類(lèi)型作為檢索庫(kù),利用查詢集中的每個(gè)數(shù)據(jù)作為樣例,與檢索庫(kù)中的每個(gè)數(shù)據(jù)計(jì)算相似性,根據(jù)相似性得到檢索結(jié)果。進(jìn)一步,上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,所述步驟(1)中的單媒體數(shù)據(jù)庫(kù)包括一種媒體類(lèi)型;跨媒體數(shù)據(jù)庫(kù)包括至少兩種媒體類(lèi)型,其中一種為單媒體數(shù)據(jù)庫(kù)的媒體類(lèi)型。進(jìn)一步,上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,所述步驟(2)中的混合遷移網(wǎng)絡(luò)結(jié)構(gòu),包括媒體共享遷移子網(wǎng)絡(luò)、網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)兩個(gè)部分。所述媒體共享遷移子網(wǎng)絡(luò)以源域、目標(biāo)域中的共有媒體為橋梁,聯(lián)合進(jìn)行單媒體遷移和跨媒體遷移,使得單媒體源域中的知識(shí)能夠被同時(shí)遷移到目標(biāo)域中的所有媒體;所述網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)利用網(wǎng)絡(luò)層共享的方式,使得屬于相同語(yǔ)義類(lèi)別的跨媒體數(shù)據(jù)生成相近的統(tǒng)一表征,這樣遷移過(guò)程充分考慮了蘊(yùn)含于目標(biāo)域中的跨媒體關(guān)聯(lián)關(guān)系,提高統(tǒng)一表征的檢索效果。進(jìn)一步,上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,所述步驟(3)的相似性取決于跨媒體數(shù)據(jù)的統(tǒng)一表征之間的距離。統(tǒng)一表征間的距離越小,則相似性越大。進(jìn)一步,上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,所述步驟(4)的跨媒體檢索方式為,使用測(cè)試集中的一種媒體類(lèi)型數(shù)據(jù)作為查詢,檢索測(cè)試集中另一種媒體類(lèi)型數(shù)據(jù)的相關(guān)結(jié)果。通過(guò)步驟(3)中的相似性計(jì)算方法計(jì)算相似性并從大到小排序,得到最終檢索結(jié)果列表。本發(fā)明的效果在于:與現(xiàn)有方法相比,本方法能夠?qū)崿F(xiàn)單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移,不僅包括同種媒體之間的知識(shí)遷移,也包括不同媒體類(lèi)型之間的知識(shí)遷移;同時(shí)在知識(shí)遷移過(guò)程中,能夠充分挖掘目標(biāo)域所蘊(yùn)含的跨媒體語(yǔ)義關(guān)聯(lián)關(guān)系。在統(tǒng)一表征的學(xué)習(xí)過(guò)程中,本方法同時(shí)利用源域的語(yǔ)義知識(shí)與目標(biāo)域的跨媒體關(guān)聯(lián),提高了跨媒體檢索的準(zhǔn)確率。本方法之所以具有上述發(fā)明效果,其原因在于:通過(guò)媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)的協(xié)同建模,在實(shí)現(xiàn)從單媒體到跨媒體的知識(shí)遷移的同時(shí),也通過(guò)強(qiáng)調(diào)目標(biāo)域的語(yǔ)義關(guān)聯(lián)生成更加適合跨媒體檢索的統(tǒng)一表征。其中媒體共享遷移子網(wǎng)絡(luò)以源域和目標(biāo)域的共有媒體為橋梁,使得單媒體遷移與跨媒體遷移能夠聯(lián)合進(jìn)行;網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)則通過(guò)層共享的方式增強(qiáng)跨媒體關(guān)聯(lián),使得統(tǒng)一表征更加符合跨媒體目標(biāo)域上已知的語(yǔ)義關(guān)聯(lián)。上述兩個(gè)子網(wǎng)絡(luò)構(gòu)成端到端的聯(lián)合結(jié)構(gòu),充分利用了單媒體源域中的語(yǔ)義知識(shí)促進(jìn)跨媒體目標(biāo)域上的統(tǒng)一表征學(xué)習(xí),提高了跨媒體檢索的準(zhǔn)確率。附圖說(shuō)明圖1是本發(fā)明的基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法的流程示意圖。圖2是本發(fā)明的混合遷移網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。本發(fā)明的一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,其流程如圖1所示,包含以下步驟:(1)建立包含一種媒體類(lèi)型的單媒體數(shù)據(jù)庫(kù),同時(shí)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)庫(kù),并將所述跨媒體數(shù)據(jù)庫(kù)中的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。本實(shí)施例中,所述的單媒體數(shù)據(jù)庫(kù)包含的媒體類(lèi)型為圖像,跨媒體數(shù)據(jù)庫(kù)包含的媒體類(lèi)型為圖像、文本。對(duì)于圖像,在網(wǎng)絡(luò)中采用基于alexnet的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取器,本方法同樣支持其他用于圖像特征提取的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如vgg-19等;對(duì)于文本,采用詞頻向量作為特征。本方法同樣支持其它種類(lèi)的媒體和特征,需對(duì)應(yīng)替換相應(yīng)的特征提取網(wǎng)絡(luò)或方法。使用ds表示單媒體數(shù)據(jù)庫(kù)(作為源域),ds={is}。其中表示帶標(biāo)注的圖像,為第r個(gè)圖像,其標(biāo)注的類(lèi)別為m表示單媒體數(shù)據(jù)庫(kù)中的圖像數(shù)量。跨媒體數(shù)據(jù)庫(kù)(作為目標(biāo)域)表示為其中帶標(biāo)注的圖像/文本對(duì)為{it,tt},未標(biāo)注的圖像/文本對(duì)為與單媒體數(shù)據(jù)庫(kù)類(lèi)似,定義和其中為第p個(gè)圖像,若其為帶標(biāo)注數(shù)據(jù),則標(biāo)注的類(lèi)別為為第q個(gè)帶標(biāo)注文本,若其為帶標(biāo)注數(shù)據(jù),則標(biāo)注的類(lèi)別為nl表示帶標(biāo)注的圖像/文本對(duì)數(shù)量,n表示帶標(biāo)注和未標(biāo)注的圖像/文本對(duì)總量。將帶標(biāo)注的數(shù)據(jù)作為訓(xùn)練集,未標(biāo)注的數(shù)據(jù)作為測(cè)試集。學(xué)習(xí)的目標(biāo)是將ds中包含的知識(shí)遷移到dt中,并為學(xué)習(xí)統(tǒng)一表征與進(jìn)而利用統(tǒng)一表征進(jìn)行跨媒體檢索任務(wù),其中為第p個(gè)圖像的統(tǒng)一表征,為第q個(gè)文本的統(tǒng)一表征。(2)利用單媒體數(shù)據(jù)庫(kù)和跨媒體數(shù)據(jù)庫(kù)的訓(xùn)練集中的數(shù)據(jù)訓(xùn)練混合遷移網(wǎng)絡(luò),用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征。該步驟所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包括兩個(gè)子網(wǎng)絡(luò):媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)。圖中conv1~conv5為卷積層,fc6~fc10為全連接層,softmax為分類(lèi)器。在訓(xùn)練過(guò)程中,整個(gè)網(wǎng)絡(luò)共有三路輸入:源域圖像、目標(biāo)域圖像、目標(biāo)域文本。對(duì)于媒體共享遷移子網(wǎng)絡(luò),三路輸入分別經(jīng)過(guò)兩層全連接網(wǎng)絡(luò)處理,聯(lián)合考慮單媒體遷移和跨媒體遷移兩個(gè)方面,從而實(shí)現(xiàn)從單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移。其中,單媒體遷移發(fā)生在源域圖像和目標(biāo)域圖像兩路網(wǎng)絡(luò)之間。在本實(shí)施例中,采用特征適應(yīng)(featureadaption)方式進(jìn)行,目標(biāo)是最小化兩個(gè)域中圖像數(shù)據(jù)的最大平均差異(maximummeandiscrepancy,簡(jiǎn)稱(chēng)mmd)。令a與b為兩個(gè)域上同種媒體數(shù)據(jù)的不同分布,則二者的mmd在再生希爾伯特空間hk中的平方形式定義如下:其中,is和it分別表示源域、目標(biāo)域的輸入圖像,表示深度網(wǎng)絡(luò)中對(duì)應(yīng)某一層的輸出,ea和eb表示源域、目標(biāo)域上的期望。然后,構(gòu)建單媒體遷移損失項(xiàng)如下:其中,l6與l7為源域圖像、目標(biāo)域圖像兩路網(wǎng)絡(luò)中對(duì)應(yīng)的全連接層,即圖2中的fc6-s/fc6-i與fc7-s/fc-7i。此外,源域圖像網(wǎng)絡(luò)也需要在is上進(jìn)行微調(diào)以挖掘源域和目標(biāo)域的語(yǔ)義關(guān)聯(lián)信息。為此建立源域監(jiān)督損失項(xiàng):其中m表示源域中有標(biāo)注的圖像數(shù)量,為softmax損失項(xiàng),定義如下:其中θ為網(wǎng)絡(luò)參數(shù),y為數(shù)據(jù)x的標(biāo)簽,c為x所有可能的標(biāo)簽數(shù)量。1{y=j(luò)}為指示函數(shù),若y=j(luò)則返回1,否則為0??缑襟w遷移發(fā)生在目標(biāo)域圖像與目標(biāo)域文本之間。認(rèn)為每個(gè)圖像/文本對(duì)具有相關(guān)的高層語(yǔ)義,因此使它們的網(wǎng)絡(luò)層輸出相似以實(shí)現(xiàn)跨媒體知識(shí)遷移;令每個(gè)圖像/文本對(duì)為定義跨媒體差異如下:據(jù)此建立跨媒體遷移損失項(xiàng)如下:在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,目標(biāo)域圖像一路網(wǎng)絡(luò)作為橋梁將單媒體遷移與跨媒體遷移聯(lián)合起來(lái),實(shí)現(xiàn)了單媒體源域到跨媒體目標(biāo)域中所有媒體類(lèi)型的知識(shí)遷移。對(duì)于網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò),其包含目標(biāo)域圖像和目標(biāo)域文本兩路輸入,且兩路輸入共享兩個(gè)全連接層,形成網(wǎng)絡(luò)層共享結(jié)構(gòu)。為維持跨媒體語(yǔ)義關(guān)聯(lián)信息,使用上述提到的softmax損失項(xiàng)對(duì)每種媒體的輸出進(jìn)行建模,則跨媒體關(guān)聯(lián)損失項(xiàng)為:其中,fs為前述softmax損失,與分別為圖像、文本的監(jiān)督約束項(xiàng)。由于整個(gè)網(wǎng)絡(luò)構(gòu)成端到端的結(jié)構(gòu),媒體共享遷移子網(wǎng)絡(luò)、網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)可以通過(guò)反向傳播算法進(jìn)行聯(lián)合訓(xùn)練,從而使得遷移過(guò)程保持了目標(biāo)域中的跨媒體關(guān)聯(lián),更適合跨媒體檢索任務(wù)。(3)利用訓(xùn)練好的混合遷移網(wǎng)絡(luò),得到跨媒體數(shù)據(jù)庫(kù)的測(cè)試集中數(shù)據(jù)的統(tǒng)一表征,進(jìn)而計(jì)算跨媒體數(shù)據(jù)的相似性。由于混合遷移網(wǎng)絡(luò)在(2)中已經(jīng)訓(xùn)練完畢,該網(wǎng)絡(luò)能夠直接以一種媒體的數(shù)據(jù)作為輸入,得到其統(tǒng)一表征,且無(wú)需單媒體源作為輸入??缑襟w數(shù)據(jù)的相似性取決于統(tǒng)一表征之間的距離。統(tǒng)一表征間的距離越小,則相似性越大。在本實(shí)施例中,通過(guò)計(jì)算兩個(gè)不同媒體數(shù)據(jù)的統(tǒng)一表征之間的余弦距離來(lái)反映二者的相似性。本發(fā)明同樣支持其他類(lèi)型的距離度量,如歐氏距離等。(4)使用步驟(1)中跨媒體測(cè)試集中的一種媒體類(lèi)型作為查詢集,另一種媒體類(lèi)型作為檢索庫(kù)。利用查詢集中的每個(gè)數(shù)據(jù)作為樣例,按照步驟(3)中的相似性計(jì)算方法,與檢索庫(kù)中的每個(gè)數(shù)據(jù)計(jì)算相似性并從大到小排序,返回檢索結(jié)果列表。下列實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法,可以取得更高的檢索準(zhǔn)確率。本實(shí)施例中,作為源域的單媒體數(shù)據(jù)庫(kù)為常用的具有約120萬(wàn)張帶標(biāo)注圖像的imagenet數(shù)據(jù)集子集ilsvrc2012,跨媒體數(shù)據(jù)庫(kù)則為wikipedia跨媒體數(shù)據(jù)集。wikipedia數(shù)據(jù)集包括2866個(gè)圖像/文本對(duì),共分為10個(gè)類(lèi)別,每一個(gè)圖像/文本對(duì)具有對(duì)應(yīng)關(guān)系。該數(shù)據(jù)集由文獻(xiàn)“anewapproachtocross-modalmultimediaretrieval”(作者n.rasiwasia,j.pereira,e.coviello,g.doyle,g.lanckriet,r.levyandn.vasconcelos)提出,是跨媒體檢索中最常用的數(shù)據(jù)集之一。按照文獻(xiàn)“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的劃分方式,將wikipedia數(shù)據(jù)集劃分為包含2173個(gè)圖像/文本對(duì)的訓(xùn)練集,462個(gè)圖像/文本對(duì)的測(cè)試集,以及231個(gè)圖像/文本對(duì)的驗(yàn)證集。其中訓(xùn)練集、測(cè)試集直接對(duì)應(yīng)步驟(1)中的跨媒體數(shù)據(jù)庫(kù)訓(xùn)練集、測(cè)試集,驗(yàn)證集供對(duì)比方法調(diào)節(jié)參數(shù)使用,而本發(fā)明不需要驗(yàn)證集作為輸入。測(cè)試了以下3種方法作為實(shí)驗(yàn)對(duì)比:現(xiàn)有方法一:文獻(xiàn)“l(fā)earningcross-mediajointrepresentationwithsparseandsemi-supervisedregularization”(作者x.zhai,y.pengandj.xiao)中的統(tǒng)一表示學(xué)習(xí)(jrl)方法,通過(guò)分析不同媒體的關(guān)聯(lián)關(guān)系及高層語(yǔ)義信息,為其學(xué)習(xí)統(tǒng)一表征映射矩陣;現(xiàn)有方法二:文獻(xiàn)“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的一致自編碼器(corr-ae)方法,構(gòu)建深度自編碼器網(wǎng)絡(luò),以兩種媒體類(lèi)型數(shù)據(jù)為輸入,同時(shí)建??缑襟w關(guān)聯(lián)關(guān)系及重構(gòu)誤差,在編碼層得到不同媒體的統(tǒng)一表征;現(xiàn)有方法三:文獻(xiàn)“cross-modalretrievalwithcnnvisualfeatures:anewbaseline”(作者y.wei,y.zhao,c.lu,s.wei,l.liu,z.zhu,ands.yan)中提出的方法,對(duì)圖像、文本分別構(gòu)建一路網(wǎng)絡(luò)進(jìn)行高層語(yǔ)義學(xué)習(xí),以語(yǔ)義類(lèi)別概率向量作為統(tǒng)一表征進(jìn)行跨媒體檢索。其中圖像一路采用ilsvrc2012預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型進(jìn)行訓(xùn)練。本發(fā)明:本實(shí)施例的方法。在本實(shí)驗(yàn)中,采用信息檢索領(lǐng)域常用的平均準(zhǔn)確率均值(meanaverageprecision,簡(jiǎn)稱(chēng)map)作為指標(biāo)來(lái)評(píng)測(cè)跨媒體檢索的準(zhǔn)確性,map值越大說(shuō)明跨媒體檢索的結(jié)果越好。表1.本發(fā)明的實(shí)驗(yàn)結(jié)果展示方法圖像檢索文本文本檢索圖像平均現(xiàn)有方法一0.4080.3530.381現(xiàn)有方法二0.3730.3570.365現(xiàn)有方法三0.4580.3450.402本發(fā)明0.5080.4320.470從表1可以看出,本發(fā)明在圖像檢索文本、文本檢索圖像兩個(gè)任務(wù)中,對(duì)比現(xiàn)有方法都取得了準(zhǔn)確率的提高。方法一學(xué)習(xí)線性映射得到不同媒體數(shù)據(jù)的統(tǒng)一表征,難以充分建??缑襟w數(shù)據(jù)的復(fù)雜關(guān)聯(lián)。對(duì)比方法二和方法三,它們都是基于深度學(xué)習(xí)的方法,但方法二只利用了跨媒體數(shù)據(jù)的成對(duì)關(guān)聯(lián),未有效建模其高層語(yǔ)義信息;方法三采用了遷移學(xué)習(xí)思想,但只涉及單媒體的遷移,忽視了跨媒體的知識(shí)遷移過(guò)程,因此未能充分利用單媒體源域中的豐富語(yǔ)義知識(shí)。本發(fā)明通過(guò)媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)的協(xié)同建模,既實(shí)現(xiàn)了從單媒體到跨媒體的知識(shí)遷移,也通過(guò)強(qiáng)調(diào)目標(biāo)域的語(yǔ)義關(guān)聯(lián)以生成更加適合跨媒體檢索的統(tǒng)一表征。兩個(gè)子網(wǎng)絡(luò)構(gòu)成端到端的聯(lián)合結(jié)構(gòu),充分利用單媒體源域中的語(yǔ)義知識(shí)促進(jìn)跨媒體目標(biāo)域上的統(tǒng)一表征學(xué)習(xí),提高了跨媒體檢索的準(zhǔn)確率。除以上實(shí)施例外,本發(fā)明方案的具體步驟也可以采用其它實(shí)施方式,如在步驟(1)中可使用其他媒體類(lèi)型(如文本)的單媒體數(shù)據(jù)庫(kù),且跨媒體數(shù)據(jù)庫(kù)不限于圖像、文本兩種媒體類(lèi)型;在步驟(2)中,為各媒體類(lèi)型采用其他種類(lèi)的特征表示,或增加、減少網(wǎng)絡(luò)結(jié)構(gòu)中卷積層和全連接層的個(gè)數(shù),使用其他分類(lèi)器替代softmax分類(lèi)器等,也屬于本發(fā)明的變形方式。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。當(dāng)前第1頁(yè)12