一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法與流程

文檔序號(hào)：11199309閱讀：449來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于多媒體檢索領(lǐng)域，具體涉及一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法。
背景技術(shù)：
：隨著人類(lèi)文明的進(jìn)步和科學(xué)技術(shù)的發(fā)展，圖像、文本、視頻、音頻等多媒體數(shù)據(jù)快速增長(zhǎng)，已逐漸成為了信息存儲(chǔ)與傳播的主要形式。在這種情況下，跨媒體檢索成為了人工智能的重要應(yīng)用之一?？缑襟w檢索是一種新的檢索形式，能夠根據(jù)任意媒體類(lèi)型的用戶查詢，返回具有相關(guān)語(yǔ)義而媒體類(lèi)型不同的檢索結(jié)果。如用戶可以通過(guò)一張圖像作為查詢檢索相關(guān)的文本，或以文本為查詢檢索符合其描述的圖像。與單媒體檢索相比，跨媒體檢索能夠?yàn)榛ヂ?lián)網(wǎng)用戶提供更加靈活的檢索體驗(yàn)，并為多媒體數(shù)據(jù)的統(tǒng)一管理提供技術(shù)支撐。然而，不同媒體類(lèi)型的計(jì)算機(jī)特征表示形式往往不同，構(gòu)成了“媒體鴻溝”，使得跨媒體檢索面臨重要挑戰(zhàn)。針對(duì)該問(wèn)題，現(xiàn)有的主流方法是統(tǒng)一表征學(xué)習(xí)，即為不同媒體類(lèi)型學(xué)習(xí)一個(gè)統(tǒng)一的語(yǔ)義空間，進(jìn)而利用常用的距離度量等方式實(shí)現(xiàn)跨媒體檢索。在該空間中，數(shù)據(jù)的距離取決于其語(yǔ)義的相似程度，而與媒體類(lèi)型無(wú)關(guān)。早期工作主要利用統(tǒng)計(jì)分析方法學(xué)習(xí)不同媒體到統(tǒng)一空間的線性映射矩陣。如典型相關(guān)分析(canonicalcorrelationanalysis，簡(jiǎn)稱(chēng)cca)方法能夠?qū)W習(xí)得到最大化兩種媒體數(shù)據(jù)關(guān)聯(lián)的子空間，進(jìn)而利用相同維度的統(tǒng)一表征來(lái)表示不同媒體的數(shù)據(jù)。rasiwasia等人在文獻(xiàn)“anewapproachtocross-modalmultimediaretrieval”中提出了高層語(yǔ)義映射方法，先利用cca學(xué)習(xí)兩種媒體的統(tǒng)一空間，再使用邏輯回歸方法在此空間中得到高層語(yǔ)義表示作為最終的統(tǒng)一表征。該方法在cca的基礎(chǔ)上利用了概念類(lèi)別標(biāo)注信息，因此學(xué)習(xí)到的統(tǒng)一表征具有更好的語(yǔ)義辨別能力。peng等人在文獻(xiàn)“semi-supervisedcross-mediafeaturelearningwithunifiedpatchgraphregularization”中提出了s2upg方法，利用同一個(gè)超圖聯(lián)合建模多種媒體的整體數(shù)據(jù)與語(yǔ)義單元，從而能夠深入挖掘細(xì)粒度的跨媒體關(guān)聯(lián)關(guān)系，取得了更高的檢索準(zhǔn)確率。近年來(lái)，深度學(xué)習(xí)在多媒體檢索領(lǐng)域發(fā)揮了重要作用，基于深度網(wǎng)絡(luò)的跨媒體統(tǒng)一表征學(xué)習(xí)成為了一個(gè)研究熱點(diǎn)。如ngiam在文獻(xiàn)“multimodaldeeplearning”中提出多模態(tài)自編碼器方法，通過(guò)同時(shí)考慮單媒體重構(gòu)誤差與跨媒體關(guān)聯(lián)關(guān)系，利用一個(gè)共享編碼層得到統(tǒng)一表征。srivastava等人在文獻(xiàn)“l(fā)earningrepresentationsformultimodaldatawithdeepbeliefnets”中提出多模態(tài)深度信念網(wǎng)絡(luò)，通過(guò)一個(gè)關(guān)聯(lián)rbm連接兩個(gè)分離的深度信念網(wǎng)絡(luò)來(lái)得到統(tǒng)一表征。peng等人在文獻(xiàn)“cross-mediaretrievalbymultimodalrepresentationfusionwithdeepnetworks”中提出了跨媒體多深度網(wǎng)絡(luò)方法，通過(guò)結(jié)合多種深度網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)分析媒體內(nèi)、媒體間的關(guān)聯(lián)關(guān)系并進(jìn)行層次化融合，取得了更好的效果。深度學(xué)習(xí)方法的實(shí)際效果往往與訓(xùn)練數(shù)據(jù)的規(guī)模密切相關(guān)，而現(xiàn)有基于深度網(wǎng)絡(luò)的跨媒體檢索方法面臨著訓(xùn)練數(shù)據(jù)不足的挑戰(zhàn)。在單媒體檢索中，研究者常常基于遷移學(xué)習(xí)思想，將大規(guī)模數(shù)據(jù)集(源域)中的知識(shí)遷移到訓(xùn)練數(shù)據(jù)不足的具體任務(wù)(目標(biāo)域)中，從而緩解訓(xùn)練數(shù)據(jù)不足的問(wèn)題。如基于imagenet圖像數(shù)據(jù)集的預(yù)訓(xùn)練模型被廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)問(wèn)題，顯著提高了模型的效果。這些大規(guī)模單媒體數(shù)據(jù)集包含的豐富語(yǔ)義知識(shí)不但能夠指導(dǎo)單媒體的語(yǔ)義學(xué)習(xí)，也能夠提供與媒體類(lèi)型無(wú)關(guān)的高層語(yǔ)義信息以促進(jìn)跨媒體語(yǔ)義學(xué)習(xí)，對(duì)于跨媒體檢索具有重要價(jià)值?，F(xiàn)有方法往往只能利用跨媒體數(shù)據(jù)集進(jìn)行訓(xùn)練，由于訓(xùn)練數(shù)據(jù)不足而容易造成過(guò)擬合，降低了檢索效果；或者只在同種媒體間進(jìn)行知識(shí)遷移，忽略了不同媒體間的知識(shí)遷移，使得知識(shí)的遷移過(guò)程不夠全面，限制了統(tǒng)一表征學(xué)習(xí)的效果。技術(shù)實(shí)現(xiàn)要素：針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提出了一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，能夠在一個(gè)統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)中實(shí)現(xiàn)單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移。該方法以源域、目標(biāo)域中共有的媒體類(lèi)型為橋梁，將單媒體源域中的語(yǔ)義知識(shí)同時(shí)遷移到跨媒體目標(biāo)域的所有媒體類(lèi)型中，并通過(guò)網(wǎng)絡(luò)層共享的方式強(qiáng)調(diào)了目標(biāo)域中的內(nèi)在跨媒體關(guān)聯(lián)關(guān)系，使得統(tǒng)一表征更加適合于目標(biāo)域上的跨媒體檢索任務(wù)，提高了檢索準(zhǔn)確率。為達(dá)到以上目的，本發(fā)明采用的技術(shù)方案如下：一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征，從而實(shí)現(xiàn)跨媒體檢索，包括以下步驟：(1)建立包含一種媒體類(lèi)型的單媒體數(shù)據(jù)庫(kù)，同時(shí)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)庫(kù)，并將所述跨媒體數(shù)據(jù)庫(kù)中的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集；(2)利用單媒體數(shù)據(jù)庫(kù)和跨媒體數(shù)據(jù)庫(kù)的訓(xùn)練集中的數(shù)據(jù)訓(xùn)練混合遷移網(wǎng)絡(luò)，用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征；(3)利用訓(xùn)練好的混合遷移網(wǎng)絡(luò)，得到跨媒體數(shù)據(jù)庫(kù)的測(cè)試集中數(shù)據(jù)的統(tǒng)一表征，進(jìn)而計(jì)算跨媒體相似性；(4)使用跨媒體測(cè)試集中的一種媒體類(lèi)型作為查詢集，另一種媒體類(lèi)型作為檢索庫(kù)，利用查詢集中的每個(gè)數(shù)據(jù)作為樣例，與檢索庫(kù)中的每個(gè)數(shù)據(jù)計(jì)算相似性，根據(jù)相似性得到檢索結(jié)果。進(jìn)一步，上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，所述步驟(1)中的單媒體數(shù)據(jù)庫(kù)包括一種媒體類(lèi)型；跨媒體數(shù)據(jù)庫(kù)包括至少兩種媒體類(lèi)型，其中一種為單媒體數(shù)據(jù)庫(kù)的媒體類(lèi)型。進(jìn)一步，上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，所述步驟(2)中的混合遷移網(wǎng)絡(luò)結(jié)構(gòu)，包括媒體共享遷移子網(wǎng)絡(luò)、網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)兩個(gè)部分。所述媒體共享遷移子網(wǎng)絡(luò)以源域、目標(biāo)域中的共有媒體為橋梁，聯(lián)合進(jìn)行單媒體遷移和跨媒體遷移，使得單媒體源域中的知識(shí)能夠被同時(shí)遷移到目標(biāo)域中的所有媒體；所述網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)利用網(wǎng)絡(luò)層共享的方式，使得屬于相同語(yǔ)義類(lèi)別的跨媒體數(shù)據(jù)生成相近的統(tǒng)一表征，這樣遷移過(guò)程充分考慮了蘊(yùn)含于目標(biāo)域中的跨媒體關(guān)聯(lián)關(guān)系，提高統(tǒng)一表征的檢索效果。進(jìn)一步，上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，所述步驟(3)的相似性取決于跨媒體數(shù)據(jù)的統(tǒng)一表征之間的距離。統(tǒng)一表征間的距離越小，則相似性越大。進(jìn)一步，上述一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，所述步驟(4)的跨媒體檢索方式為，使用測(cè)試集中的一種媒體類(lèi)型數(shù)據(jù)作為查詢，檢索測(cè)試集中另一種媒體類(lèi)型數(shù)據(jù)的相關(guān)結(jié)果。通過(guò)步驟(3)中的相似性計(jì)算方法計(jì)算相似性并從大到小排序，得到最終檢索結(jié)果列表。本發(fā)明的效果在于：與現(xiàn)有方法相比，本方法能夠?qū)崿F(xiàn)單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移，不僅包括同種媒體之間的知識(shí)遷移，也包括不同媒體類(lèi)型之間的知識(shí)遷移；同時(shí)在知識(shí)遷移過(guò)程中，能夠充分挖掘目標(biāo)域所蘊(yùn)含的跨媒體語(yǔ)義關(guān)聯(lián)關(guān)系。在統(tǒng)一表征的學(xué)習(xí)過(guò)程中，本方法同時(shí)利用源域的語(yǔ)義知識(shí)與目標(biāo)域的跨媒體關(guān)聯(lián)，提高了跨媒體檢索的準(zhǔn)確率。本方法之所以具有上述發(fā)明效果，其原因在于：通過(guò)媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)的協(xié)同建模，在實(shí)現(xiàn)從單媒體到跨媒體的知識(shí)遷移的同時(shí)，也通過(guò)強(qiáng)調(diào)目標(biāo)域的語(yǔ)義關(guān)聯(lián)生成更加適合跨媒體檢索的統(tǒng)一表征。其中媒體共享遷移子網(wǎng)絡(luò)以源域和目標(biāo)域的共有媒體為橋梁，使得單媒體遷移與跨媒體遷移能夠聯(lián)合進(jìn)行；網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)則通過(guò)層共享的方式增強(qiáng)跨媒體關(guān)聯(lián)，使得統(tǒng)一表征更加符合跨媒體目標(biāo)域上已知的語(yǔ)義關(guān)聯(lián)。上述兩個(gè)子網(wǎng)絡(luò)構(gòu)成端到端的聯(lián)合結(jié)構(gòu)，充分利用了單媒體源域中的語(yǔ)義知識(shí)促進(jìn)跨媒體目標(biāo)域上的統(tǒng)一表征學(xué)習(xí)，提高了跨媒體檢索的準(zhǔn)確率。附圖說(shuō)明圖1是本發(fā)明的基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法的流程示意圖。圖2是本發(fā)明的混合遷移網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。本發(fā)明的一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，其流程如圖1所示，包含以下步驟：(1)建立包含一種媒體類(lèi)型的單媒體數(shù)據(jù)庫(kù)，同時(shí)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)庫(kù)，并將所述跨媒體數(shù)據(jù)庫(kù)中的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。本實(shí)施例中，所述的單媒體數(shù)據(jù)庫(kù)包含的媒體類(lèi)型為圖像，跨媒體數(shù)據(jù)庫(kù)包含的媒體類(lèi)型為圖像、文本。對(duì)于圖像，在網(wǎng)絡(luò)中采用基于alexnet的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取器，本方法同樣支持其他用于圖像特征提取的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如vgg-19等；對(duì)于文本，采用詞頻向量作為特征。本方法同樣支持其它種類(lèi)的媒體和特征，需對(duì)應(yīng)替換相應(yīng)的特征提取網(wǎng)絡(luò)或方法。使用ds表示單媒體數(shù)據(jù)庫(kù)(作為源域)，ds＝{is}。其中表示帶標(biāo)注的圖像，為第r個(gè)圖像，其標(biāo)注的類(lèi)別為m表示單媒體數(shù)據(jù)庫(kù)中的圖像數(shù)量。跨媒體數(shù)據(jù)庫(kù)(作為目標(biāo)域)表示為其中帶標(biāo)注的圖像/文本對(duì)為{it,tt}，未標(biāo)注的圖像/文本對(duì)為與單媒體數(shù)據(jù)庫(kù)類(lèi)似，定義和其中為第p個(gè)圖像，若其為帶標(biāo)注數(shù)據(jù)，則標(biāo)注的類(lèi)別為為第q個(gè)帶標(biāo)注文本，若其為帶標(biāo)注數(shù)據(jù)，則標(biāo)注的類(lèi)別為nl表示帶標(biāo)注的圖像/文本對(duì)數(shù)量，n表示帶標(biāo)注和未標(biāo)注的圖像/文本對(duì)總量。將帶標(biāo)注的數(shù)據(jù)作為訓(xùn)練集，未標(biāo)注的數(shù)據(jù)作為測(cè)試集。學(xué)習(xí)的目標(biāo)是將ds中包含的知識(shí)遷移到dt中，并為學(xué)習(xí)統(tǒng)一表征與進(jìn)而利用統(tǒng)一表征進(jìn)行跨媒體檢索任務(wù)，其中為第p個(gè)圖像的統(tǒng)一表征，為第q個(gè)文本的統(tǒng)一表征。(2)利用單媒體數(shù)據(jù)庫(kù)和跨媒體數(shù)據(jù)庫(kù)的訓(xùn)練集中的數(shù)據(jù)訓(xùn)練混合遷移網(wǎng)絡(luò)，用于學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表征。該步驟所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，包括兩個(gè)子網(wǎng)絡(luò)：媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)。圖中conv1～conv5為卷積層，fc6～fc10為全連接層，softmax為分類(lèi)器。在訓(xùn)練過(guò)程中，整個(gè)網(wǎng)絡(luò)共有三路輸入：源域圖像、目標(biāo)域圖像、目標(biāo)域文本。對(duì)于媒體共享遷移子網(wǎng)絡(luò)，三路輸入分別經(jīng)過(guò)兩層全連接網(wǎng)絡(luò)處理，聯(lián)合考慮單媒體遷移和跨媒體遷移兩個(gè)方面，從而實(shí)現(xiàn)從單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移。其中，單媒體遷移發(fā)生在源域圖像和目標(biāo)域圖像兩路網(wǎng)絡(luò)之間。在本實(shí)施例中，采用特征適應(yīng)(featureadaption)方式進(jìn)行，目標(biāo)是最小化兩個(gè)域中圖像數(shù)據(jù)的最大平均差異(maximummeandiscrepancy，簡(jiǎn)稱(chēng)mmd)。令a與b為兩個(gè)域上同種媒體數(shù)據(jù)的不同分布，則二者的mmd在再生希爾伯特空間hk中的平方形式定義如下：其中，is和it分別表示源域、目標(biāo)域的輸入圖像，表示深度網(wǎng)絡(luò)中對(duì)應(yīng)某一層的輸出，ea和eb表示源域、目標(biāo)域上的期望。然后，構(gòu)建單媒體遷移損失項(xiàng)如下：其中，l6與l7為源域圖像、目標(biāo)域圖像兩路網(wǎng)絡(luò)中對(duì)應(yīng)的全連接層，即圖2中的fc6-s/fc6-i與fc7-s/fc-7i。此外，源域圖像網(wǎng)絡(luò)也需要在is上進(jìn)行微調(diào)以挖掘源域和目標(biāo)域的語(yǔ)義關(guān)聯(lián)信息。為此建立源域監(jiān)督損失項(xiàng)：其中m表示源域中有標(biāo)注的圖像數(shù)量，為softmax損失項(xiàng)，定義如下：其中θ為網(wǎng)絡(luò)參數(shù)，y為數(shù)據(jù)x的標(biāo)簽，c為x所有可能的標(biāo)簽數(shù)量。1{y＝j(luò)}為指示函數(shù)，若y＝j(luò)則返回1，否則為0?？缑襟w遷移發(fā)生在目標(biāo)域圖像與目標(biāo)域文本之間。認(rèn)為每個(gè)圖像/文本對(duì)具有相關(guān)的高層語(yǔ)義，因此使它們的網(wǎng)絡(luò)層輸出相似以實(shí)現(xiàn)跨媒體知識(shí)遷移；令每個(gè)圖像/文本對(duì)為定義跨媒體差異如下：據(jù)此建立跨媒體遷移損失項(xiàng)如下：在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中，目標(biāo)域圖像一路網(wǎng)絡(luò)作為橋梁將單媒體遷移與跨媒體遷移聯(lián)合起來(lái)，實(shí)現(xiàn)了單媒體源域到跨媒體目標(biāo)域中所有媒體類(lèi)型的知識(shí)遷移。對(duì)于網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)，其包含目標(biāo)域圖像和目標(biāo)域文本兩路輸入，且兩路輸入共享兩個(gè)全連接層，形成網(wǎng)絡(luò)層共享結(jié)構(gòu)。為維持跨媒體語(yǔ)義關(guān)聯(lián)信息，使用上述提到的softmax損失項(xiàng)對(duì)每種媒體的輸出進(jìn)行建模，則跨媒體關(guān)聯(lián)損失項(xiàng)為：其中，fs為前述softmax損失，與分別為圖像、文本的監(jiān)督約束項(xiàng)。由于整個(gè)網(wǎng)絡(luò)構(gòu)成端到端的結(jié)構(gòu)，媒體共享遷移子網(wǎng)絡(luò)、網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)可以通過(guò)反向傳播算法進(jìn)行聯(lián)合訓(xùn)練，從而使得遷移過(guò)程保持了目標(biāo)域中的跨媒體關(guān)聯(lián)，更適合跨媒體檢索任務(wù)。(3)利用訓(xùn)練好的混合遷移網(wǎng)絡(luò)，得到跨媒體數(shù)據(jù)庫(kù)的測(cè)試集中數(shù)據(jù)的統(tǒng)一表征，進(jìn)而計(jì)算跨媒體數(shù)據(jù)的相似性。由于混合遷移網(wǎng)絡(luò)在(2)中已經(jīng)訓(xùn)練完畢，該網(wǎng)絡(luò)能夠直接以一種媒體的數(shù)據(jù)作為輸入，得到其統(tǒng)一表征，且無(wú)需單媒體源作為輸入?？缑襟w數(shù)據(jù)的相似性取決于統(tǒng)一表征之間的距離。統(tǒng)一表征間的距離越小，則相似性越大。在本實(shí)施例中，通過(guò)計(jì)算兩個(gè)不同媒體數(shù)據(jù)的統(tǒng)一表征之間的余弦距離來(lái)反映二者的相似性。本發(fā)明同樣支持其他類(lèi)型的距離度量，如歐氏距離等。(4)使用步驟(1)中跨媒體測(cè)試集中的一種媒體類(lèi)型作為查詢集，另一種媒體類(lèi)型作為檢索庫(kù)。利用查詢集中的每個(gè)數(shù)據(jù)作為樣例，按照步驟(3)中的相似性計(jì)算方法，與檢索庫(kù)中的每個(gè)數(shù)據(jù)計(jì)算相似性并從大到小排序，返回檢索結(jié)果列表。下列實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有方法相比，本發(fā)明基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法，可以取得更高的檢索準(zhǔn)確率。本實(shí)施例中，作為源域的單媒體數(shù)據(jù)庫(kù)為常用的具有約120萬(wàn)張帶標(biāo)注圖像的imagenet數(shù)據(jù)集子集ilsvrc2012，跨媒體數(shù)據(jù)庫(kù)則為wikipedia跨媒體數(shù)據(jù)集。wikipedia數(shù)據(jù)集包括2866個(gè)圖像/文本對(duì)，共分為10個(gè)類(lèi)別，每一個(gè)圖像/文本對(duì)具有對(duì)應(yīng)關(guān)系。該數(shù)據(jù)集由文獻(xiàn)“anewapproachtocross-modalmultimediaretrieval”(作者n.rasiwasia,j.pereira,e.coviello,g.doyle,g.lanckriet,r.levyandn.vasconcelos)提出，是跨媒體檢索中最常用的數(shù)據(jù)集之一。按照文獻(xiàn)“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的劃分方式，將wikipedia數(shù)據(jù)集劃分為包含2173個(gè)圖像/文本對(duì)的訓(xùn)練集，462個(gè)圖像/文本對(duì)的測(cè)試集，以及231個(gè)圖像/文本對(duì)的驗(yàn)證集。其中訓(xùn)練集、測(cè)試集直接對(duì)應(yīng)步驟(1)中的跨媒體數(shù)據(jù)庫(kù)訓(xùn)練集、測(cè)試集，驗(yàn)證集供對(duì)比方法調(diào)節(jié)參數(shù)使用，而本發(fā)明不需要驗(yàn)證集作為輸入。測(cè)試了以下3種方法作為實(shí)驗(yàn)對(duì)比：現(xiàn)有方法一：文獻(xiàn)“l(fā)earningcross-mediajointrepresentationwithsparseandsemi-supervisedregularization”(作者x.zhai,y.pengandj.xiao)中的統(tǒng)一表示學(xué)習(xí)(jrl)方法，通過(guò)分析不同媒體的關(guān)聯(lián)關(guān)系及高層語(yǔ)義信息，為其學(xué)習(xí)統(tǒng)一表征映射矩陣；現(xiàn)有方法二：文獻(xiàn)“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的一致自編碼器(corr-ae)方法，構(gòu)建深度自編碼器網(wǎng)絡(luò)，以兩種媒體類(lèi)型數(shù)據(jù)為輸入，同時(shí)建?？缑襟w關(guān)聯(lián)關(guān)系及重構(gòu)誤差，在編碼層得到不同媒體的統(tǒng)一表征；現(xiàn)有方法三：文獻(xiàn)“cross-modalretrievalwithcnnvisualfeatures:anewbaseline”(作者y.wei,y.zhao,c.lu,s.wei,l.liu,z.zhu,ands.yan)中提出的方法，對(duì)圖像、文本分別構(gòu)建一路網(wǎng)絡(luò)進(jìn)行高層語(yǔ)義學(xué)習(xí)，以語(yǔ)義類(lèi)別概率向量作為統(tǒng)一表征進(jìn)行跨媒體檢索。其中圖像一路采用ilsvrc2012預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型進(jìn)行訓(xùn)練。本發(fā)明：本實(shí)施例的方法。在本實(shí)驗(yàn)中，采用信息檢索領(lǐng)域常用的平均準(zhǔn)確率均值(meanaverageprecision，簡(jiǎn)稱(chēng)map)作為指標(biāo)來(lái)評(píng)測(cè)跨媒體檢索的準(zhǔn)確性，map值越大說(shuō)明跨媒體檢索的結(jié)果越好。表1.本發(fā)明的實(shí)驗(yàn)結(jié)果展示方法圖像檢索文本文本檢索圖像平均現(xiàn)有方法一0.4080.3530.381現(xiàn)有方法二0.3730.3570.365現(xiàn)有方法三0.4580.3450.402本發(fā)明0.5080.4320.470從表1可以看出，本發(fā)明在圖像檢索文本、文本檢索圖像兩個(gè)任務(wù)中，對(duì)比現(xiàn)有方法都取得了準(zhǔn)確率的提高。方法一學(xué)習(xí)線性映射得到不同媒體數(shù)據(jù)的統(tǒng)一表征，難以充分建?？缑襟w數(shù)據(jù)的復(fù)雜關(guān)聯(lián)。對(duì)比方法二和方法三，它們都是基于深度學(xué)習(xí)的方法，但方法二只利用了跨媒體數(shù)據(jù)的成對(duì)關(guān)聯(lián)，未有效建模其高層語(yǔ)義信息；方法三采用了遷移學(xué)習(xí)思想，但只涉及單媒體的遷移，忽視了跨媒體的知識(shí)遷移過(guò)程，因此未能充分利用單媒體源域中的豐富語(yǔ)義知識(shí)。本發(fā)明通過(guò)媒體共享遷移子網(wǎng)絡(luò)和網(wǎng)絡(luò)層共享關(guān)聯(lián)子網(wǎng)絡(luò)的協(xié)同建模，既實(shí)現(xiàn)了從單媒體到跨媒體的知識(shí)遷移，也通過(guò)強(qiáng)調(diào)目標(biāo)域的語(yǔ)義關(guān)聯(lián)以生成更加適合跨媒體檢索的統(tǒng)一表征。兩個(gè)子網(wǎng)絡(luò)構(gòu)成端到端的聯(lián)合結(jié)構(gòu)，充分利用單媒體源域中的語(yǔ)義知識(shí)促進(jìn)跨媒體目標(biāo)域上的統(tǒng)一表征學(xué)習(xí)，提高了跨媒體檢索的準(zhǔn)確率。除以上實(shí)施例外，本發(fā)明方案的具體步驟也可以采用其它實(shí)施方式，如在步驟(1)中可使用其他媒體類(lèi)型(如文本)的單媒體數(shù)據(jù)庫(kù)，且跨媒體數(shù)據(jù)庫(kù)不限于圖像、文本兩種媒體類(lèi)型；在步驟(2)中，為各媒體類(lèi)型采用其他種類(lèi)的特征表示，或增加、減少網(wǎng)絡(luò)結(jié)構(gòu)中卷積層和全連接層的個(gè)數(shù)，使用其他分類(lèi)器替代softmax分類(lèi)器等，也屬于本發(fā)明的變形方式。顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。當(dāng)前第1頁(yè)12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃鑫;彭宇新
技術(shù)所有人：北京大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

跨媒體檢索相關(guān)技術(shù)

跨媒體信息檢索相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索相關(guān)技術(shù)

網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的信息檢索相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索的方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息資源檢索相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索與利用相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于混合遷移網(wǎng)絡(luò)的跨媒體檢索方法與流程