r>【具體實(shí)施方式】
[0021] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0022] 本發(fā)明的一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,其流程圖如圖1所示,包含 W下步驟:
[0023] (1)建立包含多種媒體類型的跨媒體數(shù)據(jù)集,并將所述數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集 和測(cè)試集,提取所有媒體數(shù)據(jù)的特征向量。
[0024] 本實(shí)施例中,所述的多種媒體類型為文本和圖像。對(duì)運(yùn)兩種媒體類型的特征向量 提取方法如下:文本數(shù)據(jù)是提取詞頻特征向量,圖像數(shù)據(jù)是提取詞袋特征向量與MPEG-7視 覺特征向量。本方法同樣支持其它媒體,如音頻、視頻等,并且能夠支持其它種類的特征,如 圖像的紋理、顏色特征,文本的隱狄雷克雷分布特征向量等。
[0025] 用D表示跨媒體數(shù)據(jù)集,D = ,其中
,
[00%]對(duì)于媒體類型r,其中r=i,t(i表示圖像,t表示文本),我們定義nW為其數(shù)據(jù)個(gè) 數(shù)。訓(xùn)練集中的每個(gè)數(shù)據(jù)有且只有一個(gè)語(yǔ)義類別。
[0027] 定義xf為媒體類型r中的第P個(gè)數(shù)據(jù)的特征向量,其表示結(jié)構(gòu)為一個(gè)dW Xl的向 量,其中d W表示媒體類型r的特征向量維度。
[0028] 定義'的語(yǔ)義標(biāo)簽為/f,其表示結(jié)構(gòu)為一個(gè)C X 1的向量,其中C表示語(yǔ)義類別 的總量。中有且只有一維為1,其余為0,表示該數(shù)據(jù)的語(yǔ)義類別值是1的列所對(duì)應(yīng)的標(biāo) 簽。
[0029] (2)利用跨媒體數(shù)據(jù)集訓(xùn)練多深度網(wǎng)絡(luò)結(jié)構(gòu),用于為所有媒體數(shù)據(jù)學(xué)習(xí)統(tǒng)一表示。
[0030] 該步驟的過(guò)程如圖2所示。本實(shí)施例中,使用多模態(tài)深度信念網(wǎng)絡(luò)(Multimodal DBN)進(jìn)行媒體之間的關(guān)聯(lián)表示學(xué)習(xí)。首先對(duì)于每種媒體類型使用兩層的深度信念網(wǎng)絡(luò)進(jìn)行 建模。具體地,使用高斯限制玻爾茲曼機(jī)(Gaussian RBM)來(lái)建模圖像特征JW = 上的 分布模型,使用多重SOf tmax模型(Replicated Softmax Model)來(lái)建模文本特征 義上的分布模型。然后,在上述兩個(gè)模型之上,通過(guò)添加一個(gè)限制玻爾茲曼機(jī) (RBM)聯(lián)接層使用吉布斯(G化bs)采樣的方法來(lái)學(xué)習(xí)媒體之間的關(guān)聯(lián)信息,使用如下條件分 布概率公式:
[0031]
[0032]
[0033]
[0034] 其中〇^) = 1/(1+6-、),11為聯(lián)接層上的分布,胖1和胖*為輸入權(quán)值,13、日*和日1為偏移 值。最后得到采樣結(jié)果ht和hi,則用來(lái)生成包含媒體之間關(guān)聯(lián)信息的特征表示搞和 巧紐。
[00巧]本實(shí)施例中,使用找式自編碼器(S化eked Autoencoders,簡(jiǎn)稱SAE)來(lái)進(jìn)行媒體內(nèi) 部的關(guān)聯(lián)表示學(xué)習(xí)。對(duì)于每種媒體類型分別訓(xùn)練一個(gè)SAE,其輸入與上述的多模態(tài)深度信念 網(wǎng)絡(luò)(Multimodal DBN)相同,均為原始媒體特征X(。和X(",同時(shí)用趨>和媽,)表示對(duì)X(。和X W進(jìn)行重建后的特征。具體的,對(duì)于圖像和文本的兩個(gè)找式自編碼器均包含h個(gè)自編碼層, 并通過(guò)最小化如下目標(biāo)函數(shù)來(lái)進(jìn)行訓(xùn)練:
[0036]
[0037]
[0038] 其中1 (/"U'皆)和4(戶),端)分別表示圖像和文本的平均重建誤差,Wie, Wid和 Wte, Wtd則分別表示圖像和文本的自編碼器中編碼器和解碼器的激活函數(shù)中的參數(shù)。通過(guò)最 小化重建誤差,可W在保留原始媒體特性的同時(shí),得到包含媒體內(nèi)部關(guān)聯(lián)信息的特征表示 ..精.*。和術(shù)Irt Ja。
[0039] 本實(shí)施例中,使用兩級(jí)網(wǎng)絡(luò)來(lái)進(jìn)行跨媒體統(tǒng)一表示學(xué)習(xí)。對(duì)于圖像和文本已經(jīng)得 到的包含媒體內(nèi)部關(guān)聯(lián)信息和媒體之間關(guān)聯(lián)信息的表示巧It ,。,相It W和而t。,巧"。.,在第 一級(jí)網(wǎng)絡(luò)中,使用一個(gè)RBM聯(lián)接層來(lái)融合同種媒體的兩種不同表示,其聯(lián)合分布定義如下:
[0040]
[004。 其中,對(duì)于圖像,V康示包含媒體之間信息的特征表示柏t Pt,V康示包含媒體內(nèi)部 信息的特征表示U,而對(duì)于文本同理。由此可W得到兩種媒體的中間特征表示和Y W。在第二級(jí)網(wǎng)絡(luò)中,為了學(xué)習(xí)跨媒體統(tǒng)一表示,使用多模態(tài)自編碼器(Bimodal Autoencoders),其可W在保留重建f目息的同時(shí),在中間的聯(lián)合層建??缑襟w的關(guān)聯(lián)f目息。 在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,W迭代學(xué)習(xí)的方式自底向上地訓(xùn)練了n個(gè)多模態(tài)自編碼器(Bimodal Autoencoders)模型,并且增加了額外的標(biāo)簽信息作為監(jiān)督。具體的,使用第一級(jí)網(wǎng)絡(luò)得到 的中間特征表示和作為底層多模態(tài)自編碼器的輸入,其輸出《甘和《苗將會(huì)作為輸 入傳遞到高層的網(wǎng)絡(luò)來(lái)得到馬S和<^^同時(shí)其維數(shù)將會(huì)降低到輸入維數(shù)的一半,直到得到 巧油巧;作為最終的統(tǒng)一表示。其中在迭代學(xué)習(xí)中使用的多模態(tài)自編碼器的數(shù)量n,可W通 過(guò)計(jì)算在驗(yàn)證集上的結(jié)果是否收斂來(lái)動(dòng)態(tài)調(diào)整。迭代學(xué)習(xí)的方式,可W通過(guò)更強(qiáng)的網(wǎng)絡(luò)學(xué) 習(xí)能力來(lái)挖掘復(fù)雜的跨媒體關(guān)聯(lián)信息。
[0042] (3)利用訓(xùn)練好的深度網(wǎng)絡(luò)結(jié)構(gòu),得到不同媒體數(shù)據(jù)的統(tǒng)一表示,從而計(jì)算不同媒 體類型數(shù)據(jù)的相似性。
[0043] 當(dāng)深度網(wǎng)絡(luò)訓(xùn)練完畢之后,不同媒體的數(shù)據(jù)通過(guò)深度網(wǎng)絡(luò)能夠得到相同維度的統(tǒng) 一表示,其相似性定義為媒體數(shù)據(jù)的統(tǒng)一表示之間的距離度量。本實(shí)施例中,距離度量采用 余弦距離,通過(guò)計(jì)算兩個(gè)媒體數(shù)據(jù)統(tǒng)一表示的夾角余弦值作為二者的相似性。本方法同樣 支持其它類型的距離度量,如歐氏距離等。
[0044] (4)取測(cè)試集中的一種媒體類型作為查詢媒體,另一種媒體類型作為目標(biāo)媒體。將 查詢媒體的每個(gè)數(shù)據(jù)作為查詢樣例,檢索目標(biāo)媒體中的數(shù)據(jù),計(jì)算查詢樣例和查詢目標(biāo)的 相似性,按照相似性從大到小排序,得到目標(biāo)媒體數(shù)據(jù)的結(jié)果排序列表。
[0045] 該步驟中,取一種媒體中的每個(gè)數(shù)據(jù)作為查詢樣例,按照步驟(3)中的方式與另一 種媒體中的所有數(shù)據(jù)計(jì)算相似性,之后按照相似性從大到小排序,得到結(jié)果排序列表。
[0046] 下面的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排 序方法,能夠取得更高的排序準(zhǔn)確率。
[0047] 本實(shí)施例中采用了 Wikipedia跨媒體數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集由文獻(xiàn)"A New Approach to Cross-Mo da I Multimedia Retrieval"(作者 N. Rasiwasia, J. Pereira, E.Coviello,G. Doyle,G. Lanckriet, R. Levy和 N. Vasconcelos,發(fā)表在 2010 年的ACM international conference on Multimedia)提出,其中包括2866段文本和2866張圖像,運(yùn) 些文本和圖像是一一對(duì)應(yīng)的,數(shù)據(jù)集共分為10個(gè)類別,其中2173段文本和2173張圖像作為 訓(xùn)練集,231段文本和231張圖像作為驗(yàn)證集,492段文本和492張圖像作為測(cè)試集。我們測(cè)試 了 W下4種方法作為實(shí)驗(yàn)對(duì)比:
[004引現(xiàn)有方法一:文獻(xiàn) "Relations between Two Sets of Variates"(作者 H.化telling)中的典型相關(guān)分析(CCA)方法,通過(guò)分析兩組向量之間的關(guān)系,學(xué)習(xí)能夠最大 化兩組異構(gòu)數(shù)據(jù)關(guān)聯(lián)性的空間,從而完成向統(tǒng)一特征空間的映射。
[0049] 現(xiàn)有方法二:文獻(xiàn)"Multimodal De邱 Learning"(作者J.Ngiam,A.Khosla,M.Kim, J.Nam,H丄ee ,and A.Y.Ng)中的多模態(tài)自編碼器(Bimodal AE)方法,W多種媒體類型作為 輸入,在中間層建模