本發(fā)明屬于多媒體信息檢索技術(shù)領(lǐng)域,具體涉及基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法。
背景技術(shù):
當(dāng)前的移動(dòng)互聯(lián)網(wǎng)時(shí)代,由于智能移動(dòng)終端的普及,每個(gè)人可以隨時(shí)隨地的發(fā)布與接收包括文本、圖片、視頻、音頻等在內(nèi)的多種模態(tài)信息,這帶來(lái)了豐富的內(nèi)容。然而,豐富的內(nèi)容給我們帶來(lái)更多的往往是選擇的痛苦,獲取真正需求的信息變得愈發(fā)困難。在當(dāng)前的web3.0時(shí)代,豐富的信息需要經(jīng)過(guò)精準(zhǔn)的篩選呈現(xiàn)在用戶面前,對(duì)于檢索系統(tǒng),需要以用戶為中心提供精準(zhǔn)化的檢索與服務(wù)。而當(dāng)前的檢索僅僅停留在單模態(tài)階段,當(dāng)前主流搜索引擎,比如google,可以做到用戶輸入文本返回系列圖片,但這種檢索依賴的是圖片本身標(biāo)注好的文本信息,所以本質(zhì)上仍然是以文本搜索文本的單模態(tài)檢索。在面向web3.0時(shí)代的今日,傳統(tǒng)的單模態(tài)信息檢索已經(jīng)不能滿足用戶對(duì)個(gè)性化信息的需求,我們希望做到“盲人摸象”,一個(gè)盲人摸到一個(gè)大耳朵,搜索一下便可知道摸的是頭大象??缒B(tài)信息檢索實(shí)際應(yīng)用性很強(qiáng),比如,找到最匹配給定圖像的文本,給一段描述找到最適合的插圖等。因此,跨模態(tài)信息檢索技術(shù)有著重要的研究意義。
現(xiàn)有技術(shù)通過(guò)線性投影矩陣將不同模態(tài)的多媒體數(shù)據(jù)映射到統(tǒng)一子空間,然后在這個(gè)學(xué)習(xí)到的子空間里度量不同模態(tài)的多媒體之間的相似性,以此來(lái)實(shí)現(xiàn)跨模態(tài)檢索。但在當(dāng)前如此復(fù)雜的數(shù)據(jù)背景下,線性投影直接刻畫(huà)映射空間并在此空間上度量相似度是不太現(xiàn)實(shí)的。
發(fā)明目的
針對(duì)于上述的狀況,本發(fā)明的目的在于提出一種可實(shí)現(xiàn)圖文的跨模態(tài)檢索,且效率高的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法。
本發(fā)明的目的在于提出基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,首先提取圖片和文本的數(shù)據(jù)特征,然后建立一個(gè)圖文雙層的近鄰圖,通過(guò)近鄰圖及標(biāo)簽信息以神經(jīng)網(wǎng)絡(luò)的框架來(lái)學(xué)習(xí)得到嵌入層;通過(guò)嵌入層可以將圖片、文本兩個(gè)不同模態(tài)的數(shù)據(jù)映射到一個(gè)可以直接度量相似度的統(tǒng)一空間;相對(duì)現(xiàn)有方法線性投影的方式,可以更好的近似映射后的流行空間。在嵌入層,用戶可以直接檢索出與查詢樣本最相近的目標(biāo)樣本,以此來(lái)實(shí)現(xiàn)圖文的跨模態(tài)檢索。
本發(fā)明提出的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,分為如下三個(gè)步驟:
(1)收集圖片、文本數(shù)據(jù)樣本,建立圖文跨模態(tài)檢索數(shù)據(jù)庫(kù),并分為訓(xùn)練集與測(cè)試集,提取所述數(shù)據(jù)庫(kù)的特征,建立圖片、文本特征庫(kù),根據(jù)特征信息建立圖文近鄰圖;
(2)通過(guò)圖片、文本訓(xùn)練集的標(biāo)簽信息及圖文近鄰圖的結(jié)構(gòu)訓(xùn)練學(xué)習(xí)得到嵌入層,該嵌入層作為可直接計(jì)算不同模態(tài)數(shù)據(jù)相似度的統(tǒng)一空間;
(3)對(duì)于查詢集中的一個(gè)圖片/文本數(shù)據(jù),在嵌入層中計(jì)算相似度,根據(jù)多媒體數(shù)據(jù)之間的相似度,檢索得到與它最為相似的文本/圖片數(shù)據(jù),從而達(dá)到圖文跨模態(tài)檢索效果。
本發(fā)明中,步驟(1)的操作流程如下:
(1)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)方式爬取維基百科,flickr,instagram,facebook等主流網(wǎng)站的圖文數(shù)據(jù),這些網(wǎng)站圖片種類豐富,并且對(duì)圖片具有深層語(yǔ)義的描述,選取其中一一對(duì)應(yīng)的圖文描述,構(gòu)建圖文跨模態(tài)檢索數(shù)據(jù)庫(kù);
(2)根據(jù)實(shí)際需要將所述數(shù)據(jù)庫(kù)分為訓(xùn)練集和測(cè)試集,比如可將所述數(shù)據(jù)庫(kù)中的80%的數(shù)據(jù)劃分為訓(xùn)練集,剩下的20%的數(shù)據(jù)劃分為測(cè)試集;
(3)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)提取圖片的特征,通過(guò)隱含狄利克雷分布(latentdirichletallocation,lda)提取文本的特征,每個(gè)數(shù)據(jù)得到dp維的向量
(4)分別在圖片、文本兩個(gè)模態(tài)內(nèi)建立兩個(gè)單層近鄰圖,節(jié)點(diǎn)之間權(quán)值計(jì)算公式為:
其中,
兩層近鄰圖通過(guò)以下權(quán)值進(jìn)行連接,即圖片與文本描述同一內(nèi)容,權(quán)值為1,具體公式為:
這樣就得到了圖文雙層的近鄰圖。
本發(fā)明中,步驟(2)的操作流程如下:
(1)對(duì)于每個(gè)數(shù)據(jù)xi計(jì)算一個(gè)嵌入層
(2)在訓(xùn)練集上,對(duì)嵌入層通過(guò)邏輯回歸做分類,采用類別交叉熵:
作為損失函數(shù),其中:
ns為訓(xùn)練分類的批量大小,c為類別個(gè)數(shù),yi為表征樣本類別的獨(dú)熱碼,w為全連接層的權(quán)重,b為常數(shù)項(xiàng)。通過(guò)最小化該損失函數(shù),訓(xùn)練得到的嵌入層;
(3)在圖文雙層的近鄰圖上,通過(guò){xi,xj,γ}采樣得到三元組,通過(guò)余弦距離:
計(jì)算兩個(gè)節(jié)點(diǎn)在嵌入層上的相似度,通過(guò)最小化邏輯回歸損失函數(shù):
其中,ng為訓(xùn)練圖文雙層近鄰圖的批量大小,γ為歸一化參數(shù)。進(jìn)一步訓(xùn)練學(xué)習(xí)得到的嵌入層;
(4)最終優(yōu)化的目標(biāo)函數(shù)為上述兩項(xiàng)加權(quán)和,即:l=ls+λlu,λ為權(quán)重,用以調(diào)節(jié)訓(xùn)練集、圖文雙層的近鄰圖損失函數(shù)的相對(duì)比例。通過(guò)自適應(yīng)學(xué)習(xí)率的梯度下降方法,得到最終的嵌入層。
本發(fā)明中,步驟(3)的操作流程如下:
將測(cè)試集中的數(shù)據(jù)作為查詢數(shù)據(jù),在嵌入層中計(jì)算查詢數(shù)據(jù)與測(cè)試集中不同模態(tài)數(shù)據(jù)的余弦距離,距離越近就說(shuō)明這兩個(gè)數(shù)據(jù)越相似。根據(jù)多媒體數(shù)據(jù)之間的相似度,得到所述目標(biāo)集中與它最為相似的多媒體數(shù)據(jù),從而得到跨模態(tài)檢索效果。
有益效果
現(xiàn)有的搜索引擎“以文檢圖”依賴的是圖片本身標(biāo)注好的文本信息,所以本質(zhì)上仍然是以文本搜索文本的單模態(tài)檢索,基于內(nèi)容的圖像檢索技術(shù)提供“以圖搜圖”服務(wù),即相似圖片的檢索。但是在這種模式下,搜索的執(zhí)行僅停留在底層的視覺(jué)特征上,底層的視覺(jué)特征并不能完全匹配查詢意圖,人們判別圖像的相似性是建立在對(duì)圖像所描述的事件、對(duì)象語(yǔ)義理解的基礎(chǔ)上的,底層特征與上層理解之間存在“語(yǔ)義鴻溝”。
根據(jù)本發(fā)明的方法,可以通過(guò)嵌入層可以將圖片、文本兩個(gè)不同模態(tài)的數(shù)據(jù)映射到一個(gè)可以直接度量相似度的統(tǒng)一空間,相對(duì)現(xiàn)有方法線性投影的方式,可以更好的近似映射后的流行空間。在嵌入層,用戶可以直接檢索出與查詢樣本最相近的目標(biāo)樣本,以此來(lái)實(shí)現(xiàn)圖文的跨模態(tài)檢索。本發(fā)明方法能有效地跨越了不同模態(tài)媒體之間的語(yǔ)義鴻溝,進(jìn)而使得跨模態(tài)搜索引擎返回的結(jié)果更加準(zhǔn)確。
附圖說(shuō)明
圖1為本發(fā)明提出的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法流程圖示。
圖2為“以文檢圖”、“以圖檢文”效果圖示。
具體實(shí)施方式
跨模態(tài)信息檢索系統(tǒng)的評(píng)估需要一個(gè)真實(shí)可靠的具有成對(duì)文本與圖像的語(yǔ)料庫(kù),為驗(yàn)證本發(fā)明方法的有效性,接下來(lái)將本發(fā)明所提出的方法應(yīng)用于當(dāng)前可靠性最高的公開(kāi)庫(kù)---維基百科圖文數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由維基百科文章分割而成,保留中心明確且配有唯一圖片的片段,經(jīng)原文作者審核將其分為29個(gè)語(yǔ)義類別,最終保留數(shù)量前十的類別,每個(gè)類別中選取合適比例的圖文對(duì)進(jìn)行訓(xùn)練、測(cè)試,共計(jì)2866個(gè)圖文對(duì),其中2173個(gè)用于訓(xùn)練,693個(gè)用于測(cè)試。
應(yīng)用本發(fā)明方法的具體步驟如下:
1)對(duì)于所述數(shù)據(jù)庫(kù)中的數(shù)據(jù)根據(jù)模態(tài)類別的不同提取不同的特征向量,對(duì)于圖像模態(tài),提取4096維的cnn特征,對(duì)于文本模態(tài),提取10維的lda語(yǔ)義特征,建立圖文雙層近鄰圖;
2)根據(jù)訓(xùn)練集圖片、文本的類別信息訓(xùn)練學(xué)習(xí)圖片、文本的嵌入層,在圖文雙層近鄰圖上采樣得到訓(xùn)練對(duì),根據(jù)訓(xùn)練對(duì)的相似度進(jìn)一步訓(xùn)練學(xué)習(xí)嵌入層,得到可直接計(jì)算相似度的統(tǒng)一空間;
3)將測(cè)試集中的數(shù)據(jù)作為查詢數(shù)據(jù),“以文檢圖”過(guò)程即給定一個(gè)文本文檔,在嵌入層中計(jì)算查詢文本與測(cè)試集中圖片的余弦距離,選取距離最小的前五張圖片作為檢索結(jié)果,如圖2第一行所示,左邊為查詢文本,右邊為檢索到的最相近的前五張圖片,兩個(gè)三角號(hào)標(biāo)記意味著檢索圖片與查詢文本描述同一內(nèi)容,一個(gè)三角號(hào)標(biāo)記意味著檢索圖片與查詢文本屬于同一個(gè)類別?!耙詧D檢文”過(guò)程類似,如圖2第二行所示。
綜上,本發(fā)明提出了一種有效的基于圖嵌入學(xué)習(xí)的圖文跨模態(tài)檢索方法,并實(shí)現(xiàn)了圖文跨模態(tài)信息檢索的基本任務(wù),即“以文檢圖”、“以圖檢文”。本發(fā)明易于實(shí)現(xiàn),性能穩(wěn)定,檢索準(zhǔn)確率高。本發(fā)明提出的嵌入層,有效地跨越了不同模態(tài)數(shù)據(jù)之間的語(yǔ)義鴻溝,與傳統(tǒng)的跨模態(tài)檢索方法比較,本發(fā)明具有更廣泛的運(yùn)用前景和更大的市場(chǎng)價(jià)值。