用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法及裝置的制造方法
【專利摘要】本發(fā)明涉及用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法及裝置,該方法包括:構造目標風險函數(shù),目標風險函數(shù)包括各個模態(tài)的模態(tài)內(nèi)損耗和各個模態(tài)之間的模態(tài)間損耗;根據(jù)梯度下降策略,依次更新風險函數(shù)中每一個模態(tài)的預測器,而固定其他模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一次循環(huán)迭代,如此經(jīng)過T次循環(huán)迭代,學習出使目標函數(shù)最小的各個模態(tài)的最優(yōu)預測器;利用Sigmoid函數(shù)將各個模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同的語義空間,以實現(xiàn)跨模態(tài)檢索。本發(fā)明的方法考慮到模態(tài)間的語義相關性,在一定程度上可以增強那些質量較差的模態(tài)內(nèi)語義信息,在跨模態(tài)檢索的任務中擁有較好的性能。
【專利說明】
用于跨模態(tài)檢索的多模態(tài)多類Boost i ng框架構建方法及裝置
技術領域
[0001] 本發(fā)明屬于信息檢索領域,具體設及一種用于跨模態(tài)檢索的多模態(tài)多類Boosting 框架構建方法及裝置。
【背景技術】
[0002] Boosting分類方法核屯、思想是把多個弱分類器結合成一個強分類器,該方法已經(jīng) 在計算機視覺與模式識別等應用領域得到了廣泛的研究,并取得了較好的效果。盡管如此, 傳統(tǒng)的Boosting方法僅從單個模態(tài)的數(shù)據(jù)集中學習分類規(guī)則,并不能直接地處理多模態(tài)數(shù) 據(jù)集。一般而言,通過把每個模態(tài)的數(shù)據(jù)集單獨地映射到語義空間,傳統(tǒng)的Boosting方法可 W應用于跨模態(tài)檢索。但是,運個方案并沒有考慮至關重要的模態(tài)間信息,從而在一定程度 上降低了檢索的性能。
[0003] 目前,如何表示多媒體數(shù)據(jù)的底層特征是信息檢索領域的重要環(huán)節(jié)。在運種背景 下,眾多的研究學者已取得了大量的研究成果,例如圖像的SIFT特征、文本的LDA特征W及 音頻的MFCC特征。然而上述的底層內(nèi)容特征在維度與屬性方面均不相同,運使得不同模態(tài) 的多媒體數(shù)據(jù)之間存在異構性與不可比性。實際上,根據(jù)一段敘述"黃鶴樓"歷史背景的文 本數(shù)據(jù),用戶可能想檢索到一幅描述"黃鶴樓"畫面的圖像數(shù)據(jù)。在此情況下,雖然文本與圖 像數(shù)據(jù)都可W表達出"黃鶴樓"的語義信息,但是傳統(tǒng)的單模態(tài)檢索方法并不能在底層特征 上直接計算出它們的相關性。如果關于"黃鶴樓"的文本與圖像數(shù)據(jù)被映射到一個共同的語 義空間,那么用戶的跨模態(tài)檢索需求便很容易地得到執(zhí)行。
[0004] 在語義空間的學習過程中,詞匯表與映射機制均起到了重要的作用。前者限定了 語義空間的維度,而后者可W把底層的內(nèi)容特征投影成高層的語義特征。假設V=Ivi, ..., vk}表示由K個不同語義概念所組成的語匯表,運些詞匯是令人感興趣的語義類,例如具體 的主題與對象的屬性。利用運個詞匯表,我們可W從數(shù)據(jù)集中學習出一個映射機制。對于任 意的單模態(tài)數(shù)據(jù)X,該映射機制可W給出它屬于每一個語義概念Vk的得分。語義空間的每一 維對應于詞匯表中的每一個概念,因此得分向量n可看作單模態(tài)數(shù)據(jù)在語義空間的語義特 征表示。
[0005] 根據(jù)語義標簽變量S的不同取值,單模態(tài)數(shù)據(jù)X可W擁有兩種不同類型的語義特征 表示。如果標簽變量SG {1,...,K},那么單模態(tài)數(shù)據(jù)X的語義特征表示是后驗的類概率向 量,即得分向量n的元素和等于1。在運種情況下,詞匯表中的語義概念是互相排斥的,因此 單模態(tài)數(shù)據(jù)X只能屬于一個語義類。如果標簽變量SG {0,1}K,那么得分向量JT的元素和不等 于1。在運種情況下,詞匯表中的語義概念不是互相排斥的,因而單模態(tài)數(shù)據(jù)X可W同時屬于 多個語義類別。運兩種語義表示分別反映了單模態(tài)數(shù)據(jù)集的兩個意圖:1)利用具體的語義 類別,單模態(tài)數(shù)據(jù)集可W被劃分為多個不相交的集合;2)眾多的單模態(tài)數(shù)據(jù)可W共享對象 的語義屬性。通過簡單的兩層框架,運兩個語義意圖可W被結合起來。首先,通過第一層的 分類器,單模態(tài)數(shù)據(jù)集被表示成語義屬性的得分向量;然后,運些向量被第二層的分類器映 射到由具體語義類所構成的語義空間。
[0006] 在語義空間中,單模態(tài)數(shù)據(jù)的語義特征表示能體現(xiàn)出一些優(yōu)點。首先,語義的描述 符是概念類的得分向量,運種表達方式給多媒體數(shù)據(jù)提供了較高層次的抽象意義。其次,與 內(nèi)容特征相比,語義特征擁有較低的維度與較高的判別性,運使得眾多的計算機視覺任務 能夠被低維的分類器解決。第=,語義的特征表示可W捕獲不同語義概念之間的語境關系。 例如,屬于"天空"類的大部分圖像包含有"白云"的概念,因此,"白云"概念的出現(xiàn)意味著圖 像極有可能屬于"天空"類。若"天空"與"白云"的語義特征元素擁有較高的得分,那么視覺 系統(tǒng)就可W捕獲到它們之間的語境關系。第四,文本分類器的性能通常優(yōu)于圖像分類器的 性能,因此文本的語義特征顯得更精確一些。通過跨模態(tài)的規(guī)范化調(diào)整,正則化矩陣可W用 來去除圖像語義特征的噪音。最后,根據(jù)語義概念的抽象性,語義空間可W為不同模態(tài)的數(shù) 據(jù)提供一致的同構特征表示,運有利于跨模態(tài)檢索的執(zhí)行。
[0007] 語義空間是一個概率單純形(Probability Simplex)。一般情況下,對于詞匯表的 第k個語義概念,可W用兩種類型的映射機制來計算數(shù)據(jù)X的后驗概率
[000引 jik = p(s = k|x) (1)
[0009] 給出已標注的訓練數(shù)據(jù)集,一種映射機制是學習出每個語義概念的條件分布PU S),然后應用貝葉斯規(guī)則來計算公式(1)中的后驗概率;另一種映射機制是學習出一個多類 的分類器,使得公式(1)中的后驗概率能被直接地估計出來,即直接的多類Boosting方法。
[0010] 一般而言,單模態(tài)的多類Boosting方法可W把每個模態(tài)的數(shù)據(jù)單獨地映射到語義 空間,從而完成跨模態(tài)的匹配。但是運種方案并沒有考慮模態(tài)間的相關性,在語義空間中可 能會產(chǎn)生不理想的效果。圖1給出了單模態(tài)與多模態(tài)的多類Boosting方法投影多模態(tài)數(shù)據(jù) 的例子。在該圖中,"Semantic Concept r表示"Sport"語義類,虛箭頭與實箭頭分別代表 單模態(tài)與多模態(tài)的Boosting映射,符號V'與"X"分別表示圖像與文本在語義空間的特征 表示。如果圖像底層特征的質量比較差,那么由單模態(tài)的Boosting映射所產(chǎn)生的圖像語義 特征可能會偏離語義概念"Spod "。如圖1的右上角所示,雖然文本的語義特征接近于正確 的語義概念,但由于文本與圖像的映射單獨性,它并不能幫助圖像提高其語義特征的質量。
[0011] 為了避免運個問題,急需要一種多模態(tài)的多類Boosting方法,將模態(tài)內(nèi)的語義信 息與模態(tài)間的語義相關性結合起來,同時地分析多模態(tài)數(shù)據(jù)集,達到如圖1的右下角所示的 效果,即利用各個模態(tài)在語義空間的相關性,質量較好的模態(tài)語義特征可W增強其他語義 特征的質量,使得模態(tài)間的語義距離縮短。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明提供了用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法及裝置,旨在 解決傳統(tǒng)的Boosting方法應用于跨模態(tài)檢索時檢索性能不高的問題。
[0013] 為解決上述技術問題,本發(fā)明的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建 方法包括如下步驟:
[0014] 1)構造目標風險函數(shù)即fi,...,fM],目標風險函數(shù)包括各個模態(tài)的模態(tài)內(nèi)損耗和 各個模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M個模態(tài)的預測器, 2;
[0015] 2)根據(jù)梯度下降策略,依次更新目標風險函數(shù)中每一個模態(tài)的預測器,而固定其 他M-I個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一次循環(huán)迭代,如此經(jīng)過T次 循環(huán)迭代后,學習出使目標風險函數(shù)最小的各模態(tài)的最優(yōu)預測器,其中T>1;
[0016] 3)將各模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同的語義空間,W實現(xiàn)跨 模態(tài)檢索。
[0017] 所述步驟2)中一次循環(huán)迭代的過程為:
[0018] A)根據(jù)梯度下降策略,計算各個模態(tài)文檔的權重;
[0019] B)根據(jù)每一個模態(tài)文檔的權重,求出在更新的預測器的鄰近區(qū)域內(nèi),沿著多類學 習器的方向的目標風險函數(shù)的一階泛函偏導數(shù),進而在泛函空間找到最大程度地減少風險 的多類學習器,即在泛函空間找到最優(yōu)方向.
[0020] C)利用步驟B)中所求出的多類學習器,求出沿著最優(yōu)方向的最佳步長,根據(jù)最佳 步長更新預測器。
[0021] 步驟A)中在計算各個模態(tài)的權重時是基于各模態(tài)的多類指數(shù)損耗,某個模態(tài)的多 類指數(shù)損耗定義為
,其中,f (X)為某模態(tài)的預測器,K為 語義詞匯表中語義類的個數(shù),<f (X),ck-cs>表示某模態(tài)的預測器關于第k個與第S個語義 類的擬邊緣差,ck和CS分別表示與第k個和第S個語義類對應的碼本向量。
[0022] 步驟A)中在計算各個模態(tài)的權重時是基于各模態(tài)的多類邏輯損耗,某個模態(tài)的多 類邏輯損耗定義為
,其中,f (X)為某模態(tài)的預測 器,K為語義詞匯表中語義類的個數(shù),<f (X),ck-cs>表示某模態(tài)的預測器關于第k個與第S 個語義類的擬邊緣差,ck和CS分別表示與第k個和第S個語義類對應的碼本向量。
[0023] 所述風險函數(shù)R[fi,...,fM]表示為:
[0024]
[0025] 其中,Zf表示第m個模態(tài)的第i個數(shù)據(jù)對象,而Lm[ ?]與fm( ?)分別表示第m個模態(tài) 的多類損耗函數(shù)與預測器:
表示第m個與第j個模態(tài)關于第i個數(shù)據(jù)的模 態(tài)間損耗。
[00%]本發(fā)明的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置包括目標函數(shù)構 建模塊、最優(yōu)預測器學習模塊和語義空間轉換模塊;
[0027] 目標函數(shù)構建模塊,用于構造目標風險函數(shù)即fi,...,fM],目標風險函數(shù)包括各個 模態(tài)的模態(tài)內(nèi)損耗和各個模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M 個模態(tài)的預測器,
[0028] 最優(yōu)預測器學習模塊,用于根據(jù)梯度下降策略,依次更新目標風險函數(shù)中每一個 模態(tài)的預測器,而固定其他M-I個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一 次循環(huán)迭代,如此經(jīng)過T次循環(huán)迭代后,學習出使目標風險函數(shù)最小的各模態(tài)的最優(yōu)預測 器,其中。1;
[0029] 語義空間轉換模塊,用于將各模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同 的語義空間,W實現(xiàn)跨模態(tài)檢索。
[0030] 所述一次循環(huán)迭代的過程為:
[0031] A)根據(jù)梯度下降策略,計算各個模態(tài)文檔的權重;
[0032] B)根據(jù)每一個模態(tài)文檔的權重,求出在更新的預測器的鄰近區(qū)域內(nèi),沿著多類學 習器的方向的目標風險函數(shù)的一階泛函偏導數(shù),進而在泛函空間找到最大程度地減少風險 的多類學習器,即在泛函空間找到最優(yōu)方向.
[0033] C)利用步驟B)中所求出的多類學習器,求出沿著最優(yōu)方向的最佳步長,根據(jù)最佳 步長更新預測器。
[0034] 在計算各個模態(tài)的權重時是基于各模態(tài)的多類指數(shù)損耗,某個模態(tài)的多類指數(shù)損 耗定義為:
,其中,f (X)為某模態(tài)的預測器,K為語義詞匯 表中語義類的個數(shù),<f (X),ck-cs>表示某模態(tài)的預測器關于第k個與第S個語義類的擬邊 緣差,ck和CS分別表示與第k個和第S個語義類對應的碼本向量。
[0035] 在計算各個模態(tài)的權重時是基于各模態(tài)的多類邏輯損耗,某個模態(tài)的多類邏輯損 耗定義為:
,其中,f (X)為某模態(tài)的預測器,K為語 義詞匯表中語義類的個數(shù),<f (X),ck-cs>表示某模態(tài)的預測器關于第k個與第S個語義類 的擬邊緣差,ck和CS分別表示與第k個和第S個語義類對應的碼本向量。
[0036] 所述風險函數(shù)R[fi,...,fM]表示為:
[0037]
[0038] 其中,zr表示第m個模態(tài)的第i個數(shù)據(jù)對象,而Lm[ ?]與fm( ?)分別表示第m個模態(tài) 的多類損耗函數(shù)與預測器
g示第m個與第j個模態(tài)關于第i個數(shù)據(jù)的模 態(tài)間損耗。
[0039] 本發(fā)明的有益效果是:本發(fā)明構造一個W實驗為依據(jù)的目標風險函數(shù),該風險結 合了模態(tài)內(nèi)與模態(tài)間的損耗。通過最小化目標函數(shù),多模態(tài)多類的Boosting框架 (Multimodal Multiclass Boosting,MMB)可W挖掘出模態(tài)內(nèi)的語義信息與模態(tài)間的語義 相關性。運兩種類型的語義信息在一定程度上具有互補性,因此它們的結合有利于跨模態(tài) 檢索性能的提高。通過利用梯度下降策略來輪流地更新每一個模態(tài)的預測器,MMB框架可W 輕松地解決多維泛函空間內(nèi)的優(yōu)化問題?;赟igmoid函數(shù),最優(yōu)預測器所產(chǎn)生的擬邊緣可 W轉換為語義概念類的后驗概率,使得跨模態(tài)檢索能夠在語義空間中被執(zhí)行。該方法一方 面,模態(tài)內(nèi)的語義信息反映了每個模態(tài)的語義表達能力,而通過最小化模態(tài)間損耗得到的 模態(tài)間語義信息更關注于不同模態(tài)之間的相關性。運兩種類型的語義信息在跨模態(tài)檢索的 過程中都有重要的作用,并且二者是互補的。因此,它們的結合有益于檢索性能的提高。另 一方面,通過最小化模態(tài)內(nèi)的損耗,擁有高質量底層特征的模態(tài)數(shù)據(jù)能夠獲得質量較好的 模態(tài)內(nèi)語義信息;同時,模態(tài)間的語義相關性在一定程度上可W增強那些質量較差的模態(tài) 內(nèi)語義信息。因此,MMB框架在跨模態(tài)檢索的任務中擁有較好的性能。
【附圖說明】
[0040] 圖1為單模態(tài)與多模態(tài)的多類Boosting方法投影多模態(tài)數(shù)據(jù)的樣例示意圖;
[0041] 圖2為Wiki數(shù)據(jù)集上的PR曲線圖,其中,左邊的圖是文本查詢圖像,右邊的圖是圖 像查詢文本;
[0042] 圖3為Wiki數(shù)據(jù)集上的召回率曲線,其中,左邊的圖是文本查詢圖像,右邊的圖是 圖像查詢文本;
[0043] 圖4為NUS-WIDE數(shù)據(jù)集上的PR曲線,其中,左邊的圖是文本查詢圖像,右邊的圖是 圖像查詢文本;
[0044] 圖5為NUS-WIDE數(shù)據(jù)集上的召回率曲線,其中,左邊的圖是文本查詢圖像,右邊的 圖是圖像查詢文本。
【具體實施方式】
[0045] 下面結合附圖,對本發(fā)明的技術方案作進一步詳細介紹。
[0046] 本發(fā)明的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法實施例
[0047] 本實施例的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法將不同模態(tài)的 數(shù)據(jù)映射到一個共同的語義空間,妥善地保存模態(tài)內(nèi)的語義信息與模態(tài)間的語義相關性, 具體步驟包括:
[0048] 1)構造目標風險函數(shù)即fi,. ..,fM],目標風險函數(shù)包括各個模態(tài)的模態(tài)內(nèi)損耗和 各個模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M個模態(tài)的預測器, 2;
[0049] 2)根據(jù)梯度下降策略,依次更新風險函數(shù)中每一個模態(tài)的預測器,而固定其他M-I 個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一次循環(huán)迭代,如此經(jīng)過T次循環(huán) 迭代,學習出使目標函數(shù)最小的各個模態(tài)的最優(yōu)預測器;
[0050] 3)利用Sigmoid函數(shù)將各個模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同的 語義空間,W實現(xiàn)跨模態(tài)檢索。
[0051] 本實施例的MMB框架可W應用于多種媒體信息檢索中,如文本、圖像、音頻、視頻等 等,假設M表示模態(tài)的數(shù)目,那么W實驗為依據(jù)的風險函數(shù)即fi,...,fM]被相應地定義成如 下的形式
[0化2]
(24)
[0化3]其中畔表示第m個模態(tài)的第i個數(shù)據(jù)對象,而Lm[ ?]與fm( ?)分別表示第m個模態(tài)的 多類損耗函數(shù)與預測器。
[0054] 為了最小化公式(24)中的風險,我們可W先固定所有的預測器fi(i聲1),進而更 新第一個模態(tài)的預測器。然后,我們固定更新后的預測器fi與其它沒有被更新的預測器fi(i 聲1,2),從而更新第二個模態(tài)的預測器。按照運種方式,我們可W更新每一個模態(tài)的預測 器。當最后一個模態(tài)的預測器被更新后,迭代過程進入下一次的循環(huán),使得所有模態(tài)的最終 預測器能夠被共同地學習出來。因此,通過利用Sigmoid函數(shù)把每個模態(tài)的擬邊緣轉換到一 個共同的語義空間,我們可W解決新的跨模態(tài)檢索問題。
[0055] 下面W文本和圖像運兩種模態(tài)對本實施例的MMB框架的構成進行詳細闡述:
[0056] 假設多模態(tài)數(shù)據(jù)集為(X,Y,S) = {(xl,yl,sl),...,(XN,yN,SN)},其中X與Y分別代表 圖像集與文本集,而S與N分別代表語義詞匯表與多模態(tài)文檔的數(shù)目。如果語義詞匯表含有K 個不同的語義類,那么訓練集中的每一個圖像巧£吸^與每一個文本義.^吸^均帶有一個語義 類SiG {1,...,K},其中,E表示實數(shù)空間。然而,測試集中的圖像與文本并沒有用語義類來 標注。給出測試集中的一個圖像(文本)查詢,跨模態(tài)檢索的目標是在被檢索的文本(圖像) 空間中,尋找出語義相似的數(shù)據(jù)對象。在此基礎上,我們給出了跨模態(tài)檢索的形式化定義。
[0057] 定義1:給出一個查詢對象g e肢。與被檢索的數(shù)據(jù)集0 e IRM段設<與nf分別代表 查詢對象與任意數(shù)據(jù)i GO的語義特征向量,而d( ?,?)表示距離度量。在條件a,be {I,T} 且a聲b下,跨模態(tài)檢索的本質是對集合0內(nèi)的數(shù)據(jù)對象進行排序,使得巧<,7rf)的值逐漸增 加。
[0058] 如果K個不同的單位向量是中屯、位于原點的K-I維正則形的頂點,那么運些單位向 量可W構成一個碼本矩陣C=^l, ...,cK]。因此,每一個語義類概念k可W用單位向量 C4G吸W來重新編碼。假設f(x)e扱1-1與u(y)e化K-I分別代表圖像與文本的預測器,那么它 們關于第4個語義類的擬邊緣可^分別地表示成<^^),〇'^>與<11(7),〇'^>,其中<.,. >是標準的內(nèi)積。為了尋找不同模態(tài)的最優(yōu)預測器,我們定義了 W實驗為依據(jù)的風險函數(shù)
[0化9]
(2)
[0060]其中U ?,?]表示多類損耗函數(shù)。在公式(2)中,前兩項表達式分別地代表了圖像 與文本的模態(tài)內(nèi)損耗,而最后一項表達式掲示了圖像與文本的模態(tài)間損耗。模態(tài)內(nèi)損耗通 常可W精確地捕獲每個模態(tài)數(shù)據(jù)的語義類信息,而模態(tài)間損耗可W挖掘不同模態(tài)數(shù)據(jù)之間 的語義相關性。一般情況下,風險函數(shù)的最小化可W通過如下所示的優(yōu)化問題來求解
[0061 ]
(3)
[006^ 其中H= {gi(x)}與月=K(y)i分別代表弱學習器
的集合,而span( ?)表示由多類弱學習器的線性組合所構成的泛函空間。
[0063] 本實施例采用了多類指數(shù)損耗和多類邏輯損耗。采用多類指數(shù)損耗的過程為:
[0064] 多類損耗是擬邊緣的非負函數(shù),因此,圖像與文本的多類指數(shù)損耗可W分別地定 義為
[0065] (4)
[0066] (5)
[0067] 上述兩個公式中的多類指數(shù)損耗在Boosting多分類任務中具有貝葉斯一致性、多 類邊緣極大化與猜測背離性的優(yōu)點。
[0068] 對于公式(3)的優(yōu)化問題,我們很難同時求解出最優(yōu)的圖像預測器與文本預測器。 然而通過每次僅調(diào)整一個預測器,該優(yōu)化問題可W輕易地得到解決。令ft(x)與ut(y)分別代 表第t次Boosting迭代后的圖像與文本預測器,不失一般性,我們可W首先固定文本預測 器,進而執(zhí)行圖像預測器的更改過程。在預測器ft(x)的鄰近區(qū)域內(nèi),沿著多類弱學習器g (X)的方向,目標函數(shù)R[f(x),ut(y)]的一階泛函偏導數(shù)可表示為
[0069 巧)
[0070
[0071 (7)
[0072]在第t+1次圖像迭代的過程中,根據(jù)梯度下降策略,最大限度地減少風險的多類弱 學習器g*(x)可W表示為
[007;3] 貸)
[0074]
[0075] 巧
[0076] 因此,圖像預測器被更改為
[0077] f"i(x)=ft(x)+a*g*(x) (10)
[0078] 其次,固定已得到的圖像預測器,執(zhí)行文本預測器的更改過程。在預測器ut(y)的 鄰近區(qū)域內(nèi),沿著多類弱學習器v(y)的方向,目標函數(shù)即fW(x),u(y)]的一階泛函偏導數(shù) 可表示為
[0082]在第t+1次文本迭代的過程中,根據(jù)梯度下降策略,最大限度地減少風險的多類弱 學習器/(y)可W表示為
[0079] 燈1)
[0080]
[0081] (!2)
[0083]
腳
[0084] 與公式(9)稍微不同,沿著方向/(y)的最優(yōu)步長為
[0085]
(14)
[0086] 因此,文本預測器被更改為
[0087] u"i(y)=ut(y)+aV(y) (15)
[0088] 通過運樣相互交替的更改過程,我們可W尋找出最優(yōu)的圖像與文本預測器?;?多類指數(shù)損耗函數(shù),我們的多模態(tài)多類Boosting框架被記為E_MMB。
[0089 ]表1中的算法1詳細地闡述了 E_MMB方法的詳細步驟,在每次迭代中,E_MMB算法不 是同時地學習圖像與文本的預測器,而是在固定一個預測器的情況下調(diào)整另外一個預測 器。例如,從算法1的第3行到第6行,文本預測器被固定,而圖像預測器被調(diào)整。此時,圖像預 測器的調(diào)整過程是擴展的單模態(tài)多類Boosting,并且公式(2)中的第2個表達式可W被看作 常量。在第3行,根據(jù)梯度下降的策略,我們能夠獲得每一個多模態(tài)文檔的權重。該權重不僅 體現(xiàn)了圖像的語義信息,也暗含了圖像向文本靠猶的趨勢。在第4行,利用所有多模態(tài)文檔 的權重,我們可W在泛函空間內(nèi)找到一個最大程度地減少風險的方向。我們在第5行計算了 沿著最優(yōu)方向的最佳步長,并在第6行更新了圖像預測器。類似地,從算法1的第7行到第10 行,我們固定了剛剛更新后的圖像預測器,并且調(diào)整了文本的預測器。
[0090] 總的來說,算法1包含了一個集成迭代循環(huán),每個循環(huán)的作用是尋找最優(yōu)的圖像與 文本預測器。對于每次循環(huán),計算圖像與文本的多類弱學習器占了主要的時間開銷。一般而 言,圖像與文本的底層特征維度并不相同,因此計算每個多類弱學習器的代價是不一樣的。 若圖像與文本的多類弱學習器的計算代價分別為0(y)與O(T),那么E_MMB算法的時間復雜 度大約為〇(y^+T入)。
[0091] 表1多模態(tài)多類8〇〇3^11旨化_118)算法
[0092]
[0093] 采用多類邏輯損耗的過程為:圖像與文本的多類邏輯損耗可W分別地定義為
[0( (16) [0( (17)
[0096] 根據(jù)相關知識,上述兩個公式中的多類邏輯損耗在Boosting多分類任務中也具有 貝葉斯一致性、多類邊緣極大化與猜測背離性的優(yōu)點。
[0097] 類似地,我們先執(zhí)行圖像預測器的更改過程。在預測器ft(x)的鄰域內(nèi),沿著多類 弱學習器g(x)的方向,目標函數(shù)R[f(x),ut(y)]的一階泛函偏導數(shù)為
[009引 (IS)
[0099]
[0100] (19)
[0101] 在第t+1次圖像迭代的過程中,根據(jù)公式(19)、公式(8)與公式(9),我們可W相應 地獲得最優(yōu)的圖像弱學習器及其步長。
[0102] 接著,我們執(zhí)行文本預測器的更改過程。在預測器ut(y)的鄰近區(qū)域內(nèi),沿著多類 弱學習器v(y)的方向,目標函數(shù)R[f"i(x),u(y)]的一階泛函偏導數(shù)為
[0103] (?〇)
[0104]
[0105] (2\)
[0106] 在第t+1次文本迭代的過程中,根據(jù)公式(20)、公式(13)與公式(14),我們可W相 應地獲得最優(yōu)的多類文本弱學習器及其步長。隨著迭代次數(shù)的增加,我們能夠交替地尋找 出最優(yōu)的圖像與文本預測器。為了在下文中方便地敘述,我們把基于多類邏輯損耗函數(shù)的 多模態(tài)多類Boosting框架記為1^_匪8。
[0107] 另外,對于表1的第3行與第7行,如果表達式PPi與QQi分別地代替了表達式Pi與化, 那么我們就可W輕松地得到L_MMB算法。L_MMB算法與E_MMB算法有相同級別的時間復雜度。
[0108] 此外,當單獨地集成圖像或文本的多類弱學習器時,單模態(tài)的多類Boosting算法 的時間復雜度為或O(TA),運意味著它與本實施例的MMB算法有等量的時間復雜度。
[0109] 在單模態(tài)的Boosting方法中,如果單模態(tài)數(shù)據(jù)對象具有較低質量的底層內(nèi)容特 征,那么該對象的模態(tài)內(nèi)語義信息并不能很好地被挖掘。另外,單模態(tài)的Boosting方法沒有 設及到模態(tài)間的語義信息。在從底層特征到高層語義特征投影的過程中,一個有效的映射 機制應該結合所有的模態(tài),使得模態(tài)內(nèi)與模態(tài)間的語義信息被保留下來。在多模態(tài)的 Boosting方法中,一對多模態(tài)數(shù)據(jù)可W通過最小化模態(tài)間的損耗來縮短它們之間的擬邊緣 距離,運使得語義相關的對象在語義空間中能夠聚集在一起。為了挖掘每個模態(tài)的內(nèi)部語 義信息,模態(tài)內(nèi)的損耗也被盡量地減少。除此之外,如果模態(tài)內(nèi)的語義信息來自于較低質量 的數(shù)據(jù)對象,那么通過補充相應的模態(tài)間語義相關性,運些語義信息可W在一定程度上得 到增強。
[0110] 步驟3)中,對于任意的圖像數(shù)據(jù)X,我們可W用圖像預測器fi(x)來計算該圖像關 于第k個語義類的后驗概率
[0111]
(-2)
[0112] 其中〇(?)是Sigmoid函數(shù)。類似地,文本數(shù)據(jù)y關于第k個語義類的后驗概率為
[011引 (巧)
[0114] 給出一個模態(tài)的查詢數(shù)據(jù)q與另一個模態(tài)的被檢索對象,根據(jù)公式(22)與公式 (23)的映射機制,我們可W得到運些數(shù)據(jù)的語義特征向量。在語義空間內(nèi),傳統(tǒng)的距離度量 可W被用來執(zhí)行跨模態(tài)檢索。
[0115] 本發(fā)明的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置實施例
[0116] 本實施例的裝置用于實施上述用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建 方法,該裝置包括目標函數(shù)構建模塊、最優(yōu)預測器學習模塊和語義空間轉換模塊;
[0117] 目標函數(shù)構建模塊,用于構造目標風險函數(shù)即fl,...,fM],目標風險函數(shù)包括各個 模態(tài)的模態(tài)內(nèi)損耗和各個模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M 個模態(tài)的預測器,
[0118] 最優(yōu)預測器學習模塊,用于根據(jù)梯度下降策略,依次更新目標風險函數(shù)中每一個 模態(tài)的預測器,而固定其他M-I個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一 次循環(huán)迭代,如此經(jīng)過T次循環(huán)迭代后,學習出使目標函數(shù)最小的各模態(tài)的最優(yōu)預測器,其 中。1;
[0119] 語義空間轉換模塊,用于將各模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同 的語義空間,W實現(xiàn)跨模態(tài)檢索。
[0120] 為了進一步展示本實施例的MMB框架的跨模態(tài)檢索方法的優(yōu)良性能,將現(xiàn)有技術 中的SM、SCM、LCMH算法與本申請中的MMB算法進行比較分析。前兩個方法的映射機制被替換 成單模態(tài)的多類Boosting方法,而第S個方法可W作為一個沒有考慮語義特征向量的例 子。所有實驗的硬件環(huán)境:2.93Ghz的主頻,雙核的CPIKE7500)與2GB內(nèi)存的臺式機;軟件環(huán) 境:Windows XP,開發(fā)工具為MATLAB(R2012b)。
[0121] 實驗時,進行了兩種任務的檢索,第一個是用一個文本查詢來檢索相關的圖像數(shù) 據(jù),第二個是用一個圖像查詢來檢索相關的文本數(shù)據(jù)。
[0122] 我們采用了兩個基準數(shù)據(jù)集,即Wiki數(shù)據(jù)集與NUS-WIDE數(shù)據(jù)集。Wiki數(shù)據(jù)集是含 有2866個圖像文本對的多模態(tài)文檔集,而每一個文檔的語義類取自于最常見的10個語義概 念。訓練集與測試集分別包含了 2173與693個多模態(tài)文檔,圖像與文本的底層特征分別表示 成128維的視覺詞袋向量與10個主題的概率分布。NUS-WIDE數(shù)據(jù)集的來源是Flickr上的圖 像與標注,該數(shù)據(jù)集最初含有269648幅圖像W及由81個真實語義概念所組成的詞匯表。 Flickr為所有的圖像均提供了一些有意義的標注,因此每一個圖像與其對應的標注構成了 一個多模態(tài)文檔,即圖像文本對?;跀?shù)據(jù)集中出現(xiàn)頻率最高的15個語義概念,我們隨機地 抽取了 4800個多模態(tài)文檔。每一個多模態(tài)文檔只能屬于一個語義概念類,例如"Animal"、 巧Ui ldings"與"Flowers"等。每一個語義概念類涵蓋了 320個多模態(tài)文檔,最終的訓練集與 測試集分別包含了 3750與1050個多模態(tài)文檔。我們的實驗分別采用了 500維的SIFT特征向 量與1000維的詞頻向量來表示圖像與文本的底層特征。
[0123] 為了保持一致性,我們在SM與SCM方法中采用了規(guī)范化的相關性(NC)作為度量,在 LCMH方法中采用了漢明距離化D)作為度量。在MMB框架中,我們用NC來度量查詢對象與被檢 索對象之間的相似性。除此之外,圖像與文本的多類弱學習器均是深度為2的決策樹,算法1 的循環(huán)迭代次數(shù)被設置為100。如果一個查詢對象與返回的某個目標對象都屬于相同的語 義類,那么運兩個對象是相關的。在信息檢索領域,精確度(Precision)與召回率(Recall) 是衡量檢索性能的基礎尺度。給出一個查詢對象與被檢索的對象集,如果檢索算法根據(jù)相 關性的度量輸出一個大小為W的序列Ow,那么精確度與召回率的定義分別為
[0127]
(27)
[0124] (25)
[0125] (26) [01%] 基于公式(25),平均精確度(Average Precision)的定義如下
[012引其中E表示序列Ow中相關對象的個數(shù)。在公式(27)中,如果序列Ow的第i個對象與查 詢對象是相關的,那么丫(i)的值為1,否則值為0。通過平均所有查詢對象的AP值,我們可W 得到MAP(Mean Average Precision)得分。MAP是標準的信息檢索度量,較大的MAP值表示較 好的檢索性能。對于所有跨模態(tài)檢索方法,本實施例采用的評估度量包括MAP值、PR曲線 (11-point Interpolated Precision-recall Curve)與召回率曲線(Recall Curve)。
[0129] 在Wiki數(shù)據(jù)集上,我們對比了MMB方法與其他3個跨模態(tài)檢索方法。表2列出了所有 跨模態(tài)檢索方法的MAP值,其中W表示返回文檔的數(shù)目,而黑體數(shù)值表示最好的檢索性能。從 該表中可W清楚地看到,方法在跨模態(tài)檢索的兩個任務中均超越了其他3個 跨模態(tài)檢索方法,并且獲得了較好的平均檢索性能。例如,當W= 50時,與SCM的平均MAP值相 比,L_MMB的平均MAP值為0.31,大約提高了 20.2 % ;當測試集內(nèi)的所有對象被返回時,與SCM 的平均MAP值相比,L_MMB的平均MAP值大約提高了 19.8%,達到了0.23。
[0130] 表2各種跨模態(tài)檢索方法在Wiki數(shù)據(jù)集上的性能對比(MAP)
[0131]
[0132] 單模態(tài)的Boosting方法并沒有考慮模態(tài)間的語義信息,運可能使得圖像文本對在 語義空間內(nèi)有較遠的距離,因此SM與SCM產(chǎn)生較小的MP值。一方面,模態(tài)內(nèi)的語義信息反映 了每個模態(tài)的語義表達能力,而通過最小化模態(tài)間損耗得到的模態(tài)間語義信息更關注于不 同模態(tài)之間的相關性。運兩種類型的語義信息在跨模態(tài)檢索的過程中都有重要的作用,并 且二者是互補的。因此,它們的結合有益于檢索性能的提高。另一方面,通過最小化模態(tài)內(nèi) 的損耗,擁有高質量底層特征的模態(tài)數(shù)據(jù)能夠獲得質量較好的模態(tài)內(nèi)語義信息;同時,模態(tài) 間的語義相關性在一定程度上可W增強那些質量較差的模態(tài)內(nèi)語義信息。運些原因使得 MMB框架在跨模態(tài)檢索的任務中擁有較好的性能。此外,與SM或SCM方法相比,LCMH在跨模態(tài) 檢索的兩個任務中擁有較小的MAP值。產(chǎn)生運種現(xiàn)象的原因是,SM與SCM通過單模態(tài)的 Boosting方法獲得了圖像與文本的高層語義特征,而LCMH并沒有考慮語義概率空間內(nèi)的語 義信息。
[0133] 為了獲得更詳細的分析,圖2畫出了 在Wiki數(shù)據(jù)集上 的PR曲線。從該圖中可W看出,MMB框架又一次在跨模態(tài)檢索的兩個任務中超越了其他3個 跨模態(tài)檢索方法。例如,MMB的精確度在圖像查詢的任務中獲得了大福度的提高,并且運些 收益出現(xiàn)在所有的召回率水平上。圖2的實驗結果表明,MMB框架具有較高的準確率與較好 的泛化能力。在返回的序列中,隨著被檢索對象的數(shù)目增加,召回率曲線可W反映召回率的 具體變化。圖3給出了 LCMH、SM、SCM、6_匪8與L_MMB在Wi ki數(shù)據(jù)集上的召回率曲線。從該圖中 可W看到,MMB框架的召回率曲線一直在其他跨模態(tài)檢索方法的召回率曲線上方。運個實驗 結果表明,當被檢驗對象的數(shù)目相同時,MMB框架可W獲得較好的召回率。也就是說,MMB框 架能夠把更多的相關對象放在返回序列的前部分??傮w而言,通過結合模態(tài)內(nèi)的語義信息 與模態(tài)間的語義相關性,MMB框架可W有效地提高跨模態(tài)檢索的性能。
[0134] 我們也在NUS-WIDE數(shù)據(jù)集上對比了MMB框架與其他3個跨模態(tài)檢索方法的評估性 能。表3給出了所有跨模態(tài)檢索方法的MAP值,其中W表示被檢驗對象的數(shù)目,而黑體數(shù)值表 示最高的性能。可W看出,MMB框架再次超越了其他的跨模態(tài)檢索方法,并且達到了最好的 平均檢索性能。例如,與SM的平均MAP值相比,當W = 50時,L_MMB的平均MP值約為0.24,大約 提高了 39.3 % ;當測試集內(nèi)的所有對象被返回時,L_MMB的平均MP值大約提高了40.7 %,達 到了0.17。
[0135] 表3各種跨模態(tài)檢索方法在NUS-WIDE數(shù)據(jù)集上的性能對比(MAP)
[0136]
[0137] 類似地,圖4與圖5分別畫出了LCMH、SM、5〔1、6_匪8與1^_118在NUS-WIDE數(shù)據(jù)集上的 P她線與召回率曲線??蒞看出,MMB框架再次表現(xiàn)出最好的跨模態(tài)檢索性能。此外,對于PR 曲線與召回率曲線,MMB框架在NUS-WIDE數(shù)據(jù)集與Wiki數(shù)據(jù)集上保持了高度一致性。例如, 在圖2與圖4的所有召回率水平上,6_118與1_118的PR曲線在圖像查詢的任務中均超過其他 方法的PR曲線,獲得了較大福度的收益。對于NUS-WIDE數(shù)據(jù)集上的實驗結果,其主要原因在 于MMB框架結合了模態(tài)內(nèi)的語義信息與模態(tài)間的語義相關性。
【主權項】
1. 用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法,其特征在于,該方法包括如 下步驟: 1) 構造目標風險函數(shù)R[fi,...,fM],目標風險函數(shù)包括各個模態(tài)的模態(tài)內(nèi)損耗和各個 模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M個模態(tài)的預測器,M>2; 2) 根據(jù)梯度下降策略,依次更新目標風險函數(shù)中每一個模態(tài)的預測器,而固定其他M-I 個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一次循環(huán)迭代,如此經(jīng)過T次循環(huán) 迭代后,學習出使目標風險函數(shù)最小的各模態(tài)的最優(yōu)預測器,其中T>1; 3) 將各模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同的語義空間,以實現(xiàn)跨模態(tài) 檢索。2. 根據(jù)權利要求1所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法,其特 征在于,所述步驟2)中一次循環(huán)迭代的過程為: A) 根據(jù)梯度下降策略,計算各個模態(tài)文檔的權重; B) 根據(jù)每一個模態(tài)文檔的權重,求出在更新的預測器的鄰近區(qū)域內(nèi),沿著多類學習器 的方向的目標函數(shù)的一階泛函偏導數(shù),進而在泛函空間找到最大程度地減少風險的多類學 習器,即在泛函空間找到最優(yōu)方向; C) 利用步驟B)中所求出的多類學習器,求出沿著最優(yōu)方向的最佳步長,根據(jù)最佳步長 更新預測器。3. 根據(jù)權利要求2所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法,其特 征在于,步驟A)中在計算各個模態(tài)的權重時是基于各模態(tài)的多類指數(shù)損耗,某個模態(tài)的多 類指數(shù)損耗定義為其中,f(x)為某模態(tài)的預測器,K為 語義詞匯表中語義類的個數(shù),<f(X),ck-cs>表示某模態(tài)的預測器關于第k個與第s個語義 類的擬邊緣差,c$Pcs分別表示與第k個和第s個語義類對應的碼本向量。4. 根據(jù)權利要求2所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法,其特 征在于,步驟A)中在計算各個模態(tài)的權重時是基于各模態(tài)的多類邏輯損耗,某個模態(tài)的多 類邏輯損耗定義為:,其中,f(x)為某模態(tài)的預 測器,K為語義詞匯表中語義類的個數(shù),<f(X),ck-cs>表示某模態(tài)的預測器關于第k個與第 s個語義類的擬邊緣差,c$Pcs分別表示與第k個和第s個語義類對應的碼本向量。5. 根據(jù)權利要求1所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建方法,其特 征在于,所述風險函數(shù)R[fl·,. . .,fM]表示為:其中,S表不弟m個模態(tài)的弟i個數(shù)據(jù)對家,而LmL ·」與fm( ·)分別表示第m個模態(tài)的多 類損耗函數(shù)與預測器,CiX,(<)-1(ζ/)】表示第m個與第j個模態(tài)關于第i個數(shù)據(jù)的模態(tài)間 損耗。6. 用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置,其特征在于,該裝置包括目 標函數(shù)構建模塊、最優(yōu)預測器學習模塊和語義空間轉換模塊; 目標函數(shù)構建模塊,用于構造目標風險函數(shù)R[fi,...,fM],目標風險函數(shù)包括各個模態(tài) 的模態(tài)內(nèi)損耗和各個模態(tài)之間的模態(tài)間損耗,其中,fi為第一個模態(tài)的預測器,fM為第M個模 態(tài)的預測器,M>2; 最優(yōu)預測器學習模塊,用于根據(jù)梯度下降策略,依次更新目標風險函數(shù)中每一個模態(tài) 的預測器,而固定其他M-I個模態(tài)的預測器,當所有模態(tài)的預測器均被更新后,稱為一次循 環(huán)迭代,如此經(jīng)過T次循環(huán)迭代后,學習出使目標函數(shù)最小的各模態(tài)的最優(yōu)預測器,其中T多 1; 語義空間轉換模塊,用于將各模態(tài)的最優(yōu)預測器所產(chǎn)生的擬邊緣轉換到一個共同的語 義空間,以實現(xiàn)跨模態(tài)檢索。7. 根據(jù)權利要求6所述用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置,其特征 在于,所述一次循環(huán)迭代的過程為: A) 根據(jù)梯度下降策略,計算各個模態(tài)文檔的權重; B) 根據(jù)每一個模態(tài)文檔的權重,求出在更新的預測器的鄰近區(qū)域內(nèi),沿著多類學習器 的方向的目標函數(shù)的一階泛函偏導數(shù),進而在泛函空間找到最大程度地減少風險的多類學 習器,即在泛函空間找到最優(yōu)方向; C) 利用步驟B)中所求出的多類學習器,求出沿著最優(yōu)方向的最佳步長,根據(jù)最佳步長 更新預測器。8. 根據(jù)權利要求7所述用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置,其特征 在于,在計算各個模態(tài)的權重時是基于各模態(tài)的多類指數(shù)損耗,某個模態(tài)的多類指數(shù)損耗 定義為:其中,f(x)為某模態(tài)的預測器,K為語義詞匯表 中語義類的個數(shù),<f(x),ck-cs>表示某模態(tài)的預測器關于第k個與第s個語義類的擬邊緣 差,C$PCS分別表示與第k個和第s個語義類對應的碼本向量。9. 根據(jù)權利要求7所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置,其特 征在于,在計算各個模態(tài)的權重時是基于各模態(tài)的多類邏輯損耗,某個模態(tài)的多類邏輯損 耗定義為,其中,f(x)為某模態(tài)的預測器,K為語 義詞匯表中語義類的個數(shù),<f(X),ck-cs>表示某模態(tài)的預測器關于第k個與第s個語義類 的擬邊緣差,C$PCS分別表示與第k個和第s個語義類對應的碼本向量。10. 根據(jù)權利要求6所述的用于跨模態(tài)檢索的多模態(tài)多類Boosting框架構建裝置,其特 征在于,所述風險函數(shù)R[fl·,. . .,fM]表示為:其中,< 表示第m個模態(tài)的第i個數(shù)據(jù)對象,而Lm[ ·]與匕(·)分別表示第m個模態(tài)的多
【文檔編號】G06F17/30GK106021402SQ201610316164
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】王世勛, 潘鵬, 孫林, 張仕光, 李源
【申請人】河南師范大學