一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及多媒體檢索領(lǐng)域,具體設(shè)及一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方 法。
【背景技術(shù)】
[0002] 近年來,互聯(lián)網(wǎng)和多媒體技術(shù)快速發(fā)展,多媒體數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)的主要內(nèi)容, 包括圖像、文本、視頻、音頻等。隨著多媒體數(shù)據(jù)的總量不斷增長,如何有效檢索運(yùn)些信息就 成為了大數(shù)據(jù)使用和管理的關(guān)鍵問題?,F(xiàn)在常用的檢索方式為基于文本關(guān)鍵詞的檢索,即 用戶輸入查詢文本,系統(tǒng)將用戶查詢與數(shù)據(jù)的文本標(biāo)簽進(jìn)行匹配,從而得到檢索結(jié)果。然 而,運(yùn)種檢索方式需要對(duì)媒體數(shù)據(jù)進(jìn)行大量的人工標(biāo)注。為了克服運(yùn)種不足,研究者提出了 基于內(nèi)容的媒體檢索,即用戶上傳媒體數(shù)據(jù)作為查詢,系統(tǒng)通過分析查詢和庫中數(shù)據(jù)的內(nèi) 容相似性返回檢索結(jié)果排序,但在該方式中,檢索結(jié)果與用戶查詢必須為同種媒體類型,從 而限制了檢索的靈活性。跨媒體檢索是指,用戶上傳任意一種媒體類型的數(shù)據(jù),系統(tǒng)能夠得 到所有媒體類型的檢索結(jié)果排序。例如,用戶輸入一段音頻,跨媒體檢索不但能夠返回相關(guān) 的音頻,也能夠得到相關(guān)的其它媒體類型數(shù)據(jù),如文本、視頻等??缑襟w檢索大大提高了檢 索的靈活性和全面性,有利于滿足用戶日益增長的信息檢索需求。
[0003] 現(xiàn)有常見的跨媒體檢索方法是基于統(tǒng)計(jì)分析的統(tǒng)一表示學(xué)習(xí)方法。例如,典型相 關(guān)分析(化nonical Correlation Analysis,簡稱CCA)能夠通過分析成對(duì)數(shù)據(jù)的相關(guān)性,學(xué) 習(xí)得到一個(gè)能夠最大化其關(guān)聯(lián)性的公共子空間,從而將兩種媒體的數(shù)據(jù)映射到同一維度的 空間中,使其能夠通過距離排序,實(shí)現(xiàn)跨媒體檢索。在學(xué)習(xí)統(tǒng)一表示的過程中,CCA只利用了 媒體數(shù)據(jù)間的成對(duì)信息,沒有利用如類別標(biāo)簽等語義信息。為了建模類別標(biāo)簽信息, Rasiwasia等人在其文獻(xiàn)"A New Approach to Cross-Modal Multimedia Rehieval"中提 出了高層語義映射方法,先利用CCA學(xué)習(xí)不同媒體數(shù)據(jù)的統(tǒng)一表示,再對(duì)統(tǒng)一表示進(jìn)行邏輯 回歸得到高層語義表示,得到了比CCA更好的檢索準(zhǔn)確率。Zhai等人在文獻(xiàn)"Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization"中提出了一種基于稀疏和半監(jiān)督規(guī)約的跨媒體檢索方法。該方法能夠同 時(shí)進(jìn)行跨媒體關(guān)聯(lián)學(xué)習(xí)和高層語義抽象,且能夠在一個(gè)統(tǒng)一的框架中對(duì)不同媒體的數(shù)據(jù)引 入稀疏和半監(jiān)督規(guī)約,從而提高了檢索準(zhǔn)確率。
[0004] 隨著深度網(wǎng)絡(luò)在單媒體處理(如圖像特征提取和對(duì)象檢測等)中的廣泛應(yīng)用,其也 被應(yīng)用于跨媒體檢索的研究中。如Ngiam在文獻(xiàn)"Multimodal Deep Learning"中提出的多 模態(tài)自編碼器方法,W兩種媒體類型作為輸入,同時(shí)考慮二者的重構(gòu)誤差,在中間層建???媒體的關(guān)聯(lián)信息得到統(tǒng)一表示。Srivastava等人在文獻(xiàn)"Learning R邱resentations for Multimodal Data with De邱Belief Nets"中提出多模態(tài)深度信念網(wǎng)絡(luò)方法,首先使用分 離的兩層深度信念網(wǎng)絡(luò)來對(duì)于多種媒體的原始特征分別建模其分布概率模型,然后通過學(xué) 習(xí)一個(gè)RBM聯(lián)接層來融合上述分離的模型。運(yùn)些方法大多可W分為兩個(gè)學(xué)習(xí)階段。在第一個(gè) 階段中,對(duì)單媒體數(shù)據(jù)進(jìn)行語義抽象得到其高層特征表示。在第二個(gè)階段中,對(duì)單媒體的高 層特征表示進(jìn)行關(guān)聯(lián)學(xué)習(xí),從而得到統(tǒng)一表示特征。但是,它們?cè)诘谝粋€(gè)階段中,只對(duì)單媒 體進(jìn)行語義抽象而忽視了媒體關(guān)聯(lián),可能造成關(guān)聯(lián)信息的丟失。在第二個(gè)階段中,大多采用 淺層網(wǎng)絡(luò)結(jié)構(gòu),不能充分建模跨媒體關(guān)聯(lián)信息,從而限制了統(tǒng)一表示的排序效果。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方 法,能夠結(jié)合使用多種網(wǎng)絡(luò)結(jié)構(gòu),既考慮到單媒體內(nèi)部的語義抽象,又能夠建??缑襟w數(shù)據(jù) 的關(guān)聯(lián)信息,并利用兩級(jí)網(wǎng)絡(luò)進(jìn)行統(tǒng)一表示的學(xué)習(xí)。該方法對(duì)媒體內(nèi)部與媒體之間的關(guān)聯(lián) 信息進(jìn)行了全面建模,能夠充分利用跨媒體的關(guān)聯(lián)信息,從而提高了跨媒體排序的準(zhǔn)確率。
[0006] 為達(dá)到W上目的,本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,用于對(duì)跨媒體數(shù)據(jù)的媒體內(nèi)部與媒 體之間的關(guān)聯(lián)進(jìn)行全面分析,得到不同媒體的統(tǒng)一表示,從而實(shí)現(xiàn)跨媒體排序,包括W下步 驟:
[0008] (1)建立包含多種媒體類型的跨媒體數(shù)據(jù)集,提取所有媒體數(shù)據(jù)的特征向量;
[0009] (2)利用跨媒體數(shù)據(jù)集訓(xùn)練多深度網(wǎng)絡(luò)結(jié)構(gòu),用于為不同媒體的數(shù)據(jù)學(xué)習(xí)統(tǒng)一表 示;
[0010] (3)利用訓(xùn)練好的多深度網(wǎng)絡(luò)結(jié)構(gòu),得到不同媒體數(shù)據(jù)的統(tǒng)一表示,從而計(jì)算不同 媒體類型數(shù)據(jù)的相似性.
[0011] (4)取一種媒體類型作為查詢媒體,另一種媒體類型作為目標(biāo)媒體,將查詢媒體的 每個(gè)數(shù)據(jù)作為查詢樣例,檢索目標(biāo)媒體中的數(shù)據(jù),按照步驟(3)計(jì)算查詢樣例和查詢目標(biāo)的 相似性,按照相似性從大到小排序,輸出結(jié)果排序列表。
[0012] 進(jìn)一步,上述一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,所述步驟(1)中的多媒 體類型為兩種媒體類型:文本和圖像。
[0013] 進(jìn)一步,上述一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,所述步驟(1)中的特征 向量具體為:文本數(shù)據(jù)是提取詞頻特征向量,圖像數(shù)據(jù)是提取詞袋特征向量與MPEG-7視覺 特征向量。
[0014] 進(jìn)一步,上述一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,所述步驟(2)中的網(wǎng)絡(luò) 結(jié)構(gòu),結(jié)合使用了多種深度網(wǎng)絡(luò),能夠先對(duì)跨媒體數(shù)據(jù)的媒體內(nèi)部和媒體之間的關(guān)系進(jìn)行 全面分析,得到單媒體的中間表示,再通過兩級(jí)網(wǎng)絡(luò)結(jié)構(gòu),充分建模跨媒體數(shù)據(jù)的關(guān)聯(lián)信 息,得到不同媒體數(shù)據(jù)的統(tǒng)一表示。
[0015] 進(jìn)一步,上述一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,所述步驟(3)中的相似 性,定義為媒體數(shù)據(jù)的統(tǒng)一表示之間的距離度量。
[0016] 進(jìn)一步,上述一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法,所述步驟(4)的查詢方 式是,使用一種媒體作為查詢,檢索另一種媒體的相關(guān)結(jié)果。按照步驟(3)計(jì)算得到相似性 之后,根據(jù)相似性從大到小排序,輸出結(jié)果排序列表。
[0017] 本發(fā)明的效果在于:與現(xiàn)有方法相比,本方法通過結(jié)合使用多種深度網(wǎng)絡(luò),同時(shí)對(duì) 跨媒體數(shù)據(jù)的媒體內(nèi)部和媒體之間的關(guān)聯(lián)信息進(jìn)行建模,能夠更加全面地學(xué)習(xí)到媒體數(shù)據(jù) 間的關(guān)聯(lián),進(jìn)而使用兩級(jí)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行統(tǒng)一表示學(xué)習(xí),更加充分地利用了不同媒體之間的 關(guān)聯(lián)關(guān)系,提高了跨媒體排序的準(zhǔn)確率。
[0018] 本方法之所W具有上述發(fā)明效果,其原因在于:結(jié)合使用多種深度網(wǎng)絡(luò),對(duì)媒體內(nèi) 部和媒體之間的關(guān)聯(lián)關(guān)系都進(jìn)行了分別建模,且利用了兩級(jí)網(wǎng)絡(luò)學(xué)習(xí)統(tǒng)一表示。一方面,我 們使用多種深度網(wǎng)絡(luò),利用媒體內(nèi)部的關(guān)聯(lián)和媒體之間的關(guān)聯(lián),學(xué)習(xí)得到對(duì)應(yīng)每種媒體類 型的媒體內(nèi)部關(guān)聯(lián)表示和媒體之間關(guān)聯(lián)表示,從而同時(shí)建模了單媒體高層語義抽象信息及 媒體之間的關(guān)聯(lián)信息。另一方面,通過兩級(jí)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)媒體內(nèi)部和媒體之間關(guān)聯(lián)表示進(jìn)行 了有效融合,更加充分地建模了跨媒體數(shù)據(jù)的關(guān)聯(lián),從而得到了不同媒體數(shù)據(jù)的統(tǒng)一表示。 通過上述的一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法學(xué)習(xí)到的統(tǒng)一表示,具有更高的有 效性,從而提高了跨媒體排序的準(zhǔn)確率。
【附圖說明】
[0019] 圖1是本發(fā)明的一種基于多深度網(wǎng)絡(luò)結(jié)構(gòu)的跨媒體排序方法流程圖。
[0020] 圖2是本發(fā)明的完整網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。
當(dāng)前第1頁
1 
2 
3