一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法

文檔序號(hào)：10535062閱讀：740來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法
【專利摘要】本發(fā)明公開(kāi)了一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法。本方法針對(duì)多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題，利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性，基于子空間學(xué)習(xí)方法，將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中，將來(lái)自不同來(lái)源的相關(guān)描述耦合到一起。為了挖掘出中層空間中同構(gòu)描述之間的語(yǔ)義一致性，利用先驗(yàn)知識(shí)，將特征同構(gòu)描述投影到高層語(yǔ)義共享子空間上，進(jìn)而消除冗余和噪聲信息。由此，可以獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。本發(fā)明有助于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域，獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。
【專利說(shuō)明】
一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域，針對(duì)海量多源異構(gòu)數(shù)據(jù)環(huán)境下的特征異構(gòu)性問(wèn)題，提出了一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法。
【背景技術(shù)】
[0002] 近年來(lái)，隨著大量高技術(shù)數(shù)碼產(chǎn)品的出現(xiàn)，由這些異源電子設(shè)備產(chǎn)生的多源異構(gòu) 數(shù)據(jù)(felti-source Heterogeneous Data)己經(jīng)遍布到人們現(xiàn)實(shí)生活的各個(gè)角落。所謂多源異構(gòu)數(shù)據(jù)是指來(lái)自不同來(lái)源或者渠道，但表達(dá)的內(nèi)容相似，以不同形式、不同來(lái)源、不同視角和不同背景等多種樣式出現(xiàn)的數(shù)據(jù)。如圖1所示，新浪微博、騰訊微信和搜狐網(wǎng)站關(guān)于相同的新聞的不同形式的報(bào)道；老年癡呆癥（Alzheimer)患者的大腦可以由核磁共振 (MRI)、正電子成像技術(shù)(PET)和X光產(chǎn)生多種不同視角的醫(yī)學(xué)成像;Wikipedia網(wǎng)站上對(duì)花豹的描述采用了圖片、文本和語(yǔ)音等不同來(lái)源的媒介;相同的建筑物白宮可以處在不同的背景之下。
[0003] 然而，多源數(shù)據(jù)呈現(xiàn)出底層特征異構(gòu)、高層語(yǔ)義相關(guān)的特性。傳統(tǒng)的單源學(xué)習(xí) (Mono-source Learning)方法已無(wú)法適應(yīng)多源數(shù)據(jù)的特性。一種樸素的(naive)處理多源異構(gòu)數(shù)據(jù)的方式就是直接將所有來(lái)源的樣本描述強(qiáng)行拼接成一個(gè)長(zhǎng)向量，使其變成一般的單源學(xué)習(xí)問(wèn)題(僅對(duì)配對(duì)數(shù)據(jù)有效）。該方法符合將一個(gè)困難問(wèn)題歸結(jié)為一個(gè)已解決簡(jiǎn)單問(wèn) 題的思想，然而其實(shí)際效果往往不盡如人意。事實(shí)上，這種強(qiáng)行拼接的方法完全忽視了對(duì)學(xué) 習(xí)有極大用處的不同來(lái)源間的語(yǔ)義互補(bǔ)性。因此，如若利用針對(duì)單源數(shù)據(jù)的方法處理多源異構(gòu)數(shù)據(jù)的若干相關(guān)問(wèn)題，必然導(dǎo)致錯(cuò)誤的結(jié)果。
[0004] 近年來(lái)，國(guó)內(nèi)外的研究人員提出了各種各樣的多源學(xué)習(xí)方法，探索異源數(shù)據(jù)間的潛在關(guān)系，以期提高多源學(xué)習(xí)的效率。這些研究主要包括:協(xié)同訓(xùn)練(Co-training)、多核學(xué) 習(xí)（Multiple Kernel Learning，MKL)、子空間學(xué)習(xí)（Subspace Learning，SL) 〇
[0005] 協(xié)同訓(xùn)練是一種半監(jiān)督學(xué)習(xí)方法，利用異源間的互補(bǔ)信息，提高訓(xùn)練模型的泛化能力。它要求每個(gè)來(lái)源都有大量的有標(biāo)記樣本，以訓(xùn)練出一個(gè)強(qiáng)學(xué)習(xí)器，然后使用這個(gè)學(xué)習(xí) 器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記，并從中挑選出若干標(biāo)記可信度較高的樣本，加入對(duì)方來(lái)源的學(xué) 習(xí)器中，以便對(duì)方利用這些新標(biāo)記的樣本進(jìn)行更新，提高訓(xùn)練模型的泛化能力。這種方法的缺陷在于，它要求每個(gè)來(lái)源都有大量的有標(biāo)記樣本，學(xué)習(xí)條件太高。此外，它要求不同的來(lái) 源間是同構(gòu)的，所以無(wú)法解決異源間的特征異構(gòu)性問(wèn)題。（參考文獻(xiàn):Blum A，Mitche 11 T M.Combining Labeled and Unlabeled Data with Co-Training.Proceedings of the ACM International Conference on Computational Learning Theory，Madison， Wisconsin，USA，1998:92-100.)
[0006] 而多核學(xué)習(xí)是一種非線性模式分析方法，它組合利用了各個(gè)基本核的特征映射能力，使數(shù)據(jù)在由多個(gè)特征空間構(gòu)建的組合空間中得到更好的表達(dá)，從而找出多個(gè)來(lái)源間的關(guān)聯(lián)結(jié)構(gòu)。在多核框架下，每個(gè)來(lái)源使用不同的基本核函數(shù)，樣本在特征空間中的表示問(wèn)題轉(zhuǎn)化成為基本核與組合權(quán)系數(shù)的選擇問(wèn)題。在這個(gè)由多個(gè)特征空間構(gòu)建的組合空間中，通過(guò)將異構(gòu)數(shù)據(jù)的不同特征分量分別輸入對(duì)應(yīng)的基本核函數(shù)進(jìn)行映射，使數(shù)據(jù)在新的組合空間中得到更好的表達(dá)，從而提高分類正確率或預(yù)測(cè)精度。其缺點(diǎn)在于:很難針對(duì)每個(gè)來(lái)源選擇恰當(dāng)?shù)幕竞撕瘮?shù)和組合權(quán)系數(shù)。（參考文獻(xiàn):G6aenM，A1 paydin E.Multiple Kerne 1 Learning Algorithms.Journal of Machine Learning Research,2011，12:2211-2268?)
[0007] 共享子空間學(xué)習(xí)旨在獲得多個(gè)來(lái)源間共享的潛在子空間。利用多源異構(gòu)數(shù)據(jù)間的相關(guān)性和先驗(yàn)知識(shí)，將異構(gòu)數(shù)據(jù)投影到共享子空間上，從而消除不同來(lái)源間的特征異構(gòu)性，以捕捉不同來(lái)源間的互補(bǔ)信息。這類方法的優(yōu)點(diǎn)在于：1)可以得到異構(gòu)描述的同構(gòu)描述，便于直接度量異構(gòu)描述間的相關(guān)性，消除不同來(lái)源之間的異構(gòu)性;2)在投影過(guò)程中，能夠充分利用不同來(lái)源間的相關(guān)性和近似分布，提取更多的互補(bǔ)信息。（參考文獻(xiàn):Hard 〇〇n D R， Szedmak S,Taylor J S.Canonical Correlation Analysis:an Overview with Application to Learning Methods.Neural Computation,2004,16(12):2639-2664.)
[0008] 表1列出了各類多源學(xué)習(xí)方法的優(yōu)缺點(diǎn)。
[0009]表1.各類多源學(xué)習(xí)方法的優(yōu)缺點(diǎn)

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的：
[0012] 在多媒體分析、信息檢索和醫(yī)療診斷等現(xiàn)實(shí)應(yīng)用中，經(jīng)常會(huì)遇到相同的語(yǔ)義概念由不同來(lái)源的對(duì)象表達(dá)的情況。然而，多源異構(gòu)數(shù)據(jù)通常呈現(xiàn)出底層特征異構(gòu)、高層語(yǔ)義相關(guān)的特性。傳統(tǒng)的單源學(xué)習(xí)方法已無(wú)法適應(yīng)多源數(shù)據(jù)的特性。如何充分利用異源數(shù)據(jù)，挖掘其一致性和互補(bǔ)信息，以充分理解多源數(shù)據(jù)的內(nèi)容是當(dāng)今多源數(shù)據(jù)分析的熱點(diǎn)和難點(diǎn)。人們很自然地意識(shí)到，如果能將不同來(lái)源的異構(gòu)描述整合為某個(gè)涵蓋了所有來(lái)源間互補(bǔ)信息的語(yǔ)義一致模式，那么由此得來(lái)的一致性描述就更加有利于捕捉不同來(lái)源間的互補(bǔ)性。因此，如何從不同來(lái)源的異構(gòu)數(shù)據(jù)中挖掘出嵌入了異源間互補(bǔ)信息的語(yǔ)義一致模式，對(duì)于這些應(yīng)用獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果是十分重要的。
[0013] 然而，挖掘多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式是一項(xiàng)艱巨的任務(wù)。首先，如圖2所示，由于不同的來(lái)源橫跨異構(gòu)的底層特征空間，所以多源異構(gòu)描述之間沒(méi)有顯式的對(duì)應(yīng)關(guān)系。例如，在同一張網(wǎng)頁(yè)中，共生的圖片和文本分別從視覺(jué)和文字角度傳達(dá)了相同的語(yǔ)義概念，所以基于它們各自的異構(gòu)描述很難度量它們之間的關(guān)系。因此，為了關(guān)聯(lián)不同的來(lái)源，首先需要解決的問(wèn)題就是構(gòu)建一個(gè)中層特征同構(gòu)空間，并且在這個(gè)空間中充分嵌入不同來(lái)源間的互補(bǔ)信息。
[0014] 如圖3所示，對(duì)于中層空間中的同構(gòu)描述主要由必要成分、冗余成分和噪聲成分組成（參考文南犬：Qiang Cheng,Hongbo Zhou,Jie Cheng.The Fisher-Markov Selector:Fast Selecting Maximally Separable Feature Subset for Multiclass Classification with Applications to High-Dimensional Data.IEEE Trans.Pattern Analysis and Machine Intelligence ,2011,33(6): 1217-1233.)。必要成分指的是同構(gòu)描述之間的互補(bǔ) 信息，這些信息對(duì)于利用先驗(yàn)知識(shí)構(gòu)建語(yǔ)義一致模式是必要的。不同于必要成分，后兩者指的是非必要信息。它們之間的區(qū)別在于冗余成分和必要成分高度相關(guān)，而噪聲成分和前兩者之間沒(méi)有相關(guān)性。因此，在挖掘語(yǔ)義一致模式過(guò)程中另一個(gè)需要亟待解決的問(wèn)題就是提取特征同構(gòu)描述之間共享的高層語(yǔ)義子空間。由此，必要成分得以很好地保留而沒(méi)有殘留冗余和噪聲成分。
[0015] 而本發(fā)明的具體目的就是針對(duì)多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題，提供一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法，利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性，基于子空間學(xué)習(xí)方法，將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中，將來(lái)自不同來(lái)源的相關(guān)描述耦合到一起，消除高維中層特征同構(gòu)描述中的冗余和噪聲成分，以此挖掘出嵌入了異源間互補(bǔ)信息的語(yǔ)義一致模式，進(jìn)而獲得多源異構(gòu)數(shù)據(jù)特征描述的融合表示。
[0016] 本發(fā)明的技術(shù)方案：
[0017] 以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述，所舉實(shí)例只用于解釋本發(fā)明，并非用于限定本發(fā)明的范圍。
[0018] 如圖4所示，本發(fā)明提供了一種挖掘多源異構(gòu)數(shù)據(jù)語(yǔ)義一致模式的基本框架。這個(gè) 框架由兩個(gè)數(shù)學(xué)模型組成，一個(gè)為同構(gòu)相關(guān)冗余變換（Isomorphic Relevant Redundant Transformation，IRRT)模型，另一個(gè)為基于相關(guān)性的聯(lián)合特征學(xué)習(xí)（Correlation-based Joint Feature Learning，CJFL)模型。其中，通過(guò)學(xué)習(xí)多個(gè)線性變換，IRRT模型將多個(gè)異構(gòu) 的底層特征空間線性地映射到一個(gè)中層高維冗余特征同構(gòu)空間，消除異源間的特征異構(gòu) 性，從而捕捉到更多的不同來(lái)源間的互補(bǔ)信息。為了挖掘出中層空間中同構(gòu)描述之間的語(yǔ) 義一致性，CJFL模型利用先驗(yàn)知識(shí)，將特征同構(gòu)描述投影到一個(gè)低維的高層語(yǔ)義共享子空間上，進(jìn)而消除冗余和噪聲信息。由此，可以獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。從而有助于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域，獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。 [0019]具體的技術(shù)方案為：
[0020] 1)IRRT模型會(huì)利用不同來(lái)源之間的互補(bǔ)性，學(xué)習(xí)多個(gè)線性變換A和B，以消除不同來(lái)源間的特征異構(gòu)性，從而可以獲得一個(gè)中層冗余特征同構(gòu)空間。在這個(gè)同構(gòu)空間中，來(lái)自不同來(lái)源的相關(guān)描述被耦合到一起，以此捕捉出不同來(lái)源間的互補(bǔ)信息。從而便于在中層高維同構(gòu)空間中直接度量多源異構(gòu)數(shù)據(jù)間的相似性。
[0021] 例如，如圖4所示，第i對(duì)共生樣本XjPyi被投影到中層高維特征同構(gòu)空間中，以此消除了它們之間的特征異構(gòu)性。
[0022] 2)與此同時(shí)，為了挖掘同構(gòu)描述之間的語(yǔ)義一致性，CJFL模型在IRRT模型學(xué)習(xí)到的高維特征同構(gòu)空間中，利用先驗(yàn)知識(shí)提取特征同構(gòu)描述之間共享的高層語(yǔ)義子空間。在語(yǔ)義共享子空間中，來(lái)自同一來(lái)源相同類別的樣本靠攏在一起，而不同類別的實(shí)例則保持一定距離。從而，在中層空間中有效地去除了冗余和噪聲信息。
[0023] 如圖4所示，第i對(duì)耦合描述被映射到語(yǔ)義共享子空間中，并同時(shí)保持了它們之間的互補(bǔ)性。由于帶有來(lái)自中層空間的必要互補(bǔ)信息，由此得來(lái)的語(yǔ)義一致模式和任一單一來(lái)源的描述相比更可能是線性可分的。
[0024] 下面進(jìn)一步說(shuō)明本發(fā)明的主要內(nèi)容：
[0025] 1)同構(gòu)相關(guān)冗余變換模型
[0026]本發(fā)明提供的同構(gòu)相關(guān)冗余變換IRRT模型，利用了不同來(lái)源之間的互補(bǔ)性，學(xué)習(xí) 多個(gè)線性變換，比如圖4中有兩個(gè)不同來(lái)源X和Y，則學(xué)習(xí)兩個(gè)線性變換A和B，以消除不同來(lái) 源間的特征異構(gòu)性，從而將多源異構(gòu)數(shù)據(jù)X e Ewx~和r E股0七(心為來(lái)源X的維度，dy為來(lái)源 Y的維度，n為樣本數(shù)量)投影到一個(gè)中層冗余特征同構(gòu)空間。在這個(gè)同構(gòu)空間中，來(lái)自不同來(lái)源的相關(guān)描述被耦合到一起，并對(duì)變換后的數(shù)據(jù)施加低秩(Low-rank)約束，以此捕捉出不同來(lái)源間的互補(bǔ)信息。
[0027] IRRT方法的優(yōu)化模型如下： min ||A'^-
[0028] f (1) s.t. and ||V < f
[0029] 其中4 e EdxXp，B E Edyxp，p> >max(dx，dy)，p為中層高維冗余特征同構(gòu)空間的維度，e和y是預(yù)先指定的正參數(shù)，用來(lái)控制變換后的數(shù)據(jù)攜帶的信息量。在公式（1)中引入跡范數(shù)(低秩)約束的目的就是在特征同構(gòu)空間中捕捉更多不同來(lái)源間的潛在互補(bǔ)信息。
[0030] 需要注意的是，直接求解公式（1)中的問(wèn)題^^不是一個(gè)簡(jiǎn)單的任務(wù)，原因有兩點(diǎn)。首先，盡管問(wèn)題V:單獨(dú)對(duì)于每個(gè)變量A和B都是凸問(wèn)題，但問(wèn)題^^整體上是一個(gè)非凸問(wèn)題。第二，跡范數(shù)約束是不平滑的，這就使得求解這個(gè)模型的最優(yōu)解變得更加困難。然而，引理1 表明在問(wèn)題^^中對(duì)變換數(shù)據(jù)的跡范數(shù)約束可以松弛地轉(zhuǎn)換為問(wèn)題中對(duì)投影矩陣的跡范數(shù)約束。
[0031] 引理1對(duì)于正數(shù)s和任意兩個(gè)可相乘矩陣C和D，如果
[0032] IIClkllDll^S
[0033] 那么
[0034] IICDII* 彡 S
[0035]證明：由于跡范數(shù)是矩陣范數(shù)，所以它滿足任意兩個(gè)可相乘矩陣的相容性原理。 (參考文南犬：Carl D . Meyer . Matrix Analysis and Applied Linear Algebra . SIAM Publishers,2000?)所以，可以得到下式：
[0036] ||CD||* 彡 IICIWIDII*
[0037] 因此，如果IICIWIDIKS，那么IICDIKS。這就完成了引理1的證明。
[0038] 根據(jù)引理1，如果在問(wèn)題中預(yù)先指定的正參數(shù)￡和丫滿足：
[0039] ||X||*||A||*彡e和||Y||*||B||*彡 y (2)
[0040] 那么，可以得到||XA|Ke和IlYBlKy。因此，在問(wèn)題W沖的跡范數(shù)約束可以轉(zhuǎn)化為：
[0041 ] ||A||*彡e/||X||*和||B||*彡 y/||Y||* (3)
[0042] 由此，利用公式(3)中的松弛約束，可以將問(wèn)題％轉(zhuǎn)化為如下問(wèn)題W2: min \\XA - YB\\j
[0043] A'B (4) s.t. ||/l|U<￡/p|U md \\B\U<y/\\Y\U
[0044] 2)基于相關(guān)性的聯(lián)合特征學(xué)習(xí)
[0045]本發(fā)明提供的基于相關(guān)性的聯(lián)合特征學(xué)習(xí)模型CJFL，在IRRT模型構(gòu)建的中層高維冗余特征同構(gòu)空間中，利用先驗(yàn)知識(shí)消除冗余和噪聲信息，將特征同構(gòu)的高維描述投影到一個(gè)低維的高層語(yǔ)義共享子空間上。由此，獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。
[0046] CJFL模型的具體細(xì)節(jié)如下：設(shè)(A'B，是問(wèn)題％的最優(yōu)解。那么，可以得到兩組同構(gòu)相關(guān)幾余描述：/= 和R 8 'yj丨^、設(shè)歧和分別是j和r中第t個(gè)類的樣本集合。定義如下各式：
[0047] <S| = {(a^ayjjai.cjy G C^i ^ /) (5)
[0048] 辟=為)丨屹 b G 轉(zhuǎn)，i 尹 /} (6)
[0049] T)lx - I {at, ?,)|?; G A ay- ￡ C'S, i t- j, t k] (7)
[0050] 力鏟二[(b0 e 貧八 bj. e Cp, i 幸 j, t * k) (8)
[0051] 設(shè)
[0052] 各=Zr.凝和知=2.r 碎 (9)
[0053] % = StSfcl# 和?k = &；^?浐 (1U)
[0054] 顯然，來(lái)自于心或馬的每對(duì)數(shù)據(jù)在語(yǔ)義上是彼此相似，而來(lái)自于或％的每對(duì)數(shù) 據(jù)在語(yǔ)義上是彼此不相似。
[0055] 為了消除中層高維空間中的冗余和噪聲信息，需要利用先驗(yàn)知識(shí)(類信息)學(xué)習(xí)一個(gè)線性變換0elRPxfc(p為中層高維冗余特征同構(gòu)空間的維度，k為高層低維語(yǔ)義共享子空間的維度），以此參數(shù)化語(yǔ)義共享子空間。在數(shù)學(xué)上，需要最小化如下類內(nèi)距離： 2 (0Ta, - 0Taj) (07〇[ - 0Ta/) + I (0Th - 07bj)'（&Tb「0Tbj)
[0056] 二 X tr(07(?i -ay)(ar-a/)，0) + ^ tr (〇r(>; - /?；)(〇； - bjY&) YlutAjJ^Sx -tr(0Tjs0) -f tr(9rRs6) -tr(eru；： + Rs)e) (11)
[0057] 其中
[0058] Z (fli ~ ~ aif (12) Y(atAj)BSx
[0059] Rs = ^ {bi ~ bj)(hi - hj) (丨 3) ￥{hi，bj)eSY
[0060] 并且厶+馬是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類內(nèi)散度矩陣。與此同時(shí)，還要最大化如下類間距離： (0ra( - 0ray)T (〇7aj - 0rr/y) + ^ (0r/?, - & ! hj)' ^Brh[ - 0rh() V( fi i而)￡2?覃 V (i 力 j.)
[0061] = E ^(0T(a<-?；)(?<-?/)f0)+ Y, trle^bi-b^hi-hj)' e) =tr(0T/D0) + tr(0r/?.D0) -cr(0r(/r + /?z〇0) v*4)
[0062] 其中
[0063]】.$ 二 H (ai ~ aMat- %) (] 5) y(ai，aj)eVx
[0064] Z (^~hJ^bi~bj')T (16)
[0065] 并且/? +知是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類間散度矩陣。為了同時(shí)最小化類內(nèi)距離并且最大化類間距離?？梢灾苯訉⑸鲜鰡?wèn)題歸納為如下跡率優(yōu)化問(wèn)題：
(17)
[0067]其中，tr( ?)表示矩陣的跡，對(duì)?的正交約束用來(lái)消除中層空間中和必要信息高度相關(guān)的冗余信息。
[0068] 在另一方面，應(yīng)當(dāng)完好地保留同構(gòu)描述之間的互補(bǔ)性。因此，可將模型Qi重新定義為如下形式：
(1約
[0070] 其中，丨|/0 - R0|||表示基于相關(guān)性的殘差，用來(lái)避免破壞耦合描述的內(nèi)在結(jié)構(gòu)，而正規(guī)化項(xiàng)丨|0丨||控制模型的復(fù)雜度，a和0為正規(guī)化參數(shù)。
[0071] 3)語(yǔ)義一致模式
[0072] 設(shè)(A'B，是問(wèn)題W2的最優(yōu)解，?$是問(wèn)題02的最優(yōu)解。那么，對(duì)于第i對(duì)異構(gòu)描述 & 1，71)，可以利用最優(yōu)解#，8，?%得到異構(gòu)描述各自的同構(gòu)相關(guān)描述：
[0073] % = 0*rTrx;和 Ty;二 0*rrry( (19)
[0074] 此外，可以基于\和％得到不同模態(tài)的一致性描述Tl，即多源異構(gòu)數(shù)據(jù)在高層語(yǔ) 義共享子空間上的語(yǔ)義一致模式：
[0075] Tj = (^, + %.)/2 (20)
[0076]本發(fā)明的有益效果：
[0077]針對(duì)于多源異構(gòu)數(shù)據(jù)中存在的特征異構(gòu)性問(wèn)題，本發(fā)明提供了一種挖掘多源異構(gòu) 數(shù)據(jù)語(yǔ)義一致模式的框架。該框架首先包含一種帶有低秩(Low-rank)約束的IRRT模型，學(xué) 習(xí)多個(gè)線性變換，從而可以有效地捕捉到不同來(lái)源間的語(yǔ)義互補(bǔ)性，將多個(gè)異構(gòu)底層特征空間和一個(gè)高層語(yǔ)義共享子空間橋接起來(lái)。此外，為了挖掘出中層空間中同構(gòu)描述之間的語(yǔ)義一致性，CJFL模型在IRRT模型學(xué)習(xí)到的高維特征同構(gòu)空間中，將特征同構(gòu)的高維描述投影到一個(gè)低維的高層語(yǔ)義共享子空間上，進(jìn)而消除冗余和噪聲信息。由此，可以獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式，從而有助于在多媒體分析、信息檢索和醫(yī)療診斷等領(lǐng)域，獲得準(zhǔn) 確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。
【附圖說(shuō)明】
[0078]圖1為多源異構(gòu)數(shù)據(jù)的示例圖。
[0079]圖2為多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性的示例圖。
[0080]圖3為中層空間中同構(gòu)描述的成分的示例圖。
[0081 ]圖4為挖掘多源異構(gòu)數(shù)據(jù)語(yǔ)義一致模式的框架的示例圖。
【具體實(shí)施方式】
[0082] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面通過(guò)具體實(shí)施例和附圖，對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
[0083] 本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的一致性表示方法，由同構(gòu)相關(guān)冗余變換IRRT和基于相關(guān)性的聯(lián)合特征學(xué)習(xí)CJFL算法組成，通過(guò)循環(huán)迭代過(guò)程實(shí)現(xiàn)模型的逐步優(yōu)化。
[0084] 在公式(4)中的IRRT模型可以簡(jiǎn)化為：
[0085] (21)
[0086] 其中，代）=丨HI1是平滑的目標(biāo)函數(shù)，Z=[Az Bz]象征優(yōu)化變量，而e為封閉的凸集，其定義為：
[0087] e = {zi< F/nu (22)
[0088] 由于f( ?)是連續(xù)可微函數(shù)且?guī)в蠰ipschitz連續(xù)梯度L(參考文獻(xiàn)： Y.Nesterov.Introductory lectures on convex optimization，volume 87.Springer Science&Business Media,2004.)：
[0089] ||F/(Zy) - Vf{Zy)\\F < L\\ZX - Zy\\F，VZ..Z, G (23)
[0090] 所以，很適合采用加速投影梯度(Accelerated Projected Gradient，APG)(參考文獻(xiàn)：Y ? Nesterov ? Introductory lectures on convex optimization,volume 87? Springer Science&Business Media，2004?)算法求解公式（21)中的問(wèn)題。APG算法已成功應(yīng)用于如下優(yōu)化問(wèn)題：
[0091] ⑵ (24)
[0092] 其中，g( ?)是一個(gè)平滑的目標(biāo)函數(shù)，z是優(yōu)化變量，而沒(méi)是優(yōu)化問(wèn)題的可執(zhí)行域。
[0093] 需要注意的是，在APG算法中一個(gè)給定點(diǎn)s在凸集f = {zlllzKm}上的歐幾里德投影可以定義為：
[0094] pro/5(s) = ar" |k - -?|丨異/2 (25)
[0095] 其中，m是預(yù)先指定的正常數(shù)。那么，可以使用在跡范數(shù)約束上的有效投影 (Efficient Projection on Trace Norm Constraints，EPTNC)算法（參考文南犬：John Duchi,Shai Shalev-Shwartz，Yoram Singer，Tushar Chandra.Efficient Projections onto the il-Ball for Learning in High Dimensions.Proc.International Conference on Machine 1^&^^邱，2008 4口.272-279.)求解等式（25)。算法1給出了￡?1?^算法的具體細(xì)節(jié)。
[0097] 當(dāng)應(yīng)用APG算法求解公式(21)中的問(wèn)題時(shí)，一個(gè)給定點(diǎn)S=[As Bs]在集合e上的歐幾里德投影Z=[Az Bz]可以定義為：
[0098] ?"，o/c(S)二覽皆 - S||f/2 (26)
[0099] 通過(guò)結(jié)合APG算法和算法1，就可以求解公式(21)中的問(wèn)題。算法2給出了 IRRT算法的具體細(xì)節(jié)。
[0101] 13；計(jì)算[祝+1]=五pt顧(霉,e) * 14：設(shè) 4+1 =[~+1 H. 15： if f(Zi+1) < fyhSi(Zi+1) then break 16: eke更新朽=x 2。 17； end-if 18： end-while 19：更新 g = (1 十 Jl + 4t?_1^/2 和）= rp 201 end-for 2-1;設(shè)Z* 二 A+1
[0102] 可以通過(guò)最大化如下跡差問(wèn)題獲得公式(18)中的CJFL模型的最優(yōu)解?' &* - ara max\tr(&1 (Jv + Rt))&) - ??￡fr(0? (J^ + R^)〇) -r]tatr((J6 - R〇yr(j8 - R6)) - rnptr{67 0)\ =arg max\tr(9T(jv + Rv - ri, (Js + Rs)')0)
[0103] 0 0=1 (27) -rjl tr{a(QTjTjQ - 20r/r/?0 + &TRTR&) + peT&)] -art) max \trtr(&1 {jv + Rv - m (h + Rs + a{jTj - 2JtR + RtR) + (^I))0)]
[0104] 其中nt(見(jiàn)等式（28))為第t次迭代的跡率值。因此，?*由矩陣 /? + /?B -仏仏+心+ aC/T./ - 2/' R +Z?7"/?) + /?/)的k個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)成的。算法3給出了 CJFL算法的具體細(xì)節(jié)。
[0106] 本發(fā)明提供的挖掘多源異構(gòu)大數(shù)據(jù)語(yǔ)義一致模式的IRRT+CJFL框架，針對(duì)多源異構(gòu)數(shù)據(jù)的特征異構(gòu)性問(wèn)題，利用多源異構(gòu)數(shù)據(jù)間的語(yǔ)義互補(bǔ)性，基于子空間學(xué)習(xí)方法，將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間。并在這個(gè)同構(gòu)空間中，將特征同構(gòu)的高維描述投影到一個(gè)低維的高層語(yǔ)義共享子空間上，進(jìn)而消除冗余和噪聲信息，使來(lái)自不同來(lái) 源的相關(guān)描述耦合到一起，以此挖掘出嵌入了異源間互補(bǔ)信息的語(yǔ)義一致模式。從而獲得多源異構(gòu)數(shù)據(jù)特征描述的融合表示。
[0107] 以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制，本領(lǐng)域的普通技術(shù) 人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換，而不脫離本發(fā)明的精神和范圍，本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書(shū)所述為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法，其特征在于，包括以下步驟： 1) 利用多源異構(gòu)數(shù)據(jù)之間的互補(bǔ)性學(xué)習(xí)多個(gè)線性變換，以消除不同來(lái)源間的特征異構(gòu) 性，從而將多源異構(gòu)數(shù)據(jù)投影到一個(gè)中層冗余特征同構(gòu)空間，在這個(gè)中層冗余特征同構(gòu)空間中，來(lái)自不同來(lái)源的相關(guān)描述被耦合到一起，以此捕捉到不同來(lái)源間的互補(bǔ)信息； 2) 在所述中層冗余特征同構(gòu)空間中，利用先驗(yàn)知識(shí)將特征同構(gòu)描述投影到高層語(yǔ)義共享子空間上，在高層語(yǔ)義共享子空間中來(lái)自同一來(lái)源相同類別的樣本靠攏在一起，而不同類別的實(shí)例則保持一定距離，從而消除冗余和噪聲信息，獲得多源異構(gòu)數(shù)據(jù)的語(yǔ)義一致模式。2. 如權(quán)利要求1所述的方法，其特征在于，步驟1)對(duì)于多源異構(gòu)數(shù)據(jù)X eirx夂和 7 e ，學(xué)習(xí)兩個(gè)線性變換A和B，其中dx為來(lái)源X的維度，dy為來(lái)源Y的維度，η為樣本數(shù)量；并建立如下的優(yōu)化模型其中4 € EdxXp，β e IRdyxp,p> >max(dx，dy)，ρ為中層冗余特征同構(gòu)空間的維度；ε和γ 是預(yù)先指定的正參數(shù)，用來(lái)控制變換后的數(shù)據(jù)攜帶的信息量。3. 如權(quán)利要求2所述的方法，其特征在于，為求解屯i，將Ψ i中對(duì)變換數(shù)據(jù)的跡范數(shù)約束松弛地轉(zhuǎn)換為下而Ψ 9由對(duì)枵影鉭陳的W茹教約市，4. 如權(quán)利要求3所述的方法，其特征在于，步驟2)中，為了消除冗余和噪聲信息，利用先驗(yàn)知識(shí)學(xué)習(xí)一個(gè)線性變換ITwS其中k為子空間的維度，以此參數(shù)化語(yǔ)義共享子空間，進(jìn) 而最小化類內(nèi)距離并且最大化悉問(wèn)！?畝-刖歸妯先加下?亦東什仆陸顎：其中，A + %是由兩組同構(gòu)相關(guān)冗余描述的數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類內(nèi)散度矩陣， + 是由數(shù)據(jù)集J和R構(gòu)成的聯(lián)合類間散度矩陣，對(duì)Θ的正交約束用來(lái)消除中層空間中和必要信息高度相關(guān)的冗余信息。5. 如權(quán)利要求4所述的方法，其特征在于，步驟2)為了完好地保留同構(gòu)描述之間的互補(bǔ) 性，將Ω :重新定々為如下形式：其中，||/Θ - /?Θ表示基于相關(guān)性的殘差，用來(lái)避免破壞耦合描述的內(nèi)在結(jié)構(gòu)，而正規(guī) 化項(xiàng)ΙΙΘΙΙΙ控制模型的復(fù)雜度，α和β為正規(guī)化參數(shù)。6. 如權(quán)利要求5所述的方法，其特征在于，步驟2)中，設(shè)(Α'Β，是問(wèn)題Ψ2的最優(yōu)解，是問(wèn)題〇2的最優(yōu)解，那么對(duì)于第i對(duì)異構(gòu)描述( Xl，yi)，利用最優(yōu)解Α'Β?ΡΘ%得到異構(gòu)描述各自的同構(gòu)相關(guān)描述： Tjei = .Θ*Γ4*Γχ：? 和·^ = 然后基于~和以·得到不同模態(tài)的一致性描述^，即多源異構(gòu)數(shù)據(jù)在高層語(yǔ)義共享子空 A = (? + τ；^)/2〇間上的語(yǔ)義一致模式：
【文檔編號(hào)】G06F17/30GK105893612SQ201610266857
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年4月26日
【發(fā)明人】張磊, 王樹(shù)鵬, 云曉春
【申請(qǐng)人】中國(guó)科學(xué)院信息工程研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張磊;王樹(shù)鵬;云曉春;
技術(shù)所有人：中國(guó)科學(xué)院信息工程研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多源異構(gòu)數(shù)據(jù)融合技術(shù)相關(guān)技術(shù)

多源異構(gòu)相關(guān)技術(shù)

多源異構(gòu)數(shù)據(jù)相關(guān)技術(shù)

多源異構(gòu)數(shù)據(jù)融合相關(guān)技術(shù)

多源異構(gòu)數(shù)據(jù)集成相關(guān)技術(shù)

什么是多源異構(gòu)數(shù)據(jù)相關(guān)技術(shù)

多源異構(gòu)大數(shù)據(jù)融合相關(guān)技術(shù)

多源異構(gòu)大數(shù)據(jù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多源異構(gòu)大數(shù)據(jù)的一致性表示方法