欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法與流程

文檔序號(hào):11950494閱讀:179來源:國知局
基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法與流程
本發(fā)明屬于圖像處理
技術(shù)領(lǐng)域
,具體涉及一種基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法。
背景技術(shù)
:網(wǎng)絡(luò)環(huán)境下,圖像一般是嵌入在Web網(wǎng)頁中發(fā)布的,具有豐富的文本信息,如標(biāo)簽(tag)、文件名、網(wǎng)址信息和圖像上下文等。對(duì)于Web圖像檢索,基于文本信息的TBIR(Text-basedImageRetrieval)和基于圖像視覺特征的CBlR(Content-basedImageRetrieval)有著各自的優(yōu)勢和不足。TBIR一定程度回避了對(duì)復(fù)雜可視化元素的識(shí)別難題,充分利用了Web網(wǎng)頁上下文和超文本結(jié)構(gòu)信息,并且符合人們熟悉的檢索習(xí)慣,實(shí)現(xiàn)簡單,但是因?yàn)槿耘f局限于文本檢索范圍下,通過受控詞匯來描述圖像,因此容易出現(xiàn)主題歧義、標(biāo)注不一等問題。CBIR則恰好相反,它主要利用對(duì)直觀形象的特征元素的分析來檢索圖像,具有一定的客觀性,如每幅圖像的顏色直方圖是確定的,但是CBIR存在語義鴻溝問題,單純依據(jù)圖像視覺特征檢索很可能會(huì)將視覺特征相似但語義不同的圖像檢索出來,也有可能會(huì)將視覺特征不同但語義相同的圖像檢索不出來。為了能夠充分利用Web圖像所包含的信息,一些研究者開始研究在Web圖像檢索中同時(shí)利用Web圖像的視覺特征和圖像所在網(wǎng)頁的文本信息。Woodruff等人在基于關(guān)鍵字檢索的基礎(chǔ)之上,利用縮略圖幫助用戶定位其感興趣的網(wǎng)頁。Xue等人采用與Woodruff等人類似的策略,使用網(wǎng)頁的文本片段(textsnippet)和圖像片段(imagesnippet)幫助用戶在檢索結(jié)果中快速定位其感興趣的網(wǎng)頁。但是,Woodruff等人和Xue等人僅僅使用Web圖像內(nèi)容將檢索結(jié)果更好地展示給用戶,并沒有將它運(yùn)用在圖像檢索過程中。Wang等人嘗試將圖像視覺特征和文本信息分別當(dāng)作兩種不同的對(duì)象,然后在它們之間建立起各種關(guān)聯(lián),再通過使用互信息將二者融合在一起實(shí)現(xiàn)Web圖像檢索,但是這種方式并沒有充分利用Web圖像內(nèi)容的高層語義特征。Chen等人通過文本信息對(duì)應(yīng)向量之間夾角的余弦計(jì)算文本信息間的相似性,而計(jì)算視覺特征之間的相似性時(shí)通過計(jì)算它們對(duì)應(yīng)向量之間的歐幾里德距離,然后使用線性方式將上述的兩個(gè)度量組合起來,并且設(shè)置二者權(quán)重相同,即認(rèn)為文本信息和視覺特征在Web圖像檢索中的重要程度一樣。Srihari等人采用了類似的策略將基于文本信息查詢的模型和基于圖像視覺特征查詢的模型線性的組合起來。以上這些研究還只是停留在信息利用層面,并沒有實(shí)現(xiàn)這兩種信息的真正融合。Silva等人的研究結(jié)果表明,在Web圖像檢索中同時(shí)使用包括視覺和文本在內(nèi)的多種信息有助于改進(jìn)Web圖像檢索。Kuo等人提出了一種針對(duì)大規(guī)模圖像檢索的非監(jiān)督輔助視覺詞匯發(fā)現(xiàn)方法。該方法通過基于圖的非監(jiān)督學(xué)習(xí),將視覺聚類圖和文本聚類圖對(duì)照起來,并將文本聚類圖中圖像之間的關(guān)系傳播到視覺聚類圖中。該方法將在線的匹配過程轉(zhuǎn)變?yōu)殡x線的聚類過程,并且實(shí)現(xiàn)了圖像視覺特征與文本信息的有機(jī)結(jié)合。但是,該方法在關(guān)系傳播過程中會(huì)產(chǎn)生非常龐大且復(fù)雜的關(guān)系網(wǎng)絡(luò),運(yùn)算復(fù)雜;而且,傳播過程會(huì)產(chǎn)生大量的輔助視覺詞匯,從而降低圖像檢索的精度。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是克服上述現(xiàn)有技術(shù)中存在的問題,為進(jìn)一步提升Web圖像檢索性能,提出一種基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法。本發(fā)明的技術(shù)方案是:基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,包括如下步驟:步驟1:將圖像表示為BoW模型:BoW模型采用經(jīng)典的k-means方法對(duì)圖像的特征進(jìn)行聚類,其目標(biāo)是將n個(gè)特征(x1,…,xn)映射到k個(gè)視覺詞匯(ω1,…,ωk)上,其中每一個(gè)視覺詞匯就是一個(gè)聚類中心,每一個(gè)特征被映射到距離它最近的一個(gè)詞匯上;如式(1)所示,BoW模型其算法通過使每一個(gè)類的類內(nèi)方差達(dá)到最小,實(shí)現(xiàn)將這n個(gè)特征映射到k個(gè)類別(S1,…,Sk)中:argminSΣi=1kΣj=1n||xj-ωi||2---(1)]]>步驟2:在非監(jiān)督學(xué)習(xí)框架下借助文本信息將圖像的語義特征傳播給圖像的視覺特征,具體包括如下步驟:步驟2.1:相似度計(jì)算采用余弦相似度來度量兩幅圖像的文本信息相似度以及兩幅圖像的視覺特征向量相似度;步驟2.2:圖像聚類采用近鄰傳播AP聚類算法對(duì)圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進(jìn)行聚類;步驟2.3:語義特征傳播采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對(duì)每個(gè)文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計(jì)出現(xiàn)頻次最高的P個(gè)視覺詞匯作為該文本類的通用視覺詞匯;對(duì)于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個(gè)文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個(gè)視覺類的聚類中心和第m個(gè)文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度;步驟3:引入混合多示例學(xué)習(xí)算法,解決實(shí)際檢索過程中的小樣本問題,具體包括如下步驟:步驟3.1:HMIL定義將圖像各興趣點(diǎn)局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設(shè)正包、負(fù)包和未標(biāo)記包構(gòu)成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負(fù)包和未標(biāo)記包的數(shù)量;設(shè)所有示例構(gòu)成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負(fù)包和未標(biāo)記包中示例的個(gè)數(shù);根據(jù)多示例學(xué)習(xí)的定義,有標(biāo)記數(shù)據(jù)即負(fù)包中的所有示例,半標(biāo)記數(shù)據(jù)即正包中的所有示例,未標(biāo)記數(shù)據(jù)即未標(biāo)記包中的所有示例;包Bi的標(biāo)記用Yi表示,Yi∈{1,-1};示例bi的標(biāo)記用yi表示,yi∈{1,-1};對(duì)于未標(biāo)記數(shù)據(jù),可以為其隨機(jī)分配一個(gè)初始標(biāo)記;步驟3.2:HMIL求解尋找一個(gè)超球B(c,R),其中c表示球心,R表示半徑,同時(shí)滿足:(1)半徑R盡可能小;(2)正包中至少有一個(gè)正示例被約束在超球內(nèi),負(fù)包中所有負(fù)示例都被約束在超球外;(3)對(duì)于未標(biāo)記包,由于并不清楚其正負(fù)信息,故對(duì)其沒有約束;每個(gè)包對(duì)應(yīng)一個(gè)松弛項(xiàng)ξi,它求解如下優(yōu)化問題:其中,是核函數(shù),I(i)={j|bj∈Bi}為包Bi中示例的下標(biāo)集合。上述步驟1中,所述BoW模型的具體實(shí)施步驟如下:2.1)興趣點(diǎn)檢測(1)對(duì)圖像I(x,y),其中x表示圖像像素的橫坐標(biāo),y表示圖像像素的縱坐標(biāo),按下式計(jì)算尺度空間L(x,y,σ):L(x,y,σ)=G(x,y,σ)*I(x,y)(4)其中,*表示卷積運(yùn)算,G(x,y,σ)為可變尺度的高斯函數(shù),σ為高斯函數(shù)的標(biāo)準(zhǔn)差,σ∈[2,8],(2)計(jì)算尺度空間高斯差值函數(shù)D(x,y,σ):D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)---(5)]]>其中,k表示尺度空間中兩個(gè)圖像的尺度間隔;(3)定義尺度空間的自相關(guān)矩陣A為:A(x,y,δi,δd)=δd2G(δi)*fx2(x,δd)fxfy(x,δd)fxfy(x,δd)fy2(x,δd)=f^x2fxfy^fxfy^f^y2---(6)]]>其中,δi表示積分尺度,δd微分尺度,fx和fy分別表示x和y方向上的導(dǎo)數(shù),表示對(duì)f做高斯濾波;記A的兩個(gè)特征值λ1和λ2為自相關(guān)函數(shù)的主曲率;(4)不同尺度空間的興趣點(diǎn)檢測公式為:C(x,y,δi,δd)=det(A(x,y,δi,δd))-α·trace2(A(x,y,δi,δd))=λ1·λ2-α·(λ1+λ2)(7)其中,α為取值范圍在0.04~0.06的常數(shù),判斷C的局部極大值坐標(biāo)是否落在多尺度空間極值點(diǎn)δ×δ鄰域內(nèi);若在鄰域內(nèi)則保留該極值點(diǎn)作為興趣點(diǎn),否則剔除;(5)將發(fā)生重疊的興趣點(diǎn)進(jìn)行合并,具體做法是:對(duì)興趣點(diǎn)按照測度值進(jìn)行由大到小排序,然后依次計(jì)算興趣點(diǎn)對(duì)之間的距離,如果距離小于閾值2δ(由于我們選擇的鄰域大小為δ×δ),則合并它們,即把測度值小的興趣點(diǎn)去掉;經(jīng)過上述處理之后,便確定最終的興趣點(diǎn)集合;2.2)特征向量生成對(duì)每個(gè)興趣點(diǎn)統(tǒng)計(jì)該興趣點(diǎn)δ×δ鄰域內(nèi)像素的HSV空間顏色直方圖作為該興趣點(diǎn)對(duì)應(yīng)的特征向量;圖像中所有興趣點(diǎn)的特征向量組成該圖像的特征向量;2.3)k均值聚類對(duì)訓(xùn)練集中所有圖像的全部特征向量進(jìn)行k-means聚類,生成描述圖像的視覺詞典;這樣,每一幅圖像可以用若干視覺詞匯表示,之后分別統(tǒng)計(jì)視覺詞典中每一個(gè)視覺詞匯在該圖像中出現(xiàn)的個(gè)數(shù),最終將圖像表示為一個(gè)k維(k為視覺詞典的大小)的視覺詞匯直方圖;k-means聚類具體步驟如下:(1)初始化,隨機(jī)指定k個(gè)聚類中心(ω1,…,ωk);(2)分配xi,對(duì)所有特征向量xi找到與它距離最近的聚類中心,并將其分配到該類;(3)修正聚類中心,將每一類的均值作為新的聚類中心;(4)計(jì)算方差J=Σi=1kΣj=1n||xj-ωi||2---(8)]]>其中,n表示訓(xùn)練集中所有圖像的全部特征向量的個(gè)數(shù);(5)收斂判斷,如果J收斂,則返回(ω1,…,ωk),算法終止;否則返回(2)。上述步驟2.1中,所述余弦相似度是通過找到兩個(gè)v維向量之間的夾角來計(jì)算向量之間的相似度,其過程如下:首先定義一個(gè)被索引為{1,2,…,v}的單詞表;每個(gè)文檔d∈D用一個(gè)v維的tf-idf向量d=(tfidf1,tfidf2,…,tfidfv)來表示,其中tfidfi是單詞表中第i個(gè)單詞的tf-idf值;這樣,兩個(gè)文檔dp和dq之間的余弦相似度被定義為:Simcosine(dp,dq)=dp·dq||dp||||dq||---(9)]]>其中,dp表示文檔dp的特征向量;而單詞表中所有單詞的idf值都是基于文檔集合D得到的;同樣,采用上述余弦相似度度量方法計(jì)算兩幅圖像的視覺特征向量xp和xq之間的相似度。上述步驟2.2中,采用AP聚類算法對(duì)圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進(jìn)行聚類;AP聚類算法根據(jù)N個(gè)數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類,這些相似度組成N×N的相似度矩陣S;AP聚類算法將所有的數(shù)據(jù)點(diǎn)都作為潛在的聚類中心,稱之為exemplar;兩個(gè)數(shù)據(jù)點(diǎn)的相似度采用距離的負(fù)數(shù)表示;相似度矩陣S中主對(duì)角線上的值s(k,k)表示的是某個(gè)點(diǎn)和自身的相似度,稱為偏向參數(shù)p,但這里不直接用0來表示;聚類的數(shù)量受到偏向參數(shù)p的影響,如果認(rèn)為每個(gè)數(shù)據(jù)點(diǎn)都有可能作為聚類中心,那么p就應(yīng)取相同的值;如果取輸入的相似度的均值作為p的值,得到聚類數(shù)量是中等的;如果取最小值,將得到類數(shù)較少的聚類;AP聚類算法中傳遞兩種類型的消息,即r類型的消息和a類型的消息;r(i,k)表示從點(diǎn)i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點(diǎn)是否適合作為i點(diǎn)的聚類中心;a(i,k)表示點(diǎn)i選擇點(diǎn)k作為其聚類中心的適合程度,它通過候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點(diǎn)是否選擇k作為其聚類中心;AP聚類算法通過迭代過程不斷更新每一個(gè)點(diǎn)的吸引度和歸屬度值,直到產(chǎn)生m個(gè)高質(zhì)量的exemplar,同時(shí)將其余的數(shù)據(jù)點(diǎn)分配到相應(yīng)的類別中,其計(jì)算迭代更新如下:r(i,k)=(1-λ)ρ(i,k)+λr(i,k)a(i,k)=(1-λ)α(i,k)+λα(i,k)---(10)]]>其中,λ為阻尼因子,引入λ是避免數(shù)值震蕩;ρ(i,k)和α(i,k)分別為傳播r類型的消息和傳播a類型的消息,分別由下式計(jì)算:ρ(i,k)=s(i,k)-maxk′≠k{a(i,k′)+s(i,k′)}(i≠k)s(i,k)-maxk′≠k{s(i,k′)}(i=k)---(11)]]>α(i,k)=min{0,r(i,k)+Σk′≠i,kmax{0,r(k′,k)}}(i≠k)Σk′≠imax{0,r(k′,k)}(i=k)---(12)]]>數(shù)據(jù)點(diǎn)i的exemplar最終被定義為:argmax{r(i,k)+a(i,k)k=1,2,···,N}(13)。上述步驟2.3中,采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對(duì)每個(gè)文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計(jì)出現(xiàn)頻次最高的P個(gè)視覺詞匯作為該文本類的通用視覺詞匯;對(duì)于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個(gè)文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個(gè)視覺類的聚類中心和第m個(gè)文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度。上述步驟3.1中,引入混合多示例學(xué)習(xí)HMIL算法解決實(shí)際檢索過程中的小樣本問題;所述混合多示例學(xué)習(xí)定義如下:將圖像各興趣點(diǎn)局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設(shè)正包、負(fù)包和未標(biāo)記包構(gòu)成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負(fù)包和未標(biāo)記包的數(shù)量;設(shè)所有示例構(gòu)成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負(fù)包和未標(biāo)記包中示例的個(gè)數(shù);根據(jù)多示例學(xué)習(xí)的定義,有標(biāo)記數(shù)據(jù)即負(fù)包中的所有示例(全部都為負(fù)示例),半標(biāo)記數(shù)據(jù)即正包中的所有示例,未標(biāo)記數(shù)據(jù)即未標(biāo)記包中的所有示例;其中正包中的示例不保證都是正的;包Bi的標(biāo)記用Yi表示,Yi∈{1,-1};示例bi的標(biāo)記用yi表示,yi∈{1,-1};對(duì)于未標(biāo)記數(shù)據(jù),可以為其隨機(jī)分配一個(gè)初始標(biāo)記;則需要找到一個(gè)示例級(jí)別的分類函數(shù)f,可以把未標(biāo)記的每個(gè)示例分成類別-1或1,從而包級(jí)別的分類可根據(jù)f來確定。上述步驟3.2中,通過迭代求解一系列二次凸規(guī)劃問題來實(shí)現(xiàn)所述HMIL求解,具體包括如下步驟:(1)初始化:構(gòu)建初始訓(xùn)練集其中,b‾p+q+i=Σj∈I(p+q+i)bj/|I(p+q+i)|,i=1,2,...,r;]]>(2)訓(xùn)練:對(duì)訓(xùn)練集進(jìn)行如下訓(xùn)練:(3)更新:用對(duì)正包中的示例進(jìn)行計(jì)算,記其中,對(duì)負(fù)包和未標(biāo)記包中的示例仍按照(1)中的方式進(jìn)行選擇,然后組建更新后的訓(xùn)練集合(4)判斷:如果訓(xùn)練集合更新前后沒有變化,則轉(zhuǎn)到步驟(5),否則返回步驟(2);(5)結(jié)束:輸出此時(shí)的解c、R,得到優(yōu)化的分類函數(shù)根據(jù)分類函數(shù)f,將前一輪檢索結(jié)果中的負(fù)包圖像剔除,實(shí)現(xiàn)對(duì)圖像庫圖像的重新排序輸出;在此基礎(chǔ)上,可重復(fù)進(jìn)行多輪反饋,以優(yōu)化檢索結(jié)果。本發(fā)明的有益效果:本發(fā)明方法的主要優(yōu)點(diǎn)在于:(1)采用非監(jiān)督學(xué)習(xí)方法,通過文本類中的通用視覺詞匯將圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。該方法與其他語義特征提取方法相比,能夠大大降低語義特征提取復(fù)雜度,可直接用于互聯(lián)網(wǎng)大規(guī)模圖像檢索。(2)提出在多示例學(xué)習(xí)框架下引入半監(jiān)督學(xué)習(xí)的混合多示例學(xué)習(xí)方法,解決實(shí)際檢索中的小樣本問題。該方法不同于傳統(tǒng)監(jiān)督學(xué)習(xí)視角下的多示例學(xué)習(xí),也有別于多示例半監(jiān)督學(xué)習(xí)方法。與前者相比,混合多示例學(xué)習(xí)能夠借助圖像庫中大量的未標(biāo)記圖像來幫助提高學(xué)習(xí)器的分類性能;與后者相比,混合多示例學(xué)習(xí)是在多示例學(xué)習(xí)框架下解決半監(jiān)督學(xué)習(xí)的優(yōu)化問題,它能夠?qū)Π惺纠@得更優(yōu)的學(xué)習(xí)結(jié)果。以下將結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。附圖說明圖1是基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索框架;圖2是BoW模型的基本思想示圖;圖3是圖像語義特征傳播流程圖;圖4是AP算法聚類示意圖;圖4(a)是20個(gè)數(shù)據(jù)點(diǎn)間的相似度矩陣S示例圖;圖4(b)是p=median(S),λ=0.9時(shí),AP聚類結(jié)果,20個(gè)數(shù)據(jù)點(diǎn)被分成了4類;圖5是不同p值A(chǔ)P算法聚類結(jié)果;圖5(a)是p=median(S)/2時(shí)AP算法聚類結(jié)果;圖5(b)是p=median(S)時(shí)AP算法聚類結(jié)果;圖5(c)是p=median(S)×2時(shí)AP算法聚類結(jié)果;圖6是通用視覺詞匯示例;圖7是語義特征傳播示意圖;圖8是基于語義傳播及混合多示例學(xué)習(xí)的圖像檢索結(jié)果示例;圖9是Web圖像檢索方法測試實(shí)驗(yàn)結(jié)果;圖10是表2給出的圖像庫中的示例圖像。具體實(shí)施方式本發(fā)明提供了一種基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,通過利用Web圖像豐富的文本信息來縮小基于內(nèi)容的Web圖像檢索中的語義鴻溝;一般來說,在一個(gè)互聯(lián)網(wǎng)圖像庫中,每張圖像都同時(shí)對(duì)應(yīng)視覺特征與文本信息。但是,很多情況下,CBIR系統(tǒng)中用戶提交的查詢圖像是沒有附加的文本信息的。因此,基于內(nèi)容的圖像檢索只能在視覺特征空間中進(jìn)行。為此,將文本所反映的圖像的語義特征傳播給圖像的視覺特征向量。本發(fā)明方法框架如圖1所示?;谡Z義傳播及混合多示例學(xué)習(xí)的圖像檢索問題可以描述如下:把從互聯(lián)網(wǎng)上獲取的數(shù)萬張圖像及其相應(yīng)的文本信息當(dāng)做圖像檢索數(shù)據(jù)庫M,圖像對(duì)應(yīng)的視覺特征集為X={x1,x2,…,xN},對(duì)應(yīng)的文本信息集為D={d1,d2,…,dN},其中N為數(shù)據(jù)庫圖像數(shù)量。因此,一幅圖像Ii∈M可以表示成一個(gè)視覺—文本特征對(duì):Ii=(xi,di),需要通過文本信息di將圖像Ii的語義特征反映到它的視覺特征中。給定一張查詢圖像Iq=(xq,φ),基于數(shù)據(jù)庫M的視覺詞典為其生成視覺特征向量xq,然后將查詢圖像的視覺特征向量xq與數(shù)據(jù)庫中每幅圖像的視覺特征向量進(jìn)行相似度計(jì)算,并根據(jù)相似度排序輸出檢索結(jié)果。在相關(guān)反饋階段,由用戶在檢索結(jié)果中標(biāo)記一定數(shù)量的正例圖像和負(fù)例圖像,系統(tǒng)利用有限的標(biāo)記樣本和更多的無標(biāo)記樣本進(jìn)行混合多示例學(xué)習(xí)優(yōu)化檢索結(jié)果。本
發(fā)明內(nèi)容具體包括如下步驟:1、BoW模型由于提取出的圖像視覺特征向量往往存在于高維空間,無論是計(jì)算還是存儲(chǔ)都有很大困難,而且高維特征也常常面臨稀疏問題和噪聲問題。為解決上述問題,Li借鑒文本處理的思想,提出了BoW模型,并采用SIFT描述子和BoW模型實(shí)現(xiàn)場景圖像的分類。BoW模型已經(jīng)發(fā)展為目前最流行也是極具發(fā)展前途的大規(guī)模圖像匹配方法,該方法將高維特征向量映射到低維空間中,并進(jìn)行簡潔的編碼,這個(gè)簡潔的碼字稱為“視覺詞匯”。這個(gè)處理過程通??梢酝ㄟ^降維或編碼技術(shù)來實(shí)現(xiàn),這樣產(chǎn)生的視覺詞匯便于存儲(chǔ)、索引和計(jì)算。在Li之后,許多研究者在圖像檢索過程中采用BoW模型表示圖像特征,其基本思路如下:首先提取訓(xùn)練集屮的每一幅圖像的局部感興趣特征(如SIFT),然后利用K-means聚類,將上述檢測到的全部SIFT關(guān)鍵點(diǎn)通過相似性度量的方式聚集成數(shù)量較大的一些簇;其中每個(gè)簇被看作一個(gè)視覺詞匯,該視覺詞匯可用于表示該簇內(nèi)部的所有SIFT關(guān)鍵點(diǎn)共同具有的某種局部模式,因此可以用一個(gè)包含全部視覺詞匯的詞典來描述特征空間中的全體局部模式;基于上述視覺詞典,每一個(gè)從原始圖像中檢測出來的SIFT關(guān)鍵點(diǎn)都可以被映射為該視覺詞典中的一個(gè)視覺詞匯,因此數(shù)據(jù)集中的每幅圖像都可以表示為“一袋視覺詞匯”,如圖2所示。BoW模型采用經(jīng)典的k-means方法對(duì)圖像的特征進(jìn)行聚類。它的目標(biāo)是將n個(gè)特征(x1,…,xn)映射到k個(gè)視覺詞匯(ω1,…,ωk)上,其中每一個(gè)詞匯就是一個(gè)聚類中心,每一個(gè)特征被映射到距離它最近的一個(gè)詞匯上。算法通過使每一個(gè)類的類內(nèi)方差達(dá)到最小如式(1)所示,實(shí)現(xiàn)將這n個(gè)特征映射到k個(gè)類別(S1,…,Sk)中:argminSΣi=1kΣj=1n||xj-ωi||2---(1)]]>具體計(jì)算步驟如下:(1)初始化,隨機(jī)指定k個(gè)聚類中心(ω1,…,ωk);(2)分配xi,對(duì)所有特征向量xi找到與它距離最近的聚類中心,并將其分配到該類;(3)修正聚類中心,將每一類的均值作為新的聚類中心;(4)計(jì)算方差J=Σi=1kΣj=1n||xj-ωi||2---(8)]]>其中,n表示訓(xùn)練集中所有圖像的全部特征向量的個(gè)數(shù)。(5)收斂判斷,如果J收斂,則返回(ω1,…,ωk),算法終止;否則返回(2)。通過研究發(fā)現(xiàn),BoW模型存在以下兩個(gè)主要問題:(1)視角變化、環(huán)境光照、遮擋等外界干擾,會(huì)嚴(yán)重影響視覺特征的聚類;(2)我們不能證明視覺空間鄰近的特征其語義空間的距離也同樣鄰近,即需要更合理的詞匯映射。為解決問題(1),應(yīng)考慮對(duì)圖像提取具有穩(wěn)定不變性的局部特征。采用尺度不變興趣點(diǎn)檢測方法檢測興趣點(diǎn),然后對(duì)每個(gè)興趣點(diǎn)統(tǒng)計(jì)該興趣點(diǎn)δ×δ鄰域內(nèi)像素的HSV空間顏色直方圖。通過對(duì)所有圖像的全部特征向量進(jìn)行k-means聚類后,將每一幅圖像用若干視覺詞匯表示,之后分別統(tǒng)計(jì)視覺詞典中每一個(gè)視覺詞匯在該圖像中出現(xiàn)的個(gè)數(shù),最終將圖像表示為一個(gè)k維(k為視覺詞典的大小)的視覺詞匯直方圖。為解決問題(2),研究者提出將一些附加信息如視覺約束條件等信息引入視覺詞匯的生成過程,或從特征相鄰圖像中選擇有用特征來豐富對(duì)圖像的特征描述,但是這些方法通常需要額外的人工學(xué)習(xí)過程,或需要相當(dāng)復(fù)雜的計(jì)算,不適于大規(guī)模圖像檢索。為此,考慮在非監(jiān)督學(xué)習(xí)框架下,為視覺詞匯的映射過程注入語義特征。2、語義特征傳播由于文本是圖像語義描述的一種有效手段,而互聯(lián)網(wǎng)圖像往往具有標(biāo)簽(tag)、文件名等文本信息,因此,在非監(jiān)督學(xué)習(xí)框架下借助文本信息將圖像的語義特征傳播給圖像的視覺特征,其流程如圖3所示。2.1相似度計(jì)算采用余弦相似度來度量兩個(gè)文本之間的相似度。余弦相似度通過找到兩個(gè)v維向量之間的夾角來計(jì)算向量之間的相似度,它被廣泛應(yīng)用于文本挖掘和信息檢索領(lǐng)域中對(duì)不同文檔的比較。首先定義一個(gè)被索引為{1,2,…,v}的單詞表。每個(gè)文檔d∈D用一個(gè)v維的termfrequency×inversedocumentfrequency(tf-idf)向量:d=(tfidf1,tfidf2,…,tfidfv)來表示,其中tfidfi是單詞表中第i個(gè)單詞的tf-idf值。這樣,兩個(gè)文檔dp和dq之間的余弦相似度被定義為:Simcosine(dp,dq)=dp·dq||dp||||dq||---(9)]]>其中,dp表示文檔dp的特征向量。而單詞表中所有單詞的inversedocumentfrequency(idf)值都是基于文檔集合D得到的。由于在BoW模型中,圖像被表示成“一袋視覺詞匯”,因此同樣采用上述余弦相似度度量方法計(jì)算兩幅圖像的視覺特征向量xp和xq之間的相似度。2.2圖像聚類采用在Science雜志上提出來的近鄰傳播(affinitypropagation,AP)聚類算法對(duì)圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進(jìn)行聚類。AP聚類算法根據(jù)N個(gè)數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類,這些相似度組成N×N的相似度矩陣S。AP算法不需要事先指定聚類數(shù)目,相反它將所有的數(shù)據(jù)點(diǎn)都作為潛在的聚類中心,稱之為exemplar。兩個(gè)數(shù)據(jù)點(diǎn)的相似度采用距離的負(fù)數(shù)表示。相似度矩陣S中主對(duì)角線上的值s(k,k)表示的是某個(gè)點(diǎn)和自身的相似度,一般稱為偏向參數(shù)p(preference),但是這里不直接用0來表示。聚類的數(shù)量受到偏向參數(shù)p的影響,如果認(rèn)為每個(gè)數(shù)據(jù)點(diǎn)都有可能作為聚類中心,那么p就應(yīng)取相同的值。如果取輸入的相似度的均值作為p的值,得到聚類數(shù)量是中等的。如果取最小值,將得到類數(shù)較少的聚類。AP算法中傳遞兩種類型的消息,r(responsibility)和a(availability)。r(i,k)表示從點(diǎn)i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點(diǎn)是否適合作為i點(diǎn)的聚類中心。a(i,k)表示點(diǎn)i選擇點(diǎn)k作為其聚類中心的適合程度,它通過候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點(diǎn)是否選擇k作為其聚類中心。r(i,k)與a(i,k)越強(qiáng),則k點(diǎn)作為聚類中心的可能性就越大,并且i點(diǎn)隸屬于以k點(diǎn)為聚類中心的聚類可能性也越大。AP算法通過迭代過程不斷更新每一個(gè)點(diǎn)的吸引度和歸屬度值,直到產(chǎn)生m個(gè)高質(zhì)量的exemplar,同時(shí)將其余的數(shù)據(jù)點(diǎn)分配到相應(yīng)的類別中。計(jì)算迭代更新如下:r(i,k)=(1-λ)ρ(i,k)+λr(i,k)a(i,k)=(1-λ)α(i,k)+λα(i,k)---(10)]]>其中,λ為阻尼因子,引入λ是避免數(shù)值震蕩;ρ(i,k)和α(i,k)分別為傳播responsibility和傳播availability,分別由下式計(jì)算:ρ(i,k)=s(i,k)-maxk′≠k{a(i,k′)+s(i,k′)}(i≠k)s(i,k)-maxk′≠k{s(i,k′)}(i=k)---(11)]]>α(i,k)=min{0,r(i,k)+Σk′≠i,kmax{0,r(k′,k)}}(i≠k)Σk′≠imax{0,r(k′,k)}(i=k)---(12)]]>數(shù)據(jù)點(diǎn)i的exemplar最終被定義為:argmax{r(i,k)+a(i,k)k=1,2,···,N}(13)圖4給出了AP算法聚類示意圖,其中4(a)是一個(gè)隨機(jī)生成的20個(gè)數(shù)據(jù)點(diǎn)之間的相似度矩陣S(兩個(gè)數(shù)據(jù)點(diǎn)間的相似度被表示成距離的負(fù)數(shù)形式),4(b)是根據(jù)4(a)所示的相似度矩陣S通過AP聚類的結(jié)果。圖5給出了隨機(jī)生成的50個(gè)數(shù)據(jù)點(diǎn)在不同p值時(shí)AP算法聚類結(jié)果,結(jié)果比較見表1。表1不同p值得到的聚類數(shù)目比較由圖5和表1可見,p值大小對(duì)AP算法聚類結(jié)果影響非常明顯。圖像的聚類將直接影響圖像檢索性能。如果分類過度,將造成檢索查全率降低,而如果分類不足,又會(huì)造成檢索查準(zhǔn)率下降。為此,使用前面所用到的Corel圖像庫中的1000幅圖像作為實(shí)驗(yàn)圖像庫,將每一幅圖像分別表示為BoW模型,并將p值分別設(shè)為median(S)/2,median(S),以及median(S)×2分別進(jìn)行圖像聚類實(shí)驗(yàn)。因?yàn)檫@1000幅圖像已經(jīng)被劃分成10個(gè)類,因此可以直接作為評(píng)判分類性能的標(biāo)準(zhǔn)。通過實(shí)驗(yàn),發(fā)現(xiàn)p=median(S)獲得了最好的分類效果。2.3語義特征傳播為了克服BoW模型的缺陷,采用下面的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征。對(duì)每個(gè)文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計(jì)出現(xiàn)頻次最高的P個(gè)視覺詞匯作為該文本類的通用視覺詞匯。這些通用視覺詞匯是文本相關(guān)圖像中具有普遍性和代表性的視覺詞匯,因此它們具有反映該類圖像語義特征的能力。圖6給出了通用視覺詞匯示例,圖中xi和xj分別表示圖像i和圖像j的視覺詞匯直方圖,通用視覺詞匯將xi和xj中普遍存在、更具代表性的視覺詞匯保留了下來。對(duì)于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個(gè)文本類的通用視覺詞匯直方圖(沒有出現(xiàn)的視覺詞匯的頻次為0)為cm,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個(gè)視覺類的聚類中心和第m個(gè)文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度。圖7給出了語義特征傳播示意圖。如圖所示,圖像1在文本聚類圖中位于第1個(gè)類中,因此將第1個(gè)文本類的通用視覺詞匯直方圖c1加權(quán)后添加到圖像1的視覺詞匯直方圖中,類似地,與圖像1位于同一個(gè)視覺類的圖像7恰好和圖像1同樣位于第1個(gè)文本類中,因此將第1個(gè)文本類的通用視覺詞匯直方圖c1加權(quán)后也添加到圖像7的視覺詞匯直方圖中,而與圖像1、7位于同一個(gè)視覺類的圖像3、4、9,由于它們在文本聚類圖中沒有和圖像1、7位于同一個(gè)文本類中,因此它們的視覺詞匯直方圖將添加其他文本類的通用視覺詞匯直方圖。由此可見,通過上述傳播過程,位于同一個(gè)視覺類且又位于同一個(gè)文本類的圖像,它們會(huì)包含更多相似的視覺詞匯從而變得更加相似;相反,位于同一個(gè)視覺類卻位于不同文本類的圖像,它們會(huì)包含更多不相同的視覺詞匯從而減少相似性。因此,這種傳播過程使圖像的視覺特征一定程度地蘊(yùn)含了其語義特征,因而可以提高圖像檢索的查準(zhǔn)率與查全率。3、混合多示例學(xué)習(xí)相關(guān)和不相關(guān)圖像之間自然地存在相關(guān)性和不相關(guān)性,可通過相關(guān)反饋利用圖像間的關(guān)系進(jìn)一步縮減語義鴻溝。多示例學(xué)習(xí)方法可以更好地解決圖像檢索歧義性問題,從而有助于縮小CBIR的語義鴻溝。然而目前,MIL算法在CBIR中的應(yīng)用,大多數(shù)都是有監(jiān)督地利用有標(biāo)記的訓(xùn)練圖像(包),較少注意利用大量的未標(biāo)記圖像。實(shí)際檢索中,一方面,CBIR系統(tǒng)中有標(biāo)記的圖像往往是在與用戶的交互過程中由用戶標(biāo)注的,在有標(biāo)記圖像數(shù)量非常有限的前提下獲得好的檢索結(jié)果非常重要;另一方面,圖像庫里存在大量的未標(biāo)記圖像。半監(jiān)督學(xué)習(xí)是近年來模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的一個(gè)重點(diǎn)問題,是監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)記樣本和大量的未標(biāo)記樣本進(jìn)行訓(xùn)練和分類的問題。因此,通過引入半監(jiān)督學(xué)習(xí)來解決圖像檢索中MIL方法遇到的實(shí)際問題,這種學(xué)習(xí)方法稱為混合多示例學(xué)習(xí)(Hybridmultiple-instancelearning,HMIL)。3.1HMIL定義將圖像各興趣點(diǎn)局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包。設(shè)正包、負(fù)包和未標(biāo)記包構(gòu)成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負(fù)包和未標(biāo)記包的數(shù)量;設(shè)所有示例構(gòu)成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負(fù)包和未標(biāo)記包中示例的個(gè)數(shù)。根據(jù)多示例學(xué)習(xí)的定義,有標(biāo)記數(shù)據(jù)即負(fù)包中的所有示例(全部都為負(fù)示例),半標(biāo)記數(shù)據(jù)即正包中的所有示例,未標(biāo)記數(shù)據(jù)即未標(biāo)記包中的所有示例。注意正包中的示例不能保證都是正的。包Bi的標(biāo)記用Yi表示,Yi∈{1,-1};示例bi的標(biāo)記用yi表示,yi∈{1,-1}。對(duì)于未標(biāo)記數(shù)據(jù),可以為其隨機(jī)分配一個(gè)初始標(biāo)記。需要找到一個(gè)示例級(jí)別的分類函數(shù)f,可以把未標(biāo)記的每個(gè)示例分成類別-1或1,從而包級(jí)別的分類可根據(jù)f來確定。3.2HMIL求解尋找一個(gè)超球B(c,R),其中c表示球心,R表示半徑,滿足:(1)半徑R盡可能小;(2)正包中至少有一個(gè)正示例被約束在超球內(nèi),負(fù)包中所有負(fù)示例都被約束在超球外;(3)對(duì)于未標(biāo)記包,由于并不清楚其正負(fù)信息,故對(duì)其沒有約束。每個(gè)包對(duì)應(yīng)一個(gè)松弛項(xiàng)ξi,它求解如下優(yōu)化問題:其中,是核函數(shù),I(i)={j|bj∈Bi}為包Bi中示例的下標(biāo)集合。通過迭代求解一系列二次凸規(guī)劃問題來實(shí)現(xiàn)上述優(yōu)化問題:(1)初始化:構(gòu)建初始訓(xùn)練集其中,b‾p+q+i=Σj∈I(p+q+i)bj/|I(p+q+i)|,i=1,2,...,r.]]>(2)訓(xùn)練:對(duì)訓(xùn)練集進(jìn)行如下訓(xùn)練:(3)更新:用對(duì)正包中的示例進(jìn)行計(jì)算,記其中,對(duì)負(fù)包和未標(biāo)記包中的示例仍按照(1)中的方式進(jìn)行選擇,然后組建更新后的訓(xùn)練集合(4)判斷:如果訓(xùn)練集合更新前后沒有變化,則轉(zhuǎn)到步驟(5),否則返回步驟(2)。(5)結(jié)束:輸出此時(shí)的解c、R,得到優(yōu)化的分類函數(shù)根據(jù)分類函數(shù)f,可將前一輪檢索結(jié)果中的負(fù)包圖像剔除,實(shí)現(xiàn)對(duì)圖像庫圖像的重新排序輸出。在此基礎(chǔ)上,可重復(fù)進(jìn)行多輪反饋,以優(yōu)化檢索結(jié)果。本發(fā)明的實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)的平臺(tái)為,軟件環(huán)境:MS-Windows7下運(yùn)行MatlabR2010a;硬件環(huán)境:Corei5-3470CPU,3.20GHz,8.0G內(nèi)存。從Flickr網(wǎng)站(http://www.flickr.com/)抓取了大約1.2萬幅圖像,作為實(shí)驗(yàn)圖像庫。Flickr網(wǎng)站是雅虎旗下圖片分享網(wǎng)站,它允許使用者分享他們的私人照片,也可作為網(wǎng)絡(luò)圖片的存放空間,并且能夠給照片標(biāo)上標(biāo)簽。這些圖像具有豐富的文本信息,比如圖像標(biāo)題和攝影作者對(duì)圖像的描述等。表2給出了圖像庫中的幾個(gè)示例圖像及其文本描述。圖10是表2給出的圖像庫中的示例圖像。如表2所示,如果僅提取圖像的低層視覺特征,那么很難將不同光照,不同拍攝角度,不同拍攝范圍的同類圖像全都檢索出來。表2圖像庫中的示例圖像及其文本描述從圖像庫中隨機(jī)選取了50幅圖像作為查詢圖像,這些圖像分別屬于以下7類:Colosseum,EiffelTwer,GoldenGateBridge,TowerdePisa,Starbuckslogo,TowerBridge,和ArcdeTriomphe。首先為實(shí)驗(yàn)圖像庫所有圖像生成BoW模型,用k-means方法生成2000個(gè)視覺詞匯庫。在混合多示例學(xué)習(xí)階段,用戶從檢索結(jié)果中標(biāo)記5幅正例圖像和5幅反例圖像反饋給系統(tǒng),系統(tǒng)對(duì)用戶提交的10幅標(biāo)記圖像和排序最靠前的50幅未標(biāo)記圖像進(jìn)行混合多示例學(xué)習(xí)并優(yōu)化檢索結(jié)果。圖8給出了對(duì)其中一幅查詢圖像用本發(fā)明方法在進(jìn)行一次混合多示例學(xué)習(xí)后的檢索結(jié)果。返回30幅圖像,全部檢索正確。由此可見,本發(fā)明提出的基于語義傳播及混合多示例學(xué)習(xí)的方法可以獲得令人滿意的檢索效果。更進(jìn)一步地,可采用準(zhǔn)確率(Precision)和回想率(Recall)作為評(píng)價(jià)準(zhǔn)則,驗(yàn)證本發(fā)明方法的檢索性能。實(shí)驗(yàn)中,比較了三種方法:(1)基于BoW模型表示視覺特征的圖像檢索方法(簡稱為Visual),(2)基于語義傳播的圖像檢索方法(簡稱Visual+Text),(3)基于語義傳播及混合多示例學(xué)習(xí)的圖像檢索方法(簡稱Visual+Text+HMIL,即本發(fā)明的完整方法)。圖9給出了實(shí)驗(yàn)結(jié)果。圖中的結(jié)果顯示,單純依賴圖像視覺特征的圖像檢索方法檢索結(jié)果最差,這也證實(shí)了之前的判斷,由于計(jì)算機(jī)視覺發(fā)展水平的制約,語義鴻溝問題使基于內(nèi)容的圖像檢索實(shí)際效果比較差。于此對(duì)應(yīng)的是,通過引入文本信息之后,圖像檢索效果有了很大的提高,這是因?yàn)槲谋拘畔⒄Z義特征傳遞給了圖像的視覺特征;而在引入混合多示例學(xué)習(xí)方法之后,圖像檢索性能又有了更進(jìn)一步地提升。綜上,本發(fā)明為縮減CBIR的語義鴻溝,將圖像的視覺特征與文本信息結(jié)合起來進(jìn)行Web圖像檢索。首先將圖像表示為BoW模型,然后對(duì)圖像分別根據(jù)視覺相似度和文本相似度進(jìn)行聚類,并通過文本類中的通用視覺詞匯將圖像所具有的語義特征傳播到圖像的視覺特征向量中;在相關(guān)反饋階段,引入混合多示例學(xué)習(xí)算法,解決實(shí)際檢索過程中的小樣本問題。該檢索方法與傳統(tǒng)CBIR框架相比,以跨模態(tài)方式利用互聯(lián)網(wǎng)圖像的文本信息將圖像的語義特征傳播給視覺特征,并且在基于多示例學(xué)習(xí)的相關(guān)反饋中引入半監(jiān)督學(xué)習(xí)應(yīng)對(duì)小樣本問題,能夠有效縮減語義鴻溝,并提升Web圖像檢索性能。為了實(shí)現(xiàn)對(duì)大規(guī)模圖像庫的實(shí)時(shí)檢索,未來將考慮利用MapReduce分布式計(jì)算模型對(duì)圖像低層視覺特征之間的相似度和文本信息之間的相似度分別進(jìn)行計(jì)算,以解決大數(shù)據(jù)量的并行計(jì)算問題。另外,考慮到興趣點(diǎn)局部圖像塊相對(duì)于用戶感興趣物體來說往往太小,一般情況下感興趣物體上都會(huì)存在多處這樣的圖像塊,因此未來將結(jié)合圖像包中“正”示例的比例以及所有“正”示例與目標(biāo)特征的距離來定義新的相似度,實(shí)現(xiàn)對(duì)圖像庫圖像的重新排序輸出。本發(fā)明的優(yōu)點(diǎn):(1)采用非監(jiān)督學(xué)習(xí)方法,通過文本類中的通用視覺詞匯將圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。該方法與其他語義特征提取方法相比,能夠大大降低語義特征提取復(fù)雜度,可直接用于互聯(lián)網(wǎng)大規(guī)模圖像檢索。(2)提出在多示例學(xué)習(xí)框架下引入半監(jiān)督學(xué)習(xí)的混合多示例學(xué)習(xí)方法,解決實(shí)際檢索中的小樣本問題。該方法不同于傳統(tǒng)監(jiān)督學(xué)習(xí)視角下的多示例學(xué)習(xí),也有別于多示例半監(jiān)督學(xué)習(xí)方法。與前者相比,混合多示例學(xué)習(xí)能夠借助圖像庫中大量的未標(biāo)記圖像來幫助提高學(xué)習(xí)器的分類性能;與后者相比,混合多示例學(xué)習(xí)是在多示例學(xué)習(xí)框架下解決半監(jiān)督學(xué)習(xí)的優(yōu)化問題,它能夠?qū)Π惺纠@得更優(yōu)的學(xué)習(xí)結(jié)果。以上例舉僅僅是對(duì)本發(fā)明的舉例說明,并不構(gòu)成對(duì)本發(fā)明的保護(hù)范圍的限制,凡是與本發(fā)明相同或相似的設(shè)計(jì)均屬于本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
洪江市| 崇义县| 繁昌县| 扶沟县| 涞源县| 谢通门县| 平南县| 苏尼特左旗| 肥西县| 兴隆县| 海盐县| 花莲市| 若尔盖县| 屏东市| 宜兰县| 静宁县| 潞西市| 井冈山市| 新郑市| 锡林郭勒盟| 罗田县| 玛纳斯县| 北海市| 绥棱县| 龙泉市| 舞钢市| 嘉义市| 武穴市| 凉山| 噶尔县| 苗栗市| 井冈山市| 齐河县| 牡丹江市| 丰镇市| 章丘市| 本溪市| 乌兰浩特市| 齐齐哈尔市| 太仓市| 大安市|