本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,涉及基于深度卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索的算法。
背景技術(shù):
目前三維模型已經(jīng)在諸如虛擬現(xiàn)實(shí)、工業(yè)設(shè)計(jì)、3d游戲和視覺(jué)設(shè)計(jì)等領(lǐng)域廣泛應(yīng)用。隨著三維圖形建模技術(shù)和三維數(shù)據(jù)獲取技術(shù)的發(fā)展,產(chǎn)生了海量的三維模型數(shù)據(jù)庫(kù)。因此,為了充分利用現(xiàn)有的三維模型,幫助用戶方便高效的獲取符合需求的三維模型,三維檢索技術(shù)成為當(dāng)前熱點(diǎn)研究問(wèn)題。
三維模型檢索的工作流程是根據(jù)用戶輸入的查詢請(qǐng)求,在模型數(shù)據(jù)庫(kù)中搜索出相關(guān)的模型集合最終反饋給用戶。一類算法通過(guò)已有三維模型作為輸入表達(dá)查詢意圖,但通常用戶難以獲取合適的現(xiàn)有模型用來(lái)查詢。另一類算法通過(guò)文字描述目標(biāo)模型來(lái)表達(dá)查詢意圖,但用戶通常難以用語(yǔ)言精確的描述目標(biāo)模型,而且模型庫(kù)通常也沒(méi)有充分標(biāo)簽化,因此這種算法使用場(chǎng)景也十分有限。人類自從史前時(shí)期就已經(jīng)使用手繪草圖來(lái)描繪視覺(jué)世界了,直至今日,手工繪制草圖可能是唯一一種所有人都具備的繪畫能力。近期的神經(jīng)科學(xué)研究表明:大腦認(rèn)知簡(jiǎn)單抽象的草圖的方式和認(rèn)知真實(shí)世界物體的方式相同。因此,手繪草圖作為一種方便快捷的交互方式可以更好的表達(dá)用戶的查詢意圖。
在基于手繪草圖的三維模型檢索算法中,用戶通過(guò)繪制二維草圖表達(dá)查詢意圖,而直接匹配二維草圖和三維模型十分困難,通常此類檢索算法首先根據(jù)非真實(shí)感渲染技術(shù)(non-photorealisticrender)在多個(gè)視角下渲染出三維模型的二維投影圖,將問(wèn)題映射為單個(gè)查詢草圖和數(shù)據(jù)庫(kù)中目標(biāo)模型生成的若干張投影圖之間的相似度匹配問(wèn)題,然后通過(guò)匹配用戶輸入的草圖和模型投影圖完成檢索。手繪草圖及模型投影示意如圖2所示?;谑掷L草圖的三維模型檢索具有以下特點(diǎn)及挑戰(zhàn):(1)手繪草圖由于經(jīng)過(guò)人腦的藝術(shù)加工處理,具有很強(qiáng)的抽象性,而三維模型是參照現(xiàn)實(shí)世界中的物體建模產(chǎn)生,具有精確性,從而三維模型的二維投影圖也具有與手繪草圖不同的寫實(shí)風(fēng)格。二者處于不同域,難以直接進(jìn)行相似度計(jì)算,這給相似度度量造成很大挑戰(zhàn),需要檢索算法能很好的解決跨域匹配(crossdomainmatching)問(wèn)題。(2)手繪草圖是二值線條信息,與自然圖像相比缺少顏色和紋理信息,不同物體通常被繪制成相似的草圖,例如輪胎和甜甜圈繪制成草圖后,由于缺乏顏色和細(xì)節(jié)紋理信息,變得很難區(qū)分,這對(duì)檢索算法區(qū)分不同物體之間差異的能力提出極高的要求。(3)由于不同用戶的思維方式、領(lǐng)域背景知識(shí)和手繪習(xí)慣偏好等不同,對(duì)同一物體的繪制會(huì)產(chǎn)生風(fēng)格迥異,抽象程度不同,形狀外觀相去甚遠(yuǎn)的草圖,如圖2中對(duì)同一模型繪制的草圖幾何外觀差異很大。這就對(duì)檢索算法對(duì)同類模型圖像的大量變體有極高的適應(yīng)性。(4)由于模型數(shù)據(jù)庫(kù)規(guī)模巨大,為了使檢索系統(tǒng)在大規(guī)模數(shù)據(jù)集上有較強(qiáng)的可用性,對(duì)檢索算法的計(jì)算效率提出很高要求。(5)由于算法設(shè)計(jì)階段掌握的樣本數(shù)量有限,當(dāng)檢索系統(tǒng)上線運(yùn)行時(shí)會(huì)遇到大量未知樣本數(shù)據(jù),所以要求算法有較強(qiáng)的泛化能力。
特征提取算法是三維模型檢索最重要的環(huán)節(jié),特征表達(dá)能力的強(qiáng)弱直接影響查詢效果。傳統(tǒng)的基于手工設(shè)計(jì)特征描述子的算法都基于一個(gè)基本假設(shè):手繪草圖和模型及其投影之間的風(fēng)格差異造成的跨域匹配問(wèn)題可以很容易的通過(guò)手工設(shè)計(jì)的描述低級(jí)幾何信息的視覺(jué)特征描述子解決。但事實(shí)上,在擴(kuò)展到大規(guī)模數(shù)據(jù)集時(shí),由于手繪草圖風(fēng)格千變?nèi)f化,模型外觀復(fù)雜度上升,很難實(shí)現(xiàn)通過(guò)手工設(shè)計(jì)的特征描述子來(lái)解決跨域匹配問(wèn)題。同時(shí),手工設(shè)計(jì)的特征描述子往往泛化能力(generalizationability)弱,難以適應(yīng)未知數(shù)據(jù)集,限制了在線查詢系統(tǒng)的可擴(kuò)展性。
本發(fā)明的工作和卷積神經(jīng)網(wǎng)絡(luò)息息相關(guān)。近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)任務(wù)上取得了矚目的成就。特別是深度卷積神經(jīng)網(wǎng)絡(luò)不斷打破圖像識(shí)別標(biāo)準(zhǔn)記錄,大幅超越手工設(shè)計(jì)特征描述子的算法。卷積神經(jīng)網(wǎng)絡(luò)(cnn)是一種常見(jiàn)的深度學(xué)習(xí)架構(gòu),受生物自然視覺(jué)認(rèn)知機(jī)制啟發(fā)而來(lái)。cnn能夠以極少的預(yù)處理操作學(xué)習(xí)到圖像原始像素的一種高抽象層次的結(jié)構(gòu)化特征表達(dá)。cnn通常由卷積層、池化層、各種非線性激活層以及損失函數(shù)構(gòu)成。局部信號(hào)首先通過(guò)與一組過(guò)濾器卷積,進(jìn)一步經(jīng)由池化層降采樣整合局部信號(hào),減少參數(shù),防止過(guò)擬合,再由非線性激活層對(duì)信號(hào)進(jìn)行非線性映射,學(xué)習(xí)到抽象層次高的特征表達(dá)。cnn的學(xué)習(xí)過(guò)程采用隨機(jī)梯度下降法(stochasticgradientdescent,sgd)等優(yōu)化算法。
深度卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表達(dá)能力,可通過(guò)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,學(xué)習(xí)到輸入數(shù)據(jù)的分布式表示,并具有強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。因此,本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)特征提取器提高檢索系統(tǒng)的性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索方法。該方法采用度量學(xué)習(xí)算法得到一個(gè)歐氏嵌入空間,將手繪草圖與模型投影嵌入同一特征空間,在該特征嵌入空間中的歐氏距離可以直接代表草圖和模型投影之間的相似度,很好的解決了草圖與模型投影圖之間的跨域匹配問(wèn)題。同時(shí)設(shè)計(jì)一種排序機(jī)制,使得在該特征空間中同類別圖像之間的距離小于不同類別圖像之間的距離,從而得到健壯的特征表示,可以區(qū)分不同類別間的細(xì)微差異并且適應(yīng)同類別不同風(fēng)格的變體。并且本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)超完備的特征過(guò)濾器組組成特征提取器,提取出高級(jí)抽象特征,該特征除了能夠容忍非線性形變之外,在未知數(shù)據(jù)集上也有很強(qiáng)的泛化能力,有效的解決了手工設(shè)計(jì)的低級(jí)幾何特征描述子的算法泛化能力弱,難以擴(kuò)展到未知數(shù)據(jù)集的問(wèn)題。最終,將上述約束形式化為一個(gè)統(tǒng)一的目標(biāo)函數(shù),設(shè)計(jì)出一個(gè)集成化的檢索方法。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索算法,包括以下步驟:
步驟1,設(shè)三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn};
步驟11,設(shè)單位球面三角網(wǎng)格u={v,t},v是三角形頂點(diǎn)集合,t是三角形集合;
步驟12,從三角形頂點(diǎn)集合v中隨機(jī)選擇d個(gè)頂點(diǎn)作為種子頂點(diǎn),所述d個(gè)種子頂點(diǎn)組成種子頂點(diǎn)集合se,
步驟131,以seeds中所有種子頂點(diǎn)作為勞埃德松弛算法的種子,得到d個(gè)沃羅諾伊原胞,所述d個(gè)沃羅諾伊原胞的中心分別為cent1,cent2,...,centd;
步驟132,將seeds中的每個(gè)種子頂點(diǎn)分別移動(dòng)到對(duì)應(yīng)的沃羅諾伊原胞的中心,即令vertex1=cent1,vertex2=cent2,...,vertexd=centd,所述seeds中的所有種子頂點(diǎn)移動(dòng)到對(duì)應(yīng)的沃羅諾伊原胞的中心的距離記為d={distance1,distance2,...,distanced},且將d中的最大值記為maxdistance;
步驟133,重復(fù)步驟131至步驟132,直到maxdistance<0.01,執(zhí)行步驟14;
步驟14,將沃羅諾伊原胞的中心centj,j=1...d作為視角vj,得到視角集合views={v1,v2,...,vj,...vd};
任選三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中的任一個(gè)三維模型mi,i=1,2,…,n,n為大于等于1的自然數(shù);將mi做歸一化處理后,依次采用視角集合views中的所有視角對(duì)三維模型mi進(jìn)行線渲染得到的投影圖集合
步驟15,重復(fù)步驟14得到三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中所有模型的投影圖數(shù)據(jù)集
步驟2,設(shè)手繪草圖數(shù)據(jù)集為s={s1,s2,...,sa,...,sk},a=1,2,…,k;
步驟21,將s∪p作為googlenet網(wǎng)絡(luò)的輸入,將googlenet網(wǎng)絡(luò)中的全連接層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為模型類別數(shù),將學(xué)習(xí)率設(shè)置為0.01,權(quán)重衰減設(shè)置為0.0001,動(dòng)量設(shè)置為0.95,以隨機(jī)梯度下降法作為優(yōu)化算法,迭代訓(xùn)練googlenet網(wǎng)絡(luò)得到分類器c(x);
步驟22,將投影圖數(shù)據(jù)集
步驟3,生成三元組數(shù)據(jù)集合,包括:
步驟31,任取手繪草圖數(shù)據(jù)集s中的任一手繪草圖作為當(dāng)前手繪草圖sa;
將當(dāng)前手繪草圖sa輸入分類器c(x)得到分類預(yù)測(cè)分?jǐn)?shù)向量
步驟31,設(shè)當(dāng)前手繪草圖sa的類別標(biāo)簽為la,la∈ca,將類別標(biāo)簽la作為正類標(biāo)簽pa,從當(dāng)前手繪草圖sa的預(yù)測(cè)類別向量
步驟32,從索引i中得到標(biāo)記為正類標(biāo)簽pa的所有投影圖的特征向量集合
步驟331,任選負(fù)類標(biāo)簽集合na中的任一負(fù)類標(biāo)簽作為當(dāng)前負(fù)類標(biāo)簽
從索引i中得到標(biāo)記為當(dāng)前負(fù)類標(biāo)簽
步驟332,重復(fù)步驟331,直至負(fù)類標(biāo)簽集合na中所有的負(fù)類標(biāo)簽都被作為當(dāng)前負(fù)類標(biāo)簽,共得到25個(gè)負(fù)樣本,執(zhí)行步驟34;
步驟34,將5個(gè)正樣本和25個(gè)負(fù)樣本組成125個(gè)三元組對(duì)組成的集合tripleta;
步驟35,重復(fù)步驟31至步驟34,直至手繪草圖數(shù)據(jù)集s中所有的手繪草圖都被作為當(dāng)前手繪草圖,得到三元組集合
步驟4,設(shè)三元組集合
步驟41,將三元組中的正樣本
其中,netp,netg,netn為構(gòu)建用于度量學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)g中包含的三個(gè)子卷積神經(jīng)網(wǎng)絡(luò);
步驟42,通過(guò)式(1)得到卷積神經(jīng)網(wǎng)絡(luò)g的損失函數(shù)值l:
式(1)中,n為三元組的數(shù)量,α為正樣本和負(fù)樣本之間的間隔;
步驟43,采用隨機(jī)梯度下降法作為最優(yōu)化算法,以損失函數(shù)值l為目標(biāo)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)g,所述卷積神經(jīng)網(wǎng)絡(luò)g輸出嵌入函數(shù)e(x);
步驟5,包括:
步驟51,將三維模型mi的投影圖集合
采用嵌入函數(shù)e(x)將當(dāng)前模型投影圖
步驟52,重復(fù)步驟51,得到三維模型mi的投影圖集合
步驟53,重復(fù)步驟51至步驟52,將三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中的所有三維模型都嵌入到歐式空間中,得到三維模型數(shù)據(jù)庫(kù)中所有模型投影圖的歐式特征空間中的特征點(diǎn)集合。
進(jìn)一步地,還包括:
步驟6,設(shè)待測(cè)試手繪草圖為xs;
步驟61,采用嵌入函數(shù)e(x)將xs嵌入到歐式特征空間中,得到xs在歐式特征空間中的特征點(diǎn)e(xs);
步驟62,在歐式特征空間中搜索與測(cè)試手繪草圖為xs類別標(biāo)簽相同的投影圖特征點(diǎn)集合f,計(jì)算f中每個(gè)特征點(diǎn)和特征點(diǎn)e(xs)之間的歐氏距離;
步驟63,選取歐式距離最小的前k個(gè)投影圖特征點(diǎn)所對(duì)應(yīng)的模型作為與待測(cè)試手繪草圖xs最相近的k個(gè)模型。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:
本發(fā)明有效的解決了以手繪草圖檢索三維模型過(guò)程中難以實(shí)現(xiàn)跨域匹配的問(wèn)題,通過(guò)度量學(xué)習(xí)方法得到一種辨識(shí)度高的特征表達(dá)及相應(yīng)的相似度度量方法。實(shí)驗(yàn)表明,相較于其他基于手工設(shè)計(jì)低級(jí)幾何特征描述符的算法,本發(fā)明的檢索性能有很大提升。
附圖說(shuō)明
圖1是本發(fā)明的流程圖;
圖2(a)~(e)是屬于同一類別的六個(gè)手繪草圖;(f)是和手繪草圖屬于同一類別的模型投影示意圖;
圖3是度量學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)圖;
圖4是嵌入特定樣本時(shí)網(wǎng)絡(luò)內(nèi)部狀態(tài)示意圖;
圖5是本發(fā)明與其他方法準(zhǔn)確率召回率曲線對(duì)比圖;
圖6是學(xué)習(xí)到的特征空間示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
實(shí)施例1
本實(shí)施例提供了基于深度卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索算法,包括以下步驟:
步驟1,設(shè)三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn};
本實(shí)施例選用shrec,13數(shù)據(jù)集;
步驟11,設(shè)單位球面三角網(wǎng)格u={v,t},v是三角形頂點(diǎn)集合,t是三角形集合;
步驟12,從三角形頂點(diǎn)集合v中隨機(jī)選擇d個(gè)頂點(diǎn)作為種子頂點(diǎn),所述d個(gè)種子頂點(diǎn)組成種子頂點(diǎn)集合se,
步驟131,以seeds中所有種子頂點(diǎn)作為勞埃德松弛算法的種子,得到d個(gè)沃羅諾伊原胞,所述d個(gè)沃羅諾伊原胞的中心分別為cent1,cent2,...,centd;
本實(shí)施例所采用的勞埃德松弛算法為:lloyds.leastsquaresquantizationinpcm[j].ieeetransactionsoninformationtheory,1982,28(2):129-137.
本實(shí)施例計(jì)算d個(gè)沃羅諾伊原胞的中心所采用的方法為:bergmd.計(jì)算幾何:算法與應(yīng)用[m].鄧俊輝,譯.北京:清華大學(xué)出版社,2009.
步驟132,將seeds中的每個(gè)種子頂點(diǎn)分別移動(dòng)到對(duì)應(yīng)的沃羅諾伊原胞的中心,即令vertex1=cent1,vertex2=cent2,...,vertexd=centd,所述seeds中的所有種子頂點(diǎn)移動(dòng)到對(duì)應(yīng)的沃羅諾伊原胞的中心的距離記為d={distance1,distance2,...,distanced},且將d中的最大值記為maxdistance;
步驟133,重復(fù)步驟131至步驟132,直到maxdistance<0.01,得到執(zhí)行步驟14;
步驟14,將沃羅諾伊原胞的中心centj,j=1...d作為視角vj,得到視角集合views={v1,v2,...,vj,...vd};
本實(shí)施例是將沃羅諾伊原胞中心centj,j=1...d作為攝像機(jī)位置,將攝像機(jī)指向單位球面u的質(zhì)心作為視角vj。
任選三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中的任一個(gè)三維模型mi,i=1,2,…,n,n為大于等于1的自然數(shù);將mi做歸一化處理后,依次采用視角集合views中的所有視角對(duì)三維模型mi進(jìn)行線渲染得到的投影圖集合
本實(shí)施例所采用的線渲染方法為suggestivecontour算法,decarlod,finkelsteina,rusinkiewiczs,etal.suggestivecontoursforconveyingshape[j].acmtransactionsongraphics,2003,22(3):848-855.
步驟15,重復(fù)步驟14得到三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中所有模型的投影圖數(shù)據(jù)集
步驟2,設(shè)手繪草圖數(shù)據(jù)集為s={s1,s2,...,sa,...,sk},a=1,2,…,k;
步驟21,將s∪p作為googlenet網(wǎng)絡(luò)的輸入,將googlenet網(wǎng)絡(luò)中的全連接層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為模型類別數(shù),以在imagenet數(shù)據(jù)集上預(yù)訓(xùn)練的googlenet網(wǎng)絡(luò)的參數(shù)初始化權(quán)重,將學(xué)習(xí)率設(shè)置為0.01,權(quán)重衰減設(shè)置為0.0001,動(dòng)量設(shè)置為0.95,以隨機(jī)梯度下降法作為優(yōu)化算法,迭代訓(xùn)練googlenet網(wǎng)絡(luò)得到分類器c(x);x為一張圖像(投影圖或草圖)數(shù)據(jù),分類器的輸出為一個(gè)c維的向量,c為數(shù)據(jù)集中模型類別的數(shù)量,向量的第b個(gè)元素為分類器判斷輸入的圖像x屬于第b類的概率值。
本實(shí)施例中的googlenet卷神經(jīng)網(wǎng)絡(luò)的構(gòu)建方法為:szegedyc,liuw,jiay,etal.goingdeeperwithconvolutions[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2015:1-9.
所構(gòu)建出的googlenet網(wǎng)絡(luò)如表1所示:
表1googlenet結(jié)構(gòu)明細(xì)表
步驟22,將投影圖數(shù)據(jù)集
步驟31,任取手繪草圖數(shù)據(jù)集s中的任一手繪草圖作為當(dāng)前手繪草圖sa;
將當(dāng)前手繪草圖sa輸入分類器c(x)得到分類預(yù)測(cè)分?jǐn)?shù)向量
步驟31,設(shè)當(dāng)前手繪草圖sa的類別標(biāo)簽為la,la∈ca,將類別標(biāo)簽la作為正類標(biāo)簽pa,從當(dāng)前手繪草圖sa的預(yù)測(cè)類別向量
步驟32,從索引i中得到標(biāo)記為正類標(biāo)簽pa的所有投影圖的特征向量集合
步驟331,任選負(fù)類標(biāo)簽集合na中的任一負(fù)類標(biāo)簽作為當(dāng)前負(fù)類標(biāo)簽
從索引i中得到標(biāo)記為當(dāng)前負(fù)類標(biāo)簽
步驟332,重復(fù)步驟331,直至負(fù)類標(biāo)簽集合na中所有的負(fù)類標(biāo)簽都被作為當(dāng)前負(fù)類標(biāo)簽,共得到25個(gè)負(fù)樣本,執(zhí)行步驟34;
步驟34,將5個(gè)正樣本和25個(gè)負(fù)樣本組成125個(gè)三元組對(duì)組成的集合tripleta;
步驟35,重復(fù)步驟31至步驟34,直至手繪草圖數(shù)據(jù)集s中所有的手繪草圖都被作為當(dāng)前手繪草圖,得到三元組集合
步驟4,設(shè)三元組集合
步驟41,將三元組中的正樣本
其中,netp,netg,netn為構(gòu)建用于度量學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)g中包含的三個(gè)子卷積神經(jīng)網(wǎng)絡(luò);
本實(shí)施例中,卷積神經(jīng)網(wǎng)絡(luò)g的網(wǎng)絡(luò)結(jié)果如圖2所示,每個(gè)子卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)模型都從表1所示的googlenet最后一層softmax去除所得,netp,neta,netn三個(gè)子網(wǎng)絡(luò)共享同一組參數(shù),三個(gè)子網(wǎng)絡(luò)的輸出都記為f(·)。最終同時(shí)使用netp,neta,netn三個(gè)網(wǎng)絡(luò)的輸出計(jì)算損失函數(shù)值。
步驟42,通過(guò)式(1)得到卷積神經(jīng)網(wǎng)絡(luò)g的損失函數(shù)值l:
式(1)中,n為三元組的數(shù)量,α為正樣本和負(fù)樣本之間的間隔;
通過(guò)最優(yōu)化算法修正該網(wǎng)絡(luò)的參數(shù)使得l最小化后,該網(wǎng)絡(luò)即可將輸入的圖像映射到一個(gè)可以完成跨域匹配的特征空間。
步驟43,采用隨機(jī)梯度下降法作為最優(yōu)化算法,以損失函數(shù)值l為目標(biāo)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)g,所述卷積神經(jīng)網(wǎng)絡(luò)g輸出嵌入函數(shù)e(x);
本實(shí)施例所采用的隨機(jī)梯度下降法的參考文獻(xiàn)為:bottoul.large-scalemachinelearningwithstochasticgradientdescent[m]//proceedingsofcompstat'2010.physica-verlaghd,2010:177-186.
訓(xùn)練過(guò)程包含2個(gè)階段:
第一階段是前向傳播階段,將訓(xùn)練樣本輸入網(wǎng)絡(luò)的數(shù)據(jù)層,經(jīng)過(guò)網(wǎng)絡(luò)中各種隱含層進(jìn)行逐層變換,逐層映射,直到輸出層按照損失函數(shù)l計(jì)算損失值。
第二階段是反向傳播階段,用損失值計(jì)算各個(gè)參數(shù)的梯度值,將參數(shù)向負(fù)梯度方向更新,進(jìn)一步對(duì)整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行監(jiān)督優(yōu)化。
步驟51,將三維模型mi的投影圖集合
采用嵌入函數(shù)e(x)將當(dāng)前模型投影圖
步驟52,重復(fù)步驟51,得到三維模型mi的投影圖集合
步驟53,重復(fù)步驟51至步驟52,將三維模型數(shù)據(jù)庫(kù)m={m1,m2,...,mn}中的所有三維模型都嵌入到歐式空間中,得到三維模型數(shù)據(jù)庫(kù)中所有模型投影圖的歐式特征空間中的特征點(diǎn)集合。
實(shí)施例2
本實(shí)施例在實(shí)施例1的基礎(chǔ)上,還包括:
步驟6,設(shè)待測(cè)試手繪草圖為xs;
步驟61,采用嵌入函數(shù)e(x)將xs嵌入到歐式特征空間中,得到xs在歐式特征空間中的特征點(diǎn)e(xs);
步驟62,在歐式特征空間中搜索與測(cè)試手繪草圖為xs類別標(biāo)簽相同的投影圖特征點(diǎn)集合f,計(jì)算f中每個(gè)特征點(diǎn)和特征點(diǎn)e(xs)之間的歐氏距離;
步驟63,選取歐式距離最小的前k個(gè)投影圖特征點(diǎn)所對(duì)應(yīng)的模型作為與待測(cè)試手繪草圖xs最相近的k個(gè)模型。
實(shí)驗(yàn)結(jié)果
實(shí)施例1和實(shí)施例2選用shrec'13數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)施例1和實(shí)施例2選用的shrec’13數(shù)據(jù)集參考文獻(xiàn)為:b.li,y.lu,afzalgodil,tobiasschreck,masakiaono,henryjohan,josem.saavedra,s.tashiro,in:s.biasotti,i.pratikakis,u.castellani,t.schreck,a.godil,andr.veltkamp(eds.),shrec'13track:largescalesketch-based3dshaperetrieval,eurographicsworkshopon3dobjectretrieval2013(3dor2013):89-96,2013.。
shrec'13數(shù)據(jù)集包含1258個(gè)三維模型,每個(gè)模型配有80張手繪草圖,共有90個(gè)類別,每個(gè)類別下的模型數(shù)量是不均勻的。本次實(shí)驗(yàn)用mxnet深度學(xué)習(xí)庫(kù)實(shí)現(xiàn)所有卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。訓(xùn)練時(shí)間和三元組數(shù)據(jù)對(duì)的數(shù)量以及訓(xùn)練紀(jì)元(epoch)有關(guān),在shrec'13數(shù)據(jù)集上,共生成787500組三元組訓(xùn)練數(shù)據(jù)和112500個(gè)測(cè)試數(shù)據(jù)對(duì)。經(jīng)過(guò)30次迭代過(guò)程結(jié)束網(wǎng)絡(luò)的訓(xùn)練。本發(fā)明實(shí)驗(yàn)的機(jī)器配置為intelcore-i5-6600k3.2hzcpu、16gb內(nèi)存、nvidiagtx10606gbgpu×2、cudav8.0、cudnnv5.1、mxnetv0.9.3、ubuntu16.04操作系統(tǒng)。本發(fā)明提出的卷積神經(jīng)網(wǎng)絡(luò)是用mxnet深度學(xué)習(xí)庫(kù)實(shí)現(xiàn)的。在預(yù)先計(jì)算所有模型投影的特征后,每張草圖的查詢處理時(shí)間平均大約為0.002秒,說(shuō)明本發(fā)明設(shè)計(jì)的算法有較高的可用性。
本發(fā)明的算法模型在常見(jiàn)的類別上表現(xiàn)良好,例如桌子,人臉,樹(shù)木等。通過(guò)觀察發(fā)現(xiàn)算法對(duì)一些相似草圖的查詢結(jié)果也很準(zhǔn)確,比如骷髏頭和人臉草圖,只有細(xì)節(jié)不同,而本發(fā)明算法依然能正確區(qū)分出來(lái),反映了本發(fā)明算法學(xué)習(xí)到的特征空間滿足了同類特征間在嵌入空間距離近,而不同模型之間的特征在特征空間中距離遠(yuǎn),證實(shí)了度量學(xué)習(xí)的有效性,反映出算法對(duì)模型的辨識(shí)度較高。
在圖5中,展示了本發(fā)明算法與shrec'13數(shù)據(jù)集上其他算法的查準(zhǔn)率-查全率曲線比較。從圖5中可見(jiàn)本發(fā)明的算法大幅超越其他基于手工設(shè)計(jì)特征描述子的算法。這是由于本發(fā)明算法采用表達(dá)能力強(qiáng)的深度卷積神經(jīng)網(wǎng)絡(luò)模型作為特征提取器,提取出了高級(jí)抽象視覺(jué)特征,而不是手工設(shè)計(jì)的描述子提取出的低級(jí)幾何特征。
在查全率(recall)較小時(shí),本發(fā)明算法相對(duì)于shrec'13最好結(jié)果的性能提升將近30%。在查全率逐漸增大的過(guò)程中,整個(gè)曲線下降的速度相較于其他算法更緩慢,說(shuō)明本發(fā)明算法有更強(qiáng)的穩(wěn)定性。當(dāng)查準(zhǔn)率增加到1時(shí),本發(fā)明算法的查準(zhǔn)率相較于其他算法有將近5%的提升。
表2查詢性能評(píng)價(jià)指標(biāo)對(duì)比
表2展示了本發(fā)明算法的其他查詢性能評(píng)價(jià)指標(biāo)與現(xiàn)有方法的對(duì)比結(jié)果。其中,nn即nearestneighbor,代表了查詢結(jié)果的top-1精確度。由表中可見(jiàn),本發(fā)明算法的nn指數(shù)相較于對(duì)照方法有很大的提高,說(shuō)明本發(fā)明方法對(duì)用戶查詢意圖的把握更為精準(zhǔn),查詢結(jié)果質(zhì)量高。由于對(duì)照方法是無(wú)監(jiān)督的,本發(fā)明算法在選擇三元組時(shí)使用了監(jiān)督學(xué)習(xí)方法,利用了模型的語(yǔ)義標(biāo)簽信息,所以結(jié)果有了較大提升。說(shuō)明將幾何視覺(jué)信息以外的語(yǔ)義信息融合進(jìn)特征表達(dá)對(duì)檢索性能的提升有很大幫助。ft即firsttier,假設(shè)有c個(gè)相關(guān)模型,ft是檢索的top-c召回率。相似的st即secondtier代表top-2c召回率。這兩個(gè)指標(biāo)從不同程度上說(shuō)明了本發(fā)明方法的查詢結(jié)果質(zhì)量較高。由于大多數(shù)用戶只關(guān)注搜索結(jié)果的第一頁(yè),e-measure是對(duì)top-32結(jié)果的查準(zhǔn)率和查全率綜合考慮的指標(biāo)。它反映了查詢結(jié)果第一頁(yè)的查全率和查準(zhǔn)率。計(jì)算方法如下:
dcg是discountedcumulatedgain,該指標(biāo)的設(shè)計(jì)動(dòng)機(jī)是用戶關(guān)注相關(guān)模型在查詢列表里出現(xiàn)的位置,因?yàn)橛脩粝M嚓P(guān)模型排在靠前的位置。dcg被定義為相關(guān)模型位置的正則化累積值。為了計(jì)算dcg,首先將查詢列表r轉(zhuǎn)換為一個(gè)向量g,當(dāng)ri是相關(guān)模型的時(shí)候gi=1,否則gi=0。然后根據(jù)公式:
計(jì)算出dcg。由表2可見(jiàn)本發(fā)明的查詢結(jié)果中相關(guān)模型的排序也是很靠前的,說(shuō)明本發(fā)明算法學(xué)習(xí)到的相似度度量有很強(qiáng)的魯棒性。
由于訓(xùn)練數(shù)據(jù)量較少,在訓(xùn)練過(guò)程結(jié)束時(shí)發(fā)現(xiàn),模型訓(xùn)練過(guò)程存在一定的過(guò)擬合現(xiàn)象。這表明算法性能有進(jìn)一步提升的空間,可以通過(guò)微調(diào)參數(shù)以及增大訓(xùn)練數(shù)據(jù)量對(duì)算法調(diào)優(yōu)。
圖4是對(duì)學(xué)習(xí)到的特征進(jìn)行可視化展示。本發(fā)明算法提取的視覺(jué)特征的抽象程度隨著網(wǎng)絡(luò)層次的加深而提高。同時(shí),可見(jiàn)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中包含了一組過(guò)完備的多尺度不同抽象程度的過(guò)濾器組,能夠提取到不同尺度的多種視覺(jué)特征。而手工設(shè)計(jì)的特征描述子過(guò)濾器數(shù)量有限,所以相對(duì)能提取出的特征種類也有限。另外,卷積神經(jīng)網(wǎng)絡(luò)中的過(guò)濾器參數(shù)是由數(shù)據(jù)驅(qū)動(dòng)直接調(diào)整得到的,而手工設(shè)計(jì)的特征描述子是通過(guò)先驗(yàn)知識(shí)設(shè)計(jì)過(guò)濾器參數(shù)的,顯然通過(guò)數(shù)據(jù)驅(qū)動(dòng)方式訓(xùn)練的過(guò)濾器對(duì)數(shù)據(jù)的適應(yīng)性更強(qiáng)。
如圖6所示,將草圖和投影圖混合,隨機(jī)選擇5000個(gè)對(duì)應(yīng)的學(xué)習(xí)到的特征向量,特征向量的維度是1024,使用pca算法降維到2維進(jìn)行可視化。圖6中,數(shù)據(jù)點(diǎn)是草圖和投影圖對(duì)應(yīng)的特征點(diǎn),為了更直觀的展現(xiàn)效果,隨機(jī)挑選若干個(gè)數(shù)據(jù)點(diǎn),將其對(duì)應(yīng)的模型的視圖繪制在點(diǎn)云上以便觀察。可以看出,相似模型的特征點(diǎn)自然聚合在一起,例如右下角飛機(jī)模型類和左上角汽車模型類等。本發(fā)明算法是一種弱監(jiān)督學(xué)習(xí)方法,圖中的分布說(shuō)明了學(xué)習(xí)到的特征表達(dá)對(duì)于域內(nèi)匹配和跨域匹配都有很好的適應(yīng)性。所以,本發(fā)明算法通過(guò)度量學(xué)習(xí)學(xué)到的特征表達(dá)符合前文所述的性質(zhì),即在該特征空間中,歐氏距離可以直接代表樣本的相似度,同類模型的特征點(diǎn)之間的歐氏距離小,而不同模型特征點(diǎn)之間歐氏距離大,很好的解決了難以跨域匹配的問(wèn)題。