本發(fā)明涉及視覺(jué)智能領(lǐng)域,尤其是涉及一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法。
背景技術(shù):
視覺(jué)推理是視覺(jué)智能的一個(gè)最終目標(biāo)。以蘋(píng)果舉例,給定一個(gè)蘋(píng)果的圖片,人類可以識(shí)別對(duì)象名稱,它的形狀,顏色,紋理,推斷其味道,并想想如何吃它。我們視覺(jué)推理的大部分領(lǐng)域努力集中在為圖像的某些部分分配類標(biāo)簽。實(shí)際上,將推理問(wèn)題轉(zhuǎn)化為分類問(wèn)題是直觀的。大多數(shù)強(qiáng)大的機(jī)器學(xué)習(xí)工具是基于優(yōu)化分類目標(biāo)。但是這種基于分類器的范例也有局限性。與看到一個(gè)蘋(píng)果時(shí)可以通過(guò)一個(gè)人豐富的思想推理相比,典型的對(duì)象分類器正在做一個(gè)“淺顯的”的推理。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種無(wú)需單獨(dú)訓(xùn)練分類器、深入的視覺(jué)推理、異構(gòu)信息廣泛的基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法。
本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法,用以預(yù)測(cè)給定對(duì)象的可承受性,包括以下步驟:
1)采用馬爾科夫邏輯網(wǎng)絡(luò)學(xué)習(xí)知識(shí)庫(kù),進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示;
2)利用分層模型估計(jì)給定對(duì)象的相關(guān)屬性,包括物理屬性、視覺(jué)屬性和分類屬性;
3)利用分層模型估計(jì)得到的證據(jù)查詢知識(shí)庫(kù),并且進(jìn)行zero-shot可承受性預(yù)測(cè);
4)獲取預(yù)測(cè)對(duì)象的可承受性、人的姿勢(shì)以及人與對(duì)象的相對(duì)位置。
所述的步驟1)具體包括以下步驟:
11)獲取構(gòu)建知識(shí)庫(kù)的證據(jù),從不同的數(shù)據(jù)源收集證據(jù),包括圖像和在線文本信息,所述的圖像和在線文本信息包括對(duì)象的物理屬性、視覺(jué)屬性、可承受性、分類屬性以及人與對(duì)象的互動(dòng)信息;
12)獲得構(gòu)建知識(shí)庫(kù)的證據(jù)后,使用馬爾科夫網(wǎng)絡(luò)對(duì)證據(jù)進(jìn)行學(xué)習(xí),構(gòu)建知識(shí)庫(kù),建立對(duì)象與物理屬性、視覺(jué)屬性、可承受性、分類屬性以及人與對(duì)象的互動(dòng)信息之間的關(guān)系。
所述的步驟2)具體包括以下步驟:
21)通過(guò)視覺(jué)屬性分類器對(duì)給定對(duì)像進(jìn)行特征提取,獲取給定對(duì)象的基本屬性,包括顏色、紋理和形狀,再根據(jù)基本屬性采用視覺(jué)屬性分類器獲取其視覺(jué)屬性,包括形狀、材料和部分;
22)采用lr分類器得到給定對(duì)象的分類屬性,并且采用ranksvm結(jié)合基本屬性獲取給定對(duì)像的物理屬性,所述的物理屬性包括現(xiàn)實(shí)權(quán)重和現(xiàn)實(shí)尺寸,所述的分類屬性包括對(duì)象詞匯的上位詞。
所述的步驟3)中具體包括以下步驟:
根據(jù)給定對(duì)象的視覺(jué)屬性、物理屬性以及分類屬性采用采用一階推理獲取給定對(duì)象的可承受性、人的姿態(tài)以及人與對(duì)象的相對(duì)位置。
人的姿勢(shì)包括抓,舉,扔,推,修理,騎,玩,看,坐,飼養(yǎng),倒,寫(xiě),劃和寫(xiě)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
一、一個(gè)多樣化的視覺(jué)推理任務(wù)可以在這個(gè)統(tǒng)一的框架中完成,而不需要訓(xùn)練單獨(dú)的分類器;
二、在本發(fā)明中,專注于預(yù)測(cè)對(duì)象的可承受性的任務(wù),并說(shuō)明視覺(jué)和語(yǔ)義信息的新表示如何超越“淺顯的”推理,并允許更靈活和更深入的視覺(jué)推理;
三、本發(fā)明可以在一個(gè)統(tǒng)一的框架中同時(shí)預(yù)測(cè)可承受性標(biāo)簽,人的姿勢(shì)和人相對(duì)對(duì)象的位置;
四、之前的些模型相比,由于之前模型都是基于分類器,不存在異構(gòu)信息的獲取。本發(fā)明的知識(shí)庫(kù)包含廣泛的異構(gòu)信息,異構(gòu)信息知識(shí)的挖掘目的在于找到已有數(shù)據(jù)資源的隱形知識(shí)。本發(fā)明通過(guò)挖掘并組織各類隱形知識(shí),得到廣泛的異構(gòu)信息,提高數(shù)據(jù)的應(yīng)用層次,將數(shù)據(jù)之間存在的語(yǔ)義關(guān)系顯性化,因而使我們能夠回答多種視覺(jué)和文本查詢等優(yōu)點(diǎn)。
附圖說(shuō)明
圖1為本發(fā)明的方法流程圖。
圖2為本發(fā)明的方法流程框圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
實(shí)施例
如圖2所示,本實(shí)施例提供一種基于用知識(shí)庫(kù)表示的對(duì)象可承受性推理方法,對(duì)給定對(duì)象的圖像進(jìn)行可承受性預(yù)測(cè),包括預(yù)測(cè)人的姿勢(shì)以及人與對(duì)象的相對(duì)位置,具體如下:
1)使用馬爾科夫邏輯網(wǎng)絡(luò)(mln)學(xué)習(xí)知識(shí)庫(kù)(kb),進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示;
步驟1)中,進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示的具體步驟為:
11)首先,從不同的數(shù)據(jù)源收集證據(jù),包括圖像和在線文本。
11a)收集構(gòu)建知識(shí)庫(kù)的證據(jù)。知識(shí)庫(kù)是由證據(jù),一組關(guān)于實(shí)體的事實(shí)和斷言填充的(一般規(guī)則),比如有視覺(jué)屬性(x,頭)
數(shù)據(jù)源---選擇由stanford40actions數(shù)據(jù)集提供的40個(gè)對(duì)象來(lái)培養(yǎng)知識(shí)庫(kù)。對(duì)于每個(gè)對(duì)象,從imagenet數(shù)據(jù)集中取樣100張圖像。在stanford40actions數(shù)據(jù)集中,我們選擇人類的14個(gè)行動(dòng)能力,例如抓,舉,扔,推,修理,騎,玩,看,坐,飼養(yǎng),倒,寫(xiě),劃,寫(xiě)等。
證據(jù)---給定40個(gè)對(duì)象,我們現(xiàn)在準(zhǔn)備從圖像以及一些在線源,如freebase,wordnet和在線購(gòu)物網(wǎng)站收集一組知識(shí)庫(kù)的證據(jù)。對(duì)于構(gòu)建良好的知識(shí)庫(kù),我們希望證據(jù)是多樣化,準(zhǔn)確的和一致的。
11b)視覺(jué)屬性,我們選擇33個(gè)預(yù)訓(xùn)練的視覺(jué)屬性分類器來(lái)描述對(duì)象的形狀,材料和部分;物理屬性,我們從freebase上的動(dòng)物簡(jiǎn)介字段提取對(duì)象的現(xiàn)實(shí)權(quán)重和現(xiàn)實(shí)尺寸,以及amazon2和ebay3上對(duì)象的詳細(xì)數(shù)據(jù)。為了調(diào)節(jié)網(wǎng)絡(luò)數(shù)據(jù)中的噪聲,我們將前k個(gè)檢索結(jié)果的中值作為真實(shí)值。我們將重量量化為四個(gè)部分(<1kg,1-10kg,10-100kg和>100kg),并將尺寸分成三個(gè)箱(<10in,10-100in和>100in);分類屬性,更一般種類的成員對(duì)于對(duì)象推理可以是多信息。我們通過(guò)從詞匯本體(例如wordnet)中提取上位詞來(lái)獲得這些屬性。對(duì)象的上位詞可以被認(rèn)為是該對(duì)象的一般化(例如,狗的上位詞是哺乳動(dòng)物,動(dòng)物等)。為了提高計(jì)算效率,我們合并覆蓋同一組對(duì)象的上位詞,并刪除那些只包含一個(gè)對(duì)象的上位線。最后,我們使用22個(gè)上位詞作為分類屬性。
11c)可承受性標(biāo)簽,向知識(shí)庫(kù)中的每個(gè)對(duì)象分配多個(gè)可承受性標(biāo)簽。對(duì)于本發(fā)明,我們提供了對(duì)用于訓(xùn)練的40個(gè)對(duì)象的可承受性的手動(dòng)標(biāo)記;人的姿勢(shì),人的姿勢(shì)可以從stanford40actions中的人的行動(dòng)圖像中提取。為了確保我們的知識(shí)庫(kù)在訓(xùn)練階段的魯棒性,我們手動(dòng)注釋圖像的人的姿勢(shì)。我們基于身體部位的傾斜角度計(jì)算姿態(tài)描述符。身體部分描述符通過(guò)k-means離散化。聚類中心的數(shù)量由elbowmethod確定;人與對(duì)象相對(duì)位置,我們基于人的行為圖像的邊界框的相對(duì)位置和大小來(lái)提取人與對(duì)象的空間關(guān)系。
12)然后我們使用markovlogicnetwork學(xué)習(xí)知識(shí)庫(kù)。
鑒于收集的證據(jù),我們通過(guò)學(xué)習(xí)關(guān)系,即一般規(guī)則的權(quán)重,建立知識(shí)庫(kù)。我們采用馬爾科夫邏輯網(wǎng)絡(luò)(mln)進(jìn)行知識(shí)表示。mln的想法是統(tǒng)一馬爾科夫隨機(jī)場(chǎng)(mrf)和一階邏輯。mln中的學(xué)習(xí)和推斷類似于mrf的標(biāo)準(zhǔn)算法,其中地面mrf首先通過(guò)加權(quán)邏輯公式來(lái)實(shí)例化。表示實(shí)體和一般規(guī)則的公式定義了知識(shí)庫(kù)的結(jié)構(gòu)。mln可以被認(rèn)為是對(duì)數(shù)線性模型,每個(gè)接地原子具有一個(gè)節(jié)點(diǎn),每個(gè)地面公式具有一個(gè)特征。可能詞x的聯(lián)合分布由下式給出:
其中z是配分函數(shù),fi是特征函數(shù),f是mln中的一階公式的集合,n是f中公式的數(shù)目,x{i}是公式fi中出現(xiàn)的接地原子的狀態(tài),如果fi為真,特征函數(shù)fi=1否則為0。權(quán)重ω指公式為真的可能性。在馬爾可夫邏輯(markovlogic)中學(xué)習(xí)邊緣的權(quán)重,其中正權(quán)重表示兩個(gè)實(shí)體可能共同出現(xiàn)(例如皮毛的和飼料),負(fù)權(quán)重表示實(shí)體是負(fù)相關(guān)的(例如修理和動(dòng)物)。
為了確保知識(shí)庫(kù)的質(zhì)量,進(jìn)一步研究了mln統(tǒng)計(jì)推斷學(xué)習(xí)的一般規(guī)則的權(quán)重。大的正/負(fù)權(quán)重表示規(guī)則為真/假的高置信度。與視覺(jué)屬性相反,分類屬性作為更具識(shí)別力的語(yǔ)義級(jí)抽象,因此具有更大的權(quán)重。
2)利用分層模型估計(jì)給定對(duì)象的各種屬性,例如,物理屬性,視覺(jué)屬性以及分類屬性等;
21)給定對(duì)象的圖像,首先提取圖像中暗示的基本特征并預(yù)測(cè)視覺(jué)屬性;
22)然后為每個(gè)具有基本特征、視覺(jué)屬性和分類屬性的對(duì)象訓(xùn)練l1-正則邏輯回歸分類器。一旦獲得視覺(jué)和分類屬性的評(píng)分,將評(píng)分映射到二進(jìn)制向量,其中非零向量表示這些屬性的存在。
我們通過(guò)學(xué)習(xí)排序函數(shù)來(lái)預(yù)測(cè)物理屬性?;谟?xùn)練對(duì)象的物理屬性,我們構(gòu)造成對(duì)優(yōu)先權(quán)的集合pk,其中(i,j)∈pk表示i具有比k-th物理屬性j更大的值。我們的目標(biāo)是學(xué)習(xí)一個(gè)
我們通過(guò)學(xué)習(xí)排序函數(shù)來(lái)預(yù)測(cè)物理屬性。對(duì)于訓(xùn)練對(duì)象的物理屬性,為了調(diào)節(jié)網(wǎng)絡(luò)數(shù)據(jù)中的噪聲,將前k個(gè)檢索結(jié)果的中值作為真實(shí)值。我們將重量量化為四個(gè)部分(<1kg,1-10kg,10-100kg和>100kg)。基于訓(xùn)練對(duì)象的物理屬性,我們使用pairwise方法的rankingsvm,我們構(gòu)造成對(duì)優(yōu)先權(quán)的集合pk,其中(i,j)∈pk表示i具有比j物理屬性更大的k-th值。我們的目標(biāo)是學(xué)習(xí)一個(gè)
3)利用分層模型估計(jì)得到的證據(jù)查詢知識(shí)庫(kù),進(jìn)行一階推理的可承受性預(yù)測(cè);
給定一個(gè)新對(duì)象的圖像,我們通過(guò)分層模型估計(jì)對(duì)象的物理屬性,視覺(jué)屬性和分類屬性。之前得到的這些屬性被用作知識(shí)庫(kù)查詢的證據(jù)。然后,我們采用一階推理來(lái)預(yù)測(cè)對(duì)象的可承受性和估計(jì)人的姿態(tài)和人與對(duì)象的相對(duì)位置。這個(gè)查詢的過(guò)程就是一個(gè)簡(jiǎn)單的推理過(guò)程,比如得到的視覺(jué)屬性是自行車,在知識(shí)庫(kù)中對(duì)應(yīng)的一般規(guī)則查詢就是:是a(x,自行車)
結(jié)合具體實(shí)例詳細(xì)描述如下,如圖1所示,一匹馬的圖像(新對(duì)象的圖像)的可承受性預(yù)測(cè)。
首先,我們從不同的數(shù)據(jù)源收集證據(jù),其中包括有關(guān)馬的圖像和在線文本,這些數(shù)據(jù)源包括web和圖像數(shù)據(jù)源;
然后我們使用markovlogicnetwork學(xué)習(xí)包含有關(guān)馬的圖像和在線文本的知識(shí)庫(kù);
對(duì)于給定馬的圖像,我們首先提取圖像中暗示的基本特征,這些基本特征主要包括顏色,紋理以及形狀,以此預(yù)測(cè)出圖像中馬的視覺(jué)屬性;
結(jié)合上一步驟中得到的視覺(jué)屬性和基本特征,利用lr分類器(logisticregressionclassifier)得到分類屬性,同時(shí)利用ranksvm結(jié)合基本特征得到給定圖像中馬的物理屬性;
利用分層模型估計(jì)得到的關(guān)于馬的物理屬性,分類屬性以及視覺(jué)屬性證據(jù)查詢構(gòu)建好的知識(shí)庫(kù),進(jìn)行一階邏輯推理,對(duì)圖像中的馬進(jìn)行可承受性預(yù)測(cè);
實(shí)驗(yàn)結(jié)果,通過(guò)知識(shí)庫(kù)預(yù)測(cè)得到了馬的可承受性(可以用來(lái)騎行),人騎馬的姿勢(shì)(坐在馬背上)以及人與馬的相對(duì)位置(人的身體各個(gè)部位和馬之間的相關(guān)位置)。