欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法與流程

文檔序號(hào):12887723閱讀:515來(lái)源:國(guó)知局
一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法與流程

本發(fā)明涉及視覺(jué)智能領(lǐng)域,尤其是涉及一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法。



背景技術(shù):

視覺(jué)推理是視覺(jué)智能的一個(gè)最終目標(biāo)。以蘋(píng)果舉例,給定一個(gè)蘋(píng)果的圖片,人類可以識(shí)別對(duì)象名稱,它的形狀,顏色,紋理,推斷其味道,并想想如何吃它。我們視覺(jué)推理的大部分領(lǐng)域努力集中在為圖像的某些部分分配類標(biāo)簽。實(shí)際上,將推理問(wèn)題轉(zhuǎn)化為分類問(wèn)題是直觀的。大多數(shù)強(qiáng)大的機(jī)器學(xué)習(xí)工具是基于優(yōu)化分類目標(biāo)。但是這種基于分類器的范例也有局限性。與看到一個(gè)蘋(píng)果時(shí)可以通過(guò)一個(gè)人豐富的思想推理相比,典型的對(duì)象分類器正在做一個(gè)“淺顯的”的推理。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種無(wú)需單獨(dú)訓(xùn)練分類器、深入的視覺(jué)推理、異構(gòu)信息廣泛的基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法。

本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):

一種基于知識(shí)庫(kù)表示的對(duì)象可承受性推理方法,用以預(yù)測(cè)給定對(duì)象的可承受性,包括以下步驟:

1)采用馬爾科夫邏輯網(wǎng)絡(luò)學(xué)習(xí)知識(shí)庫(kù),進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示;

2)利用分層模型估計(jì)給定對(duì)象的相關(guān)屬性,包括物理屬性、視覺(jué)屬性和分類屬性;

3)利用分層模型估計(jì)得到的證據(jù)查詢知識(shí)庫(kù),并且進(jìn)行zero-shot可承受性預(yù)測(cè);

4)獲取預(yù)測(cè)對(duì)象的可承受性、人的姿勢(shì)以及人與對(duì)象的相對(duì)位置。

所述的步驟1)具體包括以下步驟:

11)獲取構(gòu)建知識(shí)庫(kù)的證據(jù),從不同的數(shù)據(jù)源收集證據(jù),包括圖像和在線文本信息,所述的圖像和在線文本信息包括對(duì)象的物理屬性、視覺(jué)屬性、可承受性、分類屬性以及人與對(duì)象的互動(dòng)信息;

12)獲得構(gòu)建知識(shí)庫(kù)的證據(jù)后,使用馬爾科夫網(wǎng)絡(luò)對(duì)證據(jù)進(jìn)行學(xué)習(xí),構(gòu)建知識(shí)庫(kù),建立對(duì)象與物理屬性、視覺(jué)屬性、可承受性、分類屬性以及人與對(duì)象的互動(dòng)信息之間的關(guān)系。

所述的步驟2)具體包括以下步驟:

21)通過(guò)視覺(jué)屬性分類器對(duì)給定對(duì)像進(jìn)行特征提取,獲取給定對(duì)象的基本屬性,包括顏色、紋理和形狀,再根據(jù)基本屬性采用視覺(jué)屬性分類器獲取其視覺(jué)屬性,包括形狀、材料和部分;

22)采用lr分類器得到給定對(duì)象的分類屬性,并且采用ranksvm結(jié)合基本屬性獲取給定對(duì)像的物理屬性,所述的物理屬性包括現(xiàn)實(shí)權(quán)重和現(xiàn)實(shí)尺寸,所述的分類屬性包括對(duì)象詞匯的上位詞。

所述的步驟3)中具體包括以下步驟:

根據(jù)給定對(duì)象的視覺(jué)屬性、物理屬性以及分類屬性采用采用一階推理獲取給定對(duì)象的可承受性、人的姿態(tài)以及人與對(duì)象的相對(duì)位置。

人的姿勢(shì)包括抓,舉,扔,推,修理,騎,玩,看,坐,飼養(yǎng),倒,寫(xiě),劃和寫(xiě)。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):

一、一個(gè)多樣化的視覺(jué)推理任務(wù)可以在這個(gè)統(tǒng)一的框架中完成,而不需要訓(xùn)練單獨(dú)的分類器;

二、在本發(fā)明中,專注于預(yù)測(cè)對(duì)象的可承受性的任務(wù),并說(shuō)明視覺(jué)和語(yǔ)義信息的新表示如何超越“淺顯的”推理,并允許更靈活和更深入的視覺(jué)推理;

三、本發(fā)明可以在一個(gè)統(tǒng)一的框架中同時(shí)預(yù)測(cè)可承受性標(biāo)簽,人的姿勢(shì)和人相對(duì)對(duì)象的位置;

四、之前的些模型相比,由于之前模型都是基于分類器,不存在異構(gòu)信息的獲取。本發(fā)明的知識(shí)庫(kù)包含廣泛的異構(gòu)信息,異構(gòu)信息知識(shí)的挖掘目的在于找到已有數(shù)據(jù)資源的隱形知識(shí)。本發(fā)明通過(guò)挖掘并組織各類隱形知識(shí),得到廣泛的異構(gòu)信息,提高數(shù)據(jù)的應(yīng)用層次,將數(shù)據(jù)之間存在的語(yǔ)義關(guān)系顯性化,因而使我們能夠回答多種視覺(jué)和文本查詢等優(yōu)點(diǎn)。

附圖說(shuō)明

圖1為本發(fā)明的方法流程圖。

圖2為本發(fā)明的方法流程框圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。

實(shí)施例

如圖2所示,本實(shí)施例提供一種基于用知識(shí)庫(kù)表示的對(duì)象可承受性推理方法,對(duì)給定對(duì)象的圖像進(jìn)行可承受性預(yù)測(cè),包括預(yù)測(cè)人的姿勢(shì)以及人與對(duì)象的相對(duì)位置,具體如下:

1)使用馬爾科夫邏輯網(wǎng)絡(luò)(mln)學(xué)習(xí)知識(shí)庫(kù)(kb),進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示;

步驟1)中,進(jìn)行知識(shí)庫(kù)的構(gòu)建和表示的具體步驟為:

11)首先,從不同的數(shù)據(jù)源收集證據(jù),包括圖像和在線文本。

11a)收集構(gòu)建知識(shí)庫(kù)的證據(jù)。知識(shí)庫(kù)是由證據(jù),一組關(guān)于實(shí)體的事實(shí)和斷言填充的(一般規(guī)則),比如有視覺(jué)屬性(x,頭)有可承受性(x,飼養(yǎng))。本發(fā)明的知識(shí)庫(kù)包含廣泛的異質(zhì)信息,包括對(duì)象屬性,可承受性,人的姿勢(shì)等。

數(shù)據(jù)源---選擇由stanford40actions數(shù)據(jù)集提供的40個(gè)對(duì)象來(lái)培養(yǎng)知識(shí)庫(kù)。對(duì)于每個(gè)對(duì)象,從imagenet數(shù)據(jù)集中取樣100張圖像。在stanford40actions數(shù)據(jù)集中,我們選擇人類的14個(gè)行動(dòng)能力,例如抓,舉,扔,推,修理,騎,玩,看,坐,飼養(yǎng),倒,寫(xiě),劃,寫(xiě)等。

證據(jù)---給定40個(gè)對(duì)象,我們現(xiàn)在準(zhǔn)備從圖像以及一些在線源,如freebase,wordnet和在線購(gòu)物網(wǎng)站收集一組知識(shí)庫(kù)的證據(jù)。對(duì)于構(gòu)建良好的知識(shí)庫(kù),我們希望證據(jù)是多樣化,準(zhǔn)確的和一致的。

11b)視覺(jué)屬性,我們選擇33個(gè)預(yù)訓(xùn)練的視覺(jué)屬性分類器來(lái)描述對(duì)象的形狀,材料和部分;物理屬性,我們從freebase上的動(dòng)物簡(jiǎn)介字段提取對(duì)象的現(xiàn)實(shí)權(quán)重和現(xiàn)實(shí)尺寸,以及amazon2和ebay3上對(duì)象的詳細(xì)數(shù)據(jù)。為了調(diào)節(jié)網(wǎng)絡(luò)數(shù)據(jù)中的噪聲,我們將前k個(gè)檢索結(jié)果的中值作為真實(shí)值。我們將重量量化為四個(gè)部分(<1kg,1-10kg,10-100kg和>100kg),并將尺寸分成三個(gè)箱(<10in,10-100in和>100in);分類屬性,更一般種類的成員對(duì)于對(duì)象推理可以是多信息。我們通過(guò)從詞匯本體(例如wordnet)中提取上位詞來(lái)獲得這些屬性。對(duì)象的上位詞可以被認(rèn)為是該對(duì)象的一般化(例如,狗的上位詞是哺乳動(dòng)物,動(dòng)物等)。為了提高計(jì)算效率,我們合并覆蓋同一組對(duì)象的上位詞,并刪除那些只包含一個(gè)對(duì)象的上位線。最后,我們使用22個(gè)上位詞作為分類屬性。

11c)可承受性標(biāo)簽,向知識(shí)庫(kù)中的每個(gè)對(duì)象分配多個(gè)可承受性標(biāo)簽。對(duì)于本發(fā)明,我們提供了對(duì)用于訓(xùn)練的40個(gè)對(duì)象的可承受性的手動(dòng)標(biāo)記;人的姿勢(shì),人的姿勢(shì)可以從stanford40actions中的人的行動(dòng)圖像中提取。為了確保我們的知識(shí)庫(kù)在訓(xùn)練階段的魯棒性,我們手動(dòng)注釋圖像的人的姿勢(shì)。我們基于身體部位的傾斜角度計(jì)算姿態(tài)描述符。身體部分描述符通過(guò)k-means離散化。聚類中心的數(shù)量由elbowmethod確定;人與對(duì)象相對(duì)位置,我們基于人的行為圖像的邊界框的相對(duì)位置和大小來(lái)提取人與對(duì)象的空間關(guān)系。

12)然后我們使用markovlogicnetwork學(xué)習(xí)知識(shí)庫(kù)。

鑒于收集的證據(jù),我們通過(guò)學(xué)習(xí)關(guān)系,即一般規(guī)則的權(quán)重,建立知識(shí)庫(kù)。我們采用馬爾科夫邏輯網(wǎng)絡(luò)(mln)進(jìn)行知識(shí)表示。mln的想法是統(tǒng)一馬爾科夫隨機(jī)場(chǎng)(mrf)和一階邏輯。mln中的學(xué)習(xí)和推斷類似于mrf的標(biāo)準(zhǔn)算法,其中地面mrf首先通過(guò)加權(quán)邏輯公式來(lái)實(shí)例化。表示實(shí)體和一般規(guī)則的公式定義了知識(shí)庫(kù)的結(jié)構(gòu)。mln可以被認(rèn)為是對(duì)數(shù)線性模型,每個(gè)接地原子具有一個(gè)節(jié)點(diǎn),每個(gè)地面公式具有一個(gè)特征。可能詞x的聯(lián)合分布由下式給出:

其中z是配分函數(shù),fi是特征函數(shù),f是mln中的一階公式的集合,n是f中公式的數(shù)目,x{i}是公式fi中出現(xiàn)的接地原子的狀態(tài),如果fi為真,特征函數(shù)fi=1否則為0。權(quán)重ω指公式為真的可能性。在馬爾可夫邏輯(markovlogic)中學(xué)習(xí)邊緣的權(quán)重,其中正權(quán)重表示兩個(gè)實(shí)體可能共同出現(xiàn)(例如皮毛的和飼料),負(fù)權(quán)重表示實(shí)體是負(fù)相關(guān)的(例如修理和動(dòng)物)。

為了確保知識(shí)庫(kù)的質(zhì)量,進(jìn)一步研究了mln統(tǒng)計(jì)推斷學(xué)習(xí)的一般規(guī)則的權(quán)重。大的正/負(fù)權(quán)重表示規(guī)則為真/假的高置信度。與視覺(jué)屬性相反,分類屬性作為更具識(shí)別力的語(yǔ)義級(jí)抽象,因此具有更大的權(quán)重。

2)利用分層模型估計(jì)給定對(duì)象的各種屬性,例如,物理屬性,視覺(jué)屬性以及分類屬性等;

21)給定對(duì)象的圖像,首先提取圖像中暗示的基本特征并預(yù)測(cè)視覺(jué)屬性;

22)然后為每個(gè)具有基本特征、視覺(jué)屬性和分類屬性的對(duì)象訓(xùn)練l1-正則邏輯回歸分類器。一旦獲得視覺(jué)和分類屬性的評(píng)分,將評(píng)分映射到二進(jìn)制向量,其中非零向量表示這些屬性的存在。

我們通過(guò)學(xué)習(xí)排序函數(shù)來(lái)預(yù)測(cè)物理屬性?;谟?xùn)練對(duì)象的物理屬性,我們構(gòu)造成對(duì)優(yōu)先權(quán)的集合pk,其中(i,j)∈pk表示i具有比k-th物理屬性j更大的值。我們的目標(biāo)是學(xué)習(xí)一個(gè)的排序函數(shù),試圖滿足其中ωk是模型參數(shù),φ(i)是基本特征。給定一個(gè)新的對(duì)象,我們通過(guò)比較其排序評(píng)分與訓(xùn)練對(duì)象的平均評(píng)分來(lái)估計(jì)其物理屬性。

我們通過(guò)學(xué)習(xí)排序函數(shù)來(lái)預(yù)測(cè)物理屬性。對(duì)于訓(xùn)練對(duì)象的物理屬性,為了調(diào)節(jié)網(wǎng)絡(luò)數(shù)據(jù)中的噪聲,將前k個(gè)檢索結(jié)果的中值作為真實(shí)值。我們將重量量化為四個(gè)部分(<1kg,1-10kg,10-100kg和>100kg)。基于訓(xùn)練對(duì)象的物理屬性,我們使用pairwise方法的rankingsvm,我們構(gòu)造成對(duì)優(yōu)先權(quán)的集合pk,其中(i,j)∈pk表示i具有比j物理屬性更大的k-th值。我們的目標(biāo)是學(xué)習(xí)一個(gè)的排序函數(shù),試圖滿足其中ωk是模型參數(shù),φ(i)是基本特征,其中的參數(shù)都是采用rangkingsvm公式中的參數(shù)。這個(gè)排序的過(guò)程相當(dāng)于一個(gè)分類的過(guò)程,比如給定的對(duì)象是一匹馬,經(jīng)過(guò)排序函數(shù)得到的排序得分屬于第四類,就可以得到馬的物理屬性的重量大于100kg。

3)利用分層模型估計(jì)得到的證據(jù)查詢知識(shí)庫(kù),進(jìn)行一階推理的可承受性預(yù)測(cè);

給定一個(gè)新對(duì)象的圖像,我們通過(guò)分層模型估計(jì)對(duì)象的物理屬性,視覺(jué)屬性和分類屬性。之前得到的這些屬性被用作知識(shí)庫(kù)查詢的證據(jù)。然后,我們采用一階推理來(lái)預(yù)測(cè)對(duì)象的可承受性和估計(jì)人的姿態(tài)和人與對(duì)象的相對(duì)位置。這個(gè)查詢的過(guò)程就是一個(gè)簡(jiǎn)單的推理過(guò)程,比如得到的視覺(jué)屬性是自行車,在知識(shí)庫(kù)中對(duì)應(yīng)的一般規(guī)則查詢就是:是a(x,自行車)有可承受性(x,騎)。

結(jié)合具體實(shí)例詳細(xì)描述如下,如圖1所示,一匹馬的圖像(新對(duì)象的圖像)的可承受性預(yù)測(cè)。

首先,我們從不同的數(shù)據(jù)源收集證據(jù),其中包括有關(guān)馬的圖像和在線文本,這些數(shù)據(jù)源包括web和圖像數(shù)據(jù)源;

然后我們使用markovlogicnetwork學(xué)習(xí)包含有關(guān)馬的圖像和在線文本的知識(shí)庫(kù);

對(duì)于給定馬的圖像,我們首先提取圖像中暗示的基本特征,這些基本特征主要包括顏色,紋理以及形狀,以此預(yù)測(cè)出圖像中馬的視覺(jué)屬性;

結(jié)合上一步驟中得到的視覺(jué)屬性和基本特征,利用lr分類器(logisticregressionclassifier)得到分類屬性,同時(shí)利用ranksvm結(jié)合基本特征得到給定圖像中馬的物理屬性;

利用分層模型估計(jì)得到的關(guān)于馬的物理屬性,分類屬性以及視覺(jué)屬性證據(jù)查詢構(gòu)建好的知識(shí)庫(kù),進(jìn)行一階邏輯推理,對(duì)圖像中的馬進(jìn)行可承受性預(yù)測(cè);

實(shí)驗(yàn)結(jié)果,通過(guò)知識(shí)庫(kù)預(yù)測(cè)得到了馬的可承受性(可以用來(lái)騎行),人騎馬的姿勢(shì)(坐在馬背上)以及人與馬的相對(duì)位置(人的身體各個(gè)部位和馬之間的相關(guān)位置)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
清丰县| 遵义市| 南京市| 龙里县| 稻城县| 泗水县| 根河市| 海林市| 东光县| 会宁县| 米泉市| 泊头市| 永平县| 曲水县| 横峰县| 孝感市| 富宁县| 无棣县| 民县| 兴宁市| 长汀县| 兰溪市| 永昌县| 呼图壁县| 万安县| 平谷区| 鹰潭市| 临潭县| 行唐县| 大宁县| 沈阳市| 岱山县| 丹阳市| 伊金霍洛旗| 宜兰县| 云霄县| 松桃| 股票| 东港市| 新晃| 托克逊县|