對圖像進行自動語義標注的方法、裝置與計算機設(shè)備的制造方法
【專利摘要】根據(jù)本發(fā)明的實施例,提供了對圖像語義標注裝置進行訓練的方法,包括:a.提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知;b.將至少部分所述訓練圖像輸入到所述圖像語義標注裝置的定位器;c.由所述定位器確定輸入的每幅訓練圖像的至少一個局部區(qū)域,并將所確定的各個局部區(qū)域輸入到所述圖像語義標注裝置的屬性預(yù)測器;d.由所述屬性預(yù)測器得到輸入的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果;e.根據(jù)得到的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果以及相應(yīng)訓練圖像的已知的視覺屬性描述,訓練所述定位器和所述屬性預(yù)測器。
【專利說明】
對圖像進行自動語義標注的方法、裝置與計算機設(shè)備
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像處理領(lǐng)域,尤其涉及一種對圖像進行自動語義標注的方法、裝置與包含該裝置的計算機設(shè)備。
【背景技術(shù)】
[0002]近十多年來,隨著計算機網(wǎng)絡(luò)技術(shù)的迅速發(fā)展、普及應(yīng)用以及數(shù)據(jù)存儲器成本的大幅下滑,多媒體數(shù)據(jù)庫的使用變得越來越普遍。以圖像、音樂、視頻形式展現(xiàn)的多媒體信息無論在商業(yè)還是娛樂中都顯現(xiàn)出了日益重要的作用。如何對如此大量的數(shù)據(jù)進行有效地管理和組織,并從中搜索出用戶所需要的信息就成為非常重要的問題。對于多媒體數(shù)據(jù),尤其是圖像數(shù)據(jù)的瀏覽、搜索以及索引技術(shù)的研究已經(jīng)有了很長時間的歷史。如今,有關(guān)圖像數(shù)據(jù)庫和視覺信息搜索的話題已經(jīng)變成了研究領(lǐng)域中最為活躍的一部分。
[0003]要完成一次圖像搜索,搜索引擎一般要求用戶提供對于想要搜索的圖像的描述。這些描述可以是一組關(guān)鍵字查詢,或是一張案例圖像。前一種的方式被稱作為基于語義(標注)的圖像搜索,后一種被稱作為基于內(nèi)容的圖像搜索。
[0004]為實現(xiàn)基于語義的圖像搜索,需要對數(shù)據(jù)庫中的圖像進行語義標注。圖像語義自動標注是指利用計算機視覺技術(shù),讓計算機對圖像中的內(nèi)容進行理解,從而給圖像自動標注出文本語義的過程。也就是說,圖像語義自動標注是使計算機對圖像的語義進行準確地描述和理解的過程,其本質(zhì)上就是建立圖像和文本語義之間的關(guān)聯(lián)。
[0005]現(xiàn)有的圖像語義標注方法主要有以下兩種實現(xiàn)方式:
[0006]第一種是由計算機在整幅圖像上提取特征,并對圖像進行分類識別,也即,將整幅圖像作為分類器的輸入。然而,很多近似類別的圖像的整體相似度很高,例如,不同型號的三廂轎車的圖像可能只在若干細節(jié)上有區(qū)別,而從整幅圖像上提取的特征往往不足以準確對這種細粒度的圖像分類進行區(qū)分,語義標注效果差。
[0007]第二種則是由人工確定圖像的顯著性區(qū)域,這些顯著性區(qū)域可以體現(xiàn)不同的細粒度圖像之間的差別,例如,不同品牌的車型的車標,不同品種的貓的眼睛。而后,再對這些顯著性區(qū)域提取特征,進行細粒度的圖像語義標注。但是,由于圖像數(shù)據(jù)庫中的圖像的數(shù)量巨大,要為每幅圖像人工確定其顯著性區(qū)域,顯然會消耗極大的人力資源,限制了這種解決方案的可行性。
[0008]只有解決現(xiàn)有技術(shù)中的上述問題,才能使圖像語義的自動標注更進一步發(fā)展。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的目的是提供一種新的圖像語義標注方法和裝置,以解決現(xiàn)有技術(shù)中的上述問題。
[0010]具體地,根據(jù)本發(fā)明的第一方面的實施例,提供了一種對圖像語義標注裝置進行訓練的方法,包括:a.提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知;b.將至少部分所述訓練圖像輸入到所述圖像語義標注裝置的定位器;c.由所述定位器確定輸入的每幅訓練圖像的至少一個局部區(qū)域,并將所確定的各個局部區(qū)域輸入到所述圖像語義標注裝置的屬性預(yù)測器;d.由所述屬性預(yù)測器得到輸入的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果;
e.根據(jù)得到的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果以及相應(yīng)訓練圖像的已知的視覺屬性描述,訓練所述定位器和所述屬性預(yù)測器。
[0011]具體地,所述多幅訓練圖像的語義為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。
[0012]具體地,所述粗粒度語義對應(yīng)于一種粗粒度分類對象,不同的所述細粒度語義對應(yīng)于屬于該種粗粒度分類對象的不同的細粒度分類對象。
[0013]具體地,每個所述細粒度分類對象包含至少一個特征部位,所述視覺屬性描述被根據(jù)其所對應(yīng)的特征部位而劃分為不同的組,所述方法包括:針對每個所述特征部位,重復所述步驟a至d直至收斂。
[0014]具體地,所述步驟a包括:對包含圖像的網(wǎng)頁進行挖掘,得到所述多幅訓練圖像、各訓練圖像的所述語義標簽和所述視覺屬性描述。
[0015]具體地,所述步驟e包括:針對每個所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對所述定位器和所述屬性預(yù)測器的訓練。
[0016]具體地,所述步驟e還包括:根據(jù)反向傳播算法,計算所述定位器和所述屬性預(yù)測器的梯度,確定或更新所述定位器和所述屬性預(yù)測器的參數(shù)。
[0017]具體地,該方法還包括:f.從所述多幅訓練圖像中選取至少一部分訓練圖像;g.由經(jīng)過訓練的所述定位器對選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位該幅訓練圖像所對應(yīng)的細粒度分類對象的至少一個特征部位;h.將為每幅選出的訓練圖像定位的特征部位、該訓練圖像的已知的語義標簽輸入到所述圖像語義標注裝置的分類器,對所述分類器進行訓練。
[0018]具體地,所述步驟h包括:針對每幅選出的訓練圖像,計算定位出的每個特征部位的卷積特征;根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量;由支持向量機來根據(jù)所生成的向量來訓練所述分類器。
[0019]具體地,所述步驟h還包括:針對每幅選出的訓練圖像,計算該訓練圖像的整體的卷積特征;所述為該幅圖像生成向量的步驟還包括:根據(jù)計算出的該幅圖像的整體的卷積特征,以及計算出的該幅圖像的每個特征部位的卷積特征,為該訓練圖像生成所述向量。
[0020]根據(jù)本發(fā)明的第二方面的實施例,提供了一種圖像語義標注方法,包括:1.根據(jù)權(quán)利要求I至10中任一項所述的方法對圖像語義標注裝置進行訓練;I1.由所述經(jīng)過訓練的圖像語義標注裝置對待標注圖像進行語義標注。
[0021]具體地,所述步驟II包括:將所述待標注圖像輸入到所述經(jīng)過訓練的圖像語義標注裝置的定位器,由所述定位器定位所述待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位;將定位出的所述待標注圖像所對應(yīng)的細粒度對象的所述至少一個特征部位輸入到所述經(jīng)過訓練的語義標注裝置的分類器,由所述分類器根據(jù)所述至少一個特征部位生成所述待標注圖像的語義。
[0022]具體地,所述分類器為所述待標注圖像生成的語義包括細粒度語義。
[0023]根據(jù)本發(fā)明的第三方面的實施例,提供了一種能夠?qū)ψ陨磉M行訓練的圖像語義標注裝置,包括:第一單元,配置為提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知;定位器,配置為將所述多幅訓練圖像的至少一部分作為輸入,確定輸入的每幅訓練圖像的至少一個局部區(qū)域;屬性預(yù)測器,配置為將所述定位器確定的每個局部區(qū)域作為輸入,得到輸入的各局部區(qū)域的視覺屬性預(yù)測結(jié)果;第二單元,配置為根據(jù)得到的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果以及相應(yīng)訓練圖像的已知的視覺屬性描述,訓練所述定位器和所述屬性預(yù)測器。
[0024]具體地,所述多幅訓練圖像的語義為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。
[0025]具體地,所述粗粒度語義對應(yīng)于一種粗粒度分類對象,不同的所述細粒度語義對應(yīng)于屬于該種粗粒度分類對象的不同的細粒度分類對象。
[0026]具體地,每個所述細粒度分類對象包含至少一個特征部位,所述視覺屬性描述被根據(jù)其所對應(yīng)的特征部位而劃分為不同的組,所述第一單元、定位器、屬性預(yù)測器及第二單元還配置為:針對每個所述特征部位,執(zhí)行各自的操作直至收斂。
[0027]具體地,所述第一單元還配置為:對包含圖像的網(wǎng)頁進行挖掘,得到所述多幅訓練圖像、各訓練圖像的語義標簽和所述視覺屬性描述。
[0028]具體地,所述第二單元還配置為:針對每個所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對所述定位器和所述屬性預(yù)測器的訓練。
[0029]具體地,所述第二單元還配置為:根據(jù)反向傳播算法,計算所述定位器和所述屬性預(yù)測器的梯度,確定或更新所述定位器和所述屬性預(yù)測器的參數(shù)。
[0030]具體地,所述圖像語義標注裝置還包括:第三單元,配置為從所述多幅訓練圖像中選取至少一部分訓練圖像;所述定位器還配置為,在經(jīng)過上述訓練后,對所述第三單元選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位該幅訓練對象所對應(yīng)的細粒度分類對象的至少一個特征部位;所述圖像語義標注裝置還包括:分類器,配置為將所述定位器在選出的每幅訓練圖像上定位的每個特征部位、選出的每幅訓練圖像的已知的語義標簽作為輸入,來對所述分類器本身進行訓練。
[0031 ]具體地,所述分類器包括:第一元件,配置為針對所述第三單元選出的每幅訓練圖像,計算所述定位器定位出的每個所述特征部位的卷積特征;第二元件,配置為根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量;第三元件,配置為由支持向量機來根據(jù)所生成的向量來訓練所述分類器。
[0032]具體地,所述分類器還包括:第四元件,配置為計算所述第三單元選出的每幅訓練圖像的整體的卷積特征;所述第二元件還配置為,針對所述第三單元選出的每幅訓練圖像,根據(jù)所述第一元件計算出的該訓練圖像的各個特征部位的卷積特征,以及所述第四元件計算出的該訓練圖像的整體的卷積特征,為所述訓練圖像生成所述向量。
[0033]具體地,所述定位器還配置為,在經(jīng)過上述訓練后,在待標注圖像上定位出該待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位;所述分類器還配置為,將所述定位器在所述待標注圖像上定位出的所述至少一個特征部位作為輸入,生成所述待標注圖像的語義。
[0034]具體地,所述分類器生成的所述待標注圖像的語義包括細粒度語義。
[0035]根據(jù)本發(fā)明的第四方面的實施例,提供了一種計算機設(shè)備,包括前述的能夠?qū)ψ陨磉M行訓練的圖像語義標注裝置。
[0036]與現(xiàn)有技術(shù)相比,根據(jù)本發(fā)明的實施例的方法、裝置或計算機設(shè)備具有以下優(yōu)點:
[0037]1.經(jīng)訓練的定位器能夠較為準確地定位圖像中的顯著性區(qū)域,由于這些顯著性區(qū)域往往體現(xiàn)著不同細粒度圖像之間的差別,例如,同是鳥類的圖像,不同品種的鳥在羽毛顏色,嘴部顏色上會有細節(jié)上的差別,而這些差別正是體現(xiàn)在顯著性區(qū)域中。精確定位這些顯著性區(qū)域,能夠使分類器更準確地“讀”出其間的差別,精細地分類、標注圖像。而這是僅僅提取全圖信息進行標注的現(xiàn)有方式所無法做到的。
[0038]2.與需要人工介入劃定顯著性區(qū)域、提供圖像語義的訓練方式不同,本發(fā)明的實施例中,定位器、屬性預(yù)測器的訓練所需的訓練圖像、訓練圖像的語義、以及本發(fā)明實施例特有的屬性描述,都可以由計算機從互聯(lián)網(wǎng)上的網(wǎng)頁上挖掘得到,從而省去了大量的人工操作。
[0039]本發(fā)明公開所披露的訓練方案和語義標注方案可以視需要用于圖像搜索、廣告推薦、(交通管理的)車標識別及其它相關(guān)領(lǐng)域,用途廣泛。
【附圖說明】
[0040]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯,其中相同的單元由相同的附圖標記表示。
[0041]圖1示出了根據(jù)本發(fā)明的實施例的方法、裝置和計算機設(shè)備的典型應(yīng)用環(huán)境;
[0042]圖2示出了根據(jù)本發(fā)明的實施例的對圖像語義標注裝置進行訓練,及對待標注圖像進行語義標注的方法的流程圖;
[0043]圖3示出了根據(jù)本發(fā)明的實施例的能夠?qū)ψ陨磉M行訓練的圖像語義標注裝置的結(jié)構(gòu)框圖;
[0044]圖4為根據(jù)本發(fā)明的實施例的圖像所對應(yīng)的細粒度對象的特征部位的舉例示意圖;
[0045]圖5為根據(jù)本發(fā)明的實施例的對圖像語義標注裝置進行訓練,并對圖像進行語義標注的模塊化示意圖。
【具體實施方式】
[0046]下面結(jié)合附圖對本發(fā)明的實施例進行詳細介紹。
[0047]首先來看本發(fā)明的一個典型的應(yīng)用環(huán)境,如圖1所示。其中示出了兩個計算機設(shè)備I和2,以及一個網(wǎng)絡(luò)3,計算機設(shè)備I和2通過網(wǎng)絡(luò)3互聯(lián),并且網(wǎng)絡(luò)3還連接著其它圖中未示出的網(wǎng)元或設(shè)備。在本例中,計算機設(shè)備I為搜索引擎運營商的一臺服務(wù)器,運營商通過該服務(wù)器維護圖像數(shù)據(jù),這些圖像數(shù)據(jù)一般是經(jīng)過圖像語義標注的,從而可以由終端用戶通過計算機設(shè)備2(例如一臺個人電腦或其它智能設(shè)備)在圖像搜索時訪問。例如,用戶通過計算機設(shè)備2搜索關(guān)鍵詞“特斯拉”,符合該語義的圖像就會作為搜索結(jié)果顯示在計算機設(shè)備2上。
[0048]為了不斷地更新圖像數(shù)據(jù)庫,計算機設(shè)備I處就需要不斷地對新的未經(jīng)語義標注的圖像(也可因此稱為待標注圖像)進行語義標注,于是,就需要利用下文介紹的圖像語義標注裝置和訓練、標注方法。在一些變化例中,用戶側(cè)的計算機設(shè)備2也可以被用于對圖像的語義標注,此時只需為計算機設(shè)備2也安裝/配置上下文所述的圖像語義標注裝置(例如圖3所示的裝置30)。
[0049]了解了本發(fā)明的應(yīng)用環(huán)境,下面介紹根據(jù)一個實施例的對圖像語義標注裝置進行訓練,以及在訓練后用圖像語義標注裝置來對待標注圖像進行語義標注的方法,其流程圖如圖2所示。
[0050]該方法典型地運行于圖1所示的計算機設(shè)備1(例如,圖像數(shù)據(jù)庫相關(guān)的服務(wù)器)上。
[0051]首先,在步驟S200中,提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知。
[0052]這多幅訓練圖像的語義可以為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。一般地,圖像的語義可以是概括的說明圖像屬于哪一類對象,例如,“車”、“草地”、“貓”、“男人”,這類寬泛的語義在上下文中稱為粗粒度語義。而有些時候,我們需要在同一粗粒度語義下再細分不同的細粒度語義,例如,兩輛車的圖像的粗粒度語義均為“車”,而其細粒度語義可以一個是“特斯拉”,另一個則是“豐田”。三張貓的圖像的粗粒度語義均為“貓”,但可能其中一個的細粒度語義為“波斯貓”,其二為“加菲貓(卡通形象)”,其三為“湯姆貓(卡通形象)”,三張鳥的圖像的粗粒度語義均為“鳥”,但其一的細粒度語義可以是“海鷗”,其二為“鸚鵡”,其三為“信天翁”。
[0053]粗粒度語義可以對應(yīng)于一種粗粒度分類對象,例如,鳥、狗、魚、花,而不同的細粒度語義可以對應(yīng)于一種粗粒度分類對象所對應(yīng)的不同的細粒度分類對象。例如,鳥作為一個粗粒度分類對象,它可以對應(yīng)海鷗、鸚鵡、信天翁等多種細粒度分類對象。
[0054]其中,每個細粒度分類對象可以包含至少一個特征部位,例如以鳥為例,每個細粒度分類對象都可以包含至少一個特征部位,各訓練圖像的視覺屬性描述被根據(jù)該視覺屬性描述所對應(yīng)的特征部位而劃分為不同的組。例如針對鳥類的視覺屬性描述可以依據(jù)鳥的生理部位歸類為頭部、胸部、翅膀、尾巴等幾個組。
[0055]定義細粒度分類對象的特征部位對于實現(xiàn)實施例中的訓練過程和語義標注有特別的意義。典型地,同一粗粒度分類對象的不同的細粒度分類對象的特征部位的視覺屬性描述可以不同,或者至少有一處特征部位X,細粒度分類對象A在該特征部位的視覺屬性描述不同于細粒度分類對象B在該特征部位的視覺屬性描述。例如,同屬于粗粒度分類對象“鳥”的不同的細粒度分類對象“鸚鵡”和“海鷗”可以在頭部這個特征部位上的屬性有所區(qū)另Ij,比如一個扁平,一個突起等。
[0056]具體地,上下文中的視覺屬性或視覺屬性描述例如,紅色、斑點花紋的翅膀(對應(yīng)于特征部位翅膀),褐色、平整的頭部(對應(yīng)于特征部位頭部)、白色和黑色混合、條紋狀的尾部(對應(yīng)于特征部位尾部),黑色的眼睛(對應(yīng)于特征部位眼睛)等??梢?,視覺屬性描述介紹了圖像的局部的視覺外觀。在用數(shù)學表示時,每項屬性都可以用“是”或“否”來表示對一個問題的回答,這樣的問題例如,“(鳥的)翅膀是紅顏色的嗎?” “(鳥的)頭部是平整的嗎?”“(鳥的)尾巴是黑色的嗎?”對每一張訓練圖像所表達的每個特征部位,應(yīng)該都可以為其獲得針對相關(guān)問題的答案,于是,訓練圖像的視覺屬性描述都可以表達為一個與問題對應(yīng)的由二進制信息“O”或“I”表示的列表。
[0057]相應(yīng)地,該方法優(yōu)選地為每個需要定位的特征部位重復步驟S200至S208來訓練定位器和屬性預(yù)測器直至收斂。
[0058]根據(jù)本發(fā)明的實施例,步驟S200中提供的訓練圖片的獲得優(yōu)選地由計算機設(shè)備I通過對網(wǎng)頁進行挖掘獲得。例如,一個對鳥類進行說明介紹的網(wǎng)頁一般會包含以下信息:
[0059]-鳥的照片或圖片;
[0060]-鳥的品種名稱((細粒度)語義標簽);
[0061 ]-鳥的外形特征(類似于上述的視覺屬性描述);
[0062]-鳥的習性、食物種類等。
[0063]于是,通過文字截取和圖像截取功能,計算機設(shè)備I上的圖像語義標注裝置(未示出)將可以無需人為介入地獲得大量圖像以及這些圖片的語義標簽、以及視覺屬性描述。這些圖像的語義標簽、視覺屬性描述自從網(wǎng)頁挖掘獲得時,即是已知的,無需再由人工觀察這些圖像來輸入其語義標簽和/或視覺屬性描述。另,本領(lǐng)域技術(shù)人員應(yīng)當理解,在現(xiàn)有的訓練圖像的獲得或生成過程中,并沒有為訓練圖像提供視覺屬性描述,這是本發(fā)明的實施例對領(lǐng)域的貢獻之一。
[0064]從網(wǎng)頁或其它網(wǎng)絡(luò)資源處挖掘獲得上述訓練圖像、訓練圖像的語義標簽、視覺屬性描述可以依靠已知的或未來發(fā)展出的各種網(wǎng)頁解析手段,包括但不限于中國發(fā)明專利公開103632388A中披露的方案,該發(fā)明專利公開通過引用而整體并入本申請,作為對步驟S200的一種實現(xiàn)方式的說明。根據(jù)一個替代的例子,步驟S200中的訓練圖像的語義和視覺屬性描述也可以是人工通過肉眼識別添入的,這樣做當然可以有較高的精度保證,但效率較低,本領(lǐng)域技術(shù)人員可視情況選擇適用哪種方式。
[0065]仍參照圖2,在步驟S200后,該方法進入步驟S202,其中,將步驟200中提供的多幅訓練圖像中的至少一部分訓練圖像輸入到作為訓練對象的圖像語義標注裝置的定位器。這些訓練圖像可以是逐個串行輸入,或者是并行輸入的,在此不做特意的限制。定位器的主要功能是,如將在后文中提及的,在圖像上對圖像所對應(yīng)的細粒度分類對象的特征部位進行定位,例如,在經(jīng)過訓練后,在一張鳥類的圖像上,盡量精確地定位出頭、胸、翅膀、尾部等特征部位(因為不同種類的鳥的外形特征主要集中在這幾個部位上)。一個典型的例子如圖4所示的,從左到右4張圖像中,101a、101b、1lc和1ld分別表示了四只鳥的特征部位頭部,102a、102b、102c和102d分別表示了四只鳥的特征部位胸部,103a、103b、103c和103d分別表示了四只鳥的特征部位翅膀,而104a、104b、104c和104d分別表示了四只鳥的特征部位尾巴。請注意,雖然本例中四只鳥(四個不同的細粒度分類對象)都包含四個特征部位,但本發(fā)明并不要求每個訓練圖像中所表達的細粒度分類對象都完整地包含同樣數(shù)量的特征部位,例如,某些訓練圖像可以只示出鳥的頭部和胸部,而有些訓練圖像可以只示出鳥的頭部,等等。而上下文中所提及的需要定位的特征部位,則可以取這些訓練圖像中所表達的特征部位的并集。
[0066]訓練圖像輸入到定位器后,該方法進入步驟S204。在步驟S204中,由定位器確定訓練圖像的至少一個(例如,K個)局部區(qū)域。根據(jù)一個實施例,該等局部區(qū)域的位置是根據(jù)定位器輸出的概率分布采樣得到??梢灶A(yù)先設(shè)定好每個局部區(qū)域具有相同的、確定的大小(例如,確定的長度和寬度),于是,定位器只需要給出一個點(例如,局部區(qū)域的左上角)的坐標(Xl,yl),該局部區(qū)域在訓練圖像上就可以確定了。根據(jù)不同的例子,定位器也可以確定局部區(qū)域的中心點或其它特定位置的坐標,從而確定該局部區(qū)域在訓練圖像上的位置和覆蓋范圍??蛇x地,定位器也可以針對每個要確定的局部區(qū)域,給出其四個角的坐標,這樣,可以無需預(yù)定義每個局部區(qū)域的大小。本領(lǐng)域技術(shù)人員可以根據(jù)需要對此進行選擇、改變或拓展。根據(jù)一個例子,一個上述的局部區(qū)域的大小可以設(shè)置為訓練圖像的大小的1/4,或者I/8。
[0067]在步驟S204后,該方法進入步驟S206,其中,由屬性預(yù)測器得到輸入的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果。此處的屬性預(yù)測器可以采用一個多輸出的分類函數(shù),由神經(jīng)網(wǎng)絡(luò)或軟件包Caffe計算得到。
[0068]隨后的步驟S208中,根據(jù)視覺屬性預(yù)測結(jié)果和步驟S200中提供的相應(yīng)訓練圖像的已知的視覺屬性描述,對定位器和屬性預(yù)測器進行訓練,具體地,針對定位器確定的每個局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對定位器和屬性預(yù)測器的訓練。
[0069]進一步地,上述訓練包括:根據(jù)反向傳播算法,計算定位器和屬性預(yù)測器的梯度,確定或更新定位器和屬性預(yù)測器的參數(shù)。
[0070]如前所述,該方法中,優(yōu)選地為每個需要定位的特征部位重復步驟S200-S208,直至收斂,完成對定位器和屬性預(yù)測器的訓練。
[0071]之后的步驟S210-步驟S214是關(guān)于對分類器的訓練,具體包括:
[0072]在步驟S210中,由前述的多幅具有已知的語義(例如,已知的細粒度語義)和已知的視覺屬性描述的訓練圖像中選取至少一部分訓練圖像,這個選擇過程可以是隨機的,或者根據(jù)用戶輸入的或系統(tǒng)預(yù)設(shè)的規(guī)則進行針對性選擇。
[0073]之后,方法進入步驟S212,其中,由經(jīng)過訓練的定位器對步驟S210中選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位出該幅訓練圖像所對應(yīng)的細粒度分類對象的至少一個特征部位。
[0074]隨后的步驟S214中,將為每幅選出的訓練圖像定位的特征部位、該訓練圖像的已知的語義輸入到圖像語義標注裝置的分類器,對分類器進行訓練。
[0075 ] 具體地,步驟S214可以通過以下過程實現(xiàn):
[0076]針對每幅選出的訓練圖像,計算定位出的每個特征部位的卷積特征;
[0077]根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量;
[0078]由支持向量機來根據(jù)所生成的向量來訓練分類器。
[0079]優(yōu)選地,該向量的生成還考慮訓練圖像的整體的卷積特征,具體地根據(jù)這個優(yōu)選例,步驟S214還包括:針對每幅選出的訓練圖像,計算該訓練圖像的整體的卷積特征。計算出的整體的卷積特征隨該幅圖像的每個特征部位的卷積特征一起用于為該訓練圖像生成上述向量。
[0080]圖2的最后,以步驟S220和步驟S222來說明經(jīng)訓練定位器、屬性預(yù)測器和分類器后,圖像語義標注裝置對待標注圖像的語義標注過程。在步驟S220中,先將待標注圖像(例如圖5中下半部所示的圖像)輸入到經(jīng)過訓練的圖像語義標注裝置的定位器,由定位器定位待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位,例如鳥的頭、胸等。
[0081 ]而后的步驟S222中,將定位出的待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位輸入到經(jīng)過訓練的語義標注裝置的分類器,由分類器根據(jù)至少一個特征部位生成待標注圖像的語義。例如,對一張信天翁的鳥類圖片,最終生成的語義可以是“信天翁”。
[0082]至此,完成了對圖像語義標注裝置的訓練及應(yīng)用的描述。
[0083]圖3示出了根據(jù)本發(fā)明的實施例,可以對自身進行訓練的圖像語義標注裝置30的示意性結(jié)構(gòu)框圖。其具體包括,第一單元302,定位器304,屬性預(yù)測器306,第二單元308和分類器320,其中分類器320進一步包括第一元件322,第二元件324,第三元件36和第四元件328。
[0084]具體地,第一單元302配置為提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知。
[0085]這多幅訓練圖像的語義可以為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。一般地,圖像的語義可以是概括的說明圖像屬于哪一類對象,例如,“車”、“草地”、“貓”、“男人”,這類寬泛的語義在上下文中稱為粗粒度語義。而有些時候,我們需要在同一粗粒度語義下再細分不同的細粒度語義,例如,兩輛車的圖像的粗粒度語義均為“車”,而其細粒度語義可以一個是“特斯拉”,另一個則是“豐田”。三張貓的圖像的粗粒度語義均為“貓”,但可能其中一個的細粒度語義為“波斯貓”,其二為“加菲貓(卡通形象)”,其三為“湯姆貓(卡通形象)”,三張鳥的圖像的粗粒度語義均為“鳥”,但其一的細粒度語義可以是“海鷗”,其二為“鸚鵡”,其三為“信天翁”。
[0086]粗粒度語義可以對應(yīng)于一種粗粒度分類對象,例如,鳥、狗、魚、花,而不同的細粒度語義可以對應(yīng)于一種粗粒度分類對象所對應(yīng)的不同的細粒度分類對象。例如,鳥作為一個粗粒度分類對象,它可以對應(yīng)海鷗、鸚鵡、信天翁等多種細粒度分類對象。
[0087]其中,每個細粒度分類對象可以包含至少一個特征部位,例如以鳥為例,每個細粒度分類對象都可以包含至少一個特征部位,各訓練圖像的視覺屬性描述被根據(jù)該視覺屬性描述所對應(yīng)的特征部位而劃分為不同的組。例如針對鳥類的視覺屬性描述可以依據(jù)鳥的生理部位歸類為頭部、胸部、翅膀、尾巴等幾個組。
[0088]定義細粒度分類對象的特征部位對于實現(xiàn)實施例中的訓練過程和語義標注有特別的意義。典型地,同一粗粒度分類對象的不同的細粒度分類對象的特征部位的視覺屬性描述可以不同,或者至少有一處特征部位X,細粒度分類對象A在該特征部位的視覺屬性描述不同于細粒度分類對象B在該特征部位的視覺屬性描述。例如,同屬于粗粒度分類對象“鳥”的不同的細粒度分類對象“鸚鵡”和“海鷗”可以在頭部這個特征部位上的屬性有所區(qū)另Ij,比如一個扁平,一個突起等。
[0089]具體地,上下文中的視覺屬性或視覺屬性描述例如,紅色、斑點花紋的翅膀(對應(yīng)于特征部位翅膀),褐色、平整的頭部(對應(yīng)于特征部位頭部)、白色和黑色混合、條紋狀的尾部(對應(yīng)于特征部位尾部),黑色的眼睛(對應(yīng)于特征部位眼睛)等??梢?,視覺屬性描述介紹了圖像的局部的視覺外觀。在用數(shù)學表示時,每項屬性都可以用“是”或“否”來表示對一個問題的回答,這樣的問題例如,“(鳥的)翅膀是紅顏色的嗎?” “(鳥的)頭部是平整的嗎?”“(鳥的)尾巴是黑色的嗎?”對每一張訓練圖像所表達的每個特征部位,應(yīng)該都可以為其獲得針對相關(guān)問題的答案,于是,訓練圖像的視覺屬性描述都可以表達為一個與問題對應(yīng)的由二進制信息“O”或“I”表示的列表。
[O(M)] 相應(yīng)地,該方法優(yōu)選地為每個需要定位的特征部位重復執(zhí)行第一單元302、定位器304、屬性預(yù)測器306和第二單元308的操作來訓練定位器304和屬性預(yù)測器306直至收斂。
[0091]根據(jù)本發(fā)明的實施例,第一單元302提供的訓練圖片的獲得優(yōu)選地通過對網(wǎng)頁進行挖掘獲得。例如,一個對鳥類進行說明介紹的網(wǎng)頁一般會包含以下信息:
[0092]-鳥的照片或圖片;
[0093]-鳥的品種名稱((細粒度)語義標簽);
[0094]-鳥的外形特征(類似于上述的視覺屬性描述);
[0095]-鳥的習性、食物種類等。
[0096]于是,通過文字截取和圖像截取功能,計算機設(shè)備I上的圖像語義標注裝置(未示出)將可以無需人為介入地獲得大量圖像以及這些圖片的語義標簽、以及視覺屬性描述。這些圖像的語義標簽、視覺屬性描述自從網(wǎng)頁挖掘獲得時,即是已知的,無需再由人工觀察這些圖像來輸入其語義標簽和/或視覺屬性描述。另,本領(lǐng)域技術(shù)人員應(yīng)當理解,在現(xiàn)有的訓練圖像的獲得或生成過程中,并沒有為訓練圖像提供視覺屬性描述,這是本發(fā)明的實施例對領(lǐng)域的貢獻之一。
[0097]從網(wǎng)頁或其它網(wǎng)絡(luò)資源處挖掘獲得上述訓練圖像、訓練圖像的語義標簽、視覺屬性描述可以依靠已知的或未來發(fā)展出的各種網(wǎng)頁解析手段,包括但不限于中國發(fā)明專利公開103632388A中披露的方案,該發(fā)明專利公開通過引用而整體并入本申請,作為對第一單元302的一種實現(xiàn)方式的說明。根據(jù)一個替代的例子,第一單元302提供的訓練圖像的語義和視覺屬性描述也可以是人工通過肉眼識別添入的,這樣做當然可以有較高的精度保證,但效率較低,本領(lǐng)域技術(shù)人員可視情況選擇適用哪種方式。
[0098]仍參照圖3,第一單元302提供的訓練圖像提供給定位器304,其中,其中,定位器304將前述的多幅訓練圖像中的至少一部分作為輸入。這些訓練圖像可以是逐個串行輸入,或者是并行輸入的,在此不做特意的限制。定位器的主要功能是,如將在后文中提及的,在圖像上對圖像所對應(yīng)的細粒度分類對象的特征部位進行定位,例如,在經(jīng)過訓練后,在一張鳥類的圖像上,盡量精確地定位出頭、胸、翅膀、尾部等特征部位(因為不同種類的鳥的外形特征主要集中在這幾個部位上)。一個典型的例子如圖4所示的,從左到右4張圖像中,101a、101b、1lc和1ld分別表示了四只鳥的特征部位頭部,102a、102b、102c和102d分別表示了四只鳥的特征部位胸部,103a、103b、103c和103d分別表示了四只鳥的特征部位翅膀,而104a、104b、104c和104d分別表示了四只鳥的特征部位尾巴。請注意,雖然本例中四只鳥(四個不同的細粒度分類對象)都包含四個特征部位,但本發(fā)明并不要求每個訓練圖像中所表達的細粒度分類對象都完整地包含同樣數(shù)量的特征部位,例如,某些訓練圖像可以只示出鳥的頭部和胸部,而有些訓練圖像可以只示出鳥的頭部,等等。而上下文中所提及的需要定位的特征部位,則可以取這些訓練圖像中所表達的特征部位的并集。
[0099]得到上述輸入后,定位器304確定輸入的各個訓練圖像中每幅訓練圖像的至少一個(例如,K個)局部區(qū)域。根據(jù)一個實施例,該等局部區(qū)域的位置隨機采樣自定位器輸出的概率分布??梢灶A(yù)先設(shè)定好每個局部區(qū)域具有相同的、確定的大小(例如,確定的長度和寬度),于是,定位器只需要給出一個點(例如,局部區(qū)域的左上角)的坐標Ul,yl),該局部區(qū)域在訓練圖像上就可以確定了。根據(jù)不同的例子,定位器也可以確定局部區(qū)域的中心點或其它特定位置的坐標,從而確定該局部區(qū)域在訓練圖像上的位置和覆蓋范圍。可選地,定位器也可以針對每個要確定的局部區(qū)域,給出其四個角的坐標,這樣,可以無需預(yù)定義每個局部區(qū)域的大小。本領(lǐng)域技術(shù)人員可以根據(jù)需要對此進行選擇、改變或拓展。根據(jù)一個例子,一個上述的局部區(qū)域的大小可以設(shè)置為訓練圖像的大小的1/4,或者1/8。
[0100]而后,由屬性預(yù)測器306將確定的每個局部區(qū)域作為輸入一個具有多輸出節(jié)點的神經(jīng)網(wǎng)絡(luò),得到相應(yīng)局部區(qū)域的視覺屬性預(yù)測結(jié)果,并提供給第二單元308。
[0101]第二單元308根據(jù)視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的已知的視覺屬性描述,對定位器和屬性預(yù)測器進行訓練,具體地,針對定位器確定的每個局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對定位器和屬性預(yù)測器的訓練。
[0102]進一步地,上述訓練包括:根據(jù)反向傳播算法,計算定位器和屬性預(yù)測器的梯度,確定或更新定位器和屬性預(yù)測器的參數(shù)。
[0103]如前所述,優(yōu)選地為每個需要定位的特征部位重復執(zhí)行第一單元、定位器、屬性預(yù)測器和第二單元的操作直至收斂,完成對定位器304和屬性預(yù)測器306的訓練。
[0104]對分類器320的訓練主要涉及以下過程:
[0105]首先,由第三單元310從前述的多幅具有已知的語義(例如,已知的細粒度語義)和已知的視覺屬性描述的訓練圖像中選取至少一部分訓練圖像,這個選擇過程可以是隨機的,或者根據(jù)用戶輸入的或系統(tǒng)預(yù)設(shè)的規(guī)則進行針對性選擇。
[0106]之后,由經(jīng)過訓練的定位器304對第三單元310選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位出該幅訓練圖像所對應(yīng)的細粒度分類對象的至少一個特征部位。
[0107]最后,將為每幅選出的訓練圖像定位的特征部位、該訓練圖像的已知的語義輸入到圖像語義標注裝置30的分類器320,對分類器320進行訓練。
[0108]具體地,分類器320包括以下元件以完成對自身的訓練:
[0109]第一元件322:配置為針對每幅選出的訓練圖像,計算定位出的每個特征部位的卷積特征;
[0110]第二元件324:配置為根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量;
[0111]第三元件326:配置為由支持向量機來根據(jù)所生成的向量來訓練分類器320。
[0112]優(yōu)選地,第二元件324生成該向量時還考慮訓練圖像的整體的卷積特征,具體地,根據(jù)這個優(yōu)選例,分類器320還包括一個第四元件328,其配置為針對每幅選出的訓練圖像,計算該訓練圖像的整體的卷積特征。計算出的整體的卷積特征也提供給第二元件324,于是可以隨該幅圖像的每個特征部位的卷積特征一起用于為該訓練圖像生成上述向量。
[0113]對分類器320的訓練也可以進行重復直至收斂。
[0114]定位器304和分類器320可在訓練后進一步用于對待標注圖像的語義標注。具體地,在輸入了一幅待標注圖像(例如圖5中下半部所示的圖像)后,該圖像將先到達經(jīng)過訓練的定位器304,由定位器304定位待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位,例如鳥的頭、胸等。這里,定位器304可以針對每個特征部位應(yīng)用之前訓練過程中生成的對應(yīng)該特征部位的定位模型。
[0115]而后,定位器304將對待標注圖像的特征部位的定位結(jié)果提供給分類器320,由分類器320根據(jù)定位器304定位出的至少一個特征部位來生成待標注圖像的語義。例如,對一張信天翁的鳥類圖片,最終生成的語義可以是“信天翁”。
[0116]至此,完成了對圖像語義標注裝置30的訓練及應(yīng)用的描述。
[0117]圖5從另一個角度示出了上文所述的訓練和標注過程,簡言之,在訓練的第一個階段,同時訓練定位器和屬性預(yù)測器。當屬性預(yù)測器預(yù)測得到的視覺屬性預(yù)測結(jié)果與訓練圖像的已知的視覺屬性描述一致的時候,可以認為定位器選擇到的局部區(qū)域是最適合判別描述該部位屬性的區(qū)域,也即準確地定位了該特征部位。對定位器的訓練得到多個定位模型,每個定位模型對應(yīng)于一個特征部位。
[0118]在訓練的第二個階段,訓練分類器,獲得分類模型。其中,對選出的各訓練圖像中的每個,提取基于全圖的圖像信息,以及基于每個特征部位的局部信息。將所有提取到的信息連接為一個高維向量來訓練分類器,目的是使分類器得到的細粒度語義與相應(yīng)的訓練圖像已知的語義相符。
[0119]圖5下部示出了訓練后的語義標注過程,根據(jù)前面定位器得到的定位模型,在待標注圖像上定位出多個特征部位,再利用訓練后的分類器來預(yù)測出該待標注圖像的細粒度語義。
[0120]雖然示例性實施例可以有多種修改和替換形式,但是在附圖中以舉例的方式示出了其中的一些實施例,并且將在這里對其進行詳細描述。但是應(yīng)當理解的是,并不意圖將示例性實施例限制到所公開的具體形式,相反,示例性實施例意圖涵蓋落在權(quán)利要求書的范圍內(nèi)的所有修改、等效方案和替換方案。相同的附圖標記在各幅圖的描述中始終指代相同的單元。
[0121]在更加詳細地討論示例性實施例之前應(yīng)當提到的是,一些示例性實施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新安排。當其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0122]后面所討論的方法(其中一些通過流程圖示出)可以通過硬件、軟件、固件、中間件、微代碼、硬件描述語言或者其任意組合來實施。當用軟件、固件、中間件或微代碼來實施時,用以實施必要任務(wù)的程序代碼或代碼段可以被存儲在機器或計算機可讀介質(zhì)(比如存儲介質(zhì))中。(一個或多個)處理器可以實施必要的任務(wù)。
[0123]這里所公開的具體結(jié)構(gòu)和功能細節(jié)僅僅是代表性的,并且是用于描述本發(fā)明的示例性實施例的目的。但是本發(fā)明可以通過許多替換形式來具體實現(xiàn),并且不應(yīng)當被解釋成僅僅受限于這里所闡述的實施例。
[0124]應(yīng)當理解的是,雖然在這里可能使用了術(shù)語“第一”、“第二”等等來描述各個單元,但是這些單元不應(yīng)當受這些術(shù)語限制。使用這些術(shù)語僅僅是為了將一個單元與另一個單元進行區(qū)分。舉例來說,在不背離示例性實施例的范圍的情況下,第一單元可以被稱為第二單元,并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語“和/或”包括其中一個或更多所列出的相關(guān)聯(lián)項目的任意和所有組合。
[0125]這里所使用的術(shù)語僅僅是為了描述具體實施例而不意圖限制示例性實施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個”、“一項”還意圖包括復數(shù)。還應(yīng)當理解的是,這里所使用的術(shù)語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
[0126]還應(yīng)當提到的是,在一些替換實現(xiàn)方式中,所提到的功能/動作可以按照不同于附圖中標示的順序發(fā)生。舉例來說,取決于所涉及的功能/動作,相繼示出的兩幅圖實際上可以基本上同時執(zhí)行或者有時可以按照相反的順序來執(zhí)行。
[0127]除非另行定義,否則這里使用的所有術(shù)語(包括技術(shù)和科學術(shù)語)都具有與示例性實施例所屬領(lǐng)域內(nèi)的技術(shù)人員通常所理解的相同的含義。還應(yīng)當理解的是,除非在這里被明確定義,否則例如在通常使用的字典中定義的那些術(shù)語應(yīng)當被解釋成具有與其在相關(guān)領(lǐng)域的上下文中的含義相一致的含義,而不應(yīng)按照理想化的或者過于正式的意義來解釋。
[0128]示例性實施例的一些部分和相應(yīng)的詳細描述是通過計算機存儲器內(nèi)的軟件或算法以及對于數(shù)據(jù)比特的操作的符號表示而給出的。這些描述和表示是本領(lǐng)域技術(shù)人員用以向本領(lǐng)域其他技術(shù)人員有效地傳達其工作實質(zhì)的描述和表示。正如其通常被使用的那樣,這里所使用的術(shù)語“算法”被設(shè)想成獲得所期望的結(jié)果的自相一致的步驟序列。所述步驟是需要對物理數(shù)量進行物理操縱的那些步驟。通常而非必要的是,這些數(shù)量采取能夠被存儲、傳輸、組合、比較以及按照其他方式被操縱的光學、電氣或磁性信號的形式。主要出于通常使用的原因,已經(jīng)證明有時把這些信號稱作比特、數(shù)值、元素、符號、字符、項、數(shù)字等等是便利的。
[0129]在后面的描述中將參照可以被實施為程序模塊或功能處理的動作以及操作的符號表示(例如以流程圖的形式)來描述說明性實施例,所述程序模塊或功能處理包括實施特定任務(wù)或者實施特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,并且可以利用現(xiàn)有網(wǎng)絡(luò)單元處的現(xiàn)有硬件來實施。這樣的現(xiàn)有硬件可以包括一個或更多中央處理單元(CPU)、數(shù)字信號處理器(DSP)、專用集成電路、現(xiàn)場可編程門陣列(FPGA)計算機等等。
[0130]但是應(yīng)當認識到,所有這些以及類似的術(shù)語應(yīng)當與適當?shù)奈锢頂?shù)量相關(guān)聯(lián),并且僅僅是被應(yīng)用于這些數(shù)量的便利標簽。除非明確地另行聲明或者從討論中可以明顯看出,否則例如“處理”、“計算”、“確定”或“顯示”等術(shù)語指的是計算機系統(tǒng)或類似的電子計算設(shè)備的動作和處理,其對被表示為所述計算機系統(tǒng)的寄存器和存儲器內(nèi)的物理、電子數(shù)量的數(shù)據(jù)進行操縱,并且將其變換成被類似地表示為所述計算機系統(tǒng)存儲器或寄存器或者其他此類信息存儲、傳送或顯示設(shè)備內(nèi)的物理數(shù)量的其他數(shù)據(jù)。
[0131]還應(yīng)當提到的是,示例性實施例的軟件實施的方面通常被編碼在某種形式的程序存儲介質(zhì)上或者通過某種類型的傳送介質(zhì)來實施。所述程序存儲介質(zhì)可以是磁性(例如軟盤或硬盤驅(qū)動器)或光學(例如緊致盤只讀存儲器或“CD ROM”)存儲介質(zhì),并且可以是只讀或隨機存取存儲介質(zhì)。類似地,所述傳送介質(zhì)可以是雙絞線、同軸電纜、光纖或者本領(lǐng)域內(nèi)已知的某種其他適當?shù)膫魉徒橘|(zhì)。示例性實施例不受任何給定實現(xiàn)方式的這些方面的限制。
[0132]處理器和存儲器可以一同操作來運行裝置功能。舉例來說,存儲器可以存儲關(guān)于裝置功能的代碼段。所述代碼段又可以由處理器執(zhí)行。此外,存儲器可以存儲處理變量和常數(shù)以供處理器使用。
[0133]需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實施,例如,其中的硬件可采用專用集成電路(ASIC)或任何其他類似硬件設(shè)備來實現(xiàn)。在一個實施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計算機可讀記錄介質(zhì)中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。
[0134]對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括”一詞不排除其他步驟,單數(shù)不排除復數(shù)。裝置權(quán)利要求中陳述的多個裝置也可以由一個裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【主權(quán)項】
1.一種對圖像語義標注裝置進行訓練的方法,包括: a.提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知; b.將至少部分所述訓練圖像輸入到所述圖像語義標注裝置的定位器; c.由所述定位器確定輸入的每幅訓練圖像的至少一個局部區(qū)域,并將所確定的各個局部區(qū)域輸入到所述圖像語義標注裝置的屬性預(yù)測器; d.由所述屬性預(yù)測器得到輸入的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果; e.根據(jù)得到的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果以及相應(yīng)訓練圖像的已知的視覺屬性描述,訓練所述定位器和所述屬性預(yù)測器。2.如權(quán)利要求1所述的方法,其中: 所述多幅訓練圖像的語義為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。3.如權(quán)利要求2所述的方法,其中: 所述粗粒度語義對應(yīng)于一種粗粒度分類對象,不同的所述細粒度語義對應(yīng)于屬于該種粗粒度分類對象的不同的細粒度分類對象。4.如權(quán)利要求3所述的方法,其中: 每個所述細粒度分類對象包含至少一個特征部位,所述視覺屬性描述被根據(jù)其所對應(yīng)的特征部位而劃分為不同的組,所述方法包括: 針對每個所述特征部位,重復所述步驟b至d直至收斂。5.根據(jù)權(quán)利要求1至4中任一項所述的方法,所述步驟a包括: 對包含圖像的網(wǎng)頁進行挖掘,得到所述多幅訓練圖像、各訓練圖像的所述語義標簽和所述視覺屬性描述。6.根據(jù)權(quán)利要求1至5中任一項所述的方法,所述步驟e包括: 針對每個所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對所述定位器和所述屬性預(yù)測器的訓練。7.根據(jù)權(quán)利要求6所述的方法,所述步驟e還包括: 根據(jù)反向傳播算法,計算所述定位器和所述屬性預(yù)測器的梯度,確定或更新所述定位器和所述屬性預(yù)測器的參數(shù)。8.根據(jù)權(quán)利要求4所述的方法,還包括: f.從所述多幅訓練圖像中選取至少一部分訓練圖像; g.由經(jīng)過訓練的所述定位器對選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位該幅訓練圖像所對應(yīng)的細粒度分類對象的至少一個特征部位; h.將為每幅選出的訓練圖像定位的特征部位、該訓練圖像的已知的語義標簽輸入到所述圖像語義標注裝置的分類器,對所述分類器進行訓練。9.根據(jù)權(quán)利要求8所述的方法,所述步驟h包括: 針對每幅選出的訓練圖像,計算定位出的每個特征部位的卷積特征; 根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量; 由支持向量機來根據(jù)所生成的向量來訓練所述分類器。10.根據(jù)權(quán)利要求9所述的方法,所述步驟h還包括: 針對每幅選出的訓練圖像,計算該訓練圖像的整體的卷積特征; 所述為該幅圖像生成向量的步驟還包括: 根據(jù)計算出的該幅圖像的整體的卷積特征,以及計算出的該幅圖像的每個特征部位的卷積特征,為該訓練圖像生成所述向量。11.一種圖像語義標注方法,包括: 1.根據(jù)權(quán)利要求1至10中任一項所述的方法對圖像語義標注裝置進行訓練; I1.由所述經(jīng)過訓練的圖像語義標注裝置對待標注圖像進行語義標注。12.根據(jù)權(quán)利要求11所述的方法,所述步驟II包括: 將所述待標注圖像輸入到所述經(jīng)過訓練的圖像語義標注裝置的定位器,由所述定位器定位所述待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位; 將定位出的所述待標注圖像所對應(yīng)的細粒度對象的所述至少一個特征部位輸入到所述經(jīng)過訓練的語義標注裝置的分類器,由所述分類器根據(jù)所述至少一個特征部位生成所述待標注圖像的語義。13.根據(jù)權(quán)利要求12所述的方法,其中,所述分類器為所述待標注圖像生成的語義包括細粒度語義。14.一種能夠?qū)ψ陨磉M行訓練的圖像語義標注裝置,包括: 第一單元,配置為提供多幅訓練圖像,各訓練圖像的語義和視覺屬性描述已知; 定位器,配置為將所述多幅訓練圖像的至少一部分作為輸入,確定輸入的每幅訓練圖像的至少一個局部區(qū)域; 屬性預(yù)測器,配置為將所述定位器確定的每個局部區(qū)域作為輸入,得到輸入的各局部區(qū)域的視覺屬性預(yù)測結(jié)果; 第二單元,配置為根據(jù)得到的每個局部區(qū)域的視覺屬性預(yù)測結(jié)果以及相應(yīng)訓練圖像的已知的視覺屬性描述,訓練所述定位器和所述屬性預(yù)測器。15.根據(jù)權(quán)利要求14所述的圖像語義標注裝置,其中: 所述多幅訓練圖像的語義為對應(yīng)于同一粗粒度語義的不完全相同的細粒度語義。16.根據(jù)權(quán)利要求15所述的圖像語義標注裝置,其中: 所述粗粒度語義對應(yīng)于一種粗粒度分類對象,不同的所述細粒度語義對應(yīng)于屬于該種粗粒度分類對象的不同的細粒度分類對象。17.根據(jù)權(quán)利要求16所述的圖像語義標注裝置,其中: 每個所述細粒度分類對象包含至少一個特征部位,所述視覺屬性描述被根據(jù)其所對應(yīng)的特征部位而劃分為不同的組,所述定位器、屬性預(yù)測器及第二單元還配置為: 針對每個所述特征部位,執(zhí)行各自的操作直至收斂。18.根據(jù)權(quán)利要求14至17中任一項所述的圖像語義標注裝置,所述第一單元還配置為: 對包含圖像的網(wǎng)頁進行挖掘,得到所述多幅訓練圖像、各訓練圖像的語義標簽和所述視覺屬性描述。19.根據(jù)權(quán)利要求14至18中任一項所述的圖像語義標注裝置,所述第二單元還配置為: 針對每個所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺屬性預(yù)測結(jié)果和相應(yīng)訓練圖像的視覺屬性描述,計算損失函數(shù),用于對所述定位器和所述屬性預(yù)測器的訓練。20.根據(jù)權(quán)利要求19所述的圖像語義標注裝置,所述第二單元還配置為: 根據(jù)反向傳播算法,計算所述定位器和所述屬性預(yù)測器的梯度,確定或更新所述定位器和所述屬性預(yù)測器的參數(shù)。21.根據(jù)權(quán)利要求17所述的圖像語義標注裝置,還包括: 第三單元,配置為從所述多幅訓練圖像中選取至少一部分訓練圖像; 所述定位器還配置為,在經(jīng)過上述訓練后,對所述第三單元選出的每幅訓練圖像進行處理,從而在該幅訓練圖像上定位該幅訓練對象所對應(yīng)的細粒度分類對象的至少一個特征部位; 所述圖像語義標注裝置還包括: 分類器,配置為將所述定位器在選出的每幅訓練圖像上定位的每個特征部位、選出的每幅訓練圖像的已知的語義標簽作為輸入,來對所述分類器本身進行訓練。22.根據(jù)權(quán)利要求21所述的圖像語義標注裝置,所述分類器包括: 第一元件,配置為針對所述第三單元選出的每幅訓練圖像,計算所述定位器定位出的每個所述特征部位的卷積特征; 第二元件,配置為根據(jù)計算出的每個特征部位的卷積特征,為該幅訓練圖像生成向量; 第三元件,配置為由支持向量機來根據(jù)所生成的向量來訓練所述分類器。23.根據(jù)權(quán)利要求22所述的圖像語義標注裝置,其中,所述分類器還包括: 第四元件,配置為計算所述第三單元選出的每幅訓練圖像的整體的卷積特征; 所述第二元件還配置為,針對所述第三單元選出的每幅訓練圖像,根據(jù)所述第一元件計算出的該訓練圖像的各個特征部位的卷積特征,以及所述第四元件計算出的該訓練圖像的整體的卷積特征,為所述訓練圖像生成所述向量。24.根據(jù)權(quán)利要求14至23中任一項所述的圖像語義標注裝置,其中: 所述定位器還配置為,在經(jīng)過上述訓練后,在待標注圖像上定位出該待標注圖像所對應(yīng)的細粒度對象的至少一個特征部位; 所述分類器還配置為,將所述定位器在所述待標注圖像上定位出的所述至少一個特征部位作為輸入,生成所述待標注圖像的語義。25.根據(jù)權(quán)利要求24所述的圖像語義標注裝置,其中,所述分類器生成的所述待標注圖像的語義包括細粒度語義。26.—種計算機設(shè)備,包括如權(quán)利要求14至25中任一項所述的能夠?qū)ψ陨磉M行訓練的圖像語義標注裝置。
【文檔編號】G06K9/32GK105930841SQ201610320009
【公開日】2016年9月7日
【申請日】2016年5月13日
【發(fā)明人】劉霄, 王江, 文石磊, 丁二銳
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司