圖像語(yǔ)義標(biāo)注的方法、裝置和客戶端的制作方法
【專利摘要】本發(fā)明提出一種圖像語(yǔ)義標(biāo)注的方法、裝置和客戶端,其中,該方法包括以下步驟:提取圖像中的文字信息;根據(jù)文字信息生成標(biāo)注信息;以及根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。本發(fā)明實(shí)施例的方法,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
【專利說明】圖像語(yǔ)義標(biāo)注的方法、裝置和客戶端
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種圖像語(yǔ)義標(biāo)注的方法、裝置和客戶端?!颈尘凹夹g(shù)】
[0002]圖像語(yǔ)義自動(dòng)標(biāo)注是指利用計(jì)算機(jī)視覺技術(shù),讓計(jì)算機(jī)對(duì)圖像中的內(nèi)容進(jìn)行理解,從而給圖像自動(dòng)標(biāo)注出文本語(yǔ)義的過程。也就是說,圖像語(yǔ)義自動(dòng)標(biāo)注是使計(jì)算機(jī)對(duì)圖像的語(yǔ)義進(jìn)行準(zhǔn)確地描述和理解的過程,其本質(zhì)上就是建立圖像和文本語(yǔ)義之間的關(guān)聯(lián)。圖像語(yǔ)義自動(dòng)標(biāo)注通常用于圖像檢索、圖像分類和相冊(cè)管理等不同的場(chǎng)景。
[0003]目前,圖像語(yǔ)義自動(dòng)標(biāo)注方法通常采用模式分類的方法建立圖像和文本語(yǔ)義之間的關(guān)聯(lián)。具體來說,每個(gè)分類類別均對(duì)應(yīng)一個(gè)文本關(guān)鍵詞(也稱作特定語(yǔ)義類別),同時(shí)抽取圖像的低層特征,例如,局部紋理、顏色、結(jié)構(gòu)等特征,作為圖像的特征標(biāo)識(shí),并且通過機(jī)器學(xué)習(xí)中的分類方法建立圖像和特定語(yǔ)義類別之間的關(guān)聯(lián)。
[0004]目前,現(xiàn)有的圖像語(yǔ)義自動(dòng)標(biāo)注的方法存在以下三點(diǎn)問題:1)、現(xiàn)有的圖像語(yǔ)義自動(dòng)標(biāo)注方法是將圖像的語(yǔ)義標(biāo)注作為分類問題來解決的,通常需要人工事先選擇、標(biāo)注語(yǔ)義類別,才能訓(xùn)練語(yǔ)義分類器。因此,對(duì)每個(gè)類別進(jìn)行圖像的人工標(biāo)注費(fèi)時(shí)費(fèi)力,并且其無(wú)法窮盡整個(gè)語(yǔ)義空間,導(dǎo)致圖像的語(yǔ)義描述很不完整;2)、每個(gè)語(yǔ)義類別均對(duì)應(yīng)一個(gè)語(yǔ)義分類器,在對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注時(shí),需要將所有的語(yǔ)義分類器進(jìn)行測(cè)試,從中挑選置信度較高的語(yǔ)義類別作為圖像的語(yǔ)義標(biāo)注。但是如果語(yǔ)義類別數(shù)目巨大,則對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注時(shí)的計(jì)算量也會(huì)非常巨大,從而使現(xiàn)有的圖像語(yǔ)義自動(dòng)標(biāo)注的方法無(wú)法在實(shí)時(shí)性要求較高的場(chǎng)景中應(yīng)用;3)、在抽取的圖像的低層特征到語(yǔ)義信息之間存在語(yǔ)義鴻溝,因此,現(xiàn)有的圖像語(yǔ)義自動(dòng)標(biāo)注的方法在獲取語(yǔ)義類別時(shí),具有的穩(wěn)定和一致性都很差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0006]為此,本發(fā)明的第一個(gè)目的在于提出一種圖像語(yǔ)義標(biāo)注的方法。該方法一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0007]本發(fā)明的第二個(gè)目的在于提出一種圖像語(yǔ)義標(biāo)注的裝置。
[0008]本發(fā)明的第三個(gè)目的在于提出一種客戶端。
[0009]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的圖像語(yǔ)義標(biāo)注的方法,包括以下步驟:提取圖像中的文字信息;根據(jù)所述文字信息生成標(biāo)注信息;以及根據(jù)所述標(biāo)注信息對(duì)所述圖像進(jìn)行標(biāo)注。
[0010]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的方法,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0011]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,包括:提取模塊,用于提取圖像中的文字信息;生成模塊,用于根據(jù)所述文字信息生成標(biāo)注信息;以及標(biāo)注模塊,用于根據(jù)所述標(biāo)注信息對(duì)所述圖像進(jìn)行標(biāo)注。
[0012]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0013]為了實(shí)現(xiàn)上述目的,本發(fā)明第三方面實(shí)施例的客戶端,包括本發(fā)明第二方面實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置。
[0014]本發(fā)明實(shí)施例的客戶端,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0015]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】
[0016]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中,
[0017]圖1是本發(fā)明一個(gè)實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖;
[0018]圖2是本發(fā)明一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖;
[0019]圖3是本發(fā)明另一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖;
[0020]圖4是本發(fā)明一個(gè)實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖;
[0021]圖5是本發(fā)明一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖;
[0022]圖6是本發(fā)明另一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖;以及
[0023]圖7是本發(fā)明又一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0025]在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
[0026]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0027]下面參考附圖描述本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的方法、裝置和客戶端。
[0028]目前,圖像語(yǔ)義自動(dòng)標(biāo)注方法通常采用模式分類的方法建立圖像和文本語(yǔ)義之間的關(guān)聯(lián)。然而,現(xiàn)有的圖像語(yǔ)義自動(dòng)標(biāo)注的方法,通常需要人工事先選擇、標(biāo)注語(yǔ)義類別的方法對(duì)例如數(shù)據(jù)庫(kù)中的圖像進(jìn)行標(biāo)注,并且在對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注時(shí),需要對(duì)所有的語(yǔ)義類型進(jìn)行測(cè)試。因此,每個(gè)類別進(jìn)行圖像的人工標(biāo)注費(fèi)時(shí)費(fèi)力,并且其無(wú)法窮盡整個(gè)語(yǔ)義空間,容易出現(xiàn)圖像的語(yǔ)義描述不完整的現(xiàn)象。如果可以通過直接對(duì)圖像中的文字信息進(jìn)行識(shí)別,然后根據(jù)文字信息生成標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間存在語(yǔ)義鴻溝導(dǎo)致標(biāo)注的穩(wěn)定和一致性差的缺陷。為此,本發(fā)明提出了 一種圖像語(yǔ)義標(biāo)注的方法。
[0029]一種圖像語(yǔ)義標(biāo)注的方法,包括以下步驟:提取圖像中的文字信息;根據(jù)文字信息生成標(biāo)注信息;以及根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。
[0030]圖1是本發(fā)明一個(gè)實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖,圖2是本發(fā)明一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖。
[0031]如圖1和圖2所示,圖像語(yǔ)義標(biāo)注的方法包括以下步驟。
[0032]S11,提取圖像中的文字信息。
[0033]具體地,首先可對(duì)圖像中的文字區(qū)域進(jìn)行定位,其中,對(duì)圖像中文字區(qū)域的定位方法可通過現(xiàn)有的方法實(shí)現(xiàn),此處不再贅述。然后,可利用例如光學(xué)字符識(shí)別OCR (OpticalCharacter Recognition)的方法對(duì)圖像中的文字區(qū)域進(jìn)行分析,以獲取圖像中的文字信息。其中,光學(xué)字符識(shí)別OCR是一種可以將圖像中文字內(nèi)容提取出來,并將其文字內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的文本內(nèi)容的方法。
[0034]S12,根據(jù)文字信息生成標(biāo)注信息。
[0035]在本發(fā)明的一個(gè)實(shí)施例中,步驟S12具體包括以下步驟。
[0036]S121,對(duì)文字信息進(jìn)行分詞以獲取至少一個(gè)分詞,并獲取至少一個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型。
[0037]具體地,可通過例如自然語(yǔ)言處理NLP (Natural Language Processing)方法對(duì)圖像中的文字信息進(jìn)行分析,并對(duì)圖像中提取出的文字信息進(jìn)行切分,獲取文字信息中的多個(gè)分詞,例如,路牌、門牌、商品標(biāo)簽、菜單等。其中,自然語(yǔ)言處理方法是計(jì)算機(jī)對(duì)文字信息進(jìn)行語(yǔ)言信息處理的一種方法,用于使計(jì)算機(jī)可以理解和接受人類用自然語(yǔ)言輸入的指令,完成從一種語(yǔ)言到另一種語(yǔ)言的翻譯的功能。語(yǔ)義內(nèi)容是分詞對(duì)應(yīng)的具有含義的語(yǔ)義信息,語(yǔ)義類型是語(yǔ)義信息的類型,例如,分詞的詞性、分詞所表示的意義等。
[0038]S122,根據(jù)語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合。
[0039]在本發(fā)明的一個(gè)實(shí)施例中,分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢,如果查詢到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型,則將分詞加入至語(yǔ)義信息集合。其中,數(shù)據(jù)庫(kù)例如可以是服務(wù)提供商預(yù)先建立的,服務(wù)提供商可在數(shù)據(jù)庫(kù)中預(yù)設(shè)多個(gè)具有實(shí)際意義的語(yǔ)義內(nèi)容和對(duì)應(yīng)的語(yǔ)義類別。也就是說,服務(wù)提供商可在數(shù)據(jù)庫(kù)中預(yù)存多個(gè)具有可對(duì)圖像進(jìn)行標(biāo)注的具有實(shí)際意義的單詞或者短語(yǔ)。具體地,可分別將每個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢和/或匹配,如果查詢和/或匹配到數(shù)據(jù)庫(kù)中存在該語(yǔ)義內(nèi)容和語(yǔ)義類型,則將該分詞加入至語(yǔ)義信息集合中。
[0040]在本發(fā)明的一個(gè)實(shí)施例中,分別判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值,如果超過預(yù)設(shè)閾值,則將分詞加入至語(yǔ)義信息集合。具體地,服務(wù)提供商還可在數(shù)據(jù)庫(kù)中預(yù)存多個(gè)關(guān)鍵詞,在分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢之后,還可利用例如相似詞匹配的方法分別將之前沒有要查詢到的分詞和數(shù)據(jù)庫(kù)中預(yù)設(shè)的關(guān)鍵詞進(jìn)行相似詞匹配。如果該分詞和某個(gè)關(guān)鍵詞的相似度超過了預(yù)設(shè)閾值,也就是說該分詞也有可能可以用于對(duì)圖像進(jìn)行標(biāo)注,則將該分詞也加入至語(yǔ)義信息集合中。由此,可以進(jìn)一步提高對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的精確度。其中,預(yù)設(shè)閾值可以是系統(tǒng)中默認(rèn)的,或者根據(jù)不同的需求在系統(tǒng)中預(yù)設(shè)的。
[0041]S123,根據(jù)語(yǔ)義信息集合生成標(biāo)注信息。
[0042]具體地,可對(duì)加入至語(yǔ)義信息集合中的多個(gè)分詞進(jìn)行分析,生成用于對(duì)圖像語(yǔ)義進(jìn)行準(zhǔn)確描述信息,作為對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的標(biāo)注信息。
[0043]S13,根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。
[0044]應(yīng)當(dāng)理解,本發(fā)明實(shí)施例中的方法不僅適用于客戶端,同樣適用于服務(wù)器。也就是說,可以在客戶端中通過提取圖像的文字信息,并對(duì)文字信息進(jìn)行分析生成標(biāo)注信息,對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注?;蛘哌€可以客戶端將圖像發(fā)送至服務(wù)器,由服務(wù)器通過提取圖像的文字信息,并對(duì)文字信息進(jìn)行分析生成標(biāo)注信息,然后,服務(wù)器將生成的標(biāo)注信息發(fā)送至客戶端,以使客戶端完成圖像語(yǔ)義的標(biāo)注。
[0045]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的方法,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0046]為了更加準(zhǔn)確地對(duì)圖像內(nèi)容進(jìn)行標(biāo)注,還可以通過獲取圖像中的例如局部紋理、顏色、結(jié)構(gòu)等圖像特征信息,并且通過傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中的分類模型,對(duì)加入語(yǔ)義信息集合中的多個(gè)分詞進(jìn)行進(jìn)一步的校檢,由此,可以進(jìn)一步使語(yǔ)義標(biāo)注信息更加精確地描述圖像中的內(nèi)容,進(jìn)一步提高圖像語(yǔ)義標(biāo)注的精確度。圖3是本發(fā)明另一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的方法的流程圖。
[0047]如圖3所示,圖像語(yǔ)義標(biāo)注的方法包括以下步驟。
[0048]S31,提取圖像中的文字信息。
[0049]S32,根據(jù)文字信息生成標(biāo)注信息。
[0050]在本發(fā)明的一個(gè)實(shí)施例中,步驟S32具體包括以下步驟。
[0051]S321,對(duì)文字信息進(jìn)行分詞以獲取至少一個(gè)分詞,并獲取至少一個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型。
[0052]S322,根據(jù)語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加
入至語(yǔ)義信息集合。
[0053]在本發(fā)明的一個(gè)實(shí)施例中,分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢,如果查詢到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型,則將分詞加入至語(yǔ)義信息集
口 ο
[0054]在本發(fā)明的一個(gè)實(shí)施例中,分別判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值,如果超過預(yù)設(shè)閾值,則將分詞加入至語(yǔ)義信息集合。
[0055]S33,提取圖像的圖像特征信息。
[0056]其中,圖像特征信息可包括但不限于圖像的局部紋理、顏色、結(jié)構(gòu)等。
[0057]S34,根據(jù)圖像特征信息和語(yǔ)義信息集合中的分詞生成標(biāo)注信息。
[0058]具體地,根據(jù)圖像特征信息結(jié)合傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中的分類模型,分別對(duì)語(yǔ)義信息集合中的每個(gè)分詞進(jìn)行查詢和/或匹配,如果匹配到該分詞,則將該分詞保留在語(yǔ)義信息集合中,如果未匹配到該分詞,則將該分詞從語(yǔ)義信息集合中移除。在所有分詞均和分類模型匹配完成后,根據(jù)語(yǔ)義信息集合中剩余的分詞生成對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的標(biāo)注信息。
[0059]S35,根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。
[0060]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的方法,通過獲取圖像中的例如局部紋理、顏色、結(jié)構(gòu)等圖像特征信息,并且通過傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中的分類模型,對(duì)加入語(yǔ)義信息集合中的多個(gè)分詞進(jìn)行進(jìn)一步的校檢,由此,可以進(jìn)一步使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,進(jìn)一步提高了圖像語(yǔ)義標(biāo)注的精確度。
[0061 ] 為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種圖像語(yǔ)義標(biāo)注的裝置。
[0062]一種圖像語(yǔ)義標(biāo)注的裝置,包括:提取模塊,用于提取圖像中的文字信息;生成模塊,用于根據(jù)文字信息生成標(biāo)注信息;以及標(biāo)注模塊,用于根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。
[0063]圖4是本發(fā)明一個(gè)實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖。
[0064]如圖4所示,圖像語(yǔ)義標(biāo)注的裝置包括:提取模塊100、生成模塊200、標(biāo)注模塊300。
[0065]具體地,提取模塊100用于提取圖像中的文字信息。更具體地,首先提取模塊100可對(duì)圖像中的文字區(qū)域進(jìn)行定位,其中,對(duì)圖像中文字區(qū)域的定位方法可通過現(xiàn)有的方法實(shí)現(xiàn),此處不再贅述。然后,提取模塊100可利用例如光學(xué)字符識(shí)別0CR(0ptiCal CharacterRecognition)的方法對(duì)圖像中的文字區(qū)域進(jìn)行分析,以獲取圖像中的文字信息。其中,光學(xué)字符識(shí)別OCR是一種可以將圖像中文字內(nèi)容提取出來,并將其文字內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的文本內(nèi)容的方法。
[0066]生成模塊200用于根據(jù)文字信息生成標(biāo)注信息。
[0067]標(biāo)注模塊300用于根據(jù)標(biāo)注信息對(duì)圖像進(jìn)行標(biāo)注。
[0068]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0069]圖5是本發(fā)明一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖。
[0070]如圖5所示,圖像語(yǔ)義標(biāo)注的裝置包括:提取模塊100、生成模塊200、標(biāo)注模塊300,其中,生成模塊200包括:獲取單元210、篩選單元220和生成單元230。
[0071]具體地,獲取單元210用于對(duì)文字信息進(jìn)行分詞以獲取至少一個(gè)分詞,并獲取至少一個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型。具體地,獲取單元210可通過例如自然語(yǔ)言處理NLP(Natural Language Processing)方法對(duì)圖像中的文字信息進(jìn)行分析,并對(duì)圖像中提取出的文字信息進(jìn)行切分,獲取文字信息中的多個(gè)分詞,例如,路牌、門牌、商品標(biāo)簽、菜單等。其中,自然語(yǔ)言處理方法是計(jì)算機(jī)對(duì)文字信息進(jìn)行語(yǔ)言信息處理的一種方法,用于使計(jì)算機(jī)可以理解和接受人類用自然語(yǔ)言輸入的指令,完成從一種語(yǔ)言到另一種語(yǔ)言的翻譯的功能。語(yǔ)義內(nèi)容是分詞對(duì)應(yīng)的具有含義的語(yǔ)義信息,語(yǔ)義類型是語(yǔ)義信息的類型,例如,分詞的詞性、分詞所表示的意義等。
[0072]篩選單元220用于根據(jù)語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合。
[0073]生成單元230用于根據(jù)語(yǔ)義信息集合生成標(biāo)注信息。具體地,生成單元230可對(duì)加入至語(yǔ)義信息集合中的多個(gè)分詞進(jìn)行分析,生成用于對(duì)圖像語(yǔ)義進(jìn)行準(zhǔn)確描述信息,作為對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的標(biāo)注信息。
[0074]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過對(duì)文字信息進(jìn)行分詞以獲取至少一個(gè)分詞和其對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型,并對(duì)分詞進(jìn)行篩選,由此,可以根據(jù)篩選后的分詞生成標(biāo)注信息。
[0075]圖6是本發(fā)明另一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖。
[0076]如圖6所示,圖像語(yǔ)義標(biāo)注的裝置包括:提取模塊100、生成模塊200、標(biāo)注模塊300,其中,生成模塊200包括:獲取單元210、篩選單元220和生成單元230,其中,篩選單元220包括:查詢子單元221、第一添加子單元222、判斷子單元223和第二添加子單元224。
[0077]具體地,查詢子單元221用于分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢。其中,數(shù)據(jù)庫(kù)例如可以是服務(wù)提供商預(yù)先建立的,服務(wù)提供商可在數(shù)據(jù)庫(kù)中預(yù)設(shè)多個(gè)具有實(shí)際意義的語(yǔ)義內(nèi)容和對(duì)應(yīng)的語(yǔ)義類別。也就是說,服務(wù)提供商可在數(shù)據(jù)庫(kù)中預(yù)存多個(gè)具有可對(duì)圖像進(jìn)行標(biāo)注的具有實(shí)際意義的單詞或者短語(yǔ)。更具體地,查詢子單元221可分別將每個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢和/或匹配。
[0078]第一添加子單元222用于在查詢到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型時(shí),將分詞加入至語(yǔ)義信息集合。具體地,查詢子單元221在數(shù)據(jù)庫(kù)中查詢和/或匹配到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型時(shí),第一添加子單元222將該分詞加入至語(yǔ)義信息集合中。
[0079]判斷子單元223用于分別判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值。具體地,服務(wù)提供商還可在數(shù)據(jù)庫(kù)中預(yù)存多個(gè)關(guān)鍵詞,在分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢之后,判斷子單元223還可利用例如相似詞匹配的方法分別將之前沒有要查詢到的分詞和數(shù)據(jù)庫(kù)中預(yù)設(shè)的關(guān)鍵詞進(jìn)行相似詞匹配。
[0080]第二添加子單元224用于在每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度超過預(yù)設(shè)閾值時(shí),將分詞加入至語(yǔ)義信息集合。具體地,如果判斷子單元223判斷該分詞和某個(gè)關(guān)鍵詞的相似度超過了預(yù)設(shè)閾值,也就是說該分詞也有可能可以用于對(duì)圖像進(jìn)行標(biāo)注,則第二添加子單元224將該分詞也加入至語(yǔ)義信息集合中。由此,可以進(jìn)一步提高對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的精確度。其中,預(yù)設(shè)閾值可以是系統(tǒng)中默認(rèn)的,或者根據(jù)不同的需求在系統(tǒng)中預(yù)設(shè)的。
[0081]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢,或者判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值,可將具有實(shí)時(shí)意義用于圖像語(yǔ)義標(biāo)注的分詞加入至語(yǔ)義信息集
口 ο
[0082]圖7是本發(fā)明又一個(gè)具體實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置的結(jié)構(gòu)示意圖。
[0083]如圖7所示,圖像語(yǔ)義標(biāo)注的裝置包括:提取模塊100、生成模塊200、標(biāo)注模塊300,其中,生成模塊200包括:獲取單元210、篩選單元220和生成單元230,其中,篩選單元220包括:查詢子單元221、第一添加子單元222、判斷子單元223和第二添加子單元224,生成單元230包括:提取子單元231和生成子單元232。
[0084]具體地,提取子單元231用于提取圖像的圖像特征信息。其中,圖像特征信息可包括但不限于圖像的局部紋理、顏色、結(jié)構(gòu)等。
[0085]生成子單元232用于根據(jù)圖像特征信息和語(yǔ)義信息集合中的分詞生成標(biāo)注信息。更具體地,根據(jù)圖像特征信息結(jié)合傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中的分類模型,分別對(duì)語(yǔ)義信息集合中的每個(gè)分詞進(jìn)行查詢和/或匹配,如果匹配到該分詞,則將該分詞保留在語(yǔ)義信息集合中,如果未匹配到該分詞,則將該分詞從語(yǔ)義信息集合中移除。在所有分詞均和分類模型匹配完成后,生成子單元232根據(jù)語(yǔ)義信息集合中剩余的分詞生成對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注的標(biāo)注信息。
[0086]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過獲取圖像中的例如局部紋理、顏色、結(jié)構(gòu)等圖像特征信息,并且通過傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中的分類模型,對(duì)加入語(yǔ)義信息集合中的多個(gè)分詞進(jìn)行進(jìn)一步的校檢,由此,可以進(jìn)一步使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,進(jìn)一步提高了圖像語(yǔ)義標(biāo)注的精確度。
[0087]為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種客戶端。
[0088]一種客戶端,包括本發(fā)明第二方面實(shí)施的圖像語(yǔ)義標(biāo)注的裝置。
[0089]本發(fā)明實(shí)施例的圖像語(yǔ)義標(biāo)注的裝置,通過提取圖像中的文字信息,并根據(jù)文字信息生成的標(biāo)注信息對(duì)圖像語(yǔ)義進(jìn)行標(biāo)注,一方面可以省去傳統(tǒng)的圖像語(yǔ)義標(biāo)注方法中通過人工篩選圖像類別訓(xùn)練分類器的過程,節(jié)省了人力和時(shí)間,避免了圖像的低層特征和語(yǔ)義信息之間的語(yǔ)義鴻溝,提高了圖像語(yǔ)義標(biāo)注的穩(wěn)定性和一致性。另一方面可以克服語(yǔ)義標(biāo)簽有限的固有問題,提高圖像語(yǔ)義標(biāo)識(shí)的完整性,使語(yǔ)義標(biāo)注信息更加精確地描述出圖像中的內(nèi)容,同時(shí)提高了圖像語(yǔ)義標(biāo)注時(shí)的速度。
[0090]應(yīng)當(dāng)理解,客戶端可為例如是個(gè)人計(jì)算機(jī)PC、手機(jī)、平板電腦、個(gè)人數(shù)字助理、電子書等具有各種操作系統(tǒng)的硬件設(shè)備。
[0091]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
[0092]在本說明書的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0093]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。
【權(quán)利要求】
1.一種圖像語(yǔ)義標(biāo)注的方法,其特征在于,包括以下步驟: 提取圖像中的文字信息; 根據(jù)所述文字信息生成標(biāo)注信息;以及 根據(jù)所述標(biāo)注信息對(duì)所述圖像進(jìn)行標(biāo)注。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)文字信息生成標(biāo)注信息具體包括: 對(duì)所述文字信息進(jìn)行分詞以獲取至少一個(gè)分詞,并獲取所述至少一個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型; 根據(jù)所述語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)所述至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合;以及 根據(jù)所述語(yǔ)義信息集合生成標(biāo)注信息。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)所述至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合具體包括: 分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢;以及 如果查詢到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型,則將所述分詞加入至所述語(yǔ)義信息集口 ο
4.如權(quán)利要求2所述的方法,其特征在于,數(shù)據(jù)庫(kù)中包括多個(gè)關(guān)鍵詞,所述根據(jù)語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)所述至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合具體包括: 分別判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和所述數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值;以及 如果超過所述預(yù)設(shè)閾值,則將所述分詞加入至所述語(yǔ)義信息集合。
5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)語(yǔ)義信息集合生成標(biāo)注信息具體包括: 提取所述圖像的圖像特征信息;以及 根據(jù)所述圖像特征信息和所述語(yǔ)義信息集合中的分詞生成所述標(biāo)注信息。
6.一種圖像語(yǔ)義標(biāo)注的裝置,其特征在于,包括: 提取模塊,用于提取圖像中的文字信息; 生成模塊,用于根據(jù)所述文字信息生成標(biāo)注信息;以及 標(biāo)注模塊,用于根據(jù)所述標(biāo)注信息對(duì)所述圖像進(jìn)行標(biāo)注。
7.如權(quán)利要求6所述的裝置,其特征在于,所述生成模塊包括: 獲取單元,用于對(duì)所述文字信息進(jìn)行分詞以獲取至少一個(gè)分詞,并獲取所述至少一個(gè)分詞的語(yǔ)義內(nèi)容和語(yǔ)義類型; 篩選單元,用于根據(jù)所述語(yǔ)義內(nèi)容和語(yǔ)義類型對(duì)所述至少一個(gè)分詞進(jìn)行篩選以將篩選之后的分詞加入至語(yǔ)義信息集合;以及 生成單元,用于根據(jù)所述語(yǔ)義信息集合生成標(biāo)注信息。
8.如權(quán)利要求7所述的裝置,其特征在于,所述篩選單元包括: 查詢子單元,用于分別根據(jù)每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型在數(shù)據(jù)庫(kù)中進(jìn)行查詢;以及 第一添加子單元,用于在查詢到分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和語(yǔ)義類型時(shí),將所述分詞加入至所述語(yǔ)義信息集合。
9.如權(quán)利要求7所述的裝置,其特征在于,數(shù)據(jù)庫(kù)中包括多個(gè)關(guān)鍵詞,所述篩選單元還包括: 判斷子單元,用于分別判斷每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和所述數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度是否超過預(yù)設(shè)閾值;以及 第二添加子單元,用于在每個(gè)分詞對(duì)應(yīng)的語(yǔ)義內(nèi)容和所述數(shù)據(jù)庫(kù)中關(guān)鍵詞的相似度超過所述預(yù)設(shè)閾值時(shí),將所述分詞加入至所述語(yǔ)義信息集合。
10.如權(quán)利要求7所述的裝置,其特征在于,所述生成單元包括: 提取子單元,用于提取所述圖像的圖像特征信息;以及 生成子單元,用于根據(jù)所述圖像特征信息和所述語(yǔ)義信息集合中的分詞生成所述標(biāo)注信息。
11.一種客戶端,其特征在于,包括權(quán)利要求6-10任一項(xiàng)所述的圖像語(yǔ)義標(biāo)注的裝置。
【文檔編號(hào)】G06T11/60GK103632388SQ201310703723
【公開日】2014年3月12日 申請(qǐng)日期:2013年12月19日 優(yōu)先權(quán)日:2013年12月19日
【發(fā)明者】潘屹峰, 夏添 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司