本公開涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種圖像描述信息的獲取方法及裝置。
背景技術(shù):
隨著計算機視覺技術(shù)的發(fā)展,“根據(jù)圖像給出描述圖像內(nèi)容的自然語言語句”的圖像描述任務已經(jīng)成為計算機視覺領(lǐng)域的一個研究熱點。因此,亟需一種圖像描述信息的獲取方法來完成該圖像描述任務,也即是,采用一段圖像描述信息對圖像進行描述。
目前,一般采用深度卷積神經(jīng)網(wǎng)絡(convolutionalneuralnetwork,cnn)和循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetworks,rnn)相結(jié)合的模型(cnn-rnn模型)來完成上述圖像描述任務。其中,cnn是一種前饋神經(jīng)網(wǎng)絡,能夠?qū)D像進行特征變換和特征提取,適合進行圖像識別。rnn的處理層(包括輸入層、中間層以及輸出層)之間既有反饋連接又有前饋連接,它適合進行序列預測,例如句子生成、語言翻譯等任務?;赾nn-rnn模型對圖像描述的方法如下:cnn從圖像中提取特征,并將所述特征傳遞給rnn,進而rnn根據(jù)該圖像的特征,產(chǎn)生一個單詞序列,即一個句子,將該句子作為該圖像的圖像描述信息。
技術(shù)實現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種圖像描述信息的獲取方法及裝置。
根據(jù)本公開實施例的第一方面,提供一種圖像描述信息的獲取方法,包括:
提取圖像的圖像特征;
確定所述圖像中的多個興趣點,所述多個興趣點用于指示所述圖像中多個目標物體;
根據(jù)所述多個興趣點的特征,獲取所述圖像中多個目標物體的描述信息;
根據(jù)所述圖像中多個目標物體的描述信息,獲取所述圖像的圖像描述信息。
本公開實施例提供的方法,通過確定圖像中多個目標物體對應的多個興趣點,根據(jù)該多個興趣點的特征來獲取該多個目標物體的描述信息,并將該多個目標物體的描述信息組合得到該圖像的圖像描述信息。由于該多個目標物體為圖像中比較顯著的物體,故針對這些目標物體進行描述,可以很好地體現(xiàn)圖像的局部信息,通過這些局部信息可以把圖像完整的描述出來,圖像描述的準確性和貼合性高。
在第一方面的第一種實現(xiàn)方式中,所述確定所述圖像中的多個興趣點包括:
將所述圖像輸入到第一網(wǎng)絡模型,由所述第一網(wǎng)絡模型通過生成高斯權(quán)重來預測所述圖像中的多個興趣點,所述第一網(wǎng)絡模型基于多個樣本圖像以及每個樣本圖像中標記的興趣點建立,每個興趣點的高斯權(quán)重大于所述興趣點周圍的點的高斯權(quán)重。
本公開實施例提供的方法,通過第一網(wǎng)絡模型來預測圖像中的多個興趣點,由于該第一網(wǎng)絡模型是基于多個樣本圖像中的興趣點以及高斯權(quán)重等訓練數(shù)據(jù)建立的,故該第一網(wǎng)絡模型可以通過生成高斯權(quán)重來預測任一個圖像中的興趣點,提供了一種確定圖像中興趣點的方式。
在第一方面的第二種實現(xiàn)方式中,所述根據(jù)所述多個興趣點的特征,獲取所述圖像中多個目標物體的描述信息包括:
對于每個興趣點,根據(jù)所述興趣點以及所述興趣點的多個相鄰點的特征,獲取由所述興趣點和所述多個相鄰點組成的目標物體的描述信息。
本公開實施例提供的方法,通過目標物體的所有點的特征來獲取圖像中該目標物體的描述信息,提供了一種獲取圖像中目標物體的描述信息的方式。
在第一方面的第三種實現(xiàn)方式中,所述根據(jù)所述興趣點以及所述興趣點的多個相鄰點的特征,獲取由所述興趣點和所述多個相鄰點組成的目標物體的描述信息包括:
將所述興趣點以及所述興趣點的多個相鄰點的特征輸入到第二網(wǎng)絡模型中,由所述第二網(wǎng)絡模型對數(shù)據(jù)庫中多個描述信息的概率進行預測,所述第二網(wǎng)絡模型基于多個樣本特征以及對應的描述信息建立;
將所述多個描述信息中概率最高的描述信息獲取為所述目標物體的描述信息。
本公開實施例提供的方法,通過第二網(wǎng)絡模型來獲取圖像中目標物體的描述信息,由于該第二網(wǎng)絡模型是基于多個樣本特征以及對應的描述信息等訓練數(shù)據(jù)建立的,故該第二網(wǎng)絡模型可以根據(jù)目標物體的特征來獲取該目標物體的描述信息,提供了一種獲取圖像中的目標物體的描述信息的方式。
在第一方面的第四種實現(xiàn)方式中,所述根據(jù)所述圖像中多個目標物體的描述信息,獲取所述圖像的圖像描述信息包括:
將所述圖像中多個目標物體的描述信息組合,得到所述圖像的圖像描述信息。
本公開實施例提供的方法,通過將圖像中多個目標物體的描述信息的組合作為該圖像的圖像描述信息,由于該多個目標物體為圖像中比較顯著的物體,故這些目標物體的描述信息的組合可以把圖像完整的描述出來,圖像描述的準確性和貼合性高。
根據(jù)本公開實施例的第二方面,提供一種圖像描述信息的獲取裝置,包括:
提取模塊,用于提取圖像的圖像特征;
確定模塊,用于確定所述圖像中的多個興趣點,所述多個興趣點用于指示所述圖像中多個目標物體;
獲取模塊,用于根據(jù)所述多個興趣點的特征,獲取所述圖像中多個目標物體的描述信息;
所述獲取模塊,還用于根據(jù)所述圖像中多個目標物體的描述信息,獲取所述圖像的圖像描述信息。
在第二方面的第一種實現(xiàn)方式中,所述確定模塊,用于將所述圖像輸入到第一網(wǎng)絡模型,由所述第一網(wǎng)絡模型通過生成高斯權(quán)重來預測所述圖像中的多個興趣點,所述第一網(wǎng)絡模型基于多個樣本圖像以及每個樣本圖像中標記的興趣點建立,每個興趣點的高斯權(quán)重大于所述興趣點周圍的點的高斯權(quán)重。
在第二方面的第二種實現(xiàn)方式中,所述獲取模塊,用于對于每個興趣點,根據(jù)所述興趣點以及所述興趣點的多個相鄰點的特征,獲取由所述興趣點和所述多個相鄰點組成的目標物體的描述信息。
在第二方面的第三種實現(xiàn)方式中,所述獲取模塊,用于將所述興趣點以及所述興趣點的多個相鄰點的特征輸入到第二網(wǎng)絡模型中,由所述第二網(wǎng)絡模型對數(shù)據(jù)庫中多個描述信息的概率進行預測,所述第二網(wǎng)絡模型基于多個樣本特征以及對應的描述信息建立;將所述多個描述信息中概率最高的描述信息獲取為所述目標物體的描述信息。
在第二方面的第四種實現(xiàn)方式中,所述獲取模塊,用于將所述圖像中多個目標物體的描述信息組合,得到所述圖像的圖像描述信息。
根據(jù)本公開實施例的第三方面,提供一種圖像描述信息的獲取裝置,包括:
處理器;
用于存儲處理器可執(zhí)行的指令的存儲器;
其中,所述處理器被配置為:
提取圖像的圖像特征;
確定所述圖像中的多個興趣點,所述多個興趣點用于指示所述圖像中多個目標物體;
根據(jù)所述多個興趣點的特征,獲取所述圖像中多個目標物體的描述信息;
根據(jù)所述圖像中多個目標物體的描述信息,獲取所述圖像的圖像描述信息。
應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
圖1是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取方法的流程圖。
圖2是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取方法的流程圖。
圖3是根據(jù)一示例性實施例示出的一種cnn-rnn模型的結(jié)構(gòu)示意圖。
圖4是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取裝置的框圖。
圖5是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取裝置500的框圖。
具體實施方式
為使本公開的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本公開實施方式作進一步地詳細描述。
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取方法的流程圖,如圖1所示,圖像描述信息的獲取方法用于終端設備或服務器中,包括以下步驟:
在步驟101中,提取圖像的圖像特征。
在步驟102中,確定該圖像中的多個興趣點,該多個興趣點用于指示該圖像中多個目標物體。
在步驟103中,根據(jù)該多個興趣點的特征,獲取該圖像中多個目標物體的描述信息。
在步驟104中,根據(jù)該圖像中多個目標物體的描述信息,獲取該圖像的圖像描述信息。
本公開實施例中,通過確定圖像中多個目標物體對應的多個興趣點,根據(jù)該多個興趣點的特征來獲取該多個目標物體的描述信息,并將該多個目標物體的描述信息組合得到該圖像的圖像描述信息。由于該多個目標物體為圖像中比較顯著的物體,故針對這些目標物體進行描述,可以很好地體現(xiàn)圖像的局部信息,通過這些局部信息可以把圖像完整的描述出來,圖像描述的準確性和貼合性高。
在一種可能實現(xiàn)方式中,該確定該圖像中的多個興趣點包括:
將該圖像輸入到第一網(wǎng)絡模型,由該第一網(wǎng)絡模型通過生成高斯權(quán)重來預測該圖像中的多個興趣點,該第一網(wǎng)絡模型基于多個樣本圖像以及每個樣本圖像中標記的興趣點建立,每個興趣點的高斯權(quán)重大于該興趣點周圍的點的高斯權(quán)重。
在一種可能實現(xiàn)方式中,該根據(jù)該多個興趣點的特征,獲取該圖像中多個目標物體的描述信息包括:
對于每個興趣點,根據(jù)該興趣點以及該興趣點的多個相鄰點的特征,獲取由該興趣點和該多個相鄰點組成的目標物體的描述信息。
在一種可能實現(xiàn)方式中,該根據(jù)該興趣點以及該興趣點的多個相鄰點的特征,獲取由該興趣點和該多個相鄰點組成的目標物體的描述信息包括:
將該興趣點以及該興趣點的多個相鄰點的特征輸入到第二網(wǎng)絡模型中,由該第二網(wǎng)絡模型對數(shù)據(jù)庫中多個描述信息的概率進行預測,該第二網(wǎng)絡模型基于多個樣本特征以及對應的描述信息建立;
將該多個描述信息中概率最高的描述信息獲取為該目標物體的描述信息。
在一種可能實現(xiàn)方式中,該根據(jù)該圖像中多個目標物體的描述信息,獲取該圖像的圖像描述信息包括:
將該圖像中多個目標物體的描述信息組合,得到該圖像的圖像描述信息。
上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本公開的可選實施例,在此不再一一贅述。
圖2是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取方法的流程圖。本實施例以圖像描述信息的獲取方法用于終端設備中來舉例說明,終端設備可以是手機、個人數(shù)字助理等,也可以是具有圖像描述信息獲取功能的其他設備。當然,該圖像描述信息的獲取方法還可以用于服務器中。如圖2所示,該圖像描述信息的獲取方法可以包括以下步驟:
在步驟201中,采用第一網(wǎng)絡模型提取圖像的圖像特征。
其中,圖像特征可以包括圖像的顏色特征、紋理特征以及形狀特征等。顏色特征描述了圖像或圖像區(qū)域所對應的物體的表面性質(zhì),顏色特征一般是基于像素點的特征,所有屬于圖像或圖像區(qū)域的像素點都有各自的貢獻。紋理特征描述了圖像或圖像區(qū)域所對應物體的表面性質(zhì),紋理特征一般是基于包含多個像素點的區(qū)域進行統(tǒng)計計算的特征。形狀特征分為輪廓特征和區(qū)域特征,輪廓特征主要針對物體的外邊界,而區(qū)域特征則關(guān)系到整個形狀區(qū)域。
本公開實施例中,第一網(wǎng)絡模型具有提取圖像特征以及確定圖像中興趣點的能力,該能力可以在實際建立該第一網(wǎng)絡模型的過程中,通過相應的訓練數(shù)據(jù)對該第一網(wǎng)絡模型進行訓練來獲取,例如,基于多個樣本圖像、每個樣本圖像的特征以及每個樣本圖像中標記的興趣點等訓練數(shù)據(jù)對該第一網(wǎng)絡模型進行訓練,每個興趣點的高斯權(quán)重大于該興趣點周圍的點的高斯權(quán)重。興趣點可以是圖像中目標物體的中心點,目標物體可以是圖像中感興趣的物體,也即圖像中相比于周圍環(huán)境比較顯著的物體。
具體地,針對提取圖像特征的能力,在建立該第一網(wǎng)絡模型的過程中,技術(shù)人員可以基于圖像特征已知的多個樣本圖像對該第一網(wǎng)絡模型進行訓練,使得基于該多個樣本圖像以及對應的樣本特征等訓練數(shù)據(jù)建立的該第一網(wǎng)絡模型可以對任一個圖像進行特征提取,得到該圖像的圖像特征。另外,針對確定圖像中興趣點的能力,在建立該第一網(wǎng)絡模型的過程中,技術(shù)人員可以在多個樣本圖像中人工圈出感興趣的物體,由該第一網(wǎng)絡模型根據(jù)該感興趣的物體所在區(qū)域,確定該感興趣的物體的中心點,并將該中心點標記為興趣點,進而該第一網(wǎng)絡模型還可以根據(jù)高斯函數(shù),計算該興趣點以及該興趣點周圍預設范圍內(nèi)的點的高斯權(quán)重,一般情況下,距離該興趣點越近的點的高斯權(quán)重越大,距離該興趣點越遠的點的高斯權(quán)重越小。這樣,基于該多個樣本圖像中的興趣點以及高斯權(quán)重等訓練數(shù)據(jù)建立的該第一網(wǎng)絡模型可以通過生成高斯權(quán)重來預測任一個圖像中的興趣點。
在該步驟201中,終端設備可以將該圖像輸入到第一網(wǎng)絡模型,由該第一網(wǎng)絡模型對該圖像進行特征提取,得到該圖像的圖像特征,該圖像的圖像特征可以包含圖像中所有點的特征??蛇x地,如果該圖像的尺寸大于該第一網(wǎng)絡模型的輸入尺寸,則終端設備可以先將該圖像的尺寸縮小至該第一網(wǎng)絡模型的輸入尺寸后,再將縮小后的該圖像輸入到第一網(wǎng)絡模型中。
在步驟202中,采用第一網(wǎng)絡模型確定該圖像中的多個興趣點,該多個興趣點用于指示該圖像中多個目標物體。
在該步驟202中,終端設備可以將該圖像輸入到第一網(wǎng)絡模型,由該第一網(wǎng)絡模型通過生成高斯權(quán)重來預測該圖像中的多個興趣點。在一種可能實現(xiàn)方式中,該第一網(wǎng)絡模型可以生成圖像中每個點的高斯權(quán)重,從中挑選出相比于周圍的點高斯權(quán)重最大的點或高斯權(quán)重最接近于預設高斯權(quán)重的點,將這些點確定為該圖像中的興趣點。其中,該預設高斯權(quán)重可以參考該第一網(wǎng)絡模型建立過程中樣本圖像的興趣點的高斯權(quán)重。
通過確定圖像中的多個興趣點,可以預測圖像中多個感興趣的物體,而在實際應用中,一幅圖像中感興趣的物體往往是人們關(guān)注的對象,通過對圖像中感興趣的物體進行描述,可以提高圖像描述的準確性。
需要說明的是,上述步驟201中終端設備提取圖像的圖像特征和步驟202中終端設備確定圖像中的多個興趣點的過程并沒有明顯的先后順序,在具體應用時,終端設備可以在提取圖像的圖像特征的同時,確定圖像中的多個興趣點。在本實施例中僅將提取圖像的圖像特征作為步驟201,將確定圖像中的多個興趣點作為步驟202,上述步驟201和步驟202并不代表具體的執(zhí)行順序。
在步驟203中,根據(jù)該多個興趣點的特征,采用第二網(wǎng)絡模型獲取該圖像中多個目標物體的描述信息。
本公開實施例中,第二網(wǎng)絡模型具有根據(jù)特征獲取描述信息的能力,與第一網(wǎng)絡模型同理,該能力可以在實際建立該第二網(wǎng)絡模型的過程中,通過相應的訓練數(shù)據(jù)對該第二網(wǎng)絡模型進行訓練來獲取,例如,基于多個樣本特征以及對應的描述信息等訓練數(shù)據(jù)對該第二網(wǎng)絡模型進行訓練。具體地,在建立該第二網(wǎng)絡模型的過程中,開發(fā)人員可以給出多個樣本特征的描述信息,以桌子為例,開發(fā)人員可以針對桌子的特征(包括組成該桌子的所有點的特征)給出“桌子”的描述信息。這樣,基于該多個樣本特征以及對應的描述信息等訓練數(shù)據(jù)建立的該第二網(wǎng)絡模型可以預測任一個或多個特征的描述信息。
本公開實施例中,為了完成對圖像的描述任務,終端設備通過上述步驟201和步驟202確定圖像中的多個興趣點以及提取到該多個興趣點的特征后,也即采用第一網(wǎng)絡模型輸出圖像中的多個興趣點以及對應的特征后,可以進一步采用該第二網(wǎng)絡模型來根據(jù)各個興趣點的特征生成相應的描述信息,該多個興趣點的描述信息的組合即為該圖像的圖像描述信息。
在該步驟203中,對于每個興趣點,終端設備可以根據(jù)該興趣點以及該興趣點的多個相鄰點的特征,獲取由該興趣點和該多個相鄰點組成的目標物體的描述信息。其中,該興趣點的多個相鄰點可以是該興趣點周圍處于預設范圍內(nèi)的多個點,例如,以該興趣點為中心,半徑為2個像素的范圍內(nèi)的點。具體地,對于每個興趣點,終端設備可以將第一網(wǎng)絡模型輸出的該興趣點以及該興趣點的多個相鄰點的特征輸入到第二網(wǎng)絡模型中,由該第二網(wǎng)絡模型根據(jù)預設概率算法,對數(shù)據(jù)庫中多個描述信息的概率進行預測,并將該多個描述信息中概率最高的描述信息獲取為該目標物體的描述信息。其中,該數(shù)據(jù)庫用于存儲該第二網(wǎng)絡模型在建立過程中對多個樣本特征的描述信息,該描述信息可以是一個詞語,如“桌子”、“椅子”、“女孩”、“男孩”等,當然,該數(shù)據(jù)庫還可以存儲除該多個樣本特征以外的其他特征的描述信息,本公開實施例對此不做限定。
上述步驟201至步驟203是結(jié)合第一網(wǎng)絡模型和第二網(wǎng)絡模型來獲取圖像的圖像描述信息。該第一網(wǎng)絡模型可以是cnn模型,該第二網(wǎng)絡模型可以是rnn模型,參見圖3,圖3是根據(jù)一示例性實施例示出的一種cnn-rnn模型的結(jié)構(gòu)示意圖,cnn模型可以用于提取圖像的特征以及確定圖像中的多個興趣點,如圖3中的興趣點1、興趣點2、……、興趣點n;rnn模型(包括rnn_1、rnn_2、……、rnn_n)可以用于根據(jù)各個興趣點的特征生成相應的描述信息,如圖3中的描述信息1、描述信息2、……、描述信息n。該cnn模型的網(wǎng)絡結(jié)構(gòu)和該rnn模型的網(wǎng)絡結(jié)構(gòu)可以是傳統(tǒng)的cnn和rnn的網(wǎng)絡結(jié)構(gòu),例如,cnn由一個或多個卷積層和頂端的全連通層組成,同時也包括激活層和池化層,在此不做詳述。
在步驟204中,根據(jù)該圖像中多個目標物體的描述信息,獲取該圖像的圖像描述信息。
本公開實施例中,第二網(wǎng)絡模型輸出的結(jié)果的組合即為該圖像的圖像描述信息,相應地,終端設備可以按照預設組合規(guī)則或模板,將該圖像中多個目標物體的描述信息組合成一個詞語集合或生成一個通順的句子,并將該詞語集合或句子作為該圖像的圖像描述信息。以該圖像中多個目標物體的描述信息分別為女孩、海水、救生圈為例,該圖像的描述信息可以為“女孩海水救生圈”或“一個女孩在海里游泳”。
上述步驟201至步驟204在對圖像進行描述的過程中,考慮了圖像中目標物體的空間位置,針對圖像中的目標物體進行了描述,也即對圖像的局部特征進行了描述,保全了圖像的局部信息的完整,通過上述方案得到的圖像描述信息可以把圖像完整的描述出來。
本公開實施例中,通過確定圖像中多個目標物體對應的多個興趣點,根據(jù)該多個興趣點的特征來獲取該多個目標物體的描述信息,并將該多個目標物體的描述信息組合得到該圖像的圖像描述信息。由于該多個目標物體為圖像中比較顯著的物體,故針對這些目標物體進行描述,可以很好地體現(xiàn)圖像的局部信息,通過這些局部信息可以把圖像完整的描述出來,圖像描述的準確性和貼合性高。
圖4是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取裝置的框圖。參照圖4,該裝置包括提取模塊401、確定模塊402和獲取模塊403。
該提取模塊401,被配置為提取圖像的圖像特征;
該確定模塊402,被配置為確定該圖像中的多個興趣點,該多個興趣點用于指示該圖像中多個目標物體;
獲取模塊403,被配置為根據(jù)該多個興趣點的特征,獲取該圖像中多個目標物體的描述信息;
該獲取模塊403,還被配置為根據(jù)該圖像中多個目標物體的描述信息,獲取該圖像的圖像描述信息。
在一種可能實現(xiàn)方式中,該確定模塊402,被配置為將該圖像輸入到第一網(wǎng)絡模型,由該第一網(wǎng)絡模型通過生成高斯權(quán)重來預測該圖像中的多個興趣點,該第一網(wǎng)絡模型基于多個樣本圖像以及每個樣本圖像中標記的興趣點建立,每個興趣點的高斯權(quán)重大于該興趣點周圍的點的高斯權(quán)重。
在一種可能實現(xiàn)方式中,該獲取模塊403,被配置為對于每個興趣點,根據(jù)該興趣點以及該興趣點的多個相鄰點的特征,獲取由該興趣點和該多個相鄰點組成的目標物體的描述信息。
在一種可能實現(xiàn)方式中,該獲取模塊403,被配置為將該興趣點以及該興趣點的多個相鄰點的特征輸入到第二網(wǎng)絡模型中,由該第二網(wǎng)絡模型對數(shù)據(jù)庫中多個描述信息的概率進行預測,該第二網(wǎng)絡模型基于多個樣本特征以及對應的描述信息建立;將該多個描述信息中概率最高的描述信息獲取為該目標物體的描述信息。
在一種可能實現(xiàn)方式中,該獲取模塊403,被配置為將該圖像中多個目標物體的描述信息組合,得到該圖像的圖像描述信息。
本公開實施例中,通過確定圖像中多個目標物體對應的多個興趣點,根據(jù)該多個興趣點的特征來獲取該多個目標物體的描述信息,并將該多個目標物體的描述信息組合得到該圖像的圖像描述信息。由于該多個目標物體為圖像中比較顯著的物體,故針對這些目標物體進行描述,可以很好地體現(xiàn)圖像的局部信息,通過這些局部信息可以把圖像完整的描述出來,圖像描述的準確性和貼合性高。
關(guān)于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
圖5是根據(jù)一示例性實施例示出的一種圖像描述信息的獲取裝置500的框圖。例如,裝置500可以是移動電話,計算機,數(shù)字廣播終端,消息收發(fā)設備,游戲控制臺,平板設備,醫(yī)療設備,健身設備,個人數(shù)字助理等。
參照圖5,裝置500可以包括以下一個或多個組件:處理組件502,存儲器504,電源組件506,多媒體組件508,音頻組件510,輸入/輸出(i/o)的接口512,傳感器組件514,以及通信組件516。
處理組件502通??刂蒲b置500的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機操作和記錄操作相關(guān)聯(lián)的操作。處理組件502可以包括一個或多個處理器520來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件502可以包括一個或多個模塊,便于處理組件502和其他組件之間的交互。例如,處理組件502可以包括多媒體模塊,以方便多媒體組件508和處理組件502之間的交互。
存儲器504被配置為存儲各種類型的數(shù)據(jù)以支持在裝置500的操作。這些數(shù)據(jù)的示例包括用于在裝置500上操作的任何應用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲器504可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現(xiàn),如靜態(tài)隨機存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
電源組件506為裝置500的各種組件提供電力。電源組件506可以包括電源管理系統(tǒng),一個或多個電源,及其他與為裝置500生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件508包括在裝置500和用戶之間的提供一個輸出接口的屏幕。在一些實施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。在一些實施例中,多媒體組件508包括一個前置攝像頭和/或后置攝像頭。當裝置500處于操作模式,如拍攝模式或視頻模式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置攝像頭可以是一個固定的光學透鏡系統(tǒng)或具有焦距和光學變焦能力。
音頻組件510被配置為輸出和/或輸入音頻信號。例如,音頻組件510包括一個麥克風(mic),當裝置500處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器504或經(jīng)由通信組件516發(fā)送。在一些實施例中,音頻組件510還包括一個揚聲器,用于輸出音頻信號。
i/o接口512為處理組件502和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
傳感器組件514包括一個或多個傳感器,用于為裝置500提供各個方面的狀態(tài)評估。例如,傳感器組件514可以檢測到裝置500的打開/關(guān)閉狀態(tài),組件的相對定位,例如組件為裝置500的顯示器和小鍵盤,傳感器組件514還可以檢測裝置500或裝置500一個組件的位置改變,用戶與裝置500接觸的存在或不存在,裝置500方位或加速/減速和裝置500的溫度變化。傳感器組件514可以包括接近傳感器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件514還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應用中使用。在一些實施例中,該傳感器組件514還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件516被配置為便于裝置500和其他設備之間有線或無線方式的通信。裝置500可以接入基于通信標準的無線網(wǎng)絡,如wifi,2g或3g,或它們的組合。在一個示例性實施例中,通信組件516經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實施例中,通信組件516還包括近場通信(nfc)模塊,以促進短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(irda)技術(shù),超寬帶(uwb)技術(shù),藍牙(bt)技術(shù)和其他技術(shù)來實現(xiàn)。
在示例性實施例中,裝置500可以被一個或多個應用專用集成電路(asic)、數(shù)字信號處理器(dsp)、數(shù)字信號處理設備(dspd)、可編程邏輯器件(pld)、現(xiàn)場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實現(xiàn),用于執(zhí)行上述圖像描述信息的獲取方法。
在示例性實施例中,還提供了一種包括指令的非臨時性計算機可讀存儲介質(zhì),例如包括指令的存儲器504,上述指令可由裝置500的處理器520執(zhí)行以完成上述方法。例如,非臨時性計算機可讀存儲介質(zhì)可以是rom、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設備等。
在示例性實施例中,還提供了一種非臨時性計算機可讀存儲介質(zhì),當存儲介質(zhì)中的指令由裝置500的處理器執(zhí)行時,使得裝置500能夠執(zhí)行上述各個實施例提供的圖像描述信息的獲取方法。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應當理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。