欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語義自然語言向量空間的制作方法

文檔序號:11519643閱讀:262來源:國知局
語義自然語言向量空間的制造方法與工藝



背景技術(shù):

自動(dòng)生成圖像的自然語言描述已經(jīng)由于用于圖像搜索、視障人士的可及性、以及管理圖像收集的實(shí)踐應(yīng)用而吸引了越來越多的興趣。用于圖像處理的常規(guī)技術(shù)由于常規(guī)圖像加標(biāo)簽和搜索算法的限制而不支持高精度自然語言加說明(captioning)和圖像搜索。這是因?yàn)槌R?guī)技術(shù)僅將標(biāo)簽與圖像相關(guān)聯(lián),而沒有定義標(biāo)簽之間以及與圖像本身之間的關(guān)系。此外,常規(guī)技術(shù)可能涉及使用自頂向下(top-down)方法,其中圖像的整體“要點(diǎn)(gist)”首先被導(dǎo)出,并且然后通過語言建模和語句生成被精煉為適當(dāng)?shù)拿枋鲂栽~語和說明(caption)。但是,這種自頂向下方法做不好捕獲圖像的精致細(xì)節(jié)的工作,諸如局部對象、屬性和區(qū)域,它們有助于對于圖像的精確描述。如此,可能難以使用常規(guī)技術(shù)來生成精確且復(fù)雜的圖像說明,諸如“男人喂養(yǎng)高腳椅中的嬰兒,并且嬰兒持有玩具”。因此,使用常規(guī)技術(shù)生成的說明可能遺漏重要的圖像細(xì)節(jié),這使得用戶難以搜索特定圖像并基于相關(guān)聯(lián)的說明完全理解圖像的內(nèi)容。



技術(shù)實(shí)現(xiàn)要素:

這一概述以簡化形式介紹了下文在詳細(xì)描述中進(jìn)一步被描述的概念的選擇。如此,這一概述不意圖為識別所要求保護(hù)主題的必要特征,也不意圖被用作確定所要求保護(hù)主題的范圍的輔助。

本文描述了利用詞語向量表示的圖像加說明的技術(shù)。在一個(gè)或多個(gè)實(shí)施方式中,替代將說明分析的結(jié)果直接輸出為詞語或詞語序列(例如,說明或語句),框架被適配為輸出語義詞語向量空間中的點(diǎn)。這些點(diǎn)構(gòu)成詞語向量表示,詞語向量表示反映語義詞語向量空間的情境中的距離值。在這種方法中,詞語被映射到向量空間中并且說明分析的結(jié)果被表達(dá)為向量空間中的點(diǎn),這些點(diǎn)捕獲詞語之間的語義。在向量空間中,類似的概念在概念的詞語向量表示中具有小距離值。這些點(diǎn)不束縛于特定詞語或單個(gè)詞典。后處理步驟被用來將點(diǎn)映射到詞語并且將詞語向量表示轉(zhuǎn)換成說明。因此,轉(zhuǎn)換被延遲到過程中的稍后階段。這一點(diǎn)的結(jié)果是詞典在過程中的后期能夠被改變以選擇不同的語言、使用不同的詞語范圍或詞語數(shù)目、引入新穎術(shù)語,等等。另外,詞語向量表示能夠被保存,并且如果對詞典進(jìn)行改變則在后處理之前完成的步驟不是必須被重復(fù)。

在實(shí)施方式中,圖像加說明框架基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。給定目標(biāo)圖像,特征提取技術(shù)被應(yīng)用來導(dǎo)出描述圖像的“要點(diǎn)”的全局圖像概念。例如,預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(cnn)可以被用來利用全局描述性術(shù)語來編碼圖像。該cnn產(chǎn)生反映全局圖像概念的視覺特征向量。關(guān)于全局圖像概念導(dǎo)出的信息然后被饋送到操作為概率地生成圖像的描述性說明的語言處理模型中。例如,視覺特征向量可以被饋送到被設(shè)計(jì)為實(shí)施語言建模和語句生成技術(shù)的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)中。該rnn被設(shè)計(jì)為迭代地預(yù)測詞語序列,以基于根據(jù)多次迭代中的權(quán)重因數(shù)所計(jì)算的概率分布來組合為用于目標(biāo)圖像的說明。在這一情境中,由rnn所實(shí)施的目標(biāo)函數(shù)可以被適配為考慮語義詞語向量空間中的距離而不是用于詞語序列的概率分布,這使能詞語向量表示。

附圖說明

參考附圖來描述詳細(xì)描述。在附圖中,參考標(biāo)號最左邊的(多個(gè))數(shù)字標(biāo)識參考標(biāo)號首次出現(xiàn)的附圖。本描述和附圖中的不同實(shí)例中相同參考標(biāo)號的使用可以指示類似或相同的項(xiàng)目。附圖中所表示的實(shí)體可以指示一個(gè)或多個(gè)實(shí)體,并且因此可以對討論中的單數(shù)或復(fù)數(shù)形式的實(shí)體可互換地進(jìn)行參考。

圖1是可操作為采用本文所描述的技術(shù)的示例實(shí)施方式中的環(huán)境的圖示。

圖2描繪了示出根據(jù)一個(gè)或多個(gè)實(shí)施方式的說明生成器的細(xì)節(jié)的示圖。

圖3描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的圖像加說明框架的示例實(shí)施方式。

圖4是描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的圖像加說明框架的細(xì)節(jié)的示圖。

圖5描繪了示圖,該示圖描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的針對利用弱監(jiān)督的圖像加說明的框架。

圖6是根據(jù)一個(gè)或多個(gè)實(shí)施方式的弱監(jiān)督數(shù)據(jù)被用于圖像加說明的示例過程的流程圖。

圖7描繪了示例圖,該示例圖一般性地圖示了用于圖像加說明的詞語向量表示的概念。

圖8是根據(jù)一個(gè)或多個(gè)實(shí)施方式的詞語向量表示被用于圖像加說明的示例過程的流程圖。

圖9是描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的用于圖像加說明的語義關(guān)注框架的示圖。

圖10是根據(jù)一個(gè)或多個(gè)實(shí)施方式的語義關(guān)注模型被用于圖像加說明的示例過程的流程圖。

圖11是描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的語義關(guān)注框架的細(xì)節(jié)的示圖。

圖12圖示了包括示例設(shè)備的各種組件的示例系統(tǒng),該示例設(shè)備能夠被用于本文所描述的圖像加說明技術(shù)的一個(gè)或多個(gè)實(shí)施方式。

具體實(shí)施方式

概述

用于圖像處理的常規(guī)技術(shù)由于常規(guī)圖像加標(biāo)簽和搜索算法的限制而不支持高精度自然語言加說明和圖像搜索。這是因?yàn)槌R?guī)技術(shù)僅將標(biāo)簽與圖像相關(guān)聯(lián),而沒有定義標(biāo)簽之間以及與圖像本身之間的關(guān)系。此外,常規(guī)技術(shù)可能涉及使用自頂向下方法,其中圖像的整體“要點(diǎn)”首先被導(dǎo)出,并且然后通過語言建模和語句生成被精煉為適當(dāng)?shù)拿枋鲂栽~語和說明。但是,這種自頂向下方法做不好捕獲圖像的精致細(xì)節(jié)的工作,諸如局部對象、屬性和區(qū)域,它們有助于對于圖像的精確描述。

本文描述了利用詞語向量表示的圖像加說明的技術(shù)。在一個(gè)或多個(gè)實(shí)施方式中,替代將說明分析的結(jié)果直接輸出為詞語或詞語序列(例如,說明或語句),框架被適配為輸出語義詞語向量空間中的點(diǎn)。這些點(diǎn)構(gòu)成詞語向量表示,詞語向量表示反映語義詞語向量空間的情境中的距離值。在這種方法中,詞語被映射到向量空間中,并且說明分析的結(jié)果被表達(dá)為向量空間中的點(diǎn),這些點(diǎn)捕獲詞語之間的語義。在向量空間中,類似的概念在概念的詞語向量表示中具有小距離值。這些點(diǎn)不束縛于特定詞語或單個(gè)詞典。后處理步驟被用來將點(diǎn)映射到詞語并將詞語向量表示轉(zhuǎn)換成說明。

在實(shí)施方式中,圖像加說明框架基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。給定目標(biāo)圖像,特征提取技術(shù)被應(yīng)用以導(dǎo)出描述圖像“要點(diǎn)”的全局圖像概念。例如,預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(cnn)可以被用來利用全局描述性術(shù)語編碼圖像。該cnn產(chǎn)生反映全局圖像概念的視覺特征向量。關(guān)于全局圖像概念導(dǎo)出的信息然后被饋送到語言處理模型中,該語言處理模型操作為概率地生成圖像的描述性說明。例如,視覺特征向量可以被饋送到被設(shè)計(jì)為實(shí)施語言建模和語句生成技術(shù)的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)中。該rnn被設(shè)計(jì)為迭代地預(yù)測詞語序列,以基于根據(jù)多次迭代中的權(quán)重因數(shù)所計(jì)算的概率分布來組合作為用于目標(biāo)圖像的說明。在這一情境中,由該rnn實(shí)施的目標(biāo)函數(shù)被適配為考慮語義詞語向量空間中的距離而不是用于詞語序列的概率分布,這使能詞語向量表示。

如這一文件中所描述的利用詞語向量表示的圖像加說明的技術(shù)使得靈活且高效的方法能夠生成圖像說明。因?yàn)檎f明作為詞語向量表示被生成,所以轉(zhuǎn)換被延遲到過程的稍后階段中的后處理。因此,被用于分析的詞典能夠在過程后期被改變以選擇不同的語言、使用不同的詞語范圍或詞語數(shù)目、引入新穎術(shù)語,等等。另外,詞語向量表示能夠被保存并重用,并且如果對詞典進(jìn)行改變則后處理之前完成的步驟不是必須被重復(fù)。

在以下討論中,首先描述可以采用本文所描述的技術(shù)的示例環(huán)境。然后描述可以在該示例環(huán)境以及其他環(huán)境中執(zhí)行的示例過程和實(shí)施方式細(xì)節(jié)。因此,示例過程和細(xì)節(jié)的執(zhí)行不限于該示例環(huán)境,并且該示例環(huán)境不限于示例過程和細(xì)節(jié)的執(zhí)行。

示例環(huán)境

圖1是示例實(shí)施方式中可操作為采用本文所描述的技術(shù)的環(huán)境100的圖示。所圖示的環(huán)境100包括計(jì)算設(shè)備102,計(jì)算設(shè)備102包括處理系統(tǒng)104(其可以包括一個(gè)或多個(gè)處理設(shè)備)、一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)106、以及客戶端應(yīng)用模塊108,客戶端應(yīng)用模塊108被具體化在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)106上,并且經(jīng)由處理系統(tǒng)104可操作為實(shí)施本文所描述的對應(yīng)功能。在至少一些實(shí)施例中,客戶端應(yīng)用模塊108可以表示可操作為訪問各種種類的基于web的資源(例如,內(nèi)容和服務(wù))的計(jì)算設(shè)備的瀏覽器??蛻舳藨?yīng)用模塊108還可以表示具有可操作為訪問基于web的資源(例如,使能網(wǎng)絡(luò)的應(yīng)用)、瀏覽互聯(lián)網(wǎng)、與在線提供商交互等的集成功能的客戶端側(cè)組件。

計(jì)算設(shè)備102還可以包括或利用圖像搜索工具110,圖像搜索工具110表示可操作為實(shí)施如上文和下文所描述的用于圖像搜索的技術(shù)的功能。例如,圖像搜索工具110可操作為訪問并利用各種可用圖像資源來找到與查詢術(shù)語相匹配的候選圖像。圖像搜索工具110進(jìn)一步表示如下的功能,該功能執(zhí)行各種動(dòng)作以促進(jìn)基于如本文所討論的圖像幀的情境的搜索,諸如圖像幀附近的情境的分析、導(dǎo)出查詢術(shù)語以用作搜索參數(shù)的文本分析、所命名的實(shí)體辨識、和/或查詢構(gòu)造,這是提出幾個(gè)示例?;诮?jīng)由圖像搜索工具110進(jìn)行的圖像搜索所發(fā)現(xiàn)的圖像可以經(jīng)由用戶界面111來顯露,用戶界面111由客戶端應(yīng)用模塊108或如下的另一應(yīng)用所輸出,針對該另一應(yīng)用,圖像搜索工具110被配置為提供用于外推庫存圖像搜索的功能。

圖像搜索工具110可以被實(shí)施為軟件模塊、硬件設(shè)備,或者使用軟件、硬件、固件、固定邏輯電路等的組合來實(shí)施。圖像搜索工具110可以被實(shí)施為如所圖示的計(jì)算設(shè)備102的獨(dú)立組件。另外地或備選地,圖像搜索工具110可以被配置作為客戶端應(yīng)用模塊108的組件、操作系統(tǒng)、或其他設(shè)備應(yīng)用。例如,圖像搜索工具110可以被提供作為用于瀏覽器的插件和/或可下載腳本。圖像搜索工具110還可以表示網(wǎng)頁、web應(yīng)用或由服務(wù)提供商可用的其他資源中所包含的或者以其他方式經(jīng)由它們可訪問的腳本。

計(jì)算設(shè)備102可以被配置作為任何適合類型的計(jì)算設(shè)備。例如,計(jì)算設(shè)備可以被配置作為臺式計(jì)算機(jī)、膝上型計(jì)算機(jī)、移動(dòng)設(shè)備(例如,具有諸如平板或移動(dòng)電話的手持式配置)、平板計(jì)算機(jī),等等。因此,計(jì)算設(shè)備102的范圍可以從具有大量存儲(chǔ)器和處理器資源的全資源設(shè)備(例如,個(gè)人計(jì)算機(jī)、游戲控制臺)到具有有限存儲(chǔ)器和/或處理資源的低資源設(shè)備(例如,移動(dòng)設(shè)備)。另外,雖然示出了單個(gè)計(jì)算設(shè)備102,但是計(jì)算設(shè)備102可以表示多個(gè)不同設(shè)備以執(zhí)行如關(guān)于圖12進(jìn)一步描述的“在云上”的操作。

環(huán)境100進(jìn)一步描繪了一個(gè)或多個(gè)服務(wù)提供商112,服務(wù)提供商112被配置為通過網(wǎng)絡(luò)114(諸如互聯(lián)網(wǎng))與計(jì)算設(shè)備102通信,以提供“基于云”的計(jì)算環(huán)境。一般而言,服務(wù)提供商112被配置為使得各種資源116通過網(wǎng)絡(luò)114可用于客戶端。在一些場景中,用戶可以注冊被用來訪問來自提供商的對應(yīng)資源的賬戶。提供商可以在授予對賬戶的訪問和對應(yīng)資源116之前認(rèn)證用戶的憑證(例如,用戶名和密碼)。其他資源116可以被使得是自由地可用的(例如,無需認(rèn)證或基于賬戶的訪問)。資源116能夠包括通常通過一個(gè)或多個(gè)提供商的網(wǎng)絡(luò)被使得可用的服務(wù)和/或內(nèi)容的任何適合組合。服務(wù)的一些示例包括但不限于相片編輯服務(wù)、web開發(fā)和管理服務(wù)、協(xié)同服務(wù)、社交聯(lián)網(wǎng)服務(wù)、消息收發(fā)服務(wù)、廣告服務(wù),等等。內(nèi)容可以包括文本、視頻、廣告、音頻、多媒體流、動(dòng)畫片、圖像、web文檔、網(wǎng)頁、應(yīng)用、設(shè)備應(yīng)用等的各種組合。

web應(yīng)用118表示可以經(jīng)由服務(wù)提供商112可訪問的一個(gè)特定種類的資源116。可以使用瀏覽器或其他客戶端應(yīng)用模塊108來獲得并運(yùn)行用于web應(yīng)用的客戶端側(cè)代碼而通過網(wǎng)絡(luò)114來操作web應(yīng)用118。在至少一些實(shí)施方式中,用于執(zhí)行web應(yīng)用118的運(yùn)行時(shí)環(huán)境由瀏覽器(或其他客戶端應(yīng)用模塊108)來提供。因此,從服務(wù)提供商可獲得的服務(wù)和內(nèi)容可以作為一些場景中的web應(yīng)用可訪問。

服務(wù)提供商進(jìn)一步被圖示為包括圖像服務(wù)120,圖像服務(wù)120被配置為根據(jù)本文所描述的技術(shù)來提供圖像數(shù)據(jù)庫122。圖像服務(wù)120可以操作為搜索不同的圖像資源124并且分析和組織(curate)從圖像資源可獲得的圖像126,以產(chǎn)生圖像數(shù)據(jù)庫122。圖像數(shù)據(jù)庫122表示經(jīng)組織圖像的服務(wù)器側(cè)儲(chǔ)存庫,其可以由客戶端訪問以插入到網(wǎng)頁、word文檔、展示、以及其他內(nèi)容中。圖像服務(wù)120例如可以被配置為提供客戶端/應(yīng)用訪問,以經(jīng)由相應(yīng)的圖像搜索工具110來利用圖像數(shù)據(jù)庫122。通過示例的方式,圖像服務(wù)120被描繪為實(shí)施搜索應(yīng)用編程接口(搜索api)128,客戶端/應(yīng)用通過它能夠提供經(jīng)由圖像服務(wù)120來定義并發(fā)起搜索的搜索請求。

圖像服務(wù)120能夠另外包括說明生成器130。說明生成器130表示可操作為實(shí)施如上文和下文描述的圖像加說明技術(shù)的功能。一般而言,說明生成器130被設(shè)計(jì)為分析圖像以生成圖像的自然語言描述,諸如“在波浪頂上乘沖浪板的男人”。在實(shí)施方式中,說明生成器130依賴于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí),其細(xì)節(jié)在下文關(guān)于圖3和圖4被討論。在實(shí)施方式中,卷積神經(jīng)網(wǎng)絡(luò)(cnn)可以被用于利用全局描述性術(shù)語來編碼圖像,全局描述性術(shù)語然后被饋送到遞歸神經(jīng)網(wǎng)絡(luò)(rnn),該rnn被設(shè)計(jì)為實(shí)施語言建模和語句生成技術(shù)。根據(jù)這一文件中所描述的發(fā)明性原理,說明生成器130被配置為以多種方式增強(qiáng)cnn圖像特征的組合和rnn建模以用于圖像加說明。通過引入的方式,用于說明生成的rnn的操作可以利用圖像細(xì)節(jié)關(guān)鍵詞來補(bǔ)充,這些圖像細(xì)節(jié)關(guān)鍵詞如下文關(guān)于圖5和圖6所討論的從(多個(gè))弱注釋圖像源導(dǎo)出。另外地或備選地,說明生成器130可以輸出向量詞語空間中的詞語的表示,而不是如關(guān)于圖7和圖8所討論的直接輸出詞語。此外,如關(guān)于圖9至圖11所討論的,說明生成器130可以被配置為應(yīng)用語義關(guān)注模型以基于情境來選擇用于rnn中的不同節(jié)點(diǎn)的不同關(guān)鍵詞。

圖2一般性地在200處描繪了示圖,該示圖示出了根據(jù)一個(gè)或多個(gè)實(shí)施方式的說明生成器130的細(xì)節(jié)。在這一示例中,說明生成器130被實(shí)施為圖像服務(wù)120的組件。注意,說明生成器130還可以以其他方式被配置,諸如作為獨(dú)立的服務(wù)、圖像搜索工具110的組件、或者向客戶端、圖像資源和/或其他實(shí)體部署的單獨(dú)應(yīng)用。說明生成器130被描繪為包括圖像分析模型202。圖形分析模型202表示以各種方式(包括但不限于特征提取、元數(shù)據(jù)解析、補(bǔ)丁分析、對象檢測等)來處理圖像的功能。圖像分析模型202指定被用來獲得用于說明分析的相關(guān)關(guān)鍵詞和圖像描述的算法和操作。例如,圖像分析模型202可以反映用于對于圖像加說明所依賴的卷積神經(jīng)網(wǎng)絡(luò)(cnn)和遞歸神經(jīng)網(wǎng)絡(luò)(rnn)的定義、過程、以及參數(shù)。為了增強(qiáng)圖像加說明,說明生成器130另外被配置為,個(gè)體地或者如下文更詳細(xì)討論的以任何組合一起地,使用弱監(jiān)督(supervision)數(shù)據(jù)204、詞語向量表示206、和/或語義關(guān)注模型208。

已經(jīng)考慮了示例環(huán)境,現(xiàn)在考慮根據(jù)一個(gè)或多個(gè)實(shí)施方式的用于圖像加說明的技術(shù)的一些示例細(xì)節(jié)的討論。

圖像加說明實(shí)施方式細(xì)節(jié)

這一章節(jié)描述了根據(jù)一個(gè)或多個(gè)實(shí)施方式的具有增強(qiáng)的圖像加說明的一些示例細(xì)節(jié)。這些細(xì)節(jié)關(guān)于圖3至圖11的一些示例過程、場景、以及用戶接口被討論。本文所討論的過程被表示為塊集合,這些塊集合指定由一個(gè)或多個(gè)設(shè)備執(zhí)行的操作,并且不必然限于用于由相應(yīng)塊執(zhí)行操作的所示出的順序。這些過程的方面可以被實(shí)施在硬件、固件、或軟件、或它們的組合中。這些過程的一些方面可以經(jīng)由一個(gè)或多個(gè)服務(wù)器來實(shí)施,諸如經(jīng)由服務(wù)提供商112,服務(wù)提供商112經(jīng)由圖像服務(wù)120或以其他方式維持并提供對圖像數(shù)據(jù)庫122的訪問。這些過程的方面還可以由適合地被配置的設(shè)備來執(zhí)行,諸如圖1的示例計(jì)算設(shè)備102,其包括或利用圖像搜索工具110和/或客戶端應(yīng)用模塊108。

一般而言,在這一文件中所描述的示例過程的情境中可以采用關(guān)于上文和下文的示例所描述的功能、特征和概念。進(jìn)一步地,關(guān)于這一文件中的不同附圖和示例所描述的功能、特征和概念可以在彼此之間被互換并且不限于特定附圖或過程的情境中的實(shí)施方式。此外,本文中與不同表示性過程和對應(yīng)附圖相關(guān)聯(lián)的塊可以一起被應(yīng)用和/或以不同方式被組合。因此,本文中關(guān)于不同的示例環(huán)境、設(shè)備、組件、附圖和過程所描述的個(gè)體功能、特征和概念可以以任何適合的組合被使用,并且不限于由這一描述中列舉的示例所表示的特定組合。

圖像加說明框架

圖3一般性地在300處描繪了圖像加說明框架301的示例實(shí)施方式。在這一示例中,圖像加說明框架301采用機(jī)器學(xué)習(xí)方法來生成加說明的圖像。因此,訓(xùn)練數(shù)據(jù)302由圖像加說明框架301獲得,訓(xùn)練數(shù)據(jù)302將被用來訓(xùn)練模型,該模型然后被用來形成說明。在類似場景(例如,圖像理解問題)中被用來訓(xùn)練模型的技術(shù)可以依賴于用戶對圖像手動(dòng)地加標(biāo)簽以形成訓(xùn)練數(shù)據(jù)302。還可以使用機(jī)器學(xué)習(xí)來訓(xùn)練模型,該機(jī)器學(xué)習(xí)使用可自動(dòng)執(zhí)行且無需用戶干預(yù)的技術(shù)。

在所圖示的示例中,訓(xùn)練數(shù)據(jù)302包括圖像304和關(guān)聯(lián)文本306,諸如與圖像304相關(guān)聯(lián)的說明或元數(shù)據(jù)。提取器模塊308然后被用于使用自然語言處理來提取結(jié)構(gòu)化語義知識310,例如“<主語、定語>、圖像”和“<主語、謂語、賓語>、圖像”。提取還可以包括結(jié)構(gòu)化語義到圖像內(nèi)的對象或區(qū)域的局部化。結(jié)構(gòu)化語義知識310可以被用來將圖像匹配到與視覺上類似的圖像相關(guān)聯(lián)的數(shù)據(jù)(例如,加說明),并且還可以被用來找到與元數(shù)據(jù)集合的特定說明相匹配的圖像(例如,搜索)。

圖像304和對應(yīng)的結(jié)構(gòu)化語義知識310然后被傳遞到模型訓(xùn)練模塊312。模型訓(xùn)練模塊312被圖示為包括機(jī)器學(xué)習(xí)模塊314,機(jī)器學(xué)習(xí)模塊314表示如下的功能:采用機(jī)器學(xué)習(xí)(例如,神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等)以使用圖像304和結(jié)構(gòu)化語義知識310來訓(xùn)練圖像分析模型202。模型316被訓(xùn)練為定義結(jié)構(gòu)化語義知識310中所包括的文本特征與圖像中的圖像特征之間的關(guān)系(例如,視覺特征向量)。

圖像分析模型202然后由說明生成器用來處理輸入圖像316并生成加說明的圖像318。即使是在輸入圖像316包括任何文本的實(shí)例中,加說明的圖像318例如可以包括文本標(biāo)簽和描述以定義圖像108的概念。確切地說,說明生成器130基于對輸入圖像316的分析使用圖像分析模型202來生成適當(dāng)?shù)奈谋久枋?。加說明的圖像318然后可以由圖像服務(wù)320用來自動(dòng)地且無需用戶干預(yù)地控制各種功能,諸如圖像搜索、說明和元數(shù)據(jù)提取、圖像分類、可及性特征等。

一般而言,圖像加說明框架301涉及特征提取,其后是基于特征的描述的構(gòu)造。各種不同的模型和方法可以被用于由圖像加說明框架301所反映的特征提取操作和描述構(gòu)造操作這兩者。如之前所提到的,圖像加說明框架301可以依賴于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。在實(shí)施方式中,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)來實(shí)施特征提取,然后遞歸神經(jīng)網(wǎng)絡(luò)(rnn)被調(diào)用以用于語言建模和語句構(gòu)造。

在這一情境中,圖4是示圖,該示圖一般性地在400處描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的圖像加說明框架的細(xì)節(jié)。這里,框架401表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像加說明的通用編碼器-解碼器框架。該框架基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。給定目標(biāo)圖像316,特征提取技術(shù)被應(yīng)用以導(dǎo)出描述圖像的“要點(diǎn)”的全局圖像概念。例如,預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(cnn)402被用于利用概念404來編碼圖像,概念404作為整體指示圖像的要點(diǎn)。該cnn產(chǎn)生反映這些“全局”概念404的視覺特征向量。關(guān)于全局圖像概念404導(dǎo)出的信息然后被饋送到語言處理模型中,該語言處理模型操作為概率地生成圖像的描述性說明。例如,視覺特征向量可以被饋送到被設(shè)計(jì)為實(shí)施語言建模和語句生成技術(shù)的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)406中。rnn406被設(shè)計(jì)為迭代地預(yù)測詞語序列,以基于根據(jù)多次迭代中的權(quán)重因數(shù)所計(jì)算的概率分布來組合作為用于目標(biāo)圖像的說明。如所表示的,rnn406輸出與圖像316相關(guān)聯(lián)的以說明、標(biāo)簽、語句和其他文本為形式的描述408。這產(chǎn)生如關(guān)于圖3所討論的加說明的圖像。

圖4進(jìn)一步表示了增強(qiáng)410,其可以關(guān)于通用框架401被利用。具體地,說明生成器130可以使用弱監(jiān)督數(shù)據(jù)204、詞語向量表示206、和/或語義關(guān)注模型208作為對通用框架401所提供的圖像加說明的增強(qiáng)410。增強(qiáng)410中的每個(gè)增強(qiáng)可以在個(gè)體的基礎(chǔ)上被用來補(bǔ)充通用框架401的加說明。另外,可以采用多個(gè)增強(qiáng)410的任何組合。下文進(jìn)而討論關(guān)于對通用框架401的增強(qiáng)410的細(xì)節(jié)。

弱監(jiān)督

如之前所提到的,關(guān)于目標(biāo)圖像的弱監(jiān)督數(shù)據(jù)204可以被獲得并被用來提供詳細(xì)信息,該詳細(xì)信息補(bǔ)充了為了圖像加說明所導(dǎo)出的全局圖像概念404。特別地,弱監(jiān)督數(shù)據(jù)204從弱注釋圖像的源被收集,諸如社交聯(lián)網(wǎng)站點(diǎn)、圖像共享站點(diǎn)、以及用于圖像的其他在線儲(chǔ)存庫。對于不同場景中的圖像加說明,可以依賴于一個(gè)或多個(gè)源。上傳到這種源的圖像通常與用戶所添加的標(biāo)簽、描述和其他文本數(shù)據(jù)相關(guān)聯(lián)。用戶所添加的這種種類的文本數(shù)據(jù)被認(rèn)為是“弱監(jiān)督的”,因?yàn)橛脩艨赡軐ⅰ霸肼暋毙g(shù)語包括在內(nèi),這些“噪聲”術(shù)語可能與圖像所運(yùn)送的圖像內(nèi)容和全局概念不相關(guān)或略微有關(guān),并且數(shù)據(jù)沒有由服務(wù)提供商精煉或控制。弱注釋以與通過傳統(tǒng)圖像辨識和特征提取方法可得到相比較深的理解水平來提供關(guān)于圖像的詳細(xì)信息。因此,依賴于弱注釋來生成指示低水平圖像細(xì)節(jié)(例如,對象、屬性、區(qū)域、白話語義)的關(guān)鍵詞的集合,其能夠被用來擴(kuò)展用于圖像分析的詞典/詞匯并補(bǔ)充為了圖像加說明所導(dǎo)出的全局圖像概念404。

在之前討論的通用圖像加說明框架401中,預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(cnn)被用來編碼圖像。結(jié)果是被饋送到用于語句生成的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)的視覺特征向量。訓(xùn)練數(shù)據(jù)被用來訓(xùn)練內(nèi)嵌函數(shù)、遞歸神經(jīng)網(wǎng)絡(luò)、以及可選地卷積神經(jīng)網(wǎng)絡(luò)。rnn特別被設(shè)計(jì)用于序列數(shù)據(jù)。在rnn中,每個(gè)輸入節(jié)點(diǎn)具有隱藏狀態(tài)hi,并且對于每個(gè)隱藏狀態(tài),hi=f(xi,hi-1),其中f(·)為激活函數(shù),諸如邏輯函數(shù)或雙曲正切(tanh)函數(shù)。換言之,用于每個(gè)節(jié)點(diǎn)的狀態(tài)hi取決于基于輸入xi和用于之前節(jié)點(diǎn)的狀態(tài)hi-1計(jì)算的激活函數(shù)。以這種方式,rnn被用來迭代地計(jì)算用于每個(gè)輸入節(jié)點(diǎn)的隱藏狀態(tài)。另外,隱藏狀態(tài)將交互從序列的起始傳播到該序列中的結(jié)束節(jié)點(diǎn)。圖像加說明框架401能夠與各種不同架構(gòu)的rnn集成。本文省略了關(guān)于rnn架構(gòu)的細(xì)節(jié),因?yàn)楸绢I(lǐng)域的普通技術(shù)人員將意識到不同架構(gòu)的實(shí)施方式,并且本文所描述的發(fā)明性概念不取決于所采用的特定rnn架構(gòu)。

在這一情境中,圖5一般性地在500處描繪了示圖,該示圖描繪了用于利用弱監(jiān)督的圖像加說明的框架。特別地,圖5表示了圖4的通用框架401中的rnn406被適配為依賴于弱監(jiān)督數(shù)據(jù)204的場景。弱監(jiān)督數(shù)據(jù)204可以從如上文和下文所描述的各種圖像源124獲得。例如,特征提取502過程可以被應(yīng)用于辨識與來自圖像源124中的至少一個(gè)圖像的目標(biāo)圖像相類似的圖像。被辨識為與目標(biāo)圖像相類似的圖像進(jìn)一步被處理,以從與類似圖像相關(guān)聯(lián)的弱注釋提取關(guān)鍵詞。因此,特征提取502表示如上文所討論的功能性地被應(yīng)用于導(dǎo)出以指示低水平圖像細(xì)節(jié)的關(guān)鍵詞集合為形式的弱監(jiān)督數(shù)據(jù)204。弱監(jiān)督數(shù)據(jù)204然后被供應(yīng)給rnn406,以如圖5中所表示的通知圖像加說明分析。在一種方法中,從弱注釋的圖像導(dǎo)出的經(jīng)過濾的關(guān)鍵詞列表被供應(yīng)給rnn。該列表可以通過以下來生成:根據(jù)相關(guān)性準(zhǔn)則對關(guān)鍵詞集合評分并排名,并且選擇若干頂部排名的關(guān)鍵詞以包括在經(jīng)過濾的列表中。經(jīng)過濾的列表可以基于頻率、概率分?jǐn)?shù)、權(quán)重因數(shù)、或其他相關(guān)性準(zhǔn)則被過濾。在實(shí)施方式中,關(guān)鍵詞的整個(gè)集合可以被供應(yīng)用于在rnn中使用(例如,未過濾列表)。

關(guān)鍵詞的列表被配置為將關(guān)鍵詞權(quán)重504與每個(gè)詞語或短語相關(guān)聯(lián)。關(guān)鍵詞權(quán)重504因此反映了在rnn內(nèi)可以被用來預(yù)測用于加說明的詞語序列的分?jǐn)?shù)或概率分布。如圖5中所表示的,頂部關(guān)鍵詞的列表可以被饋送到rnn的每個(gè)節(jié)點(diǎn)中,作為補(bǔ)充全局概念的另外數(shù)據(jù)。在這一點(diǎn)上,針對目標(biāo)圖像所產(chǎn)生的關(guān)鍵詞列表擴(kuò)展了被用來導(dǎo)出用于目標(biāo)圖像的說明的詞匯。另外,關(guān)鍵詞權(quán)重504調(diào)整由rnn應(yīng)用于語言建模和語句構(gòu)造的權(quán)重因數(shù)。因此,關(guān)鍵詞權(quán)重504對改變?nèi)缦碌脑~語概率是有效的,這些詞語概率被用于由rnn實(shí)施以偏好指示低水平圖像細(xì)節(jié)的關(guān)鍵詞的概率性分類。

用于弱監(jiān)督數(shù)據(jù)204的關(guān)鍵詞權(quán)重504的效果能夠按照上文所提到的用于rnn的通用形式hi=f(xi,hi-1)來表達(dá)。一般而言,給定用于每個(gè)圖像vi的關(guān)鍵詞集合ki={k1,k2,…,kk},目標(biāo)是如何采用ki來生成用于vi的說明。具體地,構(gòu)建模型以使用關(guān)鍵詞用于訓(xùn)練階段和測試階段這兩者。為了這樣做,關(guān)鍵詞針對每個(gè)圖像被提取并且被聚合為關(guān)鍵詞的集合。然后,rnn中的每個(gè)輸入節(jié)點(diǎn)根據(jù)等式ke=max(wkk+b)被附加有用于關(guān)鍵詞的另外的嵌入信息。這里,ke為用于節(jié)點(diǎn)的關(guān)鍵詞列表,wk為控制關(guān)鍵詞權(quán)重504的用于關(guān)鍵詞的嵌入矩陣。對于每個(gè)輸入詞語wi,ke被附加在如圖5中所表示的輸入遞歸神經(jīng)網(wǎng)絡(luò)的每個(gè)位置處。因此,如被適配為采用弱監(jiān)督的rnn可以被表達(dá)為hi=f(xi,hi-1,ke)。在這一表達(dá)式中,激活函數(shù)f(·)另外地取決于嵌入的關(guān)鍵詞列表ke和對應(yīng)的關(guān)鍵詞權(quán)重504。

在前述示例中,max運(yùn)算被用來從候選關(guān)鍵詞群組獲得特征。還預(yù)想到其他運(yùn)算,諸如求和,其可以增大輸入層中的參數(shù)的總數(shù)目。然而,利用max運(yùn)算,針對每個(gè)圖像所選擇的關(guān)鍵詞的數(shù)目可以不同,并且在分析中能夠考慮大數(shù)目的潛在關(guān)鍵詞而無需向輸入層添加顯著數(shù)目的參數(shù)。

如所提到的,各種圖像源124可以被用來獲得弱監(jiān)督數(shù)據(jù)。在實(shí)施方式中,圖像源124包括用于通過網(wǎng)絡(luò)可訪問的圖像的各種在線儲(chǔ)存庫,諸如社交聯(lián)網(wǎng)站點(diǎn)、圖像共享站點(diǎn)、以及經(jīng)組織的圖像數(shù)據(jù)庫/服務(wù)。用戶現(xiàn)今正頻繁地使用這種在線儲(chǔ)存庫來共享圖像和多媒體內(nèi)容并訪問圖像內(nèi)容。從在線源可獲得的圖像通常包括標(biāo)簽或短描述,它們可以被利用以獲得用于在加說明時(shí)使用的弱監(jiān)督的知識。

被用來訓(xùn)練圖像加說明框架(例如,訓(xùn)練說明生成器)的訓(xùn)練圖像集合可以提供弱監(jiān)督數(shù)據(jù)204的另外的或備選的源。在這種方法中,訓(xùn)練數(shù)據(jù)包括如下圖像的數(shù)據(jù)庫,這些圖像具有被用來訓(xùn)練用于加說明模型的分類器的對應(yīng)說明??梢砸蕾囉谟?xùn)練圖像數(shù)據(jù)庫作為源來發(fā)現(xiàn)彼此類似的相關(guān)圖像。接著,將用于相關(guān)圖像的說明被聚合為用于圖像加說明的弱監(jiān)督的文本。當(dāng)目標(biāo)圖像匹配于相關(guān)圖像的集合時(shí),依賴于用于相關(guān)圖像的說明作為用于目標(biāo)圖像的加說明的弱監(jiān)督數(shù)據(jù)204。

在實(shí)施方式中,至少一些弱監(jiān)督數(shù)據(jù)204可以從圖像分析直接被導(dǎo)出。為了這樣做,不同的概念或?qū)傩詸z測器被訓(xùn)練以辨識由弱注釋圖像所提供的低水平圖像細(xì)節(jié)的種類。深度神經(jīng)網(wǎng)絡(luò)的相對近期發(fā)展已經(jīng)激勵(lì)了圖像內(nèi)對象辨識上的顯著改進(jìn)。因此,有可能訓(xùn)練圖像分類器以辨識一些類型的低水平圖像細(xì)節(jié),諸如特定對象、區(qū)域差異、圖像屬性等。替代使用這種圖像細(xì)節(jié)直接來生成候選說明,所檢測的屬性或概念被饋送到圖像說明框架中作為弱監(jiān)督數(shù)據(jù)204,以按照本文所描述的方式來通知圖像加說明。

圖6是根據(jù)一個(gè)或多個(gè)實(shí)施方式的弱監(jiān)督數(shù)據(jù)被用于圖像加說明的示例過程600的流程圖。目標(biāo)圖像被獲得以用于說明分析(塊602)。例如,圖像服務(wù)120可以實(shí)施如本文所描述的說明生成器130。圖像服務(wù)120可以提供經(jīng)由搜索api128顯露的可搜索圖像數(shù)據(jù)庫122。說明生成器130被配置為對圖像執(zhí)行說明分析,并且使用本文所描述的各種技術(shù)自動(dòng)地生成用于圖像的說明。經(jīng)由說明生成器130生成的加說明的圖像318可以以各種方式被采用。例如,說明可以促進(jìn)使用自然語言查詢經(jīng)由搜索api128進(jìn)行的圖像搜索。另外,通過將說明轉(zhuǎn)換成向用戶傳達(dá)圖像內(nèi)容的可聽描述,說明可以促進(jìn)視障用戶的可及性。

為了產(chǎn)生圖像說明,特征提取被應(yīng)用到目標(biāo)圖像以生成對應(yīng)于目標(biāo)圖像的全局概念(塊604)。各種類型的特征提取操作被預(yù)想到。一般而言,初始特征提取被應(yīng)用以導(dǎo)出描述圖像的整體要點(diǎn)的全局概念404。初始特征提取可以經(jīng)由如之前所提到的cnn402來執(zhí)行,但是導(dǎo)出全局圖像概念404的其他技術(shù)也被預(yù)想到。所導(dǎo)出的概念404可以被組合以形成候選說明,這些候選說明被用作用于進(jìn)一步精煉并選擇說明的起始點(diǎn)。因此,進(jìn)一步的精煉可以另外地依賴于如本文所描述的弱監(jiān)督數(shù)據(jù)204。

特別地,目標(biāo)圖像與來自弱注釋圖像的源的圖像進(jìn)行比較以識別視覺上類似的圖像(塊606)。弱注釋圖像的各種源被預(yù)想到,其示例之前被給出。本文所描述的分析依賴于至少一個(gè)源,然而,多個(gè)源可以在一些場景中被使用。該比較涉及使用特征提取技術(shù)來找到具有類似于目標(biāo)圖像的特征的圖像。與類似圖像相關(guān)聯(lián)的注釋被認(rèn)為與目標(biāo)圖像的加說明相關(guān)。

因此,通過從視覺上類似的圖像提取關(guān)鍵詞來構(gòu)建用于目標(biāo)圖像的關(guān)鍵詞集合(塊608),并且關(guān)鍵詞集合連同全局概念一起被供應(yīng)用于說明生成(塊610)。然后,使用關(guān)鍵詞集合調(diào)整被應(yīng)用于語句構(gòu)造的詞語權(quán)重來針對目標(biāo)圖像生成說明(塊612)。這里,從弱注釋圖像導(dǎo)出的關(guān)鍵詞列表被確定并供應(yīng)作為弱監(jiān)督數(shù)據(jù)204以按照之前所提到的方式來通知圖像加說明分析。弱監(jiān)督數(shù)據(jù)204所指示的關(guān)鍵詞權(quán)重504對調(diào)整被應(yīng)用于語言建模和語句生成的權(quán)重因數(shù)是有效的。產(chǎn)生說明的語言建模和語句構(gòu)造可以經(jīng)由如之前所描述的rnn406來實(shí)施,但是其他圖像加說明算法和技術(shù)也被預(yù)想到。在任何情況下,由弱監(jiān)督數(shù)據(jù)204所反映的權(quán)重被應(yīng)用于圖像加說明以相應(yīng)地改變概率性分類中的詞語概率。因此,在根據(jù)針對關(guān)鍵詞建立的權(quán)重因數(shù)的加說明分析中考慮到指示從弱注釋導(dǎo)出的低水平圖像細(xì)節(jié)的關(guān)鍵詞。

詞語向量表示

詞語向量表示206是可以被用于增強(qiáng)通用圖像加說明框架401的另外特征。詞語向量表示206可以個(gè)體地被使用或者與之前描述的弱監(jiān)督和/或在以下章節(jié)中討論的語義關(guān)注組合地被使用。簡略地說,替代將說明分析的結(jié)果直接輸出為詞語或詞語序列(例如,說明或語句),框架401被適配為輸出語義詞語向量空間中的點(diǎn)。這些點(diǎn)構(gòu)成詞語向量表示206,詞語向量表示206反映語義詞語向量空間的情境中的距離值。在這種方法中,詞語被映射到向量空間中,并且說明分析的結(jié)果被表達(dá)為向量空間中的點(diǎn),這些點(diǎn)捕獲詞語之間的語義。在向量空間中,類似的概念在概念的詞語向量表示中具有小距離值。

相對照地,傳統(tǒng)方法被設(shè)計(jì)為返回所預(yù)測的詞語或序列。例如,之前所描述的rnn406傳統(tǒng)上被配置為通過固定詞典/詞匯確定每個(gè)節(jié)點(diǎn)處的概率分布。詞語基于所計(jì)算的分布被評分和排名。最可能的詞語然后基于對節(jié)點(diǎn)的輸入和當(dāng)前狀態(tài)被選擇作為用于每個(gè)節(jié)點(diǎn)的輸出。該過程基于多次迭代來迭代地找到頂部說明或多個(gè)說明。這里,由rnn使用的目標(biāo)函數(shù)所反映的策略利用對應(yīng)于類(class)的每個(gè)詞語來解決分類問題。概率分布被用于相對于固定詞典/詞匯的概率性分類。因此,說明中的詞語必須被包含在詞典中,詞典尺寸一般為大以負(fù)責(zé)眾多構(gòu)造,并且如果詞典被改變則分析必須完全地被重復(fù)。

另一方面,利用詞語向量表示206,分析的輸出是向量空間中的點(diǎn)或多個(gè)點(diǎn)。這些點(diǎn)不束縛于特定詞語或單個(gè)詞典。后處理步驟被用來將點(diǎn)映射到詞語并將詞語向量表示206轉(zhuǎn)換成說明。因此,轉(zhuǎn)換被延遲到過程中的稍后階段。這一點(diǎn)的結(jié)果是詞典在過程中的后期能夠被改變以選擇不同的語言、使用不同的詞語范圍或詞語數(shù)目、引入新穎術(shù)語,等等。另外,詞語向量表示206能夠被保存,并且如果對詞典進(jìn)行改變則后處理之前完成的步驟不是必須被重復(fù)。

圖7在700處描繪了示例圖,該示例圖一般性地圖示了用于圖像加說明的詞語向量表示的概念。特別地,圖7表示語義詞語向量空間702,其捕獲詞語之間的語義。在這一示例中,語義詞語向量空間702具有多維空間中的軸,這些軸對應(yīng)于不同的詞語組合或語句。在這一情境中,詞語向量704表示語義詞語向量空間702中的詞語之間的距離值。給定用于分析問題的特定狀態(tài)數(shù)據(jù)和所選擇的詞典,詞語向量704能夠被映射到最接近的詞語或多個(gè)詞語。這種方法向取決于情境信息在過程中的后期將詞語向量704映射到不同詞語提供了靈活性。

圖8是根據(jù)一個(gè)或多個(gè)實(shí)施方式的詞語向量表示被用于圖像加說明的示例過程800的流程圖。目標(biāo)圖像被獲得以用于說明分析(塊802),并且特征提取被應(yīng)用到目標(biāo)圖像以生成對應(yīng)于該圖像的屬性(塊804)。例如,圖像服務(wù)120可以實(shí)施如之前所描述的被配置為處理圖像的說明生成器130。此外,各種類型的特征提取操作被預(yù)想到以檢測與目標(biāo)圖像相關(guān)聯(lián)的特征、概念、對象、區(qū)域和其他屬性。

這些屬性被供應(yīng)給說明生成器以發(fā)起說明生成(塊806)。例如,屬性可以被用來導(dǎo)出關(guān)鍵詞,這些關(guān)鍵詞被供應(yīng)給說明生成器130所實(shí)施的圖像分析模型202以用于圖像加說明。這些關(guān)鍵詞被用來構(gòu)造并評估作為潛在說明候選的關(guān)鍵詞的不同組合。作為分析的結(jié)果,在語義詞語向量空間中輸出詞語向量,該詞語向量指示作為屬性的組合被形成的語句中的詞語之間的語義關(guān)系(塊808)。例如,圖像分析模型202可以被適配為輸出詞語向量表示206作為說明分析的中間結(jié)果。詞語向量表示206可以對應(yīng)于語義詞語向量空間702中未映射到特定詞語或具體詞典的點(diǎn)。例如,由rnn所實(shí)施的目標(biāo)函數(shù)可以被適配為考慮語義詞語向量空間702中的距離,而不是用于詞語序列的概率分布。下文討論與使用l-2距離和負(fù)采樣來修改用于說明分析的目標(biāo)函數(shù)有關(guān)的一些細(xì)節(jié)。

隨后,詞語向量被轉(zhuǎn)換成用于目標(biāo)圖像的說明(塊810)。重要地,詞語向量轉(zhuǎn)換被延遲到在導(dǎo)出詞語向量表示206的rnn的操作之后發(fā)生的后處理操作。換言之,后處理轉(zhuǎn)換被應(yīng)用到從rnn生成的輸出。詞語向量轉(zhuǎn)換發(fā)生在經(jīng)由rnn執(zhí)行的說明分析之外選擇的詞典/詞匯的情境中。因此,生成詞語向量表示206的說明分析不取決于特定詞典。

如所提到的,使用語義詞語向量空間的實(shí)施方式可以使用距離和/或負(fù)采樣來修改用于說明分析的目標(biāo)函數(shù)而被實(shí)施。關(guān)于l-2距離,典型的目標(biāo)函數(shù)被構(gòu)造為概率分類問題。例如,給定節(jié)點(diǎn)輸入和當(dāng)前狀態(tài),函數(shù)可以被設(shè)計(jì)為求解用于詞語序列的對數(shù)似然目標(biāo)。這種對數(shù)似然目標(biāo)可以被表達(dá)為logp(w|v)=∑tlogp(wt|v,w0,w1,…,wt)。為了使能詞語向量表示206,目標(biāo)函數(shù)被適配成取決于語義詞語空間中的距離的代價(jià)函數(shù)。例如,經(jīng)適配的目標(biāo)函數(shù)可以被表達(dá)為這里,pt表示預(yù)測的詞語索引。利用這一目標(biāo)函數(shù),可以使用非常大的詞匯量。另外,用于每個(gè)詞語的特征可以使用經(jīng)適配的目標(biāo)函數(shù)的一些未監(jiān)督特征而被發(fā)起,顯著地減少了所涉及的特征的數(shù)目,因?yàn)閰?shù)的數(shù)目有關(guān)于特征的維度而不是詞匯量大小(典型目標(biāo)函數(shù)中的類的總數(shù)目)。

上述l-2距離方法考慮到在每個(gè)節(jié)點(diǎn)處的目標(biāo)函數(shù)中的當(dāng)前詞語。然而,對于每個(gè)節(jié)點(diǎn),還存在許多負(fù)樣本(所有其他詞語)。說明分析可以被進(jìn)一步適配為包括解釋負(fù)樣本的負(fù)采樣分析。負(fù)采樣將代價(jià)注入到解釋與負(fù)樣本的距離的目標(biāo)函數(shù)中。利用負(fù)采樣,目標(biāo)函數(shù)被設(shè)計(jì)為使相關(guān)詞語/向量之間的距離最小化,并且使與負(fù)樣本的距離最大化。在一種實(shí)施方式中,對于每個(gè)節(jié)點(diǎn),隨機(jī)地選擇不同于目標(biāo)詞語的n個(gè)詞語,并且用于目標(biāo)函數(shù)的損耗因數(shù)被定義為log(1+exp(-wivhi-1)+σnlog(1+exp(wnvhi-1)。在這一表達(dá)式中,wi表示在第i個(gè)位置處的用于每個(gè)目標(biāo)詞語的嵌入。wn表示用于第i個(gè)目標(biāo)詞語的第n個(gè)隨機(jī)選取的負(fù)樣本,并且hi-1為位置i-1處的隱藏響應(yīng)。因此,當(dāng)目標(biāo)詞語接近于隨機(jī)選擇的負(fù)樣本時(shí),負(fù)采樣增加用于目標(biāo)詞語的代價(jià)。

語義關(guān)注

語義關(guān)注模型208是可以被用來增強(qiáng)通用圖像加說明框架401的另一附加特征。語義關(guān)注模型208可以個(gè)體地被使用或者與之前描述的弱監(jiān)督和/或詞語向量表示組合地被使用。一般而言,語義關(guān)注模型208被實(shí)施用于選擇針對可用術(shù)語的語料庫的關(guān)鍵詞和概念。本文之前所討論的技術(shù)可以在遞歸神經(jīng)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)處采用關(guān)鍵詞或特征的相同集合。例如,為了弱監(jiān)督數(shù)據(jù)202導(dǎo)出的相同關(guān)鍵詞列表可以被供應(yīng)給rnn406中的每個(gè)節(jié)點(diǎn)。然而,不同詞語/概念的相關(guān)性在分析中的不同點(diǎn)處可能改變。語義關(guān)注模型208提供了一種機(jī)制以選擇用于取決于情境來生成下一詞語的不同概念、關(guān)鍵詞、或監(jiān)督信息。

寬泛地說,語義關(guān)注模型208被配置為基于情境對候選關(guān)鍵詞進(jìn)行排名并且計(jì)算被饋送到rnn中的對應(yīng)關(guān)注權(quán)重。在rnn中每個(gè)節(jié)點(diǎn)處所計(jì)算的狀態(tài)信息被反饋回到語義關(guān)注模型208中,并且候選關(guān)鍵詞根據(jù)用于下一迭代的當(dāng)前情境被重新排名。因此,被用于rnn中的每個(gè)節(jié)點(diǎn)的特定關(guān)鍵詞和權(quán)重隨著rnn轉(zhuǎn)變(transit)而改變。作為結(jié)果,圖像加說明模型關(guān)注于每次迭代時(shí)最相關(guān)的關(guān)鍵詞。使用語義關(guān)注模型208用于圖像加說明使能了更復(fù)雜的說明并且改進(jìn)了所生成的說明的準(zhǔn)確度。在圖9至圖11的以下討論中提供了與用于圖像加說明的語義關(guān)注模型有關(guān)的細(xì)節(jié)。

對于情境,已有圖像加說明方法中存在兩種一般范式:自頂向下和自底向上(bottom-up)。自頂向下范式從圖像的“要點(diǎn)”開始并將它轉(zhuǎn)換成詞語,而自底向上范式首先提出描述圖像的各種方面的詞語,并且然后組合它們。在兩種范式中采用語言模型來形成銜接句(coherentsentence)?!凹夹g(shù)的狀態(tài)”是自頂向下范式,其中存在基于遞歸神經(jīng)網(wǎng)絡(luò)的從圖像到語句的端到端公式化,并且遞歸網(wǎng)絡(luò)的所有參數(shù)能夠從訓(xùn)練數(shù)據(jù)得知。自頂向下范式的限制之一是它難以關(guān)注于精致細(xì)節(jié),這些精致細(xì)節(jié)在描述圖像方面可能是重要的。自底向上方法不遭受這一問題,因?yàn)樗鼈冊谌魏螆D像分辨率上自由操作。然而,它們遭受其他問題,諸如缺乏對于從個(gè)體方面轉(zhuǎn)到語句的過程的端到端公式化。

如本文所使用的,用于圖像加說明的語義關(guān)注是指如下的能力:提供在加說明分析中的不同點(diǎn)處相關(guān)的語義上重要的目標(biāo)的詳細(xì)連貫的描述。本文所描述的語義關(guān)注模型208能夠:1)關(guān)注于語義上重要的概念或圖像中的感興趣區(qū)域,2)加權(quán)在多個(gè)概念上給予的關(guān)注的相對強(qiáng)度,以及3)根據(jù)任務(wù)狀況動(dòng)態(tài)地在概念之間切換關(guān)注。特別地,語義關(guān)注模型208使用自底向上方法來檢測語義細(xì)節(jié)或“屬性”作為用于關(guān)注的候選,并且采用自頂向下組件來引導(dǎo)關(guān)注應(yīng)當(dāng)何處且何時(shí)被激活。該模型構(gòu)建在如之前討論的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)的頂部上。初始狀態(tài)從自頂向下組件捕獲全局概念。隨著rnn狀態(tài)轉(zhuǎn)變,該模型經(jīng)由在網(wǎng)絡(luò)狀態(tài)和輸出節(jié)點(diǎn)兩者上實(shí)施的關(guān)注機(jī)制從自底向上屬性取得反饋和交互。這一反饋允許算法不僅更準(zhǔn)確地預(yù)測詞語,還引起已有預(yù)測與圖像內(nèi)容之間的語義間隙的更魯棒的推斷。反饋操作為在遞歸神經(jīng)網(wǎng)絡(luò)的框架內(nèi)組合自頂向下方法和自底向上方法這兩者中的視覺信息。

圖9是示圖,該示圖一般性地在900處描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的用于圖像加說明的語義關(guān)注框架。如所提到的,語義關(guān)注框架組合用于圖像說明的自頂向下方法和自底向上方法。在所描繪的示例中,圖像316被表示為用于說明分析的目標(biāo)。給定目標(biāo)圖像316,卷積神經(jīng)網(wǎng)絡(luò)402被調(diào)用以提取用于圖像的自頂向下視覺概念。同時(shí),特征提取902被應(yīng)用來檢測低水平圖像細(xì)節(jié)(區(qū)域、對象、屬性等)。特征提取902可以被實(shí)施為相同卷積神經(jīng)網(wǎng)絡(luò)402的一部分或者使用單獨(dú)的提取組件來實(shí)施。在實(shí)施方式中,特征提取902被應(yīng)用到弱注釋的圖像的源以按照之前描述的方式導(dǎo)出弱監(jiān)督數(shù)據(jù)204。特征提取902的結(jié)果是對應(yīng)于低水平圖像細(xì)節(jié)的圖像屬性904(例如,關(guān)鍵詞)的集合。如圖9中所表示的,語義關(guān)注模型208操作為在生成圖像說明的rnn406中將自頂向下視覺概念與低水平細(xì)節(jié)相組合。特別地,語義關(guān)注模型計(jì)算并控制用于屬性904的關(guān)注權(quán)重906,并且在每次迭代時(shí)將關(guān)注權(quán)重906饋送到rnn中。隨著rnn轉(zhuǎn)變,語義關(guān)注模型208獲得與說明分析的當(dāng)前狀態(tài)和情境有關(guān)的反饋908。這一反饋908被用來關(guān)于遞歸神經(jīng)網(wǎng)絡(luò)迭代而改變用于候選屬性904的關(guān)注權(quán)重。作為結(jié)果,語義關(guān)注模型206使得rnn406關(guān)注于針對每次預(yù)測迭代的最相關(guān)概念。

圖10是根據(jù)一個(gè)或多個(gè)實(shí)施方式的語義關(guān)注模型被用于圖像加說明的示例過程1000的流程圖。特征提取被應(yīng)用到目標(biāo)圖像以生成對應(yīng)于目標(biāo)圖像的概念和屬性(塊1002)。特征提取可以以如本文所描述的各種方式發(fā)生。特征提取可以依賴于cnn402、提取器模塊302、或被設(shè)計(jì)為檢查用于圖像316的概念和屬性的其他適合組件。概念和屬性被饋送到說明生成模型中,該說明生成模型被配置為迭代地組合從概念和屬性導(dǎo)出的詞語以在多次迭代中構(gòu)造說明(塊1004)。然后,根據(jù)語義關(guān)注模型來構(gòu)造說明,該語義關(guān)注模型被配置為基于與之前迭代中所預(yù)測的詞語的相關(guān)性來調(diào)整向用于多次迭代中的每次迭代的屬性所指配的權(quán)重(塊1004)。例如,如關(guān)于圖9討論的語義關(guān)注框架可以被用于根據(jù)一個(gè)或多個(gè)實(shí)施方式的圖像加說明。通過示例而非限制的方式,語義關(guān)注模型208可以關(guān)于rnn406進(jìn)行操作。備選地,可以采用用于語言建模和語句生成的其他迭代式技術(shù)。在任何情況下,語義關(guān)注框架供應(yīng)如本文所描述的關(guān)注權(quán)重906,關(guān)注權(quán)重906被用來控制說明生成模型內(nèi)的概率性分類。在每次迭代時(shí),使用關(guān)注權(quán)重906將模型聚焦于對于該迭代最相關(guān)的特定概念和屬性,詞語在用于說明的序列中被預(yù)測。關(guān)注權(quán)重906對于每一遍(pass)被重新評估并調(diào)節(jié)。

圖11是示圖,該示圖一般性地在1100處描繪了根據(jù)一個(gè)或多個(gè)實(shí)施方式的語義關(guān)注框架的細(xì)節(jié)。特別地,圖11表示利用了由φ表示的輸入關(guān)注模型1102和由表示的輸出關(guān)注模型1104這兩者的示例圖像加說明框架,其細(xì)節(jié)在下文被描述。在該框架中,屬性904針對圖像316被導(dǎo)出。另外,cnn402被用來導(dǎo)出由v表示的用于圖像316的視覺概念。與對應(yīng)屬性權(quán)重906耦合的屬性904被表示為屬性檢測{ai}。視覺概念v和屬性檢測{ai}被注入到rnn(虛線箭頭)中并且通過反饋908環(huán)路被融合在一起。在這一框架內(nèi),對屬性的關(guān)注由輸入關(guān)注模型1102(φ)和輸出關(guān)注模型這兩者來實(shí)施。

因此,自頂向下特征和自底向上特征這兩者從輸入圖像被獲得。在一種實(shí)施方式中,來自分類卷積神經(jīng)網(wǎng)絡(luò)(cnn)的中間過濾響應(yīng)被用來構(gòu)建由v標(biāo)示的全局視覺概念。另外,屬性檢測器集合操作為取得最可能出現(xiàn)在圖像中的視覺屬性列表{ai}。每個(gè)屬性ai對應(yīng)于詞匯集合或詞典y中的條目。

所有視覺概念和特征被饋送到用于說明生成的遞歸神經(jīng)網(wǎng)絡(luò)(rnn)中。因?yàn)閞nn中的隱藏狀態(tài)ht∈rn隨著時(shí)間t而演變,所以根據(jù)由狀態(tài)ht控制的概率向量pt∈r|y|從詞典y取出第t個(gè)詞語yt。所生成的詞語yt將在下次步驟中被反饋回到rnn中作為網(wǎng)絡(luò)輸入xt+1∈rm的一部分,這導(dǎo)出從ht至ht+1的狀態(tài)轉(zhuǎn)變。來自v和{ai}的視覺信息在生成xt和pt時(shí)充當(dāng)用于rnn的外部引導(dǎo),其由圖11中所表示的輸入模型和輸出模型φ和指定。

與之前的圖像加說明方法相對照,該框架使用反饋908回路利用并組合視覺信息的不同源。(多個(gè))cnn圖像概念v被使用作為初始輸入節(jié)點(diǎn)x0,其被期望向rnn給出圖像內(nèi)容的快速概覽。一旦rnn狀態(tài)被初始化以涵蓋整個(gè)視覺情境,rnn能夠針對后續(xù)時(shí)間步驟中的任務(wù)相關(guān)處理從{ai}選擇特定項(xiàng)目。具體地,該框架由以下等式來支配:

x0=φ0(v)=wx,vv

ht=f(xt,ht-1,)

xt=φ(yt-1,{ai}),t>0,

這里,線性嵌入模型被用于具有由wx,v指示的權(quán)重因數(shù)的初始輸入節(jié)點(diǎn)x0。輸入關(guān)注模型φ在t=0時(shí)被應(yīng)用到v以嵌入(多個(gè))全局概念。ht表示用于rnn的隱藏節(jié)點(diǎn)的狀態(tài),隱藏節(jié)點(diǎn)由如之前描述的激活函數(shù)f來支配。輸入關(guān)注模型φ和輸出關(guān)注模型被設(shè)計(jì)為基于當(dāng)前模型狀況自適應(yīng)地關(guān)注于{ai}中的某些認(rèn)知線索,以使得所提取的視覺信息將與已有詞語的解析和未來詞語的預(yù)測最相關(guān)。例如,如由表達(dá)式反映的,當(dāng)前詞語yt和概率分布pt取決于輸出模型和屬性權(quán)重。相似地,t=0之后的輸入由xt=φ(yt-1,{ai}),t>0來表達(dá),并且取決于輸入模型φ、之前迭代中所預(yù)測的詞語yt-1以及屬性{ai}。rnn遞歸地操作,并且如此,所關(guān)注的屬性被反饋回到狀態(tài)ht并與由v表示的全局信息相集成。

在用于t>0的輸入關(guān)注模型φ,分?jǐn)?shù)基于其與之前所預(yù)測的詞語yt-1的相關(guān)性被指配給每個(gè)所檢測的屬性ai。因?yàn)閥t-1和ai這兩者對應(yīng)于詞典y中的條目,所以它們能夠利用r|y|空間中的獨(dú)熱(one-hot)表示被編碼,我們將其分別標(biāo)示為yt-1和yi。作為向量空間中的模型相關(guān)性的通用方法,雙線性函數(shù)被用來評估特別地,其中指數(shù)被拿來以softmax方式對于全部{ai}歸一化。矩陣包含用于具有合理詞匯量的任何y的大量參數(shù)。為了減小參數(shù)尺寸,獨(dú)熱表示能夠被投射到低維語義詞語向量空間中(如上文關(guān)于圖7和圖8討論的)。

令詞語嵌入矩陣為e∈rdx|y|并且d<<|y|。然后,之前的雙線性函數(shù)變?yōu)?imgfile="bda0001148971160000234.gif"wi="626"he="101"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>其中u為dxd矩陣。一旦被計(jì)算,關(guān)注分?jǐn)?shù)被用來調(diào)整對不同屬性的關(guān)注的強(qiáng)度。所有屬性的加權(quán)和根據(jù)表達(dá)式連同之前詞語從詞語嵌入空間被映射到xt的輸入空間。這里,wx,y∈rm×d是投影矩陣,diag(w)標(biāo)示利用向量w構(gòu)造的對角矩陣,并且wx,a∈rd對視覺屬性在語義詞語向量空間中的每個(gè)維度中的相對重要性建模。

輸出關(guān)注模型與輸入關(guān)注模型類似地被設(shè)計(jì)。然而,不同的關(guān)注分?jǐn)?shù)集合被計(jì)算,因?yàn)樵趩蝹€(gè)語句的分析過程和合成過程期間可以以不同順序來關(guān)注視覺概念。換言之,被用于輸入模型和輸出模型的權(quán)重單獨(dú)地被計(jì)算并且具有不同值。利用對于預(yù)測由當(dāng)前狀態(tài)ht所捕獲的yt有用的所有信息,用于每個(gè)屬性ai的分?jǐn)?shù)關(guān)于ht被測量,其由表達(dá)式來捕獲。這里,v∈rn×d為雙線性參數(shù)矩陣。σ標(biāo)示將輸入節(jié)點(diǎn)連接到rnn中的隱藏狀態(tài)的激活函數(shù),其在這里被用來確保相同非線性變換在兩個(gè)特征向量被比較之前應(yīng)用到這兩個(gè)特征向量。

再次地,被用來調(diào)整對所有屬性的關(guān)注,并且對它們的激活的加權(quán)和在確定分布pt時(shí)被使用作為對ht的補(bǔ)充(compliment)。具體地,分布由線性變換來生成,線性變換之后為被表達(dá)為的softmax歸一化。在這一表達(dá)式中,wy,h∈rd×n為投影矩陣,并且wy,a∈rn對視覺屬性在rnn狀態(tài)空間的每個(gè)維度中的相對重要性建模。et項(xiàng)實(shí)施用于參數(shù)減少的轉(zhuǎn)置權(quán)重共享技巧。

用于每個(gè)圖像的訓(xùn)練數(shù)據(jù)包括輸入圖像特征v、{ai}以及輸出說明詞語序列{yt}。對于模型學(xué)習(xí),目標(biāo)是通過使對于訓(xùn)練集合的損耗函數(shù)最小化來學(xué)習(xí)所有的關(guān)注模型參數(shù)θa={u,v,w*,*,w*,*}連帶所有的rnn參數(shù)θr。一個(gè)訓(xùn)練示例的損耗被定義為與關(guān)注分?jǐn)?shù)上的正則化項(xiàng)相組合的全部詞語的總的負(fù)對數(shù)似然率,并且根據(jù)以下?lián)p耗函數(shù)來表達(dá):這里,α和β是關(guān)注分?jǐn)?shù)矩陣,并且它們的第(t;i)條目為權(quán)重正則化函數(shù)g被用來實(shí)施對{ai}中的每個(gè)屬性所給予的關(guān)注的完整性以及在任何特定時(shí)間步驟處的關(guān)注的稀疏性。這通過使得以下用于α的矩陣范數(shù)最小化來進(jìn)行(并且對于β也是一樣):具有p>1的第一項(xiàng)懲罰在整個(gè)語句上累積的對任何單個(gè)屬性ai所給予的過多關(guān)注,并且具有0<q<1的第二項(xiàng)懲罰在任何特定時(shí)間對多個(gè)屬性的轉(zhuǎn)移關(guān)注。具有自適應(yīng)學(xué)習(xí)速率的隨機(jī)梯度下降算法被用來優(yōu)化損耗函數(shù)。

已經(jīng)考慮了前述示例細(xì)節(jié)、過程、用戶接口以及示例,現(xiàn)在考慮包括能夠被用于本文所描述的圖像加說明技術(shù)的一個(gè)或多個(gè)實(shí)施方式的各種組件和設(shè)備的示例系統(tǒng)的討論。

示例系統(tǒng)和設(shè)備

圖12一般性地在1200處圖示了包括示例計(jì)算設(shè)備1202的示例系統(tǒng),示例計(jì)算設(shè)備1202表示可以實(shí)施本文所描述的各種技術(shù)的一個(gè)或多個(gè)計(jì)算系統(tǒng)和/或設(shè)備。這通過對圖像服務(wù)120的包括而被圖示,圖像服務(wù)120如上文所描述的進(jìn)行操作。計(jì)算設(shè)備1202例如可以為服務(wù)提供商的服務(wù)器、與客戶端相關(guān)聯(lián)的設(shè)備(例如,客戶端設(shè)備)、片上系統(tǒng)、和/或任何其他適合的計(jì)算設(shè)備或計(jì)算系統(tǒng)。

示例計(jì)算設(shè)備1202被圖示為包括處理系統(tǒng)1204、一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)1206、以及通信地被耦合到彼此的一個(gè)或多個(gè)i/o接口1208。雖然未示出,但是計(jì)算設(shè)備1202可以進(jìn)一步包括將各種組件耦合到彼此的系統(tǒng)總線或其他數(shù)據(jù)和命令傳送系統(tǒng)。系統(tǒng)總線能夠包括不同總線結(jié)構(gòu)(諸如存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線、通用串行總線、和/或利用各種總線架構(gòu)中的任何總線架構(gòu)的處理器或局部總線)的任何一個(gè)或組合。各種其他示例也被預(yù)想到,諸如控制和數(shù)據(jù)線路。

處理系統(tǒng)1204表示使用硬件執(zhí)行一個(gè)或多個(gè)操作的功能。因此,處理系統(tǒng)1204被圖示為包括硬件元件1210,硬件元件1210可以被配置作為處理器、功能塊,等等。這可以包括作為使用一個(gè)或多個(gè)半導(dǎo)體形成的專用集成電路或其他邏輯設(shè)備的硬件中的實(shí)施方式。硬件元件1210不被形成它們的材料或其中所采用的處理機(jī)制所限制。例如,處理器可以包括(多個(gè))半導(dǎo)體和/或晶體管(例如,電子集成電路(ic))。在這種情境中,處理器可執(zhí)行指令可以為電子可執(zhí)行指令。

計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)1206被圖示為包括存儲(chǔ)器/存儲(chǔ)裝置1212。存儲(chǔ)器/存儲(chǔ)裝置1212表示與一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)相關(guān)聯(lián)的存儲(chǔ)器/存儲(chǔ)容量。存儲(chǔ)器/存儲(chǔ)組件1212可以包括易失性介質(zhì)(諸如隨機(jī)存取存儲(chǔ)器(ram))和/或非易失性介質(zhì)(諸如只讀存儲(chǔ)器(rom)、閃存、光盤、磁盤,等等)。存儲(chǔ)器/存儲(chǔ)組件1212可以包括固定介質(zhì)(例如,ram、rom、固定硬驅(qū)動(dòng)器,等等)以及可移除介質(zhì)(例如,閃存、可移除硬驅(qū)動(dòng)器、光盤,等等)。計(jì)算機(jī)可讀介質(zhì)1206可以如下文進(jìn)一步描述的以各種其他方式被配置。

(多個(gè))輸入/輸出接口1208表示如下的功能:允許用戶向計(jì)算設(shè)備1202輸入命令和信息,并且還允許使用各種輸入/輸出設(shè)備向用戶和/或其他組件或設(shè)備呈現(xiàn)信息。輸入設(shè)備的示例包括鍵盤、光標(biāo)控制設(shè)備(例如,鼠標(biāo))、麥克風(fēng)、掃描儀、觸摸功能(例如,被配置為檢測物理觸摸的電容性傳感器或其他傳感器)、照相機(jī)(例如,其可以采用可視波長或不可視波長(諸如紅外頻率)來將移動(dòng)辨識為不涉及觸摸的手勢),等等。輸出設(shè)備的示例包括顯示設(shè)備(例如,監(jiān)視器或投影儀)、揚(yáng)聲器、打印機(jī)、網(wǎng)卡、觸覺響應(yīng)設(shè)備,等等。因此,計(jì)算設(shè)備1202可以如下文進(jìn)一步描述的以各種方式被配置為支持用戶交互。

在本文中可以在軟件、硬件元件、或程序模塊的一般情境中描述各種技術(shù)。一般而言,這種模塊包括執(zhí)行特定任務(wù)或?qū)嵤┨囟ǔ橄髷?shù)據(jù)類型的例程、程序、對象、元件、組件、數(shù)據(jù)結(jié)構(gòu),等等。如本文所使用的術(shù)語“模塊”、“功能”和“組件”一般表示軟件、固件、硬件、或它們的組合。本文所描述的技術(shù)的特征為獨(dú)立于平臺的,意味著技術(shù)可以被實(shí)施在具有各種處理器的各種商用計(jì)算平臺上。

所描述的模塊和技術(shù)的實(shí)施方式可以被存儲(chǔ)在某種形式的計(jì)算機(jī)可讀介質(zhì)上或者跨某種形式的計(jì)算機(jī)可讀介質(zhì)被傳輸。計(jì)算機(jī)可讀介質(zhì)可以包括可以由計(jì)算設(shè)備1202訪問的各種介質(zhì)。通過示例而非限制的方式,計(jì)算機(jī)可讀介質(zhì)可以包括“計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”和“計(jì)算機(jī)可讀信號介質(zhì)”。

“計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”指代與僅信號傳輸、載波或信號本身相對照使能信息的持久性和/或非瞬態(tài)存儲(chǔ)的介質(zhì)和/或設(shè)備。因此,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)不包括信號本身或信號承載介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括硬件,諸如以適合于存儲(chǔ)信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、邏輯元件/電路、或其他數(shù)據(jù))的方法或技術(shù)所實(shí)施的易失性和非易失性、可移除和不可移除介質(zhì)和/或存儲(chǔ)設(shè)備。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的示例可以包括但不限于ram、rom、eeprom、閃存或其他存儲(chǔ)器技術(shù)、cd-rom、數(shù)字化通用光盤(dvd)或其他光存儲(chǔ)裝置、硬盤、磁帶盒、磁帶、磁盤存儲(chǔ)裝置或其他磁存儲(chǔ)設(shè)備、或其他存儲(chǔ)設(shè)備、有形介質(zhì)、或適合于存儲(chǔ)期望信息且可以由計(jì)算機(jī)訪問的制品。

“計(jì)算機(jī)可讀信號介質(zhì)”指代被配置為諸如經(jīng)由網(wǎng)絡(luò)向計(jì)算設(shè)備1202的硬件傳輸指令的信號承載介質(zhì)。信號介質(zhì)通常可以具體化計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或調(diào)制的數(shù)據(jù)信號(諸如載波、數(shù)據(jù)信號、或其他傳送機(jī)制)中的其他數(shù)據(jù)。信號介質(zhì)還包括任何信息遞送介質(zhì)。術(shù)語“調(diào)制的數(shù)據(jù)信號”意指如下的信號,該信號使它的特性中的一個(gè)或多個(gè)特性以關(guān)于將信息編碼在該信號中的方式被設(shè)置或改變。通過示例而非限制的方式,通信介質(zhì)包括有線介質(zhì)(諸如,有線網(wǎng)絡(luò)或直接有線連接)和無線介質(zhì)(諸如,聲學(xué)、rf、紅外、以及其他無線介質(zhì))。

如之前所描述的,硬件元件1210和計(jì)算機(jī)可讀介質(zhì)1206表示以硬件形式實(shí)施的模塊、可編程設(shè)備邏輯、和/或固定設(shè)備邏輯,其可以在一些實(shí)施例中被用來實(shí)施本文所描述的技術(shù)的至少一些方面,諸如執(zhí)行一個(gè)或多個(gè)指令。硬件可以包括如下的組件:集成電路或片上系統(tǒng)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)、復(fù)雜可編程邏輯設(shè)備(cpld)、以及硅或其他硬件中的其他實(shí)施方式。在這一情境中,硬件可以操作為執(zhí)行由指令定義的程序任務(wù)和/或由硬件具體化的邏輯的處理設(shè)備、以及被用來存儲(chǔ)用于執(zhí)行的指令的硬件,例如,之前描述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

還可以采用前述的組合來實(shí)施本文所描述的各種技術(shù)。因此,軟件、硬件、或可執(zhí)行模塊可以被實(shí)施為在某種形式的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上和/或由一個(gè)或多個(gè)硬件元件1210具體化的一個(gè)或多個(gè)指令和/或邏輯。計(jì)算設(shè)備1202可以被配置為實(shí)施對應(yīng)于軟件模塊和/或硬件模塊的特定指令和/或功能。因此,由計(jì)算設(shè)備1202作為軟件可執(zhí)行的模塊的實(shí)施方式例如可以通過使用處理系統(tǒng)1204的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和/或硬件元件1210來至少部分地實(shí)現(xiàn)。指令和/或功能可以由一個(gè)或多個(gè)制品(例如,一個(gè)或多個(gè)計(jì)算設(shè)備1202和/或處理系統(tǒng)1204)可執(zhí)行/可操作來實(shí)施本文所描述的技術(shù)、模塊和示例。

本文所描述的技術(shù)可以由各種配置的計(jì)算設(shè)備1202來支持,并且不限于本文所描述的技術(shù)的具體示例。這種功能還可以全部或部分通過經(jīng)由如下文所描述的平臺1216使用諸如“云”1214上的分布式系統(tǒng)而被實(shí)施。

云1214包括和/或表示用于資源1218的平臺1216。平臺1216使云1214的硬件(例如,服務(wù)器)和軟件資源的底層功能抽象化。資源1218可以包括能夠在遠(yuǎn)離計(jì)算設(shè)備1202的服務(wù)器上執(zhí)行計(jì)算機(jī)處理的同時(shí)被利用的應(yīng)用和/或數(shù)據(jù)。資源1218還可以包括通過互聯(lián)網(wǎng)和/或透過訂戶網(wǎng)絡(luò)(諸如,蜂窩或wi-fi網(wǎng)絡(luò))提供的服務(wù)。

平臺1216可以使資源和功能抽象化以將計(jì)算設(shè)備1202與其他計(jì)算設(shè)備相連接。平臺1216還可以用來使資源的縮放抽象化,以提供對經(jīng)由平臺1216實(shí)施的資源1218的所遇到需求的對應(yīng)縮放水平。因此,在互連設(shè)備實(shí)施例中,本文所描述的功能的實(shí)施方式可以貫穿系統(tǒng)1200被分布。例如,功能可以部分地在計(jì)算設(shè)備1202上并且經(jīng)由使云1214的功能抽象化的平臺1216而被實(shí)施。

總結(jié)

雖然已經(jīng)以特定于結(jié)構(gòu)特征和/或方法行為的語言描述了技術(shù),但是將被理解的是,所附權(quán)利要求中所定義的主題不必然限于所描述的具體特征或行為。確切地說,具體特征和行為被公開作為實(shí)施所要求保護(hù)的主題的示例形式。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
莲花县| 兴安盟| 四川省| 沙坪坝区| 镇康县| 澄城县| 诏安县| 从江县| 宁夏| 平遥县| 新密市| 开化县| 宝鸡市| 泗阳县| 宝丰县| 栾川县| 丹东市| 锡林浩特市| 福清市| 霍邱县| 抚松县| 格尔木市| 万宁市| 清河县| 曲松县| 邯郸市| 义乌市| 安岳县| 吐鲁番市| 四子王旗| 巴东县| 西贡区| 本溪市| 革吉县| 奇台县| 香格里拉县| 澎湖县| 婺源县| 乐都县| 古交市| 沂南县|