本申請(qǐng)涉及自然語(yǔ)言處理,特別涉及一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,從圖像中提取信息并進(jìn)行分析,進(jìn)而應(yīng)用于行業(yè)的管理和運(yùn)營(yíng)中來(lái)提升運(yùn)營(yíng)效率和服務(wù)質(zhì)量成為了一種重要的技術(shù)手段。
2、目前,依靠圖像識(shí)別或目標(biāo)檢測(cè)模型難以從圖像中獲取更加豐富的信息,對(duì)于不斷變化的場(chǎng)景,感知能力較弱,無(wú)法為用戶提供更好的場(chǎng)景理解信息,從而影響用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)的目的在于提供一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì),能夠提升對(duì)場(chǎng)景的感知能力,生成更為準(zhǔn)確的場(chǎng)景理解信息,從而提升用戶體驗(yàn)。其具體方案如下:
2、第一方面,本申請(qǐng)公開(kāi)了一種場(chǎng)景理解信息生成方法,包括:
3、將圖像輸入場(chǎng)景分類(lèi)模型,得到所述場(chǎng)景分類(lèi)模型輸出的所述圖像對(duì)應(yīng)的場(chǎng)景類(lèi)型;
4、利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象,得到目標(biāo)對(duì)象信息,其中,所述目標(biāo)對(duì)象信息包括目標(biāo)類(lèi)型以及位置信息,所述目標(biāo)類(lèi)型包括物體和人員;
5、基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息;
6、將所述場(chǎng)景類(lèi)型、所述目標(biāo)對(duì)象信息、所述目標(biāo)屬性信息作為上下文信息,并基于所述上下文信息與用戶輸入文本確定模型輸入信息;
7、將所述模型輸入信息輸入自然語(yǔ)言處理模型,以使所述自然語(yǔ)言處理模型基于所述上下文信息的提示生成所述圖像對(duì)應(yīng)的場(chǎng)景理解信息。
8、可選的,所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息,包括:
9、基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域;
10、利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息。
11、可選的,所述基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域,包括:
12、基于人員的位置信息確定截取范圍;
13、基于所述截取范圍從所述圖像中截取包含人員的圖像區(qū)域,其中,所述圖像區(qū)域包括人員區(qū)域和部分背景區(qū)域。
14、可選的,所述利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息,包括:
15、基于人員的位置信息為所述圖像區(qū)域分配加權(quán)權(quán)重,其中,所述人員區(qū)域的加權(quán)權(quán)重高于所述部分背景區(qū)域的加權(quán)權(quán)重;
16、利用所述加權(quán)權(quán)重對(duì)所述圖像區(qū)域進(jìn)行加權(quán),得到加權(quán)圖像;
17、將所述加權(quán)圖像輸入所述人員屬性識(shí)別模型,得到所述加權(quán)圖像中人員的目標(biāo)屬性信息。
18、可選的,所述目標(biāo)檢測(cè)模型為基于圖像訓(xùn)練樣本集訓(xùn)練得到,所述圖像訓(xùn)練樣本集的標(biāo)簽信息包括目標(biāo)對(duì)象的目標(biāo)類(lèi)型和位置信息,并且,在訓(xùn)練過(guò)程中,訓(xùn)練損失基于指定目標(biāo)對(duì)象對(duì)應(yīng)的加權(quán)值對(duì)類(lèi)別損失加權(quán)計(jì)算得到。
19、可選的,所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息,包括:
20、利用所述人員屬性識(shí)別模型中的卷積模塊提取所述圖像中的圖像特征,以及利用所述人員屬性識(shí)別模型中的關(guān)鍵點(diǎn)檢測(cè)模塊提取所述圖像中的關(guān)鍵點(diǎn)特征;
21、基于所述圖像特征以及所述關(guān)鍵點(diǎn)特征確定所述圖像中人員的目標(biāo)屬性信息。
22、可選的,所述利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象,得到目標(biāo)對(duì)象信息,包括:
23、利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中目標(biāo)對(duì)象的類(lèi)型信息,并基于所述場(chǎng)景類(lèi)型調(diào)整所述類(lèi)型信息對(duì)應(yīng)的置信度,基于所述置信度確定所述目標(biāo)對(duì)象的目標(biāo)類(lèi)型。
24、通過(guò)以上方案可知,本發(fā)明提供了一種場(chǎng)景理解信息生成方法,包括:將圖像輸入場(chǎng)景分類(lèi)模型,得到所述場(chǎng)景分類(lèi)模型輸出的所述圖像對(duì)應(yīng)的場(chǎng)景類(lèi)型;利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象,得到目標(biāo)對(duì)象信息,其中,所述目標(biāo)對(duì)象信息包括目標(biāo)類(lèi)型以及位置信息,所述目標(biāo)類(lèi)型包括物體和人員;基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息;將所述場(chǎng)景類(lèi)型、所述目標(biāo)對(duì)象信息、所述目標(biāo)屬性信息作為上下文信息,并基于所述上下文信息與用戶輸入文本確定模型輸入信息;將所述模型輸入信息輸入自然語(yǔ)言處理模型,以使所述自然語(yǔ)言處理模型基于所述上下文信息的提示生成所述圖像對(duì)應(yīng)的場(chǎng)景理解信息。
25、可見(jiàn),本申請(qǐng)的有益效果為:對(duì)圖像進(jìn)行場(chǎng)景分類(lèi)、目標(biāo)檢測(cè)以及人員屬性識(shí)別,得到場(chǎng)景類(lèi)型、目標(biāo)對(duì)象信息以及人員屬性信息,作為上下文信息,上下文信息包含豐富的圖像信息,能夠提示自然語(yǔ)言處理模型更準(zhǔn)確的理解圖像的場(chǎng)景,提升了對(duì)場(chǎng)景的感知能力,生成更為準(zhǔn)確的場(chǎng)景理解信息,從而提升用戶體驗(yàn)。
26、相應(yīng)地,本申請(qǐng)?zhí)峁┑囊环N場(chǎng)景理解信息生成裝置、設(shè)備及可讀存儲(chǔ)介質(zhì),也同樣具有上述技術(shù)效果。
1.一種場(chǎng)景理解信息生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法,其特征在于,所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息,包括:
3.根據(jù)權(quán)利要求2所述的場(chǎng)景理解信息生成方法,其特征在于,所述基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域,包括:
4.根據(jù)權(quán)利要求3所述的場(chǎng)景理解信息生成方法,其特征在于,所述利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息,包括:
5.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法,其特征在于,所述目標(biāo)檢測(cè)模型為基于圖像訓(xùn)練樣本集訓(xùn)練得到,所述圖像訓(xùn)練樣本集的標(biāo)簽信息包括目標(biāo)對(duì)象的目標(biāo)類(lèi)型和位置信息,并且,在訓(xùn)練過(guò)程中,訓(xùn)練損失基于指定目標(biāo)對(duì)象對(duì)應(yīng)的加權(quán)值對(duì)類(lèi)別損失加權(quán)計(jì)算得到。
6.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法,其特征在于,所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息,包括:
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的場(chǎng)景理解信息生成方法,其特征在于,所述利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象,得到目標(biāo)對(duì)象信息,包括:
8.一種場(chǎng)景理解信息生成裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,其中:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于保存計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的場(chǎng)景理解信息生成方法。