一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40581701發(fā)布日期：2025-01-07 20:21閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)與流程

本申請(qǐng)涉及自然語(yǔ)言處理，特別涉及一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的發(fā)展，從圖像中提取信息并進(jìn)行分析，進(jìn)而應(yīng)用于行業(yè)的管理和運(yùn)營(yíng)中來(lái)提升運(yùn)營(yíng)效率和服務(wù)質(zhì)量成為了一種重要的技術(shù)手段。

2、目前，依靠圖像識(shí)別或目標(biāo)檢測(cè)模型難以從圖像中獲取更加豐富的信息，對(duì)于不斷變化的場(chǎng)景，感知能力較弱，無(wú)法為用戶提供更好的場(chǎng)景理解信息，從而影響用戶體驗(yàn)。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本申請(qǐng)的目的在于提供一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)，能夠提升對(duì)場(chǎng)景的感知能力，生成更為準(zhǔn)確的場(chǎng)景理解信息，從而提升用戶體驗(yàn)。其具體方案如下：

2、第一方面，本申請(qǐng)公開(kāi)了一種場(chǎng)景理解信息生成方法，包括：

3、將圖像輸入場(chǎng)景分類(lèi)模型，得到所述場(chǎng)景分類(lèi)模型輸出的所述圖像對(duì)應(yīng)的場(chǎng)景類(lèi)型；

4、利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象，得到目標(biāo)對(duì)象信息，其中，所述目標(biāo)對(duì)象信息包括目標(biāo)類(lèi)型以及位置信息，所述目標(biāo)類(lèi)型包括物體和人員；

5、基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息；

6、將所述場(chǎng)景類(lèi)型、所述目標(biāo)對(duì)象信息、所述目標(biāo)屬性信息作為上下文信息，并基于所述上下文信息與用戶輸入文本確定模型輸入信息；

7、將所述模型輸入信息輸入自然語(yǔ)言處理模型，以使所述自然語(yǔ)言處理模型基于所述上下文信息的提示生成所述圖像對(duì)應(yīng)的場(chǎng)景理解信息。

8、可選的，所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息，包括：

9、基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域；

10、利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息。

11、可選的，所述基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域，包括：

12、基于人員的位置信息確定截取范圍；

13、基于所述截取范圍從所述圖像中截取包含人員的圖像區(qū)域，其中，所述圖像區(qū)域包括人員區(qū)域和部分背景區(qū)域。

14、可選的，所述利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息，包括：

15、基于人員的位置信息為所述圖像區(qū)域分配加權(quán)權(quán)重，其中，所述人員區(qū)域的加權(quán)權(quán)重高于所述部分背景區(qū)域的加權(quán)權(quán)重；

16、利用所述加權(quán)權(quán)重對(duì)所述圖像區(qū)域進(jìn)行加權(quán)，得到加權(quán)圖像；

17、將所述加權(quán)圖像輸入所述人員屬性識(shí)別模型，得到所述加權(quán)圖像中人員的目標(biāo)屬性信息。

18、可選的，所述目標(biāo)檢測(cè)模型為基于圖像訓(xùn)練樣本集訓(xùn)練得到，所述圖像訓(xùn)練樣本集的標(biāo)簽信息包括目標(biāo)對(duì)象的目標(biāo)類(lèi)型和位置信息，并且，在訓(xùn)練過(guò)程中，訓(xùn)練損失基于指定目標(biāo)對(duì)象對(duì)應(yīng)的加權(quán)值對(duì)類(lèi)別損失加權(quán)計(jì)算得到。

19、可選的，所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息，包括：

20、利用所述人員屬性識(shí)別模型中的卷積模塊提取所述圖像中的圖像特征，以及利用所述人員屬性識(shí)別模型中的關(guān)鍵點(diǎn)檢測(cè)模塊提取所述圖像中的關(guān)鍵點(diǎn)特征；

21、基于所述圖像特征以及所述關(guān)鍵點(diǎn)特征確定所述圖像中人員的目標(biāo)屬性信息。

22、可選的，所述利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象，得到目標(biāo)對(duì)象信息，包括：

23、利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中目標(biāo)對(duì)象的類(lèi)型信息，并基于所述場(chǎng)景類(lèi)型調(diào)整所述類(lèi)型信息對(duì)應(yīng)的置信度，基于所述置信度確定所述目標(biāo)對(duì)象的目標(biāo)類(lèi)型。

24、通過(guò)以上方案可知，本發(fā)明提供了一種場(chǎng)景理解信息生成方法，包括：將圖像輸入場(chǎng)景分類(lèi)模型，得到所述場(chǎng)景分類(lèi)模型輸出的所述圖像對(duì)應(yīng)的場(chǎng)景類(lèi)型；利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象，得到目標(biāo)對(duì)象信息，其中，所述目標(biāo)對(duì)象信息包括目標(biāo)類(lèi)型以及位置信息，所述目標(biāo)類(lèi)型包括物體和人員；基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息；將所述場(chǎng)景類(lèi)型、所述目標(biāo)對(duì)象信息、所述目標(biāo)屬性信息作為上下文信息，并基于所述上下文信息與用戶輸入文本確定模型輸入信息；將所述模型輸入信息輸入自然語(yǔ)言處理模型，以使所述自然語(yǔ)言處理模型基于所述上下文信息的提示生成所述圖像對(duì)應(yīng)的場(chǎng)景理解信息。

25、可見(jiàn)，本申請(qǐng)的有益效果為：對(duì)圖像進(jìn)行場(chǎng)景分類(lèi)、目標(biāo)檢測(cè)以及人員屬性識(shí)別，得到場(chǎng)景類(lèi)型、目標(biāo)對(duì)象信息以及人員屬性信息，作為上下文信息，上下文信息包含豐富的圖像信息，能夠提示自然語(yǔ)言處理模型更準(zhǔn)確的理解圖像的場(chǎng)景，提升了對(duì)場(chǎng)景的感知能力，生成更為準(zhǔn)確的場(chǎng)景理解信息，從而提升用戶體驗(yàn)。

26、相應(yīng)地，本申請(qǐng)?zhí)峁┑囊环N場(chǎng)景理解信息生成裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)，也同樣具有上述技術(shù)效果。

技術(shù)特征：

1.一種場(chǎng)景理解信息生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法，其特征在于，所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息，包括：

3.根據(jù)權(quán)利要求2所述的場(chǎng)景理解信息生成方法，其特征在于，所述基于所述目標(biāo)對(duì)象信息從所述圖像中截取包含人員的圖像區(qū)域，包括：

4.根據(jù)權(quán)利要求3所述的場(chǎng)景理解信息生成方法，其特征在于，所述利用人員屬性識(shí)別模型識(shí)別所述圖像區(qū)域中人員的目標(biāo)屬性信息，包括：

5.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法，其特征在于，所述目標(biāo)檢測(cè)模型為基于圖像訓(xùn)練樣本集訓(xùn)練得到，所述圖像訓(xùn)練樣本集的標(biāo)簽信息包括目標(biāo)對(duì)象的目標(biāo)類(lèi)型和位置信息，并且，在訓(xùn)練過(guò)程中，訓(xùn)練損失基于指定目標(biāo)對(duì)象對(duì)應(yīng)的加權(quán)值對(duì)類(lèi)別損失加權(quán)計(jì)算得到。

6.根據(jù)權(quán)利要求1所述的場(chǎng)景理解信息生成方法，其特征在于，所述基于人員屬性識(shí)別模型識(shí)別所述圖像中人員的目標(biāo)屬性信息，包括：

7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的場(chǎng)景理解信息生成方法，其特征在于，所述利用目標(biāo)檢測(cè)模型識(shí)別所述圖像中的目標(biāo)對(duì)象，得到目標(biāo)對(duì)象信息，包括：

8.一種場(chǎng)景理解信息生成裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括存儲(chǔ)器和處理器，其中：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，用于保存計(jì)算機(jī)程序，其中，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的場(chǎng)景理解信息生成方法。

技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)，包括：將圖像輸入場(chǎng)景分類(lèi)模型，得到場(chǎng)景分類(lèi)模型輸出的圖像對(duì)應(yīng)的場(chǎng)景類(lèi)型；利用目標(biāo)檢測(cè)模型識(shí)別圖像中的目標(biāo)對(duì)象，得到目標(biāo)對(duì)象信息，其中，目標(biāo)對(duì)象信息包括目標(biāo)類(lèi)型以及位置信息，目標(biāo)類(lèi)型包括物體和人員；基于人員屬性識(shí)別模型識(shí)別圖像中人員的目標(biāo)屬性信息；將場(chǎng)景類(lèi)型、目標(biāo)對(duì)象信息、目標(biāo)屬性信息作為上下文信息，并基于上下文信息與用戶輸入文本確定模型輸入信息；將模型輸入信息輸入自然語(yǔ)言處理模型，以使自然語(yǔ)言處理模型基于上下文信息的提示生成圖像對(duì)應(yīng)的場(chǎng)景理解信息。這樣，提升了對(duì)場(chǎng)景的感知能力，生成更為準(zhǔn)確的場(chǎng)景理解信息，從而提升用戶體驗(yàn)。

技術(shù)研發(fā)人員：丁梓豪,張海,童承浩,周子賢
受保護(hù)的技術(shù)使用者：蘇州萬(wàn)店掌網(wǎng)絡(luò)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丁梓豪,張海,童承浩,周子賢
技術(shù)所有人：蘇州萬(wàn)店掌網(wǎng)絡(luò)科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)與流程

一種場(chǎng)景理解信息生成方法、裝置、設(shè)備及介質(zhì)與流程