視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào)：40616845發(fā)布日期：2025-01-10 18:22閱讀：3來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

本申請(qǐng)涉及人工智能?，尤其涉及一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、隨著人工智能技術(shù)的發(fā)展，利用大語(yǔ)言模型進(jìn)行視頻分析的方法已逐步得到推廣。

2、在一些相關(guān)技術(shù)中，可直接利用視覺(jué)編碼器從原始視頻中提取得到全局圖像特征序列，并將全局圖像特征序列映射到大語(yǔ)言模型的語(yǔ)義空間，得到大語(yǔ)言模型輸出的視頻描述文本。

3、但是，現(xiàn)有的視頻分析方法僅能提取視頻的全局圖像特征，而難以提取視頻的局部圖像特征，因此，在僅需描述視頻中的特定目標(biāo)的場(chǎng)景下，現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述，無(wú)法聚焦用戶感興趣的內(nèi)容。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品，用以解決現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述，無(wú)法聚焦用戶感興趣的內(nèi)容的技術(shù)問(wèn)題。

2、第一方面，本申請(qǐng)實(shí)施例提供一種視頻分析方法，包括：獲取目標(biāo)視頻序列和用戶的文本提示詞；目標(biāo)視頻序列包括多個(gè)圖像，每一圖像均包含用戶選擇的待分析目標(biāo)；對(duì)目標(biāo)視頻序列進(jìn)行特征提取，獲得目標(biāo)視頻序列的視覺(jué)特征；對(duì)文本提示詞進(jìn)行特征提取，獲得文本提示詞的文本特征；將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

3、在一個(gè)實(shí)施例中，對(duì)目標(biāo)視頻序列進(jìn)行特征提取，獲得目標(biāo)視頻序列的視覺(jué)特征，包括：確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征；首幀圖像為目標(biāo)視頻序列的第一幀圖像；將首幀圖像的下一幀圖像作為當(dāng)前幀圖像；基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼，確定當(dāng)前幀圖像的深度特征；基于當(dāng)前幀圖像的深度特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征，確定當(dāng)前幀圖像的編碼特征；將當(dāng)前幀圖像的編碼特征輸入至掩碼解碼網(wǎng)絡(luò)，獲得掩碼解碼網(wǎng)絡(luò)輸出的當(dāng)前幀圖像的目標(biāo)掩碼；基于當(dāng)前幀圖像的編碼特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征，確定當(dāng)前幀圖像的視頻歷史特征；將當(dāng)前幀圖像的下一幀圖像作為當(dāng)前幀圖像，返回基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼，確定當(dāng)前幀圖像的深度特征的步驟，直至獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征；將目標(biāo)視頻序列中最后一幀圖像的視頻歷史特征，作為目標(biāo)視頻序列的視覺(jué)特征。

4、在一個(gè)實(shí)施例中，確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征，包括：確定用戶的交互信息；?將首幀圖像和交互信息輸入至分割模型，獲得分割模型輸出的首幀圖像的目標(biāo)掩碼；對(duì)首幀圖像和首幀圖像的目標(biāo)掩碼進(jìn)行拼接處理，獲得拼接圖像；基于視覺(jué)特征提取網(wǎng)絡(luò)，對(duì)拼接圖像進(jìn)行特征提取處理，獲得首幀圖像的深度特征和首幀圖像的視頻歷史特征；提取首幀圖像的編碼特征。

5、在一個(gè)實(shí)施例中，獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后，還包括：基于每一圖像的目標(biāo)掩碼，分別對(duì)每一圖像進(jìn)行目標(biāo)分割，獲得每一圖像的目標(biāo)分割結(jié)果；向用戶返回每一圖像的目標(biāo)分割結(jié)果。

6、在一個(gè)實(shí)施例中，獲取目標(biāo)視頻序列和用戶的文本提示詞，包括：獲取初始視頻；響應(yīng)于用戶的交互信息，基于交互信息，確定初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng)；基于初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng)，確定目標(biāo)視頻序列；獲取用戶的文本提示詞。

7、在一個(gè)實(shí)施例中，將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本，包括：對(duì)視覺(jué)特征進(jìn)行維度調(diào)整處理，以使視覺(jué)特征與文本特征具有相同的特征維度；將經(jīng)過(guò)維度調(diào)整處理的視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

8、第二方面，本申請(qǐng)實(shí)施例提供一種視頻分析裝置，包括：獲取模塊，用于獲取目標(biāo)視頻序列和用戶的文本提示詞；目標(biāo)視頻序列包括多個(gè)圖像，每一圖像均包含用戶選擇的待分析目標(biāo)；視覺(jué)特征提取模塊，用于對(duì)目標(biāo)視頻序列進(jìn)行特征提取，獲得目標(biāo)視頻序列的視覺(jué)特征；文本特征提取模塊，用于對(duì)文本提示詞進(jìn)行特征提取，獲得文本提示詞的文本特征；分析模塊，用于將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

9、第三方面，本申請(qǐng)實(shí)施例提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

10、第四方面，本申請(qǐng)實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

11、第五方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

12、本申請(qǐng)實(shí)施例提供的視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品，獲取目標(biāo)視頻序列和用戶的文本提示詞；目標(biāo)視頻序列包括多個(gè)圖像，每一圖像均包含用戶選擇的待分析目標(biāo)；對(duì)目標(biāo)視頻序列進(jìn)行特征提取，獲得目標(biāo)視頻序列的視覺(jué)特征；對(duì)文本提示詞進(jìn)行特征提取，獲得文本提示詞的文本特征；將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。通過(guò)上述方式，允許用戶自行選擇待分析目標(biāo)，對(duì)包含用戶選擇的待分析目標(biāo)的目標(biāo)視頻序列進(jìn)行特征提取，獲得視覺(jué)特征，再對(duì)用戶的文本提示詞進(jìn)行特征提取，獲得文本特征，利用大語(yǔ)言模型對(duì)視覺(jué)特征和文本特征進(jìn)行分析，可獲得待分析目標(biāo)的描述文本，從而可完成對(duì)視頻中特定目標(biāo)的分析和描述，聚焦用戶感興趣的內(nèi)容。

技術(shù)特征：

1.一種視頻分析方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的視頻分析方法，其特征在于，所述對(duì)所述目標(biāo)視頻序列進(jìn)行特征提取，獲得所述目標(biāo)視頻序列的視覺(jué)特征，包括：

3.根據(jù)權(quán)利要求2所述的視頻分析方法，其特征在于，所述確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征，包括：

4.根據(jù)權(quán)利要求2所述的視頻分析方法，其特征在于，所述獲得所述目標(biāo)視頻序列中每一所述圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后，還包括：

5.根據(jù)權(quán)利要求1所述的視頻分析方法，其特征在于，所述獲取目標(biāo)視頻序列和用戶的文本提示詞，包括：

6.根據(jù)權(quán)利要求1所述的視頻分析方法，其特征在于，?所述將所述視覺(jué)特征和所述文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得所述大語(yǔ)言模型輸出的所述待分析目標(biāo)的描述文本，包括：

7.一種視頻分析裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。

技術(shù)總結(jié)
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域，提供一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。方法包括：獲取目標(biāo)視頻序列和用戶的文本提示詞；目標(biāo)視頻序列包括多個(gè)圖像，每一圖像均包含用戶選擇的待分析目標(biāo)；對(duì)目標(biāo)視頻序列進(jìn)行特征提取，獲得目標(biāo)視頻序列的視覺(jué)特征；對(duì)文本提示詞進(jìn)行特征提取，獲得文本提示詞的文本特征；將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中，獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。通過(guò)上述方式，可完成對(duì)視頻中特定目標(biāo)的分析和描述，聚焦用戶感興趣的內(nèi)容。

技術(shù)研發(fā)人員：張健,付濤,吳紫澗
受保護(hù)的技術(shù)使用者：中移（杭州）信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張健,付濤,吳紫澗
技術(shù)所有人：中移（杭州）信息技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種玻璃幕墻連接裝置的制作方法
上一篇：一種食品添加劑自動(dòng)干燥設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程