欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào):40616845發(fā)布日期:2025-01-10 18:22閱讀:3來(lái)源:國(guó)知局
視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

本申請(qǐng)涉及人工智能?,尤其涉及一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、隨著人工智能技術(shù)的發(fā)展,利用大語(yǔ)言模型進(jìn)行視頻分析的方法已逐步得到推廣。

2、在一些相關(guān)技術(shù)中,可直接利用視覺(jué)編碼器從原始視頻中提取得到全局圖像特征序列,并將全局圖像特征序列映射到大語(yǔ)言模型的語(yǔ)義空間,得到大語(yǔ)言模型輸出的視頻描述文本。

3、但是,現(xiàn)有的視頻分析方法僅能提取視頻的全局圖像特征,而難以提取視頻的局部圖像特征,因此,在僅需描述視頻中的特定目標(biāo)的場(chǎng)景下,現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無(wú)法聚焦用戶感興趣的內(nèi)容。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無(wú)法聚焦用戶感興趣的內(nèi)容的技術(shù)問(wèn)題。

2、第一方面,本申請(qǐng)實(shí)施例提供一種視頻分析方法,包括:獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

3、在一個(gè)實(shí)施例中,對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征,包括:確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征;首幀圖像為目標(biāo)視頻序列的第一幀圖像;將首幀圖像的下一幀圖像作為當(dāng)前幀圖像;基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼,確定當(dāng)前幀圖像的深度特征;基于當(dāng)前幀圖像的深度特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征,確定當(dāng)前幀圖像的編碼特征;將當(dāng)前幀圖像的編碼特征輸入至掩碼解碼網(wǎng)絡(luò),獲得掩碼解碼網(wǎng)絡(luò)輸出的當(dāng)前幀圖像的目標(biāo)掩碼;基于當(dāng)前幀圖像的編碼特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征,確定當(dāng)前幀圖像的視頻歷史特征;將當(dāng)前幀圖像的下一幀圖像作為當(dāng)前幀圖像,返回基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼,確定當(dāng)前幀圖像的深度特征的步驟,直至獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征;將目標(biāo)視頻序列中最后一幀圖像的視頻歷史特征,作為目標(biāo)視頻序列的視覺(jué)特征。

4、在一個(gè)實(shí)施例中,確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征,包括:確定用戶的交互信息;?將首幀圖像和交互信息輸入至分割模型,獲得分割模型輸出的首幀圖像的目標(biāo)掩碼;對(duì)首幀圖像和首幀圖像的目標(biāo)掩碼進(jìn)行拼接處理,獲得拼接圖像;基于視覺(jué)特征提取網(wǎng)絡(luò),對(duì)拼接圖像進(jìn)行特征提取處理,獲得首幀圖像的深度特征和首幀圖像的視頻歷史特征;提取首幀圖像的編碼特征。

5、在一個(gè)實(shí)施例中,獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后,還包括:基于每一圖像的目標(biāo)掩碼,分別對(duì)每一圖像進(jìn)行目標(biāo)分割,獲得每一圖像的目標(biāo)分割結(jié)果;向用戶返回每一圖像的目標(biāo)分割結(jié)果。

6、在一個(gè)實(shí)施例中,獲取目標(biāo)視頻序列和用戶的文本提示詞,包括:獲取初始視頻;響應(yīng)于用戶的交互信息,基于交互信息,確定初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng);基于初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng),確定目標(biāo)視頻序列;獲取用戶的文本提示詞。

7、在一個(gè)實(shí)施例中,將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本,包括:對(duì)視覺(jué)特征進(jìn)行維度調(diào)整處理,以使視覺(jué)特征與文本特征具有相同的特征維度;將經(jīng)過(guò)維度調(diào)整處理的視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

8、第二方面,本申請(qǐng)實(shí)施例提供一種視頻分析裝置,包括:獲取模塊,用于獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);視覺(jué)特征提取模塊,用于對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;文本特征提取模塊,用于對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;分析模塊,用于將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。

9、第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

10、第四方面,本申請(qǐng)實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

11、第五方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。

12、本申請(qǐng)實(shí)施例提供的視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。通過(guò)上述方式,允許用戶自行選擇待分析目標(biāo),對(duì)包含用戶選擇的待分析目標(biāo)的目標(biāo)視頻序列進(jìn)行特征提取,獲得視覺(jué)特征,再對(duì)用戶的文本提示詞進(jìn)行特征提取,獲得文本特征,利用大語(yǔ)言模型對(duì)視覺(jué)特征和文本特征進(jìn)行分析,可獲得待分析目標(biāo)的描述文本,從而可完成對(duì)視頻中特定目標(biāo)的分析和描述,聚焦用戶感興趣的內(nèi)容。



技術(shù)特征:

1.一種視頻分析方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,所述對(duì)所述目標(biāo)視頻序列進(jìn)行特征提取,獲得所述目標(biāo)視頻序列的視覺(jué)特征,包括:

3.根據(jù)權(quán)利要求2所述的視頻分析方法,其特征在于,所述確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征,包括:

4.根據(jù)權(quán)利要求2所述的視頻分析方法,其特征在于,所述獲得所述目標(biāo)視頻序列中每一所述圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后,還包括:

5.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,所述獲取目標(biāo)視頻序列和用戶的文本提示詞,包括:

6.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,?所述將所述視覺(jué)特征和所述文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得所述大語(yǔ)言模型輸出的所述待分析目標(biāo)的描述文本,包括:

7.一種視頻分析裝置,其特征在于,包括:

8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。


技術(shù)總結(jié)
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,提供一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。方法包括:獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。通過(guò)上述方式,可完成對(duì)視頻中特定目標(biāo)的分析和描述,聚焦用戶感興趣的內(nèi)容。

技術(shù)研發(fā)人員:張健,付濤,吳紫澗
受保護(hù)的技術(shù)使用者:中移(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
蓬安县| 章丘市| 琼结县| 明星| 潼南县| 景谷| 台江县| 石台县| 庆云县| 沁阳市| 林甸县| 平乡县| 工布江达县| 达孜县| 新安县| 乌兰县| 德安县| 班玛县| 台北县| 吕梁市| 滕州市| 丹棱县| 金寨县| 永修县| 新营市| 渭源县| 武冈市| 大关县| 郸城县| 柘城县| 修水县| 无为县| 景德镇市| 寿阳县| 什邡市| 台东县| 确山县| 兴和县| 沾化县| 南乐县| 额济纳旗|