本申請(qǐng)涉及人工智能?,尤其涉及一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,利用大語(yǔ)言模型進(jìn)行視頻分析的方法已逐步得到推廣。
2、在一些相關(guān)技術(shù)中,可直接利用視覺(jué)編碼器從原始視頻中提取得到全局圖像特征序列,并將全局圖像特征序列映射到大語(yǔ)言模型的語(yǔ)義空間,得到大語(yǔ)言模型輸出的視頻描述文本。
3、但是,現(xiàn)有的視頻分析方法僅能提取視頻的全局圖像特征,而難以提取視頻的局部圖像特征,因此,在僅需描述視頻中的特定目標(biāo)的場(chǎng)景下,現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無(wú)法聚焦用戶感興趣的內(nèi)容。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有的視頻分析方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無(wú)法聚焦用戶感興趣的內(nèi)容的技術(shù)問(wèn)題。
2、第一方面,本申請(qǐng)實(shí)施例提供一種視頻分析方法,包括:獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。
3、在一個(gè)實(shí)施例中,對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征,包括:確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征;首幀圖像為目標(biāo)視頻序列的第一幀圖像;將首幀圖像的下一幀圖像作為當(dāng)前幀圖像;基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼,確定當(dāng)前幀圖像的深度特征;基于當(dāng)前幀圖像的深度特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征,確定當(dāng)前幀圖像的編碼特征;將當(dāng)前幀圖像的編碼特征輸入至掩碼解碼網(wǎng)絡(luò),獲得掩碼解碼網(wǎng)絡(luò)輸出的當(dāng)前幀圖像的目標(biāo)掩碼;基于當(dāng)前幀圖像的編碼特征和當(dāng)前幀圖像的上一幀圖像的視頻歷史特征,確定當(dāng)前幀圖像的視頻歷史特征;將當(dāng)前幀圖像的下一幀圖像作為當(dāng)前幀圖像,返回基于當(dāng)前幀圖像與當(dāng)前幀圖像的上一幀圖像的目標(biāo)掩碼,確定當(dāng)前幀圖像的深度特征的步驟,直至獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征;將目標(biāo)視頻序列中最后一幀圖像的視頻歷史特征,作為目標(biāo)視頻序列的視覺(jué)特征。
4、在一個(gè)實(shí)施例中,確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征,包括:確定用戶的交互信息;?將首幀圖像和交互信息輸入至分割模型,獲得分割模型輸出的首幀圖像的目標(biāo)掩碼;對(duì)首幀圖像和首幀圖像的目標(biāo)掩碼進(jìn)行拼接處理,獲得拼接圖像;基于視覺(jué)特征提取網(wǎng)絡(luò),對(duì)拼接圖像進(jìn)行特征提取處理,獲得首幀圖像的深度特征和首幀圖像的視頻歷史特征;提取首幀圖像的編碼特征。
5、在一個(gè)實(shí)施例中,獲得目標(biāo)視頻序列中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后,還包括:基于每一圖像的目標(biāo)掩碼,分別對(duì)每一圖像進(jìn)行目標(biāo)分割,獲得每一圖像的目標(biāo)分割結(jié)果;向用戶返回每一圖像的目標(biāo)分割結(jié)果。
6、在一個(gè)實(shí)施例中,獲取目標(biāo)視頻序列和用戶的文本提示詞,包括:獲取初始視頻;響應(yīng)于用戶的交互信息,基于交互信息,確定初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng);基于初始視頻中的待分析目標(biāo)和用戶選定的處理時(shí)長(zhǎng),確定目標(biāo)視頻序列;獲取用戶的文本提示詞。
7、在一個(gè)實(shí)施例中,將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本,包括:對(duì)視覺(jué)特征進(jìn)行維度調(diào)整處理,以使視覺(jué)特征與文本特征具有相同的特征維度;將經(jīng)過(guò)維度調(diào)整處理的視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。
8、第二方面,本申請(qǐng)實(shí)施例提供一種視頻分析裝置,包括:獲取模塊,用于獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);視覺(jué)特征提取模塊,用于對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;文本特征提取模塊,用于對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;分析模塊,用于將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。
9、第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。
10、第四方面,本申請(qǐng)實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。
11、第五方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種視頻分析方法。
12、本申請(qǐng)實(shí)施例提供的視頻分析方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,獲取目標(biāo)視頻序列和用戶的文本提示詞;目標(biāo)視頻序列包括多個(gè)圖像,每一圖像均包含用戶選擇的待分析目標(biāo);對(duì)目標(biāo)視頻序列進(jìn)行特征提取,獲得目標(biāo)視頻序列的視覺(jué)特征;對(duì)文本提示詞進(jìn)行特征提取,獲得文本提示詞的文本特征;將視覺(jué)特征和文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得大語(yǔ)言模型輸出的待分析目標(biāo)的描述文本。通過(guò)上述方式,允許用戶自行選擇待分析目標(biāo),對(duì)包含用戶選擇的待分析目標(biāo)的目標(biāo)視頻序列進(jìn)行特征提取,獲得視覺(jué)特征,再對(duì)用戶的文本提示詞進(jìn)行特征提取,獲得文本特征,利用大語(yǔ)言模型對(duì)視覺(jué)特征和文本特征進(jìn)行分析,可獲得待分析目標(biāo)的描述文本,從而可完成對(duì)視頻中特定目標(biāo)的分析和描述,聚焦用戶感興趣的內(nèi)容。
1.一種視頻分析方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,所述對(duì)所述目標(biāo)視頻序列進(jìn)行特征提取,獲得所述目標(biāo)視頻序列的視覺(jué)特征,包括:
3.根據(jù)權(quán)利要求2所述的視頻分析方法,其特征在于,所述確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征,包括:
4.根據(jù)權(quán)利要求2所述的視頻分析方法,其特征在于,所述獲得所述目標(biāo)視頻序列中每一所述圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后,還包括:
5.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,所述獲取目標(biāo)視頻序列和用戶的文本提示詞,包括:
6.根據(jù)權(quán)利要求1所述的視頻分析方法,其特征在于,?所述將所述視覺(jué)特征和所述文本特征輸入至預(yù)訓(xùn)練的大語(yǔ)言模型中,獲得所述大語(yǔ)言模型輸出的所述待分析目標(biāo)的描述文本,包括:
7.一種視頻分析裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述視頻分析方法。