本發(fā)明涉及計(jì)算機(jī),尤其涉及一種基于眼動(dòng)軌跡分析的交互控制方法及其教學(xué)機(jī)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,利用大語言模型進(jìn)行教學(xué)交互已逐步得到推廣。在一些相關(guān)技術(shù)中,可直接利用視覺編碼器從原始視頻中提取得到全局圖像特征序列,并將全局圖像特征序列映射到大語言模型的語義空間,得到大語言模型輸出的視頻描述文本。
2、但是,現(xiàn)有的教學(xué)交互方法僅能提取視頻的全局圖像特征,而難以提取視頻的局部圖像特征,因此,在僅需描述視頻中的特定目標(biāo)的場(chǎng)景下,現(xiàn)有的教學(xué)交互方法難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無法聚焦目標(biāo)用戶感興趣的內(nèi)容,導(dǎo)致學(xué)生的學(xué)習(xí)積極性不高,從到影響學(xué)生的學(xué)習(xí)效率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于眼動(dòng)軌跡分析的交互控制方法及其教學(xué)機(jī),用以解決現(xiàn)有的難以完成對(duì)視頻中特定目標(biāo)的分析和描述,無法聚焦目標(biāo)用戶感興趣的內(nèi)容的技術(shù)問題,提高目標(biāo)用戶的學(xué)習(xí)積極性和學(xué)習(xí)效率。
2、第一方面,本發(fā)明提供一種基于眼動(dòng)軌跡分析的交互控制方法,應(yīng)用于教學(xué)機(jī),所述教學(xué)機(jī)安裝有視覺攝像相機(jī),所述基于眼動(dòng)軌跡分析的交互控制方法包括:
3、基于所述視覺攝像相機(jī)獲取在教學(xué)視頻播放過程中,目標(biāo)用戶的眼動(dòng)軌跡針對(duì)所述教學(xué)視頻中每一視頻的關(guān)注時(shí)長(zhǎng);
4、獲取關(guān)注時(shí)長(zhǎng)大于等于預(yù)設(shè)時(shí)長(zhǎng)的第一目標(biāo)視頻,并將所述第一目標(biāo)視頻展示在所述教學(xué)機(jī)的顯示界面,以獲取第二目標(biāo)視頻和文本提示詞;所述文本提示詞是所述目標(biāo)用戶在所述顯示界面輸入,所述第二目標(biāo)視頻包括多個(gè)圖像,每一圖像均包含所述目標(biāo)用戶選擇的待分析目標(biāo);
5、對(duì)所述第二目標(biāo)視頻進(jìn)行特征提取,獲得所述第二目標(biāo)視頻的視覺特征;
6、對(duì)所述文本提示詞進(jìn)行特征提取,獲得所述文本提示詞的文本特征;
7、將所述視覺特征和所述文本特征輸入至預(yù)訓(xùn)練的大語言模型中,獲得所述大語言模型輸出的所述待分析目標(biāo)的描述文本。
8、第二方面,本發(fā)明提供一種教學(xué)機(jī),所述教學(xué)機(jī)安裝有視覺攝像相機(jī),所述教學(xué)機(jī)包括:
9、監(jiān)測(cè)模塊,用于基于所述視覺攝像相機(jī)獲取在教學(xué)視頻播放過程中,目標(biāo)用戶的眼動(dòng)軌跡針對(duì)所述教學(xué)視頻中每一視頻的關(guān)注時(shí)長(zhǎng);
10、交互展示模塊,用于獲取關(guān)注時(shí)長(zhǎng)大于等于預(yù)設(shè)時(shí)長(zhǎng)的第一目標(biāo)視頻,并將所述第一目標(biāo)視頻展示在所述教學(xué)機(jī)的顯示界面,以獲取第二目標(biāo)視頻和文本提示詞;所述文本提示詞是所述目標(biāo)用戶在所述顯示界面輸入,所述第二目標(biāo)視頻包括多個(gè)圖像,每一圖像均包含所述目標(biāo)用戶選擇的待分析目標(biāo);
11、獲取模塊,用于對(duì)所述第二目標(biāo)視頻進(jìn)行特征提取,獲得所述第二目標(biāo)視頻的視覺特征;
12、特征提取模塊,用于對(duì)所述文本提示詞進(jìn)行特征提取,獲得所述文本提示詞的文本特征;
13、預(yù)測(cè)模塊,用于將所述視覺特征和所述文本特征輸入至預(yù)訓(xùn)練的大語言模型中,獲得所述大語言模型輸出的所述待分析目標(biāo)的描述文本。
14、第三方面,本發(fā)明還提供一種教學(xué)機(jī),包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如第一方面所述基于眼動(dòng)軌跡分析的交互控制方法。
15、第四方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述基于眼動(dòng)軌跡分析的交互控制方法。
16、第五方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述基于眼動(dòng)軌跡分析的交互控制方法。
17、本發(fā)明提供的基于眼動(dòng)軌跡分析的交互控制方法,允許目標(biāo)用戶自行選擇待分析目標(biāo),對(duì)包含目標(biāo)用戶選擇的待分析目標(biāo)的第二目標(biāo)視頻進(jìn)行特征提取,獲得視覺特征,再對(duì)目標(biāo)用戶的文本提示詞進(jìn)行特征提取,獲得文本特征,利用大語言模型對(duì)視覺特征和文本特征進(jìn)行分析,可獲得待分析目標(biāo)的描述文本,從而可完成對(duì)視頻中特定目標(biāo)的分析和描述,聚焦目標(biāo)用戶感興趣的內(nèi)容,提高了目標(biāo)用戶的學(xué)習(xí)積極性,進(jìn)而提高了目標(biāo)用戶的學(xué)習(xí)效率。
1.一種基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,應(yīng)用于教學(xué)機(jī),所述教學(xué)機(jī)安裝有視覺攝像相機(jī),所述基于眼動(dòng)軌跡分析的交互控制方法包括:
2.根據(jù)權(quán)利要求1所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述對(duì)所述第二目標(biāo)視頻進(jìn)行特征提取,獲得所述第二目標(biāo)視頻的視覺特征,包括:
3.根據(jù)權(quán)利要求2所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述確定首幀圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征,包括:
4.根據(jù)權(quán)利要求2所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述獲得所述第二目標(biāo)視頻中每一圖像的目標(biāo)掩碼、深度特征、視頻歷史特征和編碼特征之后,還包括:
5.根據(jù)權(quán)利要求1所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,獲取所述第二目標(biāo)視頻的具體步驟包括:
6.根據(jù)權(quán)利要求1所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述將所述視覺特征和所述文本特征輸入至預(yù)訓(xùn)練的大語言模型中,獲得所述大語言模型輸出的所述待分析目標(biāo)的描述文本,包括:
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述基于眼動(dòng)軌跡分析的交互控制方法還包括:
8.根據(jù)權(quán)利要求7所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述基于眼動(dòng)軌跡分析的交互控制方法還包括:
9.根據(jù)權(quán)利要求7所述的基于眼動(dòng)軌跡分析的交互控制方法,其特征在于,所述基于眼動(dòng)軌跡分析的交互控制方法還包括:
10.一種教學(xué)機(jī),其特征在于,所述教學(xué)機(jī)安裝有視覺攝像相機(jī),所述教學(xué)機(jī)包括: