本發(fā)明涉及人工智能領域,具體涉及一種基于智能體的教學視頻重構(gòu)方法及系統(tǒng),屬于智能教學系統(tǒng)應用領域。
背景技術:
1、隨著人工智能和大數(shù)據(jù)技術的快速發(fā)展,教育領域正在經(jīng)歷一場數(shù)字化、智能化轉(zhuǎn)型。其中,智能教學系統(tǒng)的應用日益廣泛,特別是在個性化學習和精準教學方面展現(xiàn)出巨大潛力。然而,現(xiàn)有的智能教學系統(tǒng)在處理和利用教學視頻資源方面仍面臨諸多挑戰(zhàn)。
2、傳統(tǒng)的教學視頻資源管理和視頻檢索方法主要依賴于標關鍵詞匹配和元數(shù)據(jù)標注,難以準確捕捉視頻內(nèi)容的語義信息,導致檢索結(jié)果不夠精確,無法滿足用戶提出的關于學習目標或者能力培養(yǎng)方面的查詢需求;現(xiàn)有方法在檢索和為用戶提供視頻時,難以準確定位用戶關注的教學知識點、學習目標及學習能力相關的特定視頻片段,導致學習效率不高。如何有效地將大語言模型與教學視頻資源結(jié)合,為學習者提供針對知識點、學習目標、能力培養(yǎng)等多維度個性化的視頻內(nèi)容,仍然是一個亟待解決的問題。
3、專利cn202410135130.x針對利用文檔和輸入的文本自動生成視頻的問題,利用大語言模型對文檔提取文本、表格和圖片,產(chǎn)生結(jié)構(gòu)化文本、可視化內(nèi)容和圖片拼接成視頻輸出;專利cn202410405951.0針對視頻的自動分段剪輯問題,利用視頻生成視頻內(nèi)容表示,組合劇情描述文本,借助大模型得到視頻分段信息,根據(jù)分段信息將視頻分割為多個片段;專利cn202410421351.3針對課堂音視頻的知識點的標記問題,利用大模型對課堂直播音視頻進行文本轉(zhuǎn)寫和語義分析,自動提取章節(jié)和知識點并進行時間標記,未涉及學習目標和學習能力的提取分析與信息表達,未涉及教學視頻內(nèi)容的重構(gòu);專利cn202410893508.2針對視頻檢索模型訓練問題,提出一種利用多模態(tài)大模型進行視頻幀采樣和文本標注的方法,提高跨模態(tài)視頻檢索模型的訓練效率。這些方法沒有針對融合教學視頻的知識點、學習目標和學習能力等抽象多維信息的處理,也沒有解決教學視頻按需進行重構(gòu)的問題。
技術實現(xiàn)思路
1、本發(fā)明公開了一種基于智能體的教學視頻重構(gòu)方法及系統(tǒng),通過從教學視頻中提取知識點以及相關的學習目標、學習能力、視頻幀、時間點等信息構(gòu)建向量數(shù)據(jù)庫和多維空間知識圖譜,并利用這些信息借助大模型提升對用戶問題的語義理解和信息檢索的精準度,從而實現(xiàn)對教學視頻的按需重構(gòu),該方法包括:1)從教學視頻中提取知識內(nèi)容文本、視頻幀id及時間信息,生成對應關系表;2)利用知識內(nèi)容文本構(gòu)建語義向量庫和圖數(shù)據(jù)庫;3)根據(jù)知識圖譜的模式層構(gòu)建提示詞模版;4)定義智能體系統(tǒng)的核心功能模塊;5)核心調(diào)度器接收用戶問題,調(diào)用知識庫檢索器生成問題相關的知識內(nèi)容文本r1;6)知識庫檢索器以用戶問題和r1查詢圖數(shù)據(jù)庫,得到問題對應的知識點、學習內(nèi)容、學習目標和學習能力相關的視頻幀時間;7)視頻重構(gòu)器利用視頻幀時間、原始視頻中的視頻幀及語音片段,重構(gòu)生成用戶需要的教學視頻;具體來說,本發(fā)明的方法包括下列步驟:
2、a.?從教學視頻中提取知識內(nèi)容文本、視頻幀id及時間信息,并生成對應關系表e,具體步驟如下:
3、a1.?利用ocr工具抽取教學視頻幀圖像中的知識內(nèi)容文本;
4、a2.?利用語音識別工具抽取教學視頻語音中的知識內(nèi)容文本;
5、a3.?將a1和a2抽取出的知識內(nèi)容文本,去重并合并成按時間對齊的知識內(nèi)容文本集合t;
6、a4.?構(gòu)造文本時間對應關系表e={qti},i∈(1,n);qti=(ti,si,ei,vfsi,vfei);qti表示第i個文本時間五元組;n表示t中的知識內(nèi)容文本條數(shù),ti表示第i條知識內(nèi)容文本,si和ei表示ti對應的視頻和音頻的起始時間點和結(jié)束時間點,vfsi和vfei表示ti對應的起始視頻幀id和結(jié)束視頻幀id;
7、b.?利用知識內(nèi)容文本構(gòu)建語義向量庫和圖數(shù)據(jù)庫,具體操作如下:
8、b1.?利用知識內(nèi)容文本構(gòu)建語義向量庫,具體操作如下:
9、b1.1?利用embedding模型將每一條ti(i∈(1,n))知識內(nèi)容文本轉(zhuǎn)換成語義向量;
10、b1.2?將語義向量存儲至向量數(shù)據(jù)庫中,構(gòu)建向量數(shù)據(jù)庫索引;
11、b2.?利用e中的知識內(nèi)容文本、視頻幀id及時間信息構(gòu)建知識圖譜并存儲在圖數(shù)據(jù)庫中,具體步驟如下:
12、b2.1?定義知識圖譜模式層,具體步驟如下:
13、b2.1.1?定義實體類別集合c={知識點,學習內(nèi)容,學習目標,學習能力};
14、b2.1.2?定義關系類別集合r,r中包含知識點間的關系、知識點與學習內(nèi)容間的關系、知識點與學習能力的關系和學習內(nèi)容與學習目標的關系;
15、b2.2?根據(jù)知識圖譜模式層,利用對應關系表e中的知識內(nèi)容文本、視頻幀id及時間信息構(gòu)建知識圖譜數(shù)據(jù)層;
16、b2.3?將構(gòu)建好的知識圖譜存儲到圖數(shù)據(jù)庫中;
17、c.?根據(jù)知識圖譜的模式層構(gòu)建提示詞模板集,具體步驟如下:
18、c1.?構(gòu)建讓大模型生成與用戶問題相關的同類問題的提示詞模板,記為p1,具體步驟如下:
19、c1.1?描述知識圖譜模式層,包括實體類別和關系類別;
20、c1.2?定義用戶問題變量${question},question的值是用戶問題;
21、c1.3?定義變量${m},m的值描述要生成的同類問題的數(shù)量;
22、c2.?構(gòu)建讓大模型生成圖查詢語句的少樣本思維鏈提示詞模板,記為p2,具體步驟如下:
23、c2.1?描述知識圖譜模式層,包括實體類別和關系類別;
24、c2.2?定義用戶問題變量${question};
25、c2.3?定義用戶問題相關的知識內(nèi)容文本變量${r1};
26、c2.4?定義生成圖數(shù)據(jù)庫查詢語句的思維鏈變量為${cot};
27、c2.5?定義生成圖數(shù)據(jù)庫查詢語句的少樣本變量為${exp};
28、d.?定義智能體系統(tǒng)的核心功能模塊,具體步驟如下:
29、d1.?定義核心調(diào)度器,實現(xiàn)智能體核心流程,調(diào)用各個功能模塊,傳遞參數(shù)和數(shù)據(jù),確保各模塊協(xié)同工作;
30、d2.?定義知識庫檢索器,根據(jù)輸入的用戶問題,檢索語義向量庫和圖數(shù)據(jù)庫,獲得與問題相近的知識點文本、學習目標、學習能力相關的視頻幀時間;
31、d3.?定義視頻重構(gòu)器,根據(jù)視頻幀時間,重構(gòu)生成用戶需要的教學視頻;
32、d4.?定義外部函數(shù)及工具列表,具體步驟如下:
33、d4.1?定義執(zhí)行圖數(shù)據(jù)庫查詢的函數(shù)f1,具體步驟如下:
34、d4.1.1?定義函數(shù)參數(shù),接收圖數(shù)據(jù)庫查詢語句作為輸入;
35、d4.1.2?設置與圖數(shù)據(jù)庫的連接參數(shù);
36、d4.1.2?執(zhí)行圖數(shù)據(jù)庫查詢語句并返回與用戶問題相關的知識點、學習內(nèi)容、學習目標和學習能力的視頻幀時間;
37、d4.2?定義抽取教學視頻片段函數(shù)f2,具體步驟如下:
38、d4.2.1?定義函數(shù)參數(shù),接收視頻幀時間作為輸入;
39、d4.2.2?利用ffmpeg工具提取指定視頻幀時間段的視頻和音頻片段;
40、d4.2.3?實現(xiàn)多個視頻和音頻片段的提取和合并;
41、d4.2.4?返回提取合并后的視頻段;
42、d4.3?定義工具列表,具體步驟如下:
43、d4.3.1?創(chuàng)建工具列表;
44、d4.3.2?為f1和f2添加工具定義,包括函數(shù)名、描述和參數(shù)結(jié)構(gòu)等;
45、e.?核心調(diào)度器接收用戶問題,調(diào)用知識庫檢索器生成問題相關的知識內(nèi)容文本r1,具體步驟如下:
46、e1.?核心調(diào)度器利用用戶問題生成提示詞p1,具體步驟如下:
47、e1.1?將用戶問題代入p1中的用戶問題變量${question};
48、e1.2?將生成與用戶問題相關的同類問題的數(shù)量代入變量${m};
49、e2.?知識庫檢索器將提示詞p1提交給大模型,生成與用戶問題相關的包含m個同類問題的集合qs;
50、e3.?知識庫檢索器利用步驟b1中的embedding模型將用戶問題和問題集合qs中的m個問題轉(zhuǎn)換成m+1個查詢向量q0,?q1,…,?qm;
51、e4.?知識庫檢索器對每個查詢向量q0,?q1,…,?qm,在向量數(shù)據(jù)庫中進行相似度搜索,得到最相似的top-k個知識內(nèi)容文本;
52、e5.?知識庫檢索器合并步驟e4中的所有知識內(nèi)容文本,去除重復項,得到候選知識內(nèi)容文本集合c;
53、e6.?知識庫檢索器使用排序模型對候選知識內(nèi)容文本集合c排序,得到對應問題的知識點文本集合r1,具體步驟如下:
54、e6.1?計算每個候選知識內(nèi)容文本與原始問題的相關性得分;
55、e6.2?根據(jù)相關性得分對候選知識內(nèi)容文本進行降序排序;
56、e6.3?選取排序后的前n個知識內(nèi)容文本作為最終的檢索結(jié)果r1;
57、f.?知識庫檢索器以用戶問題和r1查詢圖數(shù)據(jù)庫,得到問題對應的知識點、學習內(nèi)容、學習目標和學習能力相關的視頻幀時間,具體步驟如下:
58、f1.?知識庫檢索器將提示模板p2中的模板變量,替換為對應的變量值,得到讓大模型生成圖數(shù)據(jù)庫查詢語句的提示詞p2,具體步驟如下:
59、f1.1?將用戶問題代入p2中的用戶問題變量${question};
60、f1.2?將用戶問題相關的知識內(nèi)容文本代入變量${r1};
61、f1.3?將生成圖數(shù)據(jù)庫查詢語句的思維鏈描述代入變量${cot};
62、f1.4?將生成圖數(shù)據(jù)庫查詢語句的少樣本代入變量${exp};
63、f2.?知識庫檢索器根據(jù)提示詞p2,調(diào)用大模型生成圖查詢語句qu;
64、f3.?知識庫檢索器以步驟f2生成的查詢語句qu作為輸入?yún)?shù),調(diào)用工具列表中的f1函數(shù),在圖數(shù)據(jù)庫中執(zhí)行查詢語句,得到問題對應的知識點、學習內(nèi)容、學習目標和學習能力相關的視頻幀時間;
65、g.?視頻重構(gòu)器利用視頻幀時間、原始視頻中的視頻幀及語音片段,重構(gòu)生成用戶需要的教學視頻,具體步驟如下:
66、g1.?視頻重構(gòu)器將視頻幀時間信息作為輸入?yún)?shù),調(diào)用工具列表中的f2函數(shù),重構(gòu)生成用戶所需的教學視頻;
67、g2.?將重構(gòu)好的視頻保存在指定目錄。
68、本發(fā)明與現(xiàn)有技術相比,具有以下優(yōu)點:實現(xiàn)了一套完整教學視頻的按需重構(gòu)方法,通過構(gòu)建教學視頻內(nèi)容文本的語義向量庫和知識圖譜,精準表達教學視頻中蘊含的知識點、學習目標及學習能力等多維信息;構(gòu)建智能體系統(tǒng)的核心調(diào)度器、知識庫檢索器及視頻重構(gòu)器模塊,借助大模型實現(xiàn)了教學視頻內(nèi)容及用戶問題的精準語義理解,提升教學視頻內(nèi)容的檢索精準度,并根據(jù)用戶對知識點、學習目標及學習能力的多維需求重構(gòu)教學視頻。本發(fā)明無需大模型微調(diào),提高應用系統(tǒng)開發(fā)效率;設計的智能體架構(gòu)和提示詞模版,使本系統(tǒng)具有靈活性和可擴展性,能夠適應不同學科和難度級別的教學視頻重構(gòu),具有廣泛的應用推廣價值。