本技術涉及計算機,尤其涉及一種視頻問答方法、裝置、電子設備、存儲介質(zhì)及程序產(chǎn)品。
背景技術:
1、隨著新媒體技術的不斷發(fā)展,網(wǎng)絡上涌現(xiàn)了大量的教學視頻。但是因為教學視頻豐富,導致用戶在選擇和查詢教學視頻時,花費較多的時間。視頻問答是一種互動式多媒體技術,結(jié)合了視頻內(nèi)容和問答互動,旨在根據(jù)視頻內(nèi)容自動回答用戶提出的問題。視頻問答能夠幫助用戶高效地從視頻中提取和理解信息。
2、目前,視頻問答主要是將完整視頻分割為含字幕和不含字幕的片段,然后根據(jù)字幕給出問題的回復。
3、然而,現(xiàn)有技術主要依賴于字幕,適用范圍小,問題答復的準確性和連貫性低,影響用戶體驗。
技術實現(xiàn)思路
1、本技術提供一種視頻問答方法、裝置、電子設備、存儲介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有技術依賴于字幕,適用范圍小,問題答復的準確性和連貫性低,影響用戶體驗的技術問題。
2、第一方面,本技術提供一種視頻問答方法,包括:
3、獲取預設數(shù)量的教學視頻;
4、針對每個教學視頻,進行音頻抽取處理,以得到教學音頻;
5、對所述教學音頻進行轉(zhuǎn)寫處理,以得到多條教學內(nèi)容文本信息以及每條教學內(nèi)容文本信息的第一關聯(lián)時間信息;
6、將所述多條教學內(nèi)容文本信息以及所述每條教學內(nèi)容文本信息的第一關聯(lián)時間信息,輸入至預設的大語言模型,以輸出多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息;
7、對所述每個教學視頻,按照預設的抽幀頻率進行抽幀處理,以得到多個教學圖片;
8、對所述多個教學圖片進行文字識別,以得到多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息;
9、對所述多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息和所述多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息,進行信息融合處理,以得到多條教學文本信息以及每條教學文本信息對應的第四關聯(lián)時間信息;
10、將每條教學視頻對應的多條教學文本信息以及每條教學文本信息的第四關聯(lián)時間信息存儲至檢索引擎中;
11、接收用戶端發(fā)送的問題信息,其中所述問題信息中包括檢索內(nèi)容;
12、根據(jù)所述檢索內(nèi)容,從所述檢索引擎,獲取對應的目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息;
13、根據(jù)所述目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息,返回對應的答復結(jié)果至所述用戶端。
14、可選地,如上所述的方法,所述對所述多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息和所述多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息,進行信息融合處理,以得到多條教學文本信息以及每條教學文本信息的第四關聯(lián)時間信息,包括:根據(jù)所述每條教學課件文本信息的第三關聯(lián)時間信息,確定主時間線;根據(jù)所述每條教學關鍵文本信息的第二關聯(lián)時間信息和所述每條教學課件文本信息的第三關聯(lián)時間信息,將所述多條教學關鍵文本信息和所述多條教學課件文本信息在所述主時間線上對齊,以得到多條同步文本信息和每條同步文本信息的同步關聯(lián)時間信息;對所述多條同步文本信息和每條同步文本信息的同步關聯(lián)時間信息進行校正,以得到多條教學文本信息以及每條教學文本信息對應的第四關聯(lián)時間信息。
15、可選地,如上所述的方法,所述多條同步文本信息中的每條同步文本信息均包括一條教學關鍵文本信息和與所述教學關鍵文本信息同步的教學課件文本信息;相應地,所述對所述多條同步文本信息和每條同步文本信息的同步關聯(lián)時間信息進行校正,以得到多條教學文本信息以及每條教學文本信息對應的第四關聯(lián)時間信息,包括:按照所述同步關聯(lián)時間信息的時間順序,依次遍歷所述多條同步文本信息,并針對遍歷到同步文本信息,執(zhí)行以下步驟:獲取所述同步文本信息中的教學關鍵文本信息和教學課件文本信息;計算所述教學關鍵文本信息和所述教學課件文本信息的第一相關性;若判定所述第一相關性未達到預設的第一閾值,則獲取所述同步文本信息的同步關聯(lián)時間信息的開始時間;計算所述開始時間的前后預設時間段內(nèi)的教學內(nèi)容文本信息和教學課件文本信息的第二相關性;若判定所述第二相關性達到預設的第二閾值,則校正所述同步文本信息中的教學關鍵文本信息為所述開始時間的前后預設時間段內(nèi)的教學內(nèi)容文本信息或教學課件文本信息;根據(jù)校正后的同步文本信息,得到教學文本信息;確定所述同步關聯(lián)時間信息為所述教學文本信息的第四關聯(lián)時間信息。
16、可選地,如上所述的方法,所述根據(jù)所述目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息,返回對應的答復結(jié)果至所述用戶端,包括:將所述檢索內(nèi)容和所述目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息輸入至預設的大模型,以判斷所述目標教學文本信息與所述檢索內(nèi)容的第三相關性是否達到預設的第三閾值;若判定所述第三相關性達到預設的第三閾值,則采用所述預設的大模型,根據(jù)所述問題信息和所述目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息生成對應的答復結(jié)果。
17、可選地,如上所述的方法,所述判斷所述目標教學文本信息與所述檢索內(nèi)容的第三相關性是否達到預設的第三閾值之后,還包括:若判定所述第三相關性未達到預設的第三閾值,則采用所述預設的大模型,根據(jù)所述問題信息生成對應的答復結(jié)果。
18、可選地,如上所述的方法,所述接收用戶端發(fā)送的問題信息之后,還包括:將所述問題信息輸入至預設的大模型中,以判斷所述問題信息是否為內(nèi)容查詢或視頻查找;若判定所述問題信息為內(nèi)容查詢或視頻查找,則執(zhí)行“根據(jù)所述檢索內(nèi)容,從所述檢索引擎,獲取對應的目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息”的步驟。
19、第二方面,本技術提供一種視頻問答裝置,包括:
20、獲取模塊,用于獲取預設數(shù)量的教學視頻;
21、抽取模塊,用于針對每個教學視頻,進行音頻抽取處理,以得到教學音頻;
22、識別模塊,用于對所述教學音頻進行轉(zhuǎn)寫處理,以得到多條教學內(nèi)容文本信息以及每條教學內(nèi)容文本信息的第一關聯(lián)時間信息;
23、輸入模塊,用于將所述多條教學內(nèi)容文本信息以及所述每條教學內(nèi)容文本信息的第一關聯(lián)時間信息,輸入至預設的大語言模型,以輸出多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息;
24、所述抽取模塊,還用于對所述每個教學視頻,按照預設的抽幀頻率進行抽幀處理,以得到多個教學圖片;
25、所述識別模塊,還用于對所述多個教學圖片進行文字識別,以得到多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息;
26、融合模塊,用于對所述多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息和所述多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息,進行信息融合處理,以得到多條教學文本信息以及每條教學文本信息對應的第四關聯(lián)時間信息;
27、存儲模塊,用于將每條教學視頻對應的多條教學文本信息以及每條教學文本信息的第四關聯(lián)時間信息存儲至檢索引擎中;
28、接收模塊,用于接收用戶端發(fā)送的問題信息,其中所述問題信息中包括檢索內(nèi)容;
29、所述獲取模塊,還用于根據(jù)所述檢索內(nèi)容,從所述檢索引擎,獲取對應的目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息;
30、發(fā)送模塊,用于根據(jù)所述目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息,返回對應的答復結(jié)果至所述用戶端。
31、第三方面,本技術提供一種服務設備,包括:處理器,以及與所述處理器通信連接的存儲器;
32、所述存儲器存儲計算機執(zhí)行指令;
33、所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上第一方面以及第一方面各種可能的設計所述的視頻問答方法。
34、第四方面,本技術提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如上第一方面以及第一方面各種可能的設計所述的方法。
35、第五方面,本技術提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上第一方面以及第一方面各種可能的設計所述的方法。
36、本技術提供的視頻問答方法、裝置、電子設備、存儲介質(zhì)及程序產(chǎn)品,通過對教學音頻進行轉(zhuǎn)寫處理,以得到多條教學內(nèi)容文本信息以及每條教學內(nèi)容文本信息的第一關聯(lián)時間信息;將多條教學內(nèi)容文本信息以及每條教學內(nèi)容文本信息的第一關聯(lián)時間信息,輸入至預設的大語言模型,以輸出多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息;對每個教學視頻進行抽幀處理,以得到多個教學圖片;對多個教學圖片進行文字識別,以得到多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息;對多條教學關鍵文本信息以及每條教學關鍵文本信息的第二關聯(lián)時間信息和多條教學課件文本信息以及每條教學課件文本信息的第三關聯(lián)時間信息,進行信息融合處理,以得到多條教學文本信息以及每條教學文本信息對應的第四關聯(lián)時間信息;將每條教學視頻對應的多條教學文本信息以及每條教學文本信息的第四關聯(lián)時間信息存儲至檢索引擎中;接收用戶端發(fā)送的檢索內(nèi)容;根據(jù)檢索內(nèi)容,從檢索引擎,獲取對應的目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息;根據(jù)目標教學文本信息以及目標教學文本信息對應的第四關聯(lián)時間信息,返回對應的答復結(jié)果至用戶端。適用范圍大,提高了答復結(jié)果的準確性和連貫性,提高用戶體驗。