本申請屬于音頻處理,具體涉及一種音頻處理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著大語言模型在人工智能領(lǐng)域的迅速崛起,會議軟件行業(yè)也迎來了顛覆性的革新。傳統(tǒng)會議記錄僅僅局限于對語音內(nèi)容的自動轉(zhuǎn)寫,而如今,這些軟件已經(jīng)進(jìn)化到能夠運(yùn)用先進(jìn)的大語言模型將會議內(nèi)容自動整理成詳盡的會議紀(jì)要。
2、然而,隨著會議時長的增加,會議紀(jì)要可能會變得非常長,這在用戶需要快速查找或反向定位會議內(nèi)容細(xì)節(jié)時,便成了一大挑戰(zhàn)。原始的會議文件可能因篇幅浩繁而難以直接定位到關(guān)鍵信息,導(dǎo)致用戶在需要回顧具體討論點(diǎn)或決定性時刻時,不得不在冗長的會議錄音或文檔中進(jìn)行繁瑣的查找工作。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本申請?zhí)岢隽艘环N音頻處理方法、裝置、電子設(shè)備以及存儲介質(zhì),以實(shí)現(xiàn)改善上述問題。
2、第一方面,本申請實(shí)施例提供了一種音頻處理方法,所述方法包括:獲取目標(biāo)音頻對應(yīng)的文本數(shù)據(jù),所述文本數(shù)據(jù)為根據(jù)所述目標(biāo)音頻對應(yīng)的文本內(nèi)容中每個字符的索引,對所述文本內(nèi)容進(jìn)行拼接后得到的數(shù)據(jù);將目標(biāo)提示詞和所述文本數(shù)據(jù)輸入到預(yù)先訓(xùn)練好的大語言模型中,獲取所述大語言模型輸出的所述目標(biāo)音頻對應(yīng)的內(nèi)容劃分結(jié)果,其中,所述目標(biāo)提示詞用于指示所述大語言模型對所述文本數(shù)據(jù)按照大意進(jìn)行段落劃分,并輸出每個段落內(nèi)容的大意綱領(lǐng)。
3、第二方面,本申請實(shí)施例提供了一種音頻處理裝置,所述裝置包括:數(shù)據(jù)獲取單元,用于獲取目標(biāo)音頻對應(yīng)的文本數(shù)據(jù),所述文本數(shù)據(jù)為根據(jù)所述目標(biāo)音頻對應(yīng)的文本內(nèi)容中每個字的索引,對所述文本內(nèi)容進(jìn)行拼接后得到的數(shù)據(jù);結(jié)果輸出單元,用于將目標(biāo)提示詞和所述文本數(shù)據(jù)輸入到預(yù)先訓(xùn)練好的大語言模型中,獲取所述大語言模型輸出的所述目標(biāo)音頻對應(yīng)的內(nèi)容劃分結(jié)果,其中,所述目標(biāo)提示詞用于指示所述大語言模型對所述文本數(shù)據(jù)按照大意進(jìn)行段落劃分,并輸出每個段落內(nèi)容的大意綱領(lǐng)。
4、第三方面,本申請實(shí)施例提供了一種電子設(shè)備,包括一個或多個處理器以及存儲器;一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器中并被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序配置用于執(zhí)行上述的方法。
5、第四方面,本申請實(shí)施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有程序代碼,其中,在所述程序代碼運(yùn)行時執(zhí)行上述的方法。
6、本申請實(shí)施例提供了一種音頻處理方法、裝置、電子設(shè)備及存儲介質(zhì)。首先獲取目標(biāo)音頻對應(yīng)的文本數(shù)據(jù),所述文本數(shù)據(jù)為根據(jù)所述目標(biāo)音頻對應(yīng)的文本內(nèi)容中每個字符的索引,對所述文本內(nèi)容進(jìn)行拼接后得到的數(shù)據(jù),然后將目標(biāo)提示詞和文本數(shù)據(jù)輸入到預(yù)先訓(xùn)練好的大語言模型中,獲取大語言模型輸出的目標(biāo)音頻對應(yīng)的內(nèi)容劃分結(jié)果,其中,所述目標(biāo)提示詞用于指示所述大語言模型對所述文本數(shù)據(jù)按照大意進(jìn)行段落劃分,并輸出每個段落內(nèi)容的大意綱領(lǐng)。通過上述方法,可以幫助用戶通過大意綱領(lǐng)快速定位到目標(biāo)音頻中的特定段落內(nèi)容,顯著提高了用戶的回顧效率。
1.一種音頻處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取目標(biāo)音頻對應(yīng)的文本數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述文本內(nèi)容中每個字符的結(jié)構(gòu)化信息,對所述文本內(nèi)容進(jìn)行拼接處理,得到所述目標(biāo)音頻對應(yīng)的文本數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取所述文本內(nèi)容對應(yīng)的多個句子,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將目標(biāo)提示詞和所述文本數(shù)據(jù)輸入到預(yù)先訓(xùn)練好的大語言模型中,獲取所述大語言模型輸出的所述目標(biāo)音頻對應(yīng)的內(nèi)容劃分結(jié)果之后還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容劃分結(jié)果包括用換行符分開的原文本內(nèi)容保持不變的多個段落內(nèi)容,以及所述多個段落內(nèi)容各自對應(yīng)的大意綱領(lǐng);所述大意綱領(lǐng)以加粗的形式或者以標(biāo)題的形式進(jìn)行輸出。
8.一種音頻處理裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括一個或多個處理器以及存儲器;一個或多個程序被存儲在所述存儲器中并被配置為由所述一個或多個處理器執(zhí)行權(quán)利要求1-7任一所述的方法。
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有程序代碼,其中,在所述程序代碼被處理器運(yùn)行時執(zhí)行權(quán)利要求1-7任一所述的方法。