本公開涉及計(jì)算機(jī),尤其涉及一種對(duì)話輪次結(jié)束判斷方法、裝置、電子設(shè)備、介質(zhì)和車輛。
背景技術(shù):
1、車輛座艙內(nèi)的交互以語音交互過程為主,語音交互功能可以通過車機(jī)助手實(shí)現(xiàn),用戶說完一句話之后,車機(jī)助手是否能快速地回復(fù)執(zhí)行,是用戶判斷交互是否友好的重要參考。參照?qǐng)D1所示,圖1為現(xiàn)有技術(shù)中車輛座艙內(nèi)語音交互的流程示意圖。具體語音交互的流程如下:首先,用戶通過預(yù)設(shè)的喚醒詞喚醒車機(jī)助手,使其進(jìn)入到工作狀態(tài),例如,預(yù)設(shè)的喚醒詞可以是:“xx同學(xué)”、“小x”等。然后,車機(jī)助手通過vad技術(shù)檢測用戶是否有有效語音輸入,如果檢測到有效語音,則送入語音識(shí)別模塊進(jìn)行識(shí)別,否則超時(shí)退出,例如,喚醒車機(jī)助手之后,在預(yù)設(shè)時(shí)間內(nèi),用戶沒有下發(fā)具體指令,車機(jī)助手會(huì)再次詢問,“請(qǐng)問您需要什么幫助?”,在幾秒內(nèi)仍沒有接收到相應(yīng)指令,則超時(shí)退出。接著,語音識(shí)別模塊將有效語音轉(zhuǎn)換為識(shí)別文本并送入下游語義理解模塊,語義理解模塊根據(jù)識(shí)別結(jié)果獲取用戶的意圖、動(dòng)作等信息并發(fā)送給下游控制單元,控制單元執(zhí)行相應(yīng)的動(dòng)作。在vad(voice?activitydetection,語音活動(dòng)檢測技術(shù))中,對(duì)每一個(gè)語音幀輸出一個(gè)有效語音和非有效語音(靜音)的判斷結(jié)果,連續(xù)多幀的有效語音組合在一起會(huì)被判斷為用戶開始說話,在此之后,連續(xù)多幀的靜音會(huì)被判斷為用戶已經(jīng)說完。
2、相關(guān)技術(shù)中,為減少用戶等待時(shí)間,vad判斷用戶說完一句話的靜音閾值會(huì)設(shè)置的較小,通常在1秒以內(nèi)。雖然較小的vad靜音閾值可以優(yōu)化車機(jī)助手的響應(yīng)速度,但是在實(shí)際語音交互過程中,用戶在和車機(jī)對(duì)話時(shí)可能出現(xiàn)猶豫、停頓,此時(shí)如果用戶的停頓時(shí)間超過vad的靜音閾值,那么系統(tǒng)會(huì)判斷用戶已經(jīng)說完,進(jìn)入后續(xù)的交互流程。這種將靜音閾值設(shè)置為固定值的方式,不利于車機(jī)助手正確理解用戶語義,從而無法正確執(zhí)行用戶指令,導(dǎo)致用戶體驗(yàn)較差。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開提供了一種對(duì)話輪次結(jié)束判斷方法、裝置、電子設(shè)備、介質(zhì)和車輛。
2、第一方面,本公開提供了一種對(duì)話輪次結(jié)束判斷方法,該方法包括:
3、獲取待識(shí)別語音幀的第一有效語音片段,并識(shí)別所述第一有效語音片段對(duì)應(yīng)的第一文本內(nèi)容;
4、將所述第一有效語音片段和所述第一文本內(nèi)容輸入預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的第一置信度分?jǐn)?shù);所述第一置信度分?jǐn)?shù)用于表示根據(jù)第一有效語音片段和第一文本內(nèi)容預(yù)測出的用戶未說完一句話的概率;
5、根據(jù)所述第一置信度分?jǐn)?shù),將預(yù)設(shè)靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述目標(biāo)靜音時(shí)長與所述第一置信度分?jǐn)?shù)成正相關(guān);
6、基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
7、作為本公開實(shí)施例一種可選的實(shí)施方式,所述預(yù)設(shè)語音識(shí)別模型輸出的第一置信度分?jǐn)?shù)的過程,包括:
8、所述預(yù)設(shè)語音識(shí)別模型提取所述第一有效語音片段的第一聲學(xué)特征,以及提取所述第一文本內(nèi)容的第一文本特征;
9、所述預(yù)設(shè)語音識(shí)別模型對(duì)所述第一聲學(xué)特征和所述第一文本特征進(jìn)行特征融合,得到第一融合特征;
10、所述預(yù)設(shè)語音識(shí)別模型對(duì)所述第一融合特征進(jìn)行置信度分類,得到所述第一置信度分?jǐn)?shù)并輸出。
11、作為本公開實(shí)施例一種可選的實(shí)施方式,所述第一聲學(xué)特征包括以下至少一項(xiàng):音調(diào)特征、拖音特征、發(fā)音時(shí)長;所述第一文本特征包括語義完整性特征。
12、作為本公開實(shí)施例一種可選的實(shí)施方式,獲取待識(shí)別語音幀的第一有效語音片段,包括:
13、獲取待識(shí)別語音幀;
14、提取所述待識(shí)別語音幀的音頻特征信息;
15、根據(jù)所述音頻特征信息進(jìn)行音頻聚類,得到所述第一有效語音片段。
16、作為本公開實(shí)施例一種可選的實(shí)施方式,識(shí)別所述第一有效語音片段對(duì)應(yīng)的第一文本內(nèi)容,包括:
17、對(duì)所述第一有效語音片段進(jìn)行預(yù)處理,所述預(yù)處理包括以下至少一項(xiàng):去噪、人聲提取、人聲增強(qiáng);
18、對(duì)預(yù)處理后的第一有效語音片段進(jìn)行語音識(shí)別,轉(zhuǎn)換為對(duì)應(yīng)的第一文本內(nèi)容。
19、作為本公開實(shí)施例一種可選的實(shí)施方式,所述根據(jù)所述第一置信度分?jǐn)?shù),將預(yù)設(shè)靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長,包括:
20、當(dāng)所述第一置信度分?jǐn)?shù)大于等于第一預(yù)設(shè)閾值時(shí),將所述預(yù)設(shè)靜音時(shí)長調(diào)整為第一靜音時(shí)長;
21、當(dāng)所述第一置信度分?jǐn)?shù)大于等于第二預(yù)設(shè)閾值,且小于所述第一預(yù)設(shè)閾值時(shí),將所述預(yù)設(shè)靜音時(shí)長調(diào)整為第二靜音時(shí)長;
22、當(dāng)所述第一置信度分?jǐn)?shù)小于所述第二預(yù)設(shè)閾值時(shí),不對(duì)所述預(yù)設(shè)靜音時(shí)長進(jìn)行調(diào)整。
23、作為本公開實(shí)施例一種可選的實(shí)施方式,所述方法還包括:
24、若在所述第一靜音時(shí)長內(nèi)檢測到第二有效語音片段,則將所述第二有效語音片段輸入所述預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的第二有效語音片段的第二置信度分?jǐn)?shù);
25、根據(jù)所述第二置信度分?jǐn)?shù),將第一剩余靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述第一剩余靜音時(shí)長為所述第一靜音時(shí)長與第一檢測時(shí)長之差,所述第一檢測時(shí)長為所述第一靜音時(shí)長的起始時(shí)刻至檢測到所述第二有效語音片段的時(shí)刻之間的時(shí)長;
26、基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
27、第二方面,本公開實(shí)施例提供一種對(duì)話輪次結(jié)束判斷裝置,該裝置包括:
28、獲取模塊,用于獲取待識(shí)別語音幀的第一有效語音片段,并識(shí)別所述第一有效語音片段對(duì)應(yīng)的第一文本內(nèi)容;
29、輸入模塊,用于將所述第一有效語音片段和所述第一文本內(nèi)容輸入預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的第一置信度分?jǐn)?shù);所述第一置信度分?jǐn)?shù)用于表示根據(jù)第一有效語音片段和第一文本內(nèi)容預(yù)測出的用戶未說完一句話的概率;
30、調(diào)整模塊,用于根據(jù)所述第一置信度分?jǐn)?shù),將預(yù)設(shè)靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述目標(biāo)靜音時(shí)長與所述第一置信度分?jǐn)?shù)成正相關(guān);
31、判斷模塊,用于基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
32、作為本公開實(shí)施例一種可選的實(shí)施方式,所述預(yù)設(shè)語音識(shí)別模型輸出的第一置信度分?jǐn)?shù)的過程,包括:
33、所述預(yù)設(shè)語音識(shí)別模型提取所述第一有效語音片段的第一聲學(xué)特征,以及提取所述第一文本內(nèi)容的第一文本特征;
34、所述預(yù)設(shè)語音識(shí)別模型對(duì)所述第一聲學(xué)特征和所述第一文本特征進(jìn)行特征融合,得到第一融合特征;
35、所述預(yù)設(shè)語音識(shí)別模型對(duì)所述第一融合特征進(jìn)行置信度分類,得到所述第一置信度分?jǐn)?shù)并輸出。
36、作為本公開實(shí)施例一種可選的實(shí)施方式,所述第一聲學(xué)特征包括以下至少一項(xiàng):音調(diào)特征、拖音特征、發(fā)音時(shí)長;所述第一文本特征包括語義完整性特征。
37、作為本公開實(shí)施例一種可選的實(shí)施方式,獲取模塊,獲取待識(shí)別語音幀的第一有效語音片段,具體用于:
38、獲取待識(shí)別語音幀;
39、提取所述待識(shí)別語音幀的音頻特征信息;
40、根據(jù)所述音頻特征信息進(jìn)行音頻聚類,得到所述第一有效語音片段。
41、作為本公開實(shí)施例一種可選的實(shí)施方式,獲取模塊,識(shí)別所述第一有效語音片段對(duì)應(yīng)的第一文本內(nèi)容,具體用于:
42、對(duì)所述第一有效語音片段進(jìn)行預(yù)處理,所述預(yù)處理包括以下至少一項(xiàng):去噪、人聲提取、人聲增強(qiáng);
43、對(duì)預(yù)處理后的第一有效語音片段進(jìn)行語音識(shí)別,轉(zhuǎn)換為對(duì)應(yīng)的第一文本內(nèi)容。
44、作為本公開實(shí)施例一種可選的實(shí)施方式,所述調(diào)整模塊,具體用于:
45、當(dāng)所述第一置信度分?jǐn)?shù)大于等于第一預(yù)設(shè)閾值時(shí),將所述預(yù)設(shè)靜音時(shí)長調(diào)整為第一靜音時(shí)長;
46、當(dāng)所述第一置信度分?jǐn)?shù)大于等于第二預(yù)設(shè)閾值,且小于所述第一預(yù)設(shè)閾值時(shí),將所述預(yù)設(shè)靜音時(shí)長調(diào)整為第二靜音時(shí)長;
47、當(dāng)所述第一置信度分?jǐn)?shù)小于所述第二預(yù)設(shè)閾值時(shí),不對(duì)所述預(yù)設(shè)靜音時(shí)長進(jìn)行調(diào)整。
48、作為本公開實(shí)施例一種可選的實(shí)施方式,若在所述第一靜音時(shí)長內(nèi)檢測到第二有效語音片段,則將所述第二有效語音片段輸入所述預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的第二有效語音片段的第二置信度分?jǐn)?shù);
49、根據(jù)所述第二置信度分?jǐn)?shù),將第一剩余靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述第一剩余靜音時(shí)長為所述第一靜音時(shí)長與第一檢測時(shí)長之差,所述第一檢測時(shí)長為所述第一靜音時(shí)長的起始時(shí)刻至檢測到所述第二有效語音片段的時(shí)刻之間的時(shí)長;
50、基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
51、作為本公開實(shí)施例一種可選的實(shí)施方式,若在所述第二靜音時(shí)長內(nèi)檢測到第二有效語音片段,則將所述第二有效語音片段輸入所述預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的所述第二有效語音片段的第三置信度分?jǐn)?shù);
52、根據(jù)所述第三置信度分?jǐn)?shù),將第二剩余靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述第二剩余靜音時(shí)長為所述第二靜音時(shí)長與第二檢測時(shí)長之差,所述第二檢測時(shí)長為所述第二靜音時(shí)長的起始時(shí)刻至檢測到所述第二有效語音片段的時(shí)刻之間的時(shí)長;
53、基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
54、作為本公開實(shí)施例一種可選的實(shí)施方式,若在所述預(yù)設(shè)靜音時(shí)長內(nèi)檢測到第二有效語音片段,則將所述第二有效語音片段輸入所述預(yù)設(shè)語音識(shí)別模型,獲取所述預(yù)設(shè)語音識(shí)別模型輸出的所述第二有效語音片段的第四置信度分?jǐn)?shù);
55、根據(jù)所述第四置信度分?jǐn)?shù),將第三剩余靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長;所述第三剩余靜音時(shí)長為所述預(yù)設(shè)靜音時(shí)長與第三檢測時(shí)長之差,所述第三檢測時(shí)長為所述預(yù)設(shè)靜音時(shí)長的起始時(shí)刻至檢測到所述第二有效語音片段的時(shí)刻之間的時(shí)長;
56、基于所述目標(biāo)靜音時(shí)長,確定所述待識(shí)別語音幀的對(duì)話是否結(jié)束。
57、第三方面,本公開實(shí)施例提供一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;
58、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,
59、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)施方式所述的對(duì)話輪次結(jié)束判斷方法。
60、第四方面,本公開實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)施方式所述的對(duì)話輪次結(jié)束判斷方法。
61、第五方面,公開實(shí)施例提供一種車輛,包括:如第三方面所述的電子設(shè)備。
62、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):獲取待識(shí)別語音幀的第一有效語音片段,并識(shí)別第一有效語音片段對(duì)應(yīng)的第一文本內(nèi)容,進(jìn)而將第一有效語音片段和第一文本內(nèi)容輸入預(yù)設(shè)語音識(shí)別模型,獲取預(yù)設(shè)語音識(shí)別模型輸出的第一置信度分?jǐn)?shù),其中,第一置信度分?jǐn)?shù)用于表示根據(jù)第一有效語音片段和第一文本內(nèi)容預(yù)測出的用戶未說完一句話的概率,根據(jù)第一置信度分?jǐn)?shù),將預(yù)設(shè)靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長,其中,目標(biāo)靜音時(shí)長與第一置信度分?jǐn)?shù)成正相關(guān);基于目標(biāo)靜音時(shí)長,確定待識(shí)別語音幀的對(duì)話是否結(jié)束。通過待識(shí)別語音幀的有效語音片段及其對(duì)應(yīng)的第一文本內(nèi)容識(shí)別得到第一置信度分?jǐn)?shù),將語音文字相結(jié)合對(duì)用戶未說完一句話的概率進(jìn)行預(yù)測,提升了預(yù)測的準(zhǔn)確率,進(jìn)而根據(jù)第一置信度分?jǐn)?shù)動(dòng)態(tài)調(diào)整預(yù)設(shè)靜音時(shí)長,將預(yù)設(shè)靜音時(shí)長調(diào)整為目標(biāo)靜音時(shí)長,可以兼顧到用戶停頓或遲疑的靜音等待時(shí)間,從而更靈活地判斷用戶當(dāng)前對(duì)話是否結(jié)束,避免現(xiàn)有技術(shù)中靜音預(yù)設(shè)時(shí)長為固定值,會(huì)錯(cuò)誤打斷用戶的問題,進(jìn)一步提升用戶的語音交互體驗(yàn)。