本發(fā)明涉及物聯(lián)網(wǎng)控制的ai語音,具體涉及一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng)。
背景技術(shù):
1、隨著物聯(lián)網(wǎng)技術(shù)和ai語音分析技術(shù)的不斷發(fā)展,用于物聯(lián)網(wǎng)卡控制的ai語音分析方法將在更多領(lǐng)域得到應(yīng)用,如智能家居、智能辦公等應(yīng)用場景對于語音識別技術(shù)和語音交互的需求日益增加,語音識別技術(shù)作為人機(jī)交互的重要組成部分,然而現(xiàn)有的語音識別技術(shù)面臨著一個共同的問題:在復(fù)雜的噪聲環(huán)境下,語音信號的清晰度往往受到嚴(yán)重干擾,導(dǎo)致語音識別準(zhǔn)確率下降,用戶體驗受到影響;
2、在現(xiàn)實環(huán)境中,諸如背景音樂、人群交談聲、機(jī)器運轉(zhuǎn)聲等各種噪聲的存在嚴(yán)重影響了語音信號的質(zhì)量;這些噪聲不僅降低了語音的可辨識性,而且還會使語音識別系統(tǒng)產(chǎn)生誤判;在某些情況下,需要同時處理多個說話人的語音信號,這對信號處理算法提出了更高的要求;傳統(tǒng)的單通道語音處理技術(shù)往往無法有效應(yīng)對多音源環(huán)境下的語音識別任務(wù);為了提供流暢的交互體驗,語音識別系統(tǒng)必須能夠在短時間內(nèi)完成語音信號的采集、處理及識別過程;這意味著需要高效的信號處理算法來保障系統(tǒng)的響應(yīng)速度。
3、針對上述提出的技術(shù)問題,能夠有效提升語音信號清晰度、動態(tài)調(diào)整噪聲抑制參數(shù),并支持多通道音頻信號處理的ai語音分析方法,以提高語音識別系統(tǒng)的準(zhǔn)確率和魯棒性,優(yōu)化用戶體驗,并推動智能設(shè)備在更多領(lǐng)域的廣泛應(yīng)用。
4、基于此,本發(fā)明提出了一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng),通過綜合時域和頻域分析、噪聲抑制技術(shù)以及動態(tài)參數(shù)調(diào)整,實現(xiàn)了在復(fù)雜噪聲環(huán)境下的高清晰度語音信號采集與處理。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng),首先包括采集用戶的語音指令并獲得原始音頻數(shù)據(jù),對原始音頻數(shù)據(jù)進(jìn)行時域和頻域分析,綜合得到語音清晰度分?jǐn)?shù);分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計算得到噪聲抑制增益調(diào)整區(qū)間;使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果動態(tài)調(diào)整每個通道的噪聲抑制參數(shù)。具體而言,通過計算失真指數(shù)d和頻譜平滑度s,并結(jié)合預(yù)設(shè)的權(quán)重系數(shù),得到語音清晰度分?jǐn)?shù)c,將c與預(yù)設(shè)的清晰度分?jǐn)?shù)閾值進(jìn)行比較,區(qū)分高清晰度和低清晰度語音信號;通過計算信噪比snr,整合高清晰度和低清晰度語音信號的信噪比區(qū)間,確定目標(biāo)信噪比區(qū)間;基于最大信噪比狀態(tài)下的最小清晰度分?jǐn)?shù)cmin,得到失真指數(shù)d和頻譜平滑度s,并通過公式計算噪聲抑制增益g,動態(tài)調(diào)整噪聲抑制增益以優(yōu)化語音信號清晰度;在多通道環(huán)境下,通過校準(zhǔn)各通道以確保數(shù)據(jù)一致性,提取每個通道的時域和頻域特征,結(jié)合信號融合算法生成綜合語音清晰度分?jǐn)?shù),并根據(jù)多通道信號的分析結(jié)果動態(tài)調(diào)整噪聲抑制參數(shù),從而優(yōu)化整體語音清晰度,提高語音控制的可靠性和用戶體驗。
2、本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):
3、一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法,包括以下步驟:
4、s1:采集用戶的語音指令,獲得原始音頻數(shù)據(jù);
5、s2:對原始音頻數(shù)據(jù)進(jìn)行時域分析和頻域分析,并綜合分析得到語音清晰度分?jǐn)?shù);
6、s3:分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;
7、s4:基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計算得到噪聲抑制增益調(diào)整區(qū)間;
8、s5:使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果,動態(tài)調(diào)整每個通道的噪聲抑制參數(shù)。
9、作為本發(fā)明進(jìn)一步的方案:語音清晰度分?jǐn)?shù)c的獲取過程為:
10、對失真指數(shù)d和頻譜平滑度s進(jìn)行處理;
11、將失真指數(shù)d的權(quán)重分配為w1,將頻譜平滑度s的權(quán)重分配為w2,且w1和w2均大于0;
12、通過公式計算得到語音清晰度分?jǐn)?shù)c。
13、作為本發(fā)明進(jìn)一步的方案:失真指數(shù)d的獲取過程為:
14、通過公式計算得到失真指數(shù)d;
15、其中,n是樣本點的數(shù)量,是原始信號的第i個樣本點,yi是處理后信號的第i個樣本點。
16、作為本發(fā)明進(jìn)一步的方案:頻譜平滑度s的獲取過程為:
17、通過公式計算得到頻譜平滑度s;
18、其中,m是頻譜的分量數(shù)量,和分別是頻譜的第j和j+1個分量。
19、作為本發(fā)明進(jìn)一步的方案:目標(biāo)信噪比區(qū)間獲取過程為:通過公式計算得到信噪比snr;
20、其中,是原始語音信號的第i個樣本點,是噪聲信號的第i個樣本點,n是樣本點的數(shù)量。
21、并將每個語音信號的清晰度分?jǐn)?shù)與清晰度分?jǐn)?shù)閾值進(jìn)行比較;
22、分別得到若干高清晰度語音信號和若干低清晰度語音信號;
23、對所有高清晰度語音信號,計算對應(yīng)的信噪比,將所得信噪比按照大小順序進(jìn)行整合,得到高清晰度語音信號對應(yīng)的信噪比區(qū)間,記為高清晰度低信噪比區(qū)間;
24、對所有低清晰度語音信號,計算對應(yīng)的信噪比,將所得信噪比按照大小順序進(jìn)行整合,得到低清晰度語音信號對應(yīng)的信噪比區(qū)間,記為低清晰度高信噪比區(qū)間;
25、若高清晰度低信噪比區(qū)間與低清晰度高信噪比區(qū)間之間存在交叉部分,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取低清晰度高信噪比區(qū)間內(nèi)的最小信噪比記為,將記為第一目標(biāo)信噪比區(qū)間;
26、若低清晰度高信噪比區(qū)間完全包含高清晰度低信噪比區(qū)間,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取高清晰度低信噪比區(qū)間內(nèi)的最大信噪比記為,則將記為第二目標(biāo)信噪比區(qū)間;
27、若低清晰度高信噪比區(qū)間與高清晰度低信噪比區(qū)間不存在相交部分,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取高清晰度信低噪比區(qū)間內(nèi)的最大信噪比記為則將記為第二目標(biāo)信噪比區(qū)間。
28、作為本發(fā)明進(jìn)一步的方案:噪聲抑制增益調(diào)整區(qū)間獲取過程為:
29、以第一目標(biāo)信噪比區(qū)間為例,將第一目標(biāo)信噪比區(qū)間劃分為若干相同時間采集點,分別獲取每個采集點對應(yīng)的信噪比、失真指數(shù)和頻譜平滑度;其中,a表示采集點的個數(shù),a為大于0的正整數(shù);
30、基于信噪比,得到清晰度分?jǐn)?shù),再根據(jù)清晰度分?jǐn)?shù)得到失真指數(shù)和頻譜平滑度,綜合計算得到噪聲抑制增益;
31、對目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,按照從小到大的順序,依次獲取對應(yīng)的信噪比與清晰度分?jǐn)?shù);其中n表示目標(biāo)區(qū)間內(nèi)的語言信號數(shù)量;以清晰度分?jǐn)?shù)為因變量,信噪比為自變量;將最大信噪比對應(yīng)最小清晰度分?jǐn)?shù)依次按照順序,將所有清晰度分?jǐn)?shù)與信噪比一一對應(yīng),建立直角坐標(biāo)系,觀察信噪比和清晰度分?jǐn)?shù)在坐標(biāo)軸的分布情況;
32、通過公式計算得到變化率;
33、若變化率為正數(shù)則說明,計算第一目標(biāo)區(qū)間內(nèi)所有噪聲抑制增益,并獲取最大噪聲抑制增益和最小噪聲抑制增益g1;得到噪聲抑制增益調(diào)整區(qū)間;
34、若變化率為負(fù)數(shù),計算第一目標(biāo)區(qū)間內(nèi)所有噪聲抑制增益,并獲取最大噪聲抑制增益和最小噪聲抑制增益g3;得到噪聲抑制增益調(diào)整區(qū)間。
35、作為本發(fā)明進(jìn)一步的方案:對多通道音頻信號進(jìn)行時域和頻率域分析,分別提取每個通道的時域波形和頻譜特征;匯總所有通道的分析結(jié)果,計算整體的失真指數(shù)d和頻譜平滑度s;結(jié)合各通道的音頻數(shù)據(jù),計算綜合語音清晰度分?jǐn)?shù)c;若語音清晰度分?jǐn)?shù)c低于預(yù)設(shè)閾值,系統(tǒng)將進(jìn)一步分析各通道的信噪比snr,識別主要噪聲源并進(jìn)行針對性處理;根據(jù)多通道信號的分析結(jié)果,動態(tài)調(diào)整每個通道的噪聲抑制參數(shù)。
36、一種用于物聯(lián)網(wǎng)卡控制的ai語音分析系統(tǒng),包括語音信號采集模塊、語音信號分析模塊、語音清晰度分?jǐn)?shù)計算模塊、噪聲影響分析模塊、噪聲調(diào)整與優(yōu)化模塊和多通道音頻信號處理模塊;
37、語音信號采集模塊,所述語音信號采集模塊通過音頻輸入設(shè)備采集原始語音信號;
38、語音信號分析模塊,所述語音信號分析模塊對原始音頻數(shù)據(jù)進(jìn)行時域分析和頻域分析;
39、語音清晰度分?jǐn)?shù)計算模塊,所述語音清晰度分?jǐn)?shù)計算模塊通過綜合分析語音信號的時域和頻域特征,計算語音清晰度分?jǐn)?shù);
40、噪聲影響分析模塊,所述噪聲影響分析模塊通過分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;
41、噪聲調(diào)整與優(yōu)化模塊,所述噪聲調(diào)整與優(yōu)化模塊基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計算得到噪聲抑制增益調(diào)整區(qū)間;
42、多通道音頻信號處理模塊,所述多通道音頻信號處理模塊通過使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果,動態(tài)調(diào)整每個通道的噪聲抑制參數(shù)。
43、本發(fā)明的有益效果:
44、(1)本發(fā)明通過采集多個語音信號并計算各自的清晰度分?jǐn)?shù),區(qū)分出高清晰度和低清晰度語音信號;通過計算信噪比并整合高清晰度和低清晰度語音信號的信噪比區(qū)間,確定目標(biāo)信噪比區(qū)間。基于最大信噪比狀態(tài)下的最小清晰度分?jǐn)?shù)?,得到失真指數(shù)和頻譜平滑度,并通過公式計算噪聲抑制增益;這種方法能夠動態(tài)調(diào)整噪聲抑制增益,顯著提高語音信號的清晰度;通過在直角坐標(biāo)系中觀察信噪比和清晰度分?jǐn)?shù)的變化,可以更精確地調(diào)整噪聲抑制參數(shù),從而在不同噪聲環(huán)境下保持語音信號的高質(zhì)量;
45、(2)本發(fā)明通過對目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間內(nèi)的語音信號進(jìn)行分析,根據(jù)信噪比的變化調(diào)整噪聲抑制增益;具體而言,通過計算變化率,可以判斷信噪比與清晰度分?jǐn)?shù)的關(guān)系;當(dāng)變化率為正數(shù)時,表明隨著信噪比的增加,清晰度分?jǐn)?shù)也在增加,此時可以形成噪聲抑制增益調(diào)整區(qū)間;當(dāng)變化率為負(fù)數(shù)時,表明隨著信噪比的增加,清晰度分?jǐn)?shù)反而減少,也可以形成相應(yīng)的調(diào)整區(qū)間。這種動態(tài)調(diào)整機(jī)制使得系統(tǒng)能夠更好地適應(yīng)不同噪聲環(huán)境,提高了噪聲抑制的效果,從而提升了語音識別的準(zhǔn)確率。
46、(3)本發(fā)明通過支持多通道音頻信號處理,使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并確保所有通道的音頻信號具有相同的采樣率和位深度;對每個通道進(jìn)行時域和頻域分析,提取時域波形和頻譜特征,匯總分析結(jié)果,計算整體的失真指數(shù)和頻譜平滑度;結(jié)合各通道的音頻數(shù)據(jù),生成綜合語音清晰度分?jǐn)?shù);這種方法不僅提高了語音信號的整體清晰度,還能通過分析多通道信號的方向性,增強(qiáng)目標(biāo)語音方向的聲音,同時抑制其他方向的噪聲;通過動態(tài)調(diào)整每個通道的噪聲抑制參數(shù),優(yōu)化了整體語音清晰度,提升了系統(tǒng)的魯棒性和可靠性。