欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語(yǔ)音起始點(diǎn)和終止點(diǎn)的檢測(cè)方法與流程

文檔序號(hào):11585555閱讀:1456來(lái)源:國(guó)知局
一種語(yǔ)音起始點(diǎn)和終止點(diǎn)的檢測(cè)方法與流程

本發(fā)明涉及一種檢測(cè)方法,特別是一種判斷語(yǔ)音起始點(diǎn)和終止點(diǎn)的檢測(cè)方法。



背景技術(shù):

語(yǔ)音識(shí)別,也稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(automaticspeechrecognition,asr),其目標(biāo)是將人類(lèi)語(yǔ)音轉(zhuǎn)換為計(jì)算機(jī)可讀的文字或指令,是模式識(shí)別的一個(gè)重要分支。一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)一般包括語(yǔ)音信號(hào)預(yù)處理、特征提取、模型訓(xùn)練、聲學(xué)模型、語(yǔ)言模型以及自然語(yǔ)言后處理等幾大模塊。

語(yǔ)音信號(hào)預(yù)處理階段可對(duì)語(yǔ)音進(jìn)行降噪、增強(qiáng)以處理原始語(yǔ)音信號(hào),部分消除噪聲和不同說(shuō)話人帶來(lái)的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。

特征參數(shù)提取是指從語(yǔ)音信號(hào)中提取出有關(guān)的特征參數(shù),如語(yǔ)音識(shí)別建模中常用的梅爾頻率倒譜系數(shù)(mel-frequencycepstralcoefficient,mfcc)或?yàn)V波器組系數(shù)(filterbankcoefficient)等等。

聲學(xué)模型的主要作用是用來(lái)辨識(shí)用戶發(fā)什么樣的音。目前占據(jù)主流地位的建模方法為深度神經(jīng)網(wǎng)絡(luò)模型(dnn/cnn/rnn)等。

語(yǔ)言模型的作用是幫助辨識(shí)用戶發(fā)出的音對(duì)應(yīng)于什么文字,利用前后詞匯的搭配信息來(lái)選取更為準(zhǔn)確的詞匯序列。目前主要使用n-gram統(tǒng)計(jì)語(yǔ)言模型。

識(shí)別器的主要作用是進(jìn)行搜索,在搜索空間中確定跟用戶語(yǔ)音吻合度最高的詞序列。比較經(jīng)典的搜索算法為時(shí)間同步的viterbi搜索。

自然語(yǔ)言后處理階段一般是利用語(yǔ)言知識(shí)庫(kù)或模型進(jìn)一步提升語(yǔ)音識(shí)別的精度。對(duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則,根據(jù)上下文的約束對(duì)識(shí)別結(jié)果進(jìn)行糾正和修改。

在實(shí)際應(yīng)用過(guò)程中,語(yǔ)音端點(diǎn)檢測(cè)(voiceactivitydetect,vad或者voiceendpointdetect)是語(yǔ)音識(shí)別前端(frontend)中一個(gè)非常重要的模塊,它的重要性可以簡(jiǎn)要概括如下:

摒除一些非語(yǔ)音信號(hào),如偶發(fā)的咳嗽聲、鍵盤(pán)敲擊聲、拍掌聲、類(lèi)似汽車(chē)發(fā)動(dòng)機(jī)的低頻噪聲、雷聲和雨聲等等。這樣可以降低語(yǔ)音識(shí)別的誤識(shí)別率,避免后續(xù)的誤操作。

降低不必要的計(jì)算量和系統(tǒng)的功耗水平。對(duì)于很多應(yīng)用場(chǎng)合,如智能玩具和智能家居等,我們多部署嵌入式語(yǔ)音識(shí)別系統(tǒng),控制和降低功耗非常重要。這些場(chǎng)合用戶使用語(yǔ)音識(shí)別技術(shù)的頻度不是很高,但識(shí)別系統(tǒng)必須隨時(shí)處于待命狀態(tài),一旦用戶發(fā)出指令,能夠及時(shí)響應(yīng)。而待命時(shí)的功耗水平控制很?chē)?yán),這些場(chǎng)合,一個(gè)復(fù)雜度相對(duì)較低、準(zhǔn)確檢測(cè)語(yǔ)音端點(diǎn)的vad模塊非常重要。

遠(yuǎn)場(chǎng)支持由于麥克風(fēng)等拾音設(shè)備物理上的限制,一旦說(shuō)話人和麥克風(fēng)相距較遠(yuǎn)(比如5米以上)的時(shí)候,錄出來(lái)的語(yǔ)音信號(hào)幅度很小,即使周?chē)h(huán)境的噪聲水平很低,語(yǔ)音信號(hào)也可能淹沒(méi)在噪聲信號(hào)中。如果不能把語(yǔ)音信號(hào)通過(guò)端點(diǎn)檢測(cè)從背景噪聲中分離出來(lái),識(shí)別精度是無(wú)法保證的。借助于先進(jìn)的端點(diǎn)檢測(cè)技術(shù),可以更好地支持遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別。

此外,在現(xiàn)代通信系統(tǒng)中,也使用語(yǔ)音端點(diǎn)技術(shù)來(lái)檢測(cè)語(yǔ)音的開(kāi)始。對(duì)于非語(yǔ)音信號(hào),通過(guò)端點(diǎn)檢測(cè)在本地排除,并不發(fā)送給遠(yuǎn)端的接收方。這樣可以降低通信中的帶寬需求。

現(xiàn)有的方法也存在一些問(wèn)題,如算法的穩(wěn)定性不夠、抗噪聲能力不夠強(qiáng)或者計(jì)算復(fù)雜度過(guò)高,不太適合應(yīng)用需求,上述問(wèn)題亟待解決。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題,本發(fā)明的目的在于提供一種語(yǔ)音起始點(diǎn)和終點(diǎn)的檢測(cè)方法。

本發(fā)明提供了一種語(yǔ)音起始點(diǎn)的檢測(cè)方法,包括以下步驟,

s1,接收輸入的待檢測(cè)語(yǔ)音信號(hào);

s2,對(duì)待檢測(cè)語(yǔ)音信號(hào)進(jìn)行時(shí)頻變換;

s3,在頻域?qū)?jīng)步驟s2處理后的信號(hào)進(jìn)行濾波;

s4,對(duì)步驟s3處理后的信號(hào)進(jìn)行增強(qiáng)處理;

s5,在頻域計(jì)算經(jīng)步驟s4處理后的信號(hào)的共振峰的個(gè)數(shù)以及不同頻帶的能量占比;

s6,在時(shí)域計(jì)算經(jīng)步驟s4處理后的信號(hào)的過(guò)零交叉率和最大最小幅值比;

s7,通過(guò)步驟s5和s6的計(jì)算值判定語(yǔ)音信號(hào)的起點(diǎn)。

優(yōu)選地,所述步驟s3中濾波時(shí),選取頻帶范圍為200-2500hz的分量供后續(xù)步驟使用。

優(yōu)選地,所述步驟s4包括以下步驟,

s41,選取待檢測(cè)語(yǔ)音信號(hào)前一段時(shí)間的語(yǔ)音信號(hào)作為背景信號(hào);

s42,將待檢測(cè)語(yǔ)音信號(hào)減去背景信號(hào)的頻譜。

優(yōu)選地,所述步驟s41中選取待檢測(cè)語(yǔ)音信號(hào)前100-150ms的語(yǔ)音信號(hào)作為背景信號(hào)。

優(yōu)選地,所述步驟s1采用中滑動(dòng)窗口協(xié)議用于接收待檢測(cè)的語(yǔ)音信號(hào)。

本發(fā)明還提供了一種語(yǔ)音終止點(diǎn)的檢測(cè)方法,包括以下步驟,

sa1,接收輸入的待檢測(cè)語(yǔ)音信號(hào);

sa2,對(duì)待檢測(cè)語(yǔ)音信號(hào)進(jìn)行時(shí)頻變換;

sa3,在頻域?qū)?jīng)步驟sa2處理后的信號(hào)進(jìn)行濾波;

sa4,在頻域計(jì)算經(jīng)步驟sa3處理后的信號(hào)的共振峰的個(gè)數(shù)以及不同頻帶的能量占比;

sa5,在時(shí)域計(jì)算經(jīng)步驟sa3處理后的信號(hào)的過(guò)零交叉率和最大最小幅值比;

sa6,通過(guò)步驟sa4和sa5的計(jì)算值判定語(yǔ)音信號(hào)的終點(diǎn)。

優(yōu)選地,所述步驟sa3中濾波時(shí),選取頻帶范圍為200-2500hz的分量供后續(xù)步驟使用。

綜上所述,本發(fā)明具有以下優(yōu)點(diǎn):

本發(fā)明的語(yǔ)音起始點(diǎn)和終止點(diǎn)的檢測(cè)方法,綜合了時(shí)域和頻域的處理方法,檢測(cè)精度高,同計(jì)算復(fù)雜程度低,且抗噪能力腔,通過(guò)信號(hào)增強(qiáng)和特定頻帶的檢測(cè),可以抑制大部分低頻信號(hào)分量和高頻信號(hào)分量的干擾,提升魯棒性。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例的語(yǔ)音起始點(diǎn)檢測(cè)方法流程圖;

圖2為本發(fā)明實(shí)施例的語(yǔ)音終止點(diǎn)的檢測(cè)方法流程圖。

具體實(shí)施方式

下面結(jié)合實(shí)施方式及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)、完整地說(shuō)明。

如圖1-2所示,一種語(yǔ)音起始點(diǎn)的檢測(cè)方法,包括以下步驟,

s1,接收輸入的待檢測(cè)語(yǔ)音信號(hào);

s2,對(duì)待檢測(cè)語(yǔ)音信號(hào)進(jìn)行時(shí)頻變換;

s3,在頻域?qū)?jīng)步驟s2處理后的信號(hào)進(jìn)行濾波;

s4,對(duì)步驟s3處理后的信號(hào)進(jìn)行增強(qiáng)處理;

s5,在頻域計(jì)算經(jīng)步驟s4處理后的信號(hào)的共振峰的個(gè)數(shù)以及不同頻帶的能量占比;

s6,在時(shí)域計(jì)算經(jīng)步驟s4處理后的信號(hào)的過(guò)零交叉率和最大最小幅值比;

s7,通過(guò)步驟s5和s6的計(jì)算值判定語(yǔ)音信號(hào)的起點(diǎn)。

所述步驟s3中濾波時(shí),選取頻帶范圍為200-2500hz的分量供后續(xù)步驟使用。

所述步驟s4包括以下步驟,

s41,選取待檢測(cè)語(yǔ)音信號(hào)前一段時(shí)間的語(yǔ)音信號(hào)作為背景信號(hào);

s42,將待檢測(cè)語(yǔ)音信號(hào)減去背景信號(hào)的頻譜。

所述步驟s41中選取待檢測(cè)語(yǔ)音信號(hào)前100-150ms的語(yǔ)音信號(hào)作為背景信號(hào)。

所述步驟s1采用中滑動(dòng)窗口協(xié)議用于接收待檢測(cè)的語(yǔ)音信號(hào)。

語(yǔ)音起始點(diǎn)的判決使用了背景信號(hào)的信息。在帶通濾波的基礎(chǔ)上進(jìn)行語(yǔ)音信號(hào)增強(qiáng)。經(jīng)過(guò)時(shí)頻變換后,在頻域?qū)π盘?hào)進(jìn)行濾波,只選取特定頻帶的分量供后續(xù)分析和處理。選取語(yǔ)音開(kāi)始前一段時(shí)間的語(yǔ)音信號(hào)作為背景參考信號(hào),在檢測(cè)語(yǔ)音端點(diǎn)時(shí),先減去參考信號(hào)的頻譜,以增強(qiáng)語(yǔ)音信號(hào)、提升信噪比和端點(diǎn)檢測(cè)的抗噪聲能力。

在頻域計(jì)算共振峰的個(gè)數(shù),以及不同頻帶的能量占比。這樣可排除金屬聲乃至頻帶單一的樂(lè)曲聲。濁音(voiced)部分有基頻和諧波,而頻帶單一的周期性信號(hào)不具備類(lèi)似特征,即使它們周期性明顯,也通不過(guò)語(yǔ)音起始點(diǎn)的檢測(cè)。

在時(shí)域通過(guò)零交叉率(zerocrossrate)和最大最小幅值比進(jìn)行判決。對(duì)于語(yǔ)音的起始點(diǎn),我們先找到濁音(voiced)部分,相對(duì)于清音(unvoiced)部分,濁音部分幅值更大、周期性強(qiáng)、與背景噪聲的區(qū)分程度高,辨識(shí)的可靠性更高。因此先判決濁音,然后再倒推200~300毫秒作為語(yǔ)音的起始點(diǎn)。對(duì)于語(yǔ)音的結(jié)束點(diǎn),主要考慮當(dāng)前幅值與前400~500毫秒內(nèi)的最大幅值之比,如果下降明顯,則作為語(yǔ)音的結(jié)束點(diǎn)。

一種語(yǔ)音終止點(diǎn)的檢測(cè)方法,包括以下步驟,

sa1,接收輸入的待檢測(cè)語(yǔ)音信號(hào);

sa2,對(duì)待檢測(cè)語(yǔ)音信號(hào)進(jìn)行時(shí)頻變換;

sa3,在頻域?qū)?jīng)步驟sa2處理后的信號(hào)進(jìn)行濾波;

sa4,在頻域計(jì)算經(jīng)步驟sa3處理后的信號(hào)的共振峰的個(gè)數(shù)以及不同頻帶的能量占比;

sa5,在時(shí)域計(jì)算經(jīng)步驟sa3處理后的信號(hào)的過(guò)零交叉率和最大最小幅值比;

sa6,通過(guò)步驟sa4和sa5的計(jì)算值判定語(yǔ)音信號(hào)的終點(diǎn)。

所述步驟sa3中濾波時(shí),選取頻帶范圍為200-2500hz的分量供后續(xù)步驟使用。

語(yǔ)音終止點(diǎn)的檢測(cè)流程如圖2所示??紤]到終止點(diǎn)之前的信號(hào)為正常語(yǔ)音信號(hào),不能作為背景參考信號(hào),因此終止點(diǎn)的檢測(cè)不再進(jìn)行語(yǔ)音增強(qiáng),主要使用過(guò)零率和最大最小比值。

同時(shí)本發(fā)明上述實(shí)施例僅為說(shuō)明本發(fā)明技術(shù)方案之用,僅為本發(fā)明技術(shù)方案的列舉,并不用于限制本發(fā)明的技術(shù)方案及其保護(hù)范圍。采用等同技術(shù)手段、等同設(shè)備等對(duì)本發(fā)明權(quán)利要求書(shū)及說(shuō)明書(shū)所公開(kāi)的技術(shù)方案的改進(jìn)應(yīng)當(dāng)認(rèn)為是沒(méi)有超出本發(fā)明權(quán)利要求書(shū)及說(shuō)明書(shū)所公開(kāi)的范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安吉县| 垫江县| 滨海县| 上思县| 凌源市| 湖北省| 阳西县| 凤阳县| 芦山县| 丽水市| 西华县| 禹州市| 漳州市| 德令哈市| 顺昌县| 满洲里市| 铜川市| 西宁市| 康定县| 双牌县| 卢湾区| 屏东市| 宁化县| 高州市| 沅陵县| 蓬溪县| 闽清县| 蒙城县| 安吉县| 洮南市| 志丹县| 灌阳县| 古蔺县| 得荣县| 鄄城县| 柯坪县| 乐业县| 株洲县| 手游| 高邮市| 蕲春县|