一種移動手機特定連續(xù)語音過濾方法及過濾裝置制造方法
【專利摘要】一種移動手機特定連續(xù)語音過濾方法及過濾裝置,屬于通訊方法及設備【技術領域】。通過使用者使用此功能時,先錄入用戶語音,在移動手機內記錄一個已識別特定語音,建立一個移動手機的語音庫;每次使用移動手機進行通話,用戶可以選擇手機只識別特定語音。通過本發(fā)明,在嘈雜的環(huán)境下通話,可以有效的解決在這種環(huán)境下通話的不便性,也可以保證通話的另一端,能聽到高質量的語音通話,當然這個功能使用時,也可以讓移動手機只通過用戶自己的語音,可以不讓身邊其他人的話語傳遞到另一方,在保護用戶隱私方面同樣有著很廣泛的適用性。
【專利說明】一種移動手機特定連續(xù)語音過濾方法及過濾裝置
【技術領域】
[0001]本發(fā)明涉及一種用于移動手機通話識別特定人的連續(xù)語音的過濾方法及過濾裝置,適用于語音降噪,濾除非目標語音,屬于語音通訊【技術領域】。
【背景技術】
[0002]語音識別技術自誕生以來就對人類的生活方式產(chǎn)生了深遠的影響,因此語音識別技術一直以來都是世界各地學者們深入研究的熱點。目前語音識別廣泛采用動態(tài)時間規(guī)整(DTff)技術和基于概率統(tǒng)計原理的隱馬爾可夫模型(HMM)技術。語音是一個復雜的非線性過程,因此基于非線性理論,具有自適應性、并行性、魯棒性、容錯性和學習性等特點的人工神經(jīng)網(wǎng)絡技術逐漸成為時下語音識別新的研究方向。如今的移動通話,已成為人們生活必不可少的一部分,但是通話環(huán)境對于我們的通話質量影響非常明顯,尤其在一個特別嘈雜的環(huán)境,但需要通話的情況下,移動手機的一個識別特定人的連續(xù)語音的功能,就會給用戶一個極好的用戶體驗,是一個被廣大用戶需要的功能。
[0003]語音識別的層次模型和系統(tǒng)模型上分析語音識別的基本原理。語音預處理的整個流程,包括對原始語音信號的采集、預加重、分幀加窗、端點檢測和不同語音特征值的獲取。移動設備的特定語音識別有著廣泛的應用前景和商業(yè)價值。鑒于語音識別的重要性,各國都把其當作本國的一個重點項目投入重金加以研究。然而語音信號的聲學特征極其復雜,不同國家的人們語言各不相同,同一個國家之間又存在方言的差異,即使是同一個人在不同環(huán)境下,不同心里因素下都可能造成語音特征的波動。在語音識別的研究過程中不可避免的會遇到諸多困難,這主要表現(xiàn)在以下幾個方面上
[0004](I)噪聲的干擾
[0005]語音識別系統(tǒng)在最初開發(fā)的時候往往是在相對安靜的環(huán)境下進行,而在實際投入使用的時候,其周圍環(huán)境往往是難以預料的。在有噪聲干擾的情況下,系統(tǒng)識別率往往會受到巨大影響,主要是因為此時系統(tǒng)捕獲的聲音會發(fā)生很大的變化即發(fā)生所謂的Lombard效應。目前常采用抑制噪聲的方法來進行去噪,主要技術有:環(huán)境規(guī)整術、建立噪聲模型、譜減法和修正識別器模型使之適合噪聲
[0006](2)語音信號本身的復雜性和多變性
[0007]由于世界各地的人們使用不同的語音,而同一個國家內部又存在著眾多的方言,這都對語音特征參數(shù)的研究提出了巨大的挑戰(zhàn),因此目前很難實現(xiàn)一個對各種語音能夠完全通用的語音識別系統(tǒng)。即便是同一個人在不同時間所說的同一個語音都不是完全一致的,因此語音信號自身的復雜和多變性也制約著語音識別的進一步發(fā)展。
[0008](3)語音系統(tǒng)的復雜性
[0009]語音識別系統(tǒng)是一項及其復雜的工程,它涉及到眾多領域的學科,像語音聲學、人工智能學、模式識別、數(shù)理統(tǒng)計學、通信學、計算機科學甚至心理學。因此如果這些學科得不到快速的發(fā)展,出現(xiàn)了所謂的瓶頸,最終也會制約著語音識別向更高的方向發(fā)展。
[0010]綜上所述,語音識別技術雖然還有一些技術沒有很好得到解決,但是語音識別的應用在近年來呈現(xiàn)出較大的增長需求,如在安全領域,相關部門結合相關業(yè)務提出了相應的需求;在教育領域,大人群的普通話水平測試與口語評估迫切需要客觀的、自動的評估技術;在電信領域,國內外語音識別技術和部門進入了中國市場;在手機、汽車導航等嵌入式市場,對語音識別技術需求也日益增長;在人機交互領域,語音伴侶、移動終端的語音搜索等得到廣泛的應用。因此,語音識別技術作為非常重要的人機交互的技術,有著非常廣闊的應用領域和市場前景。
【發(fā)明內容】
[0011]本發(fā)明目的在于提供一種用于移動手機通話識別特定人的連續(xù)語音的過濾技術,尤其在嘈雜的環(huán)境下通話,可以有效的解決在這種環(huán)境下通話的不便性,同時保護用戶隱私方面同樣有著很廣泛的適用性。該移動手機通話特定連續(xù)語音識別系統(tǒng)包括:語音信號接受單元、語音信號預處理單元、提取語音信號基音頻率單元、基音頻率配比單元、語音基音頻率庫、語音信號輸出單元。語音信號接收單元用于檢測到語音信號,接受并輸入到本發(fā)明模塊信號鏈路;語音信號與處理單元用于保證系統(tǒng)獲得一個比較理想的對象;提取語音信號特征單元用于提取進入手機的所有語音基音頻率;基音頻率配比單元用于將已有在語音庫里的基音頻率和提取到的基音頻率進行比較,并把不匹配的基音頻率過濾,留下配比成功的基音頻率;語音基音頻率庫,是事先由用戶進行語音訓練生成的用戶特定語音參數(shù)的庫,用來和通話時進入手機的語音進行配比;語音信號輸出單元用于把最終得到的目標語音發(fā)送到手機的通信模塊。
[0012]為了實現(xiàn)上述目的,本發(fā)明采用的技術方案如下:
[0013]一種移動手機特定連續(xù)語音過濾方法,首先建立一個特定用戶的語音基音頻率庫,用來作為用戶特定連續(xù)語音的特征標記;然后語音通話時對接收到的語音信號,進行特征提取,然后進行基音頻率的配比,并把不匹配的基音頻率濾除。具體步驟如下:
[0014]Slo建立一個特定用戶的語音基音頻率庫Q,基音頻率庫Q中存儲著用戶的語音基音頻率,在手機開啟此功能時,每次語音通話都把接收到的語音進行基音頻率配比,濾除不匹配的基音頻率。
[0015]S2。對接收到的所有語音進行預處理,處理過程是預濾波、采樣和量化、加窗和分幀、端點檢測等等。這樣可以讓系統(tǒng)獲取一個比較理想的對象,以利于后續(xù)工作的展開。對于語音識別系統(tǒng),信號預處理的好壞直接關系到最后系統(tǒng)的識別率。
[0016]S3。將預處理后的語音信號進行基音頻率提取,基音頻率指的是發(fā)濁音時聲帶振動所引起的周期性特征,基音周期的倒數(shù)即為基因頻率。基音頻率提取包括兩個主要過程譜平整和基因軌跡平滑,把經(jīng)過預處理后的信號先進行譜平整,然后進行基音軌跡平滑。這樣就可以把不同語音的基因頻率分離出來,濾除所有非目標語音的基因頻率
[0017]S4。對提取到的基音頻率和語音基音頻率庫中已有的基音頻率進行配比,因為每個人的基因頻率都是不一樣的,然后將與基音頻率庫中不一致的基音頻率濾除,使配比后的基音頻率作為最終得到的用戶語音發(fā)送到后續(xù)的單元。
[0018]S5。濾除了語音信號中的非目標語音就可以得到用戶的語音,作為手機后續(xù)的通信信號發(fā)送出去,從而實現(xiàn)在不同語音環(huán)境下,用戶都能進行通暢的通話,并只發(fā)送用戶的語音,也可以在保護用戶隱私方面有著重要應用。[0019]為了實現(xiàn)上述步驟,該移動手機通話識別特定人的連續(xù)語音的過濾系統(tǒng)各個單元的功能如下:
[0020]1.語音信號接受單元:用于檢測到環(huán)境中語音信號,并作為移動手機設備的語音信號接收端,將信號接入到設備中。
[0021]2.語音信號預處理單元:用于將已接收到的語音信號進行預處理包括預濾波、采樣和量化、加窗和分幀、端點檢測等等,保證系統(tǒng)能獲取一個比較理想的對象,以利于后續(xù)工作的展開。
[0022]3.提取語音信號基音頻率單元:將預處理后的語音信號進行基音頻率提取,將語音中所有被接受到的聲音基音頻率都提取出來,以進行后續(xù)基音頻率配比。
[0023]4.基音頻率配比單元:將接收到語音信號提取到的基音頻率與已經(jīng)建立的語音基首頻率庫中的基首頻率進行配比,并將不匹配的基首頻率濾除,得到匹配的基首頻率,已達到目標語音識別,非目標語音濾除的功能。
[0024]5.語音基音頻率庫:在用戶開啟語音識別功能時,進行特定用戶的語音訓練,從而生成的語音基音頻率庫,用于和通話接收到的語音進行配比,是實現(xiàn)語音識別的標桿。
[0025]6.語音信號輸出單元:將識別后的語音基音頻率,進行信號處理,并作為移動手機語音通信模塊最終要處理的信號。
[0026]總體而言,與現(xiàn)有技術相比,本發(fā)明可以獲得如下有益效果:對于用戶可能會處于不同通話環(huán)境,并且可能會嚴重影響用戶的通話語音信號質量,從而給用戶帶來通話的不便性;通過本發(fā)明的特定連續(xù)語音過濾方法,可以有效的解決嘈雜環(huán)境下通話的不便性,并且開啟此功能,用戶還可以只通過自己語音信號,濾除環(huán)境中其他人的語音,可以達到某些保護隱私的功能,這些都是達到使用戶語音通話更方便。
【專利附圖】
【附圖說明】
[0027]圖1為特定連續(xù)語音過濾技術的總體系統(tǒng)圖;
[0028]圖2為用戶特定語音特征提取,特征參數(shù)匹配過程圖;
[0029]圖3為語音訓練及生成語音特征參數(shù)庫過程圖;
[0030]圖4為移動手機特定語音過濾模塊,功能劃分圖;
[0031]圖5為特定連續(xù)語音過濾技術流程示意圖。
[0032]圖中:M1、M2、M3、M4、M5、M6-語音環(huán)境中的6個人;
[0033]A1、A2、A3、A4、A5、A6——6個人各自發(fā)出的語音信號;
[0034]Pl——移動手機;
[0035]A6-目標語音信號;
[0036]Cl——通信網(wǎng)絡;
[0037]Ql——語音信號接收單元;
[0038]Q2——語音信號預處理單元;
[0039]Q3—提取語音信號特征單元;
[0040]Q4——特征參數(shù)配比單元;
[0041]Q5—語音信號輸出單元;
[0042]Q6—語音信號特征參數(shù)庫;【具體實施方式】
[0043]以下結合附圖對本發(fā)明作進一步說明。
[0044]如圖1所示,為特定連續(xù)語音的過濾系統(tǒng)的總體框圖,該框圖包括語音環(huán)境中Ml、M2、M3、M4、M5 和 M6 一共六個人;A1、A2、A3、A4、A5 和 A6 分別為 M1、M2、M3、M4、M5 和 M6 發(fā)出的六種不同的語音信號;P1用戶的移動手機;M6目標語音;C1通信網(wǎng)絡;
[0045]如圖4所示,就是圖1中Pl具備的本發(fā)明模塊,包括6個單元,分別為語音信號接受單元、語音信號預處理單元、提取語音信號特征單元、特征參數(shù)配比單元、語音特征參數(shù)庫、語音信號輸出單兀。
[0046]如圖2所示,語音特定參數(shù)配比過程,將接收到語音信號提取到的特征參數(shù)與已經(jīng)建立的語音特征參數(shù)庫中的參數(shù)進行配比,并將不匹配的參數(shù)濾除,得到匹配的參數(shù),以達到目標語音識別,非目標語音濾除的功能。
[0047]如圖3所示,特定語音庫的建立,在用戶開啟語音識別功能時,進行特定用戶的語音訓練,從而生成的語音特征參數(shù)庫,用于和通話接收到的語音進行配比,是實現(xiàn)語音識別的標桿。整個語音識別模塊,如圖4所示,移動手機的語音識別系統(tǒng)具體的6個模塊語音信號接受單元、語音信號預處理單元、提取語音信號特征單元、特征參數(shù)配比單元、語音特征參數(shù)庫、語音信號輸出單元。
[0048]以下是本發(fā)明的具體實施步驟:
[0049]信號在識別模塊中先后經(jīng)過6個模塊如圖5所示,通過語音信號接受單元進入移動手機;經(jīng)過語音信號預處理單元獲取一個比較理想的對象;再由提取語音信號特征單元獲得接收語音的所有特征參數(shù),在特征參數(shù)配比單元,語音信號特征單元獲得所有特征語音參數(shù)和語音特征參數(shù)庫中的參數(shù)進行匹配,如圖2所示;濾除不匹配的特征參數(shù),得到目標語音,從而實現(xiàn)特定語音識別,濾除非目標語音的功能。語音特征數(shù)據(jù)庫的生成過程如圖3所示。
【權利要求】
1.一種移動手機特定連續(xù)語音過濾方法,其特征在于:首先建立一個特定用戶的語音基音頻率庫,用來作為用戶特定連續(xù)語音的特征標記;然后語音通話時對接收到的語音信號,進行特征提取,然后進行基音頻率的配比,并把不匹配的基音頻率濾除;具體步驟如下: S1建立一個特定用戶的語音基音頻率庫Q,基音頻率庫Q中存儲著用戶的語音基音頻率,在手機開啟此功能時,每次語音通話都把接收到的語音進行基音頻率配比,濾除不匹配的基音頻率; S2對接收到的所有語音進行預處理,處理過程是預濾波、采樣和量化、加窗和分幀、端點檢測; S3將預處理后的語音信號進行基音頻率提取,基音頻率指的是發(fā)濁音時聲帶振動所引起的周期性特征,基音周期的倒數(shù)即為基因頻率;基音頻率提取包括兩個主要過程即譜平整和基因軌跡平滑,把經(jīng)過預處理后的信號先進行譜平整,然后進行基音軌跡平滑;這樣就可以把不同語音的基因頻率分離出來,濾除所有非目標語音的基因頻率; S4對提取到的基音頻率和語音基音頻率庫中已有的基音頻率進行配比,然后將與基音頻率庫中不一致的基音頻率濾除,使配比后的基音頻率作為最終得到的用戶語音發(fā)送到后續(xù)單元; S5濾除了語音信號中的非目標語音就可以得到用戶的語音,作為手機后續(xù)的通信信號發(fā)送出去,從而實現(xiàn)在不同語音環(huán)境下,用戶都能進行通暢的通話,并只發(fā)送用戶的語音,也可以在保護用戶隱私方面有著重要應用。
2.實現(xiàn)權利要求1所述的一種移動手機特定連續(xù)語音過濾方法的過濾系統(tǒng),其特征在于:其包括如下單元: 語音信號接受單元:用于檢測到環(huán)境中語音信號,并作為移動手機設備的語音信號接收端,將信號接入到設備中將語音信號輸入到語音信號預處理單元; 語音信號預處理單元:用于將已接收到的語音信號進行預處理包括預濾波、采樣和量化、加窗和分幀、端點檢測; 提取語音信號基音頻率單元:將經(jīng)過語音信號預處理單元預處理過后的語音信號進行基音頻率提取,將語音中所有被接受到的聲音基音頻率都提取出來,以進行后續(xù)基音頻率配比; 基音頻率配比單元:將接收到語音信號提取到的基音頻率與已經(jīng)建立的語音基音頻率庫中的基音頻率進行配比,并將不匹配的基音頻率濾除,得到匹配的基音頻率,已達到目標語音識別,非目標語音濾除的功能; 語音基音頻率庫:在用戶開啟語音識別功能時,進行特定用戶的語音訓練,從而生成的語音基音頻率庫,用于和通話接收到的語音進行配比,是實現(xiàn)語音識別的標桿; 語音信號輸出單元:將識別后的語音基音頻率,進行信號處理,并作為移動手機語音通信模塊最終要處理的信號。
【文檔編號】H04M1/725GK103871417SQ201410112404
【公開日】2014年6月18日 申請日期:2014年3月25日 優(yōu)先權日:2014年3月25日
【發(fā)明者】汪金輝, 龍哲華, 侯立剛, 耿淑琴, 彭曉宏, 宮娜 申請人:北京工業(yè)大學