專利名稱:一種語音識別頻道選擇系統(tǒng)、方法及頻道轉(zhuǎn)換裝置的制作方法
技術領域:
本發(fā)明涉及通信技術領域,尤其涉及一種通過語音識別進行頻道選擇系 統(tǒng)、裝置及方法。
背景技術:
近年來隨著信息技術和廣播電視技術的發(fā)展,有線數(shù)字電視和IPTV等 業(yè)務發(fā)展迅速。在機頂盒(Set-top Box, STB),如IP機頂盒和數(shù)字機頂盒 等,逐步市場化的趨勢下,機頂盒的完備功能逐漸取代了傳統(tǒng)的VCD機和 DVD機。另一方面,隨著自動語音識別技術的發(fā)展,使得機頂盒通過語音 來選擇頻道成為可能,該技術也成為業(yè)界研發(fā)的重點。
傳統(tǒng)的語音識別選擇頻道有兩種方式 一種是通過在遙控器上增加語音 識別處理器的方式,在識別時通過用戶輸入下載語音模板與用戶輸入的語音 數(shù)據(jù)匹配確定的語音數(shù)據(jù)來轉(zhuǎn)換頻道; 一種是通過在網(wǎng)絡中設置專門的語音 識別服務器。
發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)傳統(tǒng)的語音識別選擇頻道的方式至 少存在如下缺點通過在遙控器上增加語音識別處理器的方式,由于在識別 時每次更新語音模板都需要用戶手動操作下載到遙控器上,操作起來十分復 雜、不便,同時,也增加了遙控器的成本;通過在網(wǎng)絡中設置專門的語音識 別服務器的方式,由于識別語音時需要將語音信號上傳到網(wǎng)絡,響應時間較 長,并且通過網(wǎng)絡上行和下行傳輸兩次數(shù)據(jù)包丟失的可能性也會增大,另外 專門的語音識別服務器也增加了構建網(wǎng)絡的成本。
發(fā)明內(nèi)容
有鑒于此,實有必要提供一種操作方便、節(jié)省成本的語音識別頻道選擇方法。
同時,提供一種操作方便、節(jié)省成本的語音識別頻道轉(zhuǎn)換系統(tǒng)。同時,提供一種操作方便、節(jié)省成本的頻道轉(zhuǎn)換裝置。
一種語音識別頻道選擇方法,包括如下步驟控制器接收用戶的語音輸入信號;
頻道轉(zhuǎn)換裝置根據(jù)輸入的語音信號及識別詞表識別出待匹配名稱;根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道;切換到所述需要切換的頻道。
一種語音識別頻道選擇系統(tǒng),包括控制器,用于與頻道轉(zhuǎn)換處理裝置進行通信;
所述控制器用于接收用戶的語音輸入信號;
所述頻道轉(zhuǎn)換處理裝置用于根據(jù)所述輸入的語音輸入信號及識別詞表識別出待匹配名稱,根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道,并切換到所述需要切換的頻道。
一種頻道轉(zhuǎn)換裝置,包括
接收模塊,用于接收控制器發(fā)送的用戶的語音輸入信號;識別處理模塊,用于根據(jù)所述輸入的語音輸入信號及識別詞表識別出待匹配名稱;
查詢匹配模塊,用于根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道;
頻道轉(zhuǎn)換控制模塊,用于切換到所述需要切換的頻道。與現(xiàn)有技術相比,本發(fā)明實施例通過控制器接收用戶的語音輸入信號,通過頻道轉(zhuǎn)換裝置根據(jù)所述輸入的語音輸入信號識別出待匹配名稱,根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道,并切換到所述需要切換的頻道,避免了在控制器上進行語音識別操作復雜和成本高的問題,使得用戶在搡作起來十分方便,并且充分利用頻道轉(zhuǎn)換裝置的性能,節(jié)省了控制的成本。通過頻道轉(zhuǎn)換裝置識別出待匹配名稱,不需要在網(wǎng)絡中設置專門的語音識別服務器,防止響應時間過長,避免了由于網(wǎng)絡傳輸數(shù)據(jù)丟失的問題,并且節(jié)約了構建網(wǎng)絡的成本。
圖1為本發(fā)明實施例語音識別頻道轉(zhuǎn)換系統(tǒng)結構示意圖。
圖2為本發(fā)明實施例控制器結構示意圖。
圖3為本發(fā)明實施例頻道轉(zhuǎn)換處理裝置結構示意圖。
圖4為本發(fā)明實施例語音識別頻道選擇方法流程圖。圖5為本發(fā)明實施例頻道和節(jié)目表更新方法流程圖。圖6為本發(fā)明實施例識別詞表和匹配表更新方法流程圖。
具體實施例方式
請參看圖l,本發(fā)明實施例語音識別頻道轉(zhuǎn)換系統(tǒng)100包括控制器102、頻道轉(zhuǎn)換裝置104和電子節(jié)目指南(Electronic Program Guide, EPG)服務器106??刂破?02,用于接收用戶的語音輸入信號。頻道轉(zhuǎn)換裝置104,用于根據(jù)輸入的語音輸入信號及識別詞表識別出待匹配名稱,根據(jù)待匹配名稱與匹配表進行匹配得出需要切換的頻道,并切換到需要切換的頻道。EPG服務器106,用于提供待更新的最新的匹配表和/或最新的更新的識別詞表,頻道轉(zhuǎn)換裝置104可以根據(jù)最新的匹配表更新匹配表,和/或才艮據(jù)最新的識別詞表更新識別詞表??刂破?02可以是系統(tǒng)外接控制器、HS (Handset,手機)或遙控器,本實施例中,以遙控器為例。頻道轉(zhuǎn)換裝置104可以是PC( Personal Computer,個人電腦)、STB( Set-top Box,才幾頂盒)、NB( NotebookComputer,筆記本電腦)、HS (Handset,手才幾)、GP ( Game Player,游戲機)或ODD ( Optical Disc Drive,光碟機)等,本實施例中,以STB為例進行說明。
請結合參看圖2,本實施例中,控制器102包括語音接收模塊202、語音信號處理模塊204、輸入模塊210、控制器接收模塊212和發(fā)送模塊216。語音信號接收模塊202,用于接收用戶的語音輸入信號,本實施例中,語音輸入模塊可以是一個遙控器上的麥克風。
語音信號處理模塊204,用于處理用戶的語音輸入信號。語音信號處理才莫塊204還包括語音轉(zhuǎn)換單元206和語音編碼單元208。語音轉(zhuǎn)換單元206,用于將語音信號轉(zhuǎn)換成為數(shù)字信號,本實施例中,語音轉(zhuǎn)換單元206可以是A/D轉(zhuǎn)換電路。語音編碼單元208,用于編碼語音轉(zhuǎn)換單元206轉(zhuǎn)換后的數(shù)字信號,該編碼可以是壓縮編碼,包括有損壓縮編碼或無損壓縮編碼。用戶的語音采集和處理可以有不同的方案,本實施例中,以16KHz采樣率進行采樣,按16或8bit的精度進行量化。語音信號經(jīng)過采樣和處理后的編碼格式為PCM ( Pulse Code Modulation,脈沖編碼調(diào)制)格式。
輸入模塊210,用于接收用戶輸入的指令,如,語音激活指令,用于控制頻道轉(zhuǎn)換裝置激活語音,本實施例中,輸入模塊210可以是鍵盤或觸摸屏。
控制器接收模塊212,用于接收頻道轉(zhuǎn)換裝置104發(fā)送的信號,該信號包括返回的指令信號和通知消息等。
發(fā)送模塊216,用于發(fā)送用戶輸入的語音編碼后的信號和操作信號,本實施例中,發(fā)送模塊216可以是紅外、藍牙等無線通訊裝置,如可以通過Bluetooth2.0(藍牙2.0技術),紫蜂Zigbee或高速紅外協(xié)議等能夠保證PCM(Pulse Code Modulation,脈沖編碼調(diào)制)語音數(shù)據(jù)能夠?qū)崟r傳輸?shù)母咚贌o線通信技術。發(fā)送模塊216還包括操作信號發(fā)送單元218,用于發(fā)送用戶輸入的操作信號,例如,鍵盤輸入和觸摸屏輸入信號。語音信號發(fā)送單元214,用于發(fā)送用戶輸入的語音信號,該信號為經(jīng)過A/D轉(zhuǎn)換的數(shù)字信號,也可以是壓縮編碼后的信號。
請結合參看圖3,本實施例中,頻道轉(zhuǎn)換裝置104 (STB)包括接收模塊302、靜音控制模塊308、語言選擇模塊310、識別處理模塊312、發(fā)送模塊322、拒絕識別提示模塊324、存儲模塊326、查詢匹配模塊336、頻道轉(zhuǎn)換控制模塊338和更新模塊340。
接收模塊302,用于接收控制器發(fā)送的用戶的語音輸入信號和用戶的操作控制指令,本實施例中,用戶輸入信號包括用戶的語音輸入信號和用戶的操作控制指令,若全部為語音輸入,也可以不包含用戶控制指令信號。用戶
的語音輸入信號為經(jīng)過模擬/數(shù)字A/D轉(zhuǎn)換后的數(shù)字語音信號。接收模塊302還包括操作信號接收單元304和語音信號接收單元306。操作信號接收單元304用于接收用戶的操作控制指令,例如激活語音控制指令。語音信號接收單元306用于接收用戶的語音輸入信號。
靜音控制模塊308,用于根據(jù)用戶輸入的激活語音的指令,將頻道轉(zhuǎn)換裝置置為靜音狀態(tài),及在語音采集后將靜音狀態(tài)切換為非靜音狀態(tài)。
語言選擇模塊310,用于根據(jù)用戶輸入的語言選擇信號,選擇一個與所述語言選擇信號對應的聲學模型。
識別處理模塊312,用于根據(jù)輸入的語音信號及識別詞表識別出待匹配名稱。識別處理模塊312包括語音激活;險測單元314、語音特征提取單元316、語音識別單元318和語音判斷單元320。
語音激活檢測單元314,用于檢測實際語音段的起點和終點。本實施例中,語音激活檢測單元314采用穩(wěn)健的端點檢測算法檢測出實際語音的起點和終點,以區(qū)分出輸入的語音信號中實際語音段和非語音段。
語音特征提取單元316,用于將語音信號進行語音特征提取。本實施例中,語音特征提取單元316將話音激活檢測單元314傳送過來的語音信號進行處理,提取出語音特征數(shù)據(jù)。語音特征類型可以采用MFCC( Mel-FrequencyCeptral Coefficients,美爾頻率倒譜系數(shù))特征,PLP (Perceptually LinearPrediction,感知線性預測)特^正或LPCC ( Linear Predictive Cepstral Coding,線性預測倒譜系數(shù))特征,為了提高抗噪效果,可以在語音特征提取過程中運用倒譜均值減的處理。考慮到MFCC特征利用了人耳的聲學感知特性而對噪音具有較好的穩(wěn)健性,優(yōu)選MFCC特征作為語音特征。語音信號作為短時平穩(wěn)信號,語音幀之間具有幀間相關性,為此可以對MFCC特征提取一階差分或一 階及二階差分來提高語音識別的準確率。
語音識別單元318,用于根據(jù)聲學模型和識別詞表計算出輸入的語音特征數(shù)據(jù)相對于詞條的聲學距離。本實施例中,語音識別單元318根據(jù)聲學模
型數(shù)據(jù)和孤立詞表數(shù)據(jù)得到每個孤立詞的最短累積聲學距離,然后取最短聲 學距離最小的孤立詞作為該語音首選識別結果。語音識別采用的聲學模型包
括連續(xù)的HMM (Hidden Markov Model隱含馬爾可夫模型)模型和離散 HMM才莫型。此外,語音識別單元318還可以給出多個候選的識別結果讓用 戶選擇,排序的依據(jù)為最短累積聲學距離。
語音判斷單元320,用于判斷語音特征數(shù)據(jù)相對于詞條的聲學距離是否 小于閾值,若語音特征數(shù)據(jù)相對于詞條的聲學距離小于閾值,根據(jù)識別詞表 和匹配表計算出當前語音對應的頻道名稱。
發(fā)送模塊322,用于向控制器102發(fā)送識別處理信號,在識別處理完畢 后,控制器102可以停止采集用戶的語音輸入信號。本實施例中,發(fā)送模塊 322也可以采用藍牙、紅外等無線方式傳送信號。
拒絕識別提示模塊324,用于在識別結果為非語音時,提示用戶重新輸 入語音。該提示可以是消息提示、視頻顯示提示或聲音提示,本實施例中, 采用在屏幕上顯示提示文字的方式提示用戶。
存儲模塊326,用于存儲頻道和節(jié)目表、識別詞表、聲學模型和匹配表 等數(shù)據(jù)。本實施例中,存儲模塊326包括頻道和節(jié)目表存儲單元328、識 別詞表存儲單元330、聲學模型存儲單元332、匹配表存儲單元334。
頻道和節(jié)目表存儲單元328,用于存儲頻道和節(jié)目對應表,本實施例中, 表的每 一 個記錄項為直#番電-見的頻道名稱以及當前時刻該頻道正在^番;故的
節(jié)目名稱。該頻道和節(jié)目對應表可以根據(jù)EPG服務器106更新,更新周期 可以設置為 一天或一個星期,具體的時間間隔可以參考IPTV或有線數(shù)字電 視系統(tǒng)的EPG服務器更新間隔。
識別詞表存儲單元330,用于存儲識別詞表,本實施例中,識別詞表還 包括一張用于孤立詞語音識別的《瓜立詞表。
聲學模型存儲單元332,用于存儲待匹配的聲學模型。本實施例中,采 用包含針對HMM模型的雙語種混合建模的聲學模型的模型參數(shù)。雙語種混合聲學模型的參數(shù)與說話人無關,即為針對非特定人的模型。模型參數(shù)需要 事先根據(jù)標注好的預料數(shù)據(jù)經(jīng)過訓練器進行訓練,訓練得到的參數(shù)就可以固 化到聲學模型參數(shù)存儲部用于孤立詞的語音識別,聲學模型參數(shù)包括隱含馬 爾可夫模型的狀態(tài)參數(shù)和狀態(tài)輸出觀測特征矢量的概率分布函數(shù)。
匹配表存儲單元334,用于存儲匹配表,匹配表存儲了用戶需要切換的 頻道與用戶的語音輸入的頻道對應關系。
查詢匹配模塊336,用于根據(jù)待匹配的名稱與匹配表進行匹配得出需要 切換的頻道。本實施例中,以識別出的孤立詞作為查詢關4定字,首先在頻道 節(jié)目表中查詢所包含表的頻道名列中查詢符合關^t詞的記錄項。
頻道轉(zhuǎn)換控制模塊338,用于切換到需要切換的頻道。若存在匹配的記 錄項,查詢結果為單個記錄項時,控制機頂盒直播電視切換到記錄項中頻道 名屬性標識的頻道;查詢結果為多個記錄時,控制電視屏幕顯示多個記錄項 的頻道名的屬性值,并提示用戶通過遙控器選擇其中 一個頻道觀看直播電視 節(jié)目,待用戶完成選擇后,控制電視切換到用戶選擇的頻道。
更新模塊340,用于根據(jù)EPG服務器跟新匹配表和/或識別詞表。更新 才莫塊340還包括更新定時單元342和更新控制單元344。更新定時單元342, 用于記錄更新的時間,并在更新時間到達或超時時,觸發(fā)更新,本實施例中, 頻道和節(jié)目表更新時間可以設置為每天更新,識別詞表和匹配表更新時間可 以設置為每分鐘更新。更新控制單元344,用于在滿足更新時間時,控制更 新匹配表和/或識別詞表。
本發(fā)明實施例通過控制器接收用戶的語音輸入信號,通過頻道轉(zhuǎn)換裝置
根據(jù)所述輸入的語音輸入信號識別出待匹配名稱,根據(jù)所述待匹配名稱與匹
配表進行匹配得出需要切換的頻道,并切換到所述需要切換的頻道,避免了
在控制器上進行語音識別操作復雜和成本高的問題,使得用戶在操作起來十
分方便,并且充分利用頻道轉(zhuǎn)換裝置的性能,節(jié)省了控制的成本。通過頻道
轉(zhuǎn)換裝置識別出待匹配名稱,不需要在網(wǎng)絡中設置專門的語音識別服務器,
防止響應時間過長,避免了由于網(wǎng)絡傳輸數(shù)據(jù)丟失的問題,并且節(jié)約了構建網(wǎng)絡的成本。本發(fā)明實施例通過截取實際語音段,語音識別的準確率得到提 高。通過靜音控制單元控制語音輸入時,將機頂盒靜音,防止電視播放的聲
音對用戶語音的干擾。通過更新模塊從EPG服務器自動更新頻道和節(jié)目表,
識別詞表和匹配表避免了用戶手工造作帶來操作不便的弊端。
請結合參看圖4,本發(fā)明實施例語音識別頻道選擇方法,包括如下步驟 步驟402,控制器接收用戶輸入的激活語音指令。本實施例中,語音激
活指令可以是用戶輸入的按鍵信號,用戶可以通過鍵盤或觸摸屏等輸入設備
輸入的指令信號。
步驟404,控制器向頻道轉(zhuǎn)換裝置發(fā)送啟動語音識別控制指令信號。本 實施例中,以藍牙、高速紅外協(xié)議、紫蜂Zigbee等無線發(fā)送方式為例,通 過遙控器向機頂盒發(fā)送啟動語音識別控制指令信號。
步驟406,頻道轉(zhuǎn)換裝置置為靜音狀態(tài)。
步驟408,頻道轉(zhuǎn)換裝置向控制器發(fā)送啟動語音采集控制指令信號。若 不采用靜音功能時,也可以不包括以上步驟,不再贅述。
步驟410,控制器接收用戶的語音輸入信號,采集和處理用戶輸入的語 音信號,本實施例中,通過A/D轉(zhuǎn)換器將模擬語音信號轉(zhuǎn)換成數(shù)字語音信 號,并通過無線方式傳送給頻道轉(zhuǎn)換裝置。
步驟412,頻道轉(zhuǎn)換裝置檢測實際語音段的起點和終點,根據(jù)實際語音 段的起點和終點用于識別出待匹配的名稱。本實施例中,語音激活檢測采用 穩(wěn)健的端點檢測算法檢測出實際語音的起點和終點,以區(qū)分出輸入的語音信 號中實際語音段和非語音段。
步驟414,頻道轉(zhuǎn)換裝置向控制器發(fā)送停止語音采集控制信號。在識別 處理完畢后,控制器可以停止采集用戶的語音輸入信號。本實施例中,發(fā)送 方式也可以采用藍牙、高速紅外協(xié)議和Zigbee等無線方式傳送信號。
步驟416,控制器根據(jù)頻道轉(zhuǎn)換裝置的停止語音采集控制信號的控制停 止采集和處理語音信號。
步驟418,將起點和終點之間的實際語音段的信號傳送給語音特征提取
12單元。步驟418和步驟414可以沒有先后關系,也可以先執(zhí)行步驟418后執(zhí) 行步驟416,不再贅述。
步驟420,語音特征提取單元根據(jù)輸入的語音信號提取語音特征,將語 音信號進行特征提取,本實施例中,若之前有獲取實際語音段落檢測的步驟, 就只需提取實際語音段。語音特征類型可以采用MFCC特征,PLP特征或 LPCC特征,為了提高抗噪效果,可以在語音特征提取過程中運用倒譜均值 減的處理。考慮到MFCC特征利用了人耳的聲學感知特性而對噪音具有較 好的穩(wěn)健性,優(yōu)選MFCC特征作為語音特征。語音信號作為短時平穩(wěn)信號, 語音幀之間具有幀間相關性,為此可以對MFCC特征提取一階差分或一階 及二階差分來提高語音識別的準確率。
步驟422,根據(jù)聲學模型和識別詞表計算出輸入的語音特征數(shù)據(jù)相對于 詞條的聲學距離。本實施例中,語音識別根據(jù)聲學模型數(shù)據(jù)和孤立詞表數(shù)據(jù) 得到每個孤立詞的最短累積聲學距離,然后取最短聲學距離最小的孤立詞作 為該語音首選識別結果。語音識別采用的聲學模型包括連續(xù)HMM模型和離 散HMM模型。此外,語音識別還可以給出多個候選的識別結果讓用戶選擇, 排序的依據(jù)為最短累積聲學距離。本實施例中,采用包含針對HMM的雙語 種混合建模的聲學模型的模型參數(shù)。雙語種混合聲學模型的參數(shù)與說話人無 關,即為針對非特定人的模型。模型參數(shù)需要事先根據(jù)標注好的預料數(shù)據(jù)經(jīng) 過訓練器進行訓練,訓練得到的參數(shù)就可以固化到聲學模型參數(shù)存儲部用于 孤立詞的語音識別,聲學模型參數(shù)包括HMM的狀態(tài)參數(shù)和狀態(tài)輸出觀測特 征矢量的概率分布函數(shù)。本步驟之前,還可以包含根據(jù)用戶輸入的語言選擇 信號,選擇一個與該語言選擇信號對應的聲學模型的步驟。
步驟424,判斷語音特征數(shù)據(jù)相對于每個詞條聲學距離是否小于閾值, 若聲學距離不小于閾值,執(zhí)行步驟426;若聲學距離小于閾值,執(zhí)行步驟428。
步驟426,若語音特征數(shù)據(jù)相對于詞條的聲學距離大于或等于閾值,識 別結果為非語音,提示用戶重新輸入。該提示可以是消息提示、視頻顯示提 示或聲音提示,本實施例中,采用在屏幕上顯示提示文字的方式提示用戶。執(zhí)行完步驟426后,結束本識別過程。
步驟428,若語音特征數(shù)據(jù)相對于詞條的聲學距離小于閾值,根據(jù)識別 詞表和匹配表計算出當前語音對應的頻道名稱。本實施例中,根據(jù)聲學模型 數(shù)據(jù)和孤立詞表數(shù)據(jù)得到每個孤立詞的最短累積聲學距離,然后取最短聲學 距離最小的孤立詞作為該語音首選識別結果。語音識別采用的聲學模型包括 連續(xù)HMM模型和離散HMM模型。此外,還可以給出多個候選的識別結果 讓用戶選擇,排序的依據(jù)為最短累積聲學距離。
步驟430,根據(jù)識別出來的頻道名稱切換到需要切換的頻道。若存在匹 配的記錄項,查詢結果為單個記錄項時,控制機頂盒直播電視切換到記錄項 中頻道名屬性標識的頻道;查詢結果為多個記錄時,控制電視屏幕顯示多個 記錄項的頻道名的屬性值,并提示用戶通過遙控器選擇其中 一 個頻道觀看直 播電視節(jié)目,待用戶完成選擇后,控制電視切換到用戶選擇的頻道。
請結合參看圖5,本發(fā)明實施例頻道和節(jié)目表更新方法包括如下步驟
步驟502,檢查頻道和節(jié)目表是否滿足更新設置條件,更新設置條件可 以根據(jù)用戶的需求設置,識別詞表和匹配表的更新可以設置為一天。若滿足 更新設置件執(zhí)行步驟504,否則返回步驟502。
步驟504,頻道轉(zhuǎn)換裝置從EPG服務器下載最新的頻道和節(jié)目表數(shù)據(jù), 更新頻道和節(jié)目表。
該更新的目標可以是EPG服務器,也可以是本地的網(wǎng)絡或光盤等。
請結合參看圖6,本發(fā)明實施例識別詞表和匹配表更新方法包括如下步
驟
步驟602,檢查識別詞表和匹配表是否滿足更新設置條件,更新設置條 件可以根據(jù)用戶的需求設置,識別詞表和匹配表的更新可以設置為 一 分鐘。 若滿足更新設置條件執(zhí)行步驟604,否則返回步驟602。
步驟604,根據(jù)頻道和節(jié)目表更新本地的識別詞表和匹配表。 本領域普通技術人員可以理解,上述方法中的全部或部分步驟可以通過 程序指令相關的硬件完成,該程序可以存儲在計算機可讀存儲介質(zhì)中,該存儲介質(zhì)如,RAM、 ROM或光盤等。
本發(fā)明實施例通過控制器接收用戶的語音輸入信號,通過頻道轉(zhuǎn)換裝置 根據(jù)所述輸入的語音輸入信號識別出待匹配名稱,根據(jù)所述待匹配名稱與匹 配表進行匹配得出需要切換的頻道,并切換到所述需要切換的頻道,避免了 在控制器上進行語音識別操作復雜和成本高的問題,使得用戶在操作起來十 分方便,并且充分利用頻道轉(zhuǎn)換裝置的性能,節(jié)省了控制的成本。通過頻道 轉(zhuǎn)換裝置識別出待匹配名稱,不需要在網(wǎng)絡中設置專門的語音識別服務器, 防止響應時間過長,避免了由于網(wǎng)絡傳輸數(shù)據(jù)丟失的問題,并且節(jié)約了構建 網(wǎng)絡的成本。本發(fā)明實施例通過截取實際語音段,語音識別的準確率得到提 高,并且去除了噪音的干擾。通過靜音控制單元控制語音輸入時,將機頂盒 靜音,防止電視播放的聲音對用戶語音的干擾。通過更新模塊從EPG服務 器自動更新頻道和節(jié)目表,識別詞表和匹配表避免了用戶手工造作帶來操作 不便的弊端。
綜上所述,以上僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的 保護范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改 進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種語音識別頻道選擇方法,其特征在于,該方法包括控制器接收用戶的語音輸入信號;頻道轉(zhuǎn)換裝置根據(jù)輸入的語音信號及識別詞表識別出待匹配名稱;根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道;切換到所述需要切換的頻道。
2. 如權利要求1所述的語音識別頻道選^^方法,其特征在于,該方法進一步 包括接收用戶輸入的激活語音的指令,該指令用于控制所述頻道轉(zhuǎn)換裝置激 活語音,并且將頻道轉(zhuǎn)換裝置置為靜音狀態(tài)。
3. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,所述頻道轉(zhuǎn)換 裝置才艮據(jù)輸入的語音信號識別出待匹配名稱包括采集和處理用戶輸入的語音 信號,檢測實際語音段的起點和終點,根據(jù)所述實際語音段的起點和終點識別 出所述待匹配名稱。
4. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,所述頻道轉(zhuǎn)換 裝置根據(jù)輸入的語音信號識別出待匹配名稱包括將語音信號進行語音特征提 ??;根據(jù)聲學模型和識別詞表計算出所述語音特征數(shù)據(jù)相對于識別詞表中的詞 條的聲學距離;若語音特征數(shù)據(jù)相對于詞條的聲學距離小于閾值,根據(jù)識別詞 表和匹配表計算出當前語音對應的頻道名稱。
5. 如權利要求4所述的語音識別頻道選擇方法,其特征在于,該方法還包括 若語音特征數(shù)據(jù)相對于詞條的聲學距離大于或等于閾值,提示用戶重新輸入語 音。
6. 如權利要求5所述的語音識別頻道選擇方法,其特征在于,所述提示用戶 重新輸入語音的方式為通過電視屏幕顯示用戶當前輸入的語音無法識別,提示 用戶重新輸入。
7. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,該方法還進一 步包括頻道轉(zhuǎn)換裝置向控制器發(fā)送停止語音采集控制信號,控制器根據(jù)所述 停止語音采集控制信號的控制停止采集和處理語音信號。
8. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,該方法進一步包括頻道轉(zhuǎn)換裝置根據(jù)電子節(jié)目指南EPG服務器更新所述匹配表和/或所述 識別詞表。
9. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,該方法進一步 包括根據(jù)用戶輸入的語言選擇信號,選擇一個與所述語言選擇信號對應的聲 學模型。
10. 如權利要求1所述的語音識別頻道選擇方法,其特征在于,所述控制器 與所述頻道轉(zhuǎn)換裝置通過無線傳輸協(xié)議進行通信。
11. 如權利要求IO所述的語音識別頻道選擇方法,其特征在于,所述無線傳 輸協(xié)議包括高速紅外協(xié)議、藍牙傳輸協(xié)議和紫蜂Zigbee傳輸協(xié)議中的一種或多種。
12. —種語音識別頻道選擇系統(tǒng),其特征在于,該系統(tǒng)包括控制器,用于 與頻道轉(zhuǎn)換處理裝置進行通信;所述控制器用于接收用戶的語音輸入信號;所述頻道轉(zhuǎn)換處理裝置用于根據(jù)所述輸入的語音輸入信號及識別詞表識別 出待匹配名稱,根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的頻道, 并切換到所述需要切換的頻道。
13. 如權利要求2所述的語音識別頻道選擇系統(tǒng),其特征在于,該系統(tǒng)還包 括電子節(jié)目指南EPG服務器,用于提供待更新的匹配表和/或最更新的識別 詞表,所述頻道轉(zhuǎn)換裝置根據(jù)所述待更新的匹配表更新所述匹配表,和/或根據(jù) 所述最新的識別詞表更新所述識別詞表。
14. 一種頻道轉(zhuǎn)換裝置,其特征在于,該裝置包括 接收模塊,用于接收控制器發(fā)送的用戶的語音輸入信號; 識別處理模塊,用于根據(jù)所述輸入的語音輸入信號及識別詞表識別出待匹配名稱;查詢匹配模塊,用于根據(jù)所述待匹配名稱與匹配表進行匹配得出需要切換的 頻道;頻道轉(zhuǎn)換控制模塊,用于切換到所述需要切換的頻道。
15. 如權利要求14所述的頻道轉(zhuǎn)換裝置,其特征在于,該裝置還包括 靜音控制模塊,用于根據(jù)用戶輸入的激活語音的指令,將頻道轉(zhuǎn)換裝置置為靜音狀態(tài)。
16. 如權利要求14所述的頻道轉(zhuǎn)換裝置,其特征在于,所述識別處理模塊進 一步包括語音激活檢測單元,用于檢測實際語音段的起點和終點。
17. 如權利要求14所述的頻道轉(zhuǎn)換裝置,其特征在于,所述識別處理模塊進 一步包括語音特征提取單元,用于對語音信號進行語音特征提??;語音識別單元,用于根據(jù)聲學模型和識別詞表計算出輸入的語音特征數(shù)據(jù)相對于識別詞表中詞條的聲學距離;語音判斷單元,用于判斷語音特征數(shù)據(jù)相對于詞條的聲學距離是否小于閾值,若語音特征數(shù)據(jù)相對于詞條的聲學距離小于閾值,根據(jù)識別詞表和匹配表計算出當前語音對應的頻道名稱。
18..如權利要求17所述的頻道轉(zhuǎn)換裝置,其特征在于,該裝置還包括 拒絕識別提示模塊,用于在識別結果為非語音時,提示用戶重新輸入語音。
19. 如權利要求14所述的頻道轉(zhuǎn)換裝置,其特征在于,該裝置還包括 更新模塊,用于根據(jù)電子節(jié)目指南EPG服務器更新所述匹配表和/或所述識別詞表。
20. 如權利要求14所述的頻道轉(zhuǎn)換裝置,其特征在于,該裝置還包括 語言選擇模塊,用于根據(jù)用戶輸入的語言選擇信號,選擇一個與所述語言選擇信號對應的聲學模型。
全文摘要
本發(fā)明提供一種語音識別頻道選擇系統(tǒng)、方法及頻道轉(zhuǎn)換裝置,該方法包括控制器接收用戶的語音輸入信號;頻道轉(zhuǎn)換裝置根據(jù)輸入的語音信號及識別詞表識別出待匹配名稱;根據(jù)待匹配名稱與匹配表進行匹配得出需要切換的頻道;切換到需要切換的頻道。本發(fā)明避免了在控制器上進行語音識別操作復雜和成本高的問題,使得用戶在操作起來十分方便,并且充分利用頻道轉(zhuǎn)換裝置的性能,節(jié)省了控制的成本。通過頻道轉(zhuǎn)換裝置識別出待匹配名稱,不需要在網(wǎng)絡中設置專門的語音識別服務器,防止響應時間過長,避免了由于網(wǎng)絡傳輸數(shù)據(jù)丟失的問題,并且節(jié)約了構建網(wǎng)絡的成本。
文檔編號H04N5/44GK101516005SQ20081006541
公開日2009年8月26日 申請日期2008年2月23日 優(yōu)先權日2008年2月23日
發(fā)明者吳治國, 張勤偉 申請人:華為技術有限公司