專利名稱:自然語音識別方法和裝置的制作方法
技術領域:
本發(fā)明涉及語音識別技術,尤其涉及一種自然語音識別方法和裝置。
背景技術:
在語音識別領域中,對于不同的語言,語音識別技術各不相同,例如對于英文而言,待進行語音識別的語句中單詞均由26個字母表中的字母構成,在進行語音識別時,語音識別系統(tǒng)只需要對語句中的字母進行識別,即可識別出語音信息對應的文本信息。 中文與英文最大的區(qū)別在于,中文漢字數(shù)量較大,目前,漢字的總數(shù)已經(jīng)超過了 8萬,其中常用漢字大約有3500字左右,面對如此龐大的中文漢字庫,傳統(tǒng)的語音識別技術是基于關鍵詞的,語音識別系統(tǒng)需要將用戶發(fā)送的語音內(nèi)容從頭到尾按逐字與詞表中預先存儲的文本內(nèi)容進行匹配,只有語音內(nèi)容與詞表中存儲的某條文本內(nèi)容完全匹配時,語音識別系統(tǒng)才能識別出用戶發(fā)送的語音內(nèi)容的含義,成功進行語音識別,否則,語音識別失敗。然而,在實際的生活中,語言表述形式是多種多樣的,對于同一事物每個人或者同一人在不同時期的表述各不相同,例如對母親一詞的表述可以包括母親、媽、媽媽、老媽、媽咪等等。為了提高語音識別的成功率與準確率,需要盡可能地將同一事物的所有表述形式均存儲到語音識別系統(tǒng)的詞表中,這使得語音識別系統(tǒng)的詞表規(guī)模非常龐大,維護不方便,并且由于詞表規(guī)模龐大,使得語音識別系統(tǒng)進行語音識別的速度較慢。另外,由于人們的語言表述形式千差萬別,隨著時代的發(fā)展,語言表達方式也在不斷更新,無法在語音識別系統(tǒng)的詞表中窮盡同一事物的所有表述形式,使得采用關鍵詞方式進行語音識別的成功率較低。在申請?zhí)枮镃N00130067. 9、CN03123123. 3以及CN03138149. 9等中國專利中也公
開了與語音識別相關的技術方案,然而上述技術方案只能進行語音合成或者將語音轉(zhuǎn)換成文字,而無法實現(xiàn)對語音轉(zhuǎn)換成文字信息的識別,并且,上述技術方案是針對英文語音識別設計的,根據(jù)以上分析可知,英文語言和中文語言從詞語數(shù)量以及語法特點上大不相同,使得上述技術方案即使應用在中文語音識別中也無法進行有效的識別,語音識別的成功率較低;在申請?zhí)枮镃N99813093. I的中國專利中,公開了一種采用語音識別和自然語言處理的交互式用戶界面,雖然能夠?qū)崿F(xiàn)對語音轉(zhuǎn)換成文字信息的識別,然而該技術方案也是針對英文語言設計的,在進行語音識別的過程中需要考慮語法等因素的影響,仍然無法有效地應用在中文語音識別中。
發(fā)明內(nèi)容
為解決上述技術問題,本發(fā)明的實施例提供一種自然語音識別方法和裝置,能夠提高中文語音識別速度,以及語音識別的成功率?!N自然語音識別方法,包括獲取用戶輸入的語音信息對應的拼音;采用預先設置的詞典對所述拼音進行分詞處理,獲取分詞后的詞語拼音串;從所述詞典中查找所述詞語拼音串對應的待識別詞語;根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息;其中,所述詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。一種自然語音識別裝置,包括第一獲取單元,用于獲取用戶輸入的語音信息對應的拼音;分詞處理單元,用于采用預先設置的詞典對所述第一獲取單元獲取的拼音進行分詞處理,獲取分詞后的詞語拼音串;第二獲取單元,用于從所述詞典中查找所述分詞處理單元獲取的詞語拼音串對應的待識別詞語;
查找單元,用于根據(jù)所述第二獲取單元獲取的待識別詞語查找目標信息數(shù)據(jù)庫, 從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息;其中,所述詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。本發(fā)明實施例提供的自然語音識別方法和裝置,根據(jù)詞語拼音串對應的待識別詞語進行信息匹配,并將目標信息數(shù)據(jù)庫中與待識別詞語匹配度最高的信息作為對語音信息識別得到的目標信息,不需要對語音信息進行完全匹配即可獲得目標信息,提高了語音識別的成功率,解決了現(xiàn)有技術采用對語音信息進行完全匹配方法進行語音識別,造成由于表述方式不一致而使語音識別失敗,語音識別成功率低的問題,由于本發(fā)明實施例提供的技術方案采用詞語匹配的方式進行語音識別,只需要在詞典中存儲目標詞語并在目標信息數(shù)據(jù)庫中存儲標準信息即可,不需要對同一事物按照語言表述方式存儲大量不同形式的文本信息,詞典和目標信息數(shù)據(jù)庫的數(shù)據(jù)規(guī)模較小,便于進行查找,進而提高了語音識別速度,解決了現(xiàn)有技術需要在詞表中對同一事物存儲大量不同表述形式的文本信息,造成詞表規(guī)模龐大,不便于查找,進行語音識別的速度較慢的問題。本發(fā)明實施例提供的技術方案不同于英文語音識別技術,該技術方案針對中文語言文字量大,語句中詞語連貫、無停頓的特點,采用按照拼音對語句中詞語進行分詞,并根據(jù)分詞后的待識別詞語查找的方式進行語音識別,對中文語音識別的成功率以及識別速度較高。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實施例提供的自然語音識別方法流程圖一;圖2為圖I所示的本發(fā)明實施例提供的自然語音識別方法步驟104的流程圖一;圖3為圖I所示的本發(fā)明實施例提供的自然語音識別方法步驟104的流程圖二 ;圖4為本發(fā)明實施例提供的自然語音識別方法流程圖二 ;圖5為本發(fā)明實施例提供的自然語音識別裝置結構示意圖一;圖6為本發(fā)明實施例提供的自然語音識別裝置結構示意圖二 ;圖7為本發(fā)明實施例提供的自然語音識別裝置結構示意圖三;圖8為本發(fā)明實施例提供的自然語音識別裝置結構示意圖四;
圖9為圖5所示的本發(fā)明實施例提供的自然語音識別裝置中查找單元的結構示意圖;圖10為本發(fā)明實施例提供的自然語音識別裝置結構示意圖五;圖11為本發(fā)明實施例提供的自然語音識別裝置結構示意圖六;圖12為本發(fā)明實施例提供的自然語音識別裝置結構示意圖七。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。為了解決采用關鍵詞的方式進行語音識別成功率較低的問題,本發(fā)明實施例提供一種自然語音識別方法和裝置。如圖I所示,本發(fā)明實施例提供的自然語音識別方法,包括步驟101,獲取用戶輸入的語音信息對應的拼音。為了使本發(fā)明實施例提供的自然語音識別方法適用范圍更廣,能夠識別出不同地域、不同口音的用戶語音信息,在本實施例中,步驟101可以采用非特定人語音識別技術對用戶輸入的語音信息進行識別解析,獲取該語音信息對應的拼音。步驟102,采用預先設置的詞典對步驟101獲取的拼音進行分詞處理,獲取分詞后的詞語拼音串。其中,詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。在本實施例中,詞典中存儲的目標詞語可以是廣義范圍的詞語,具體地,可以從日常生活和工作能夠接觸到的信息中獲取目標詞語并形成詞典,例如可以從每天新聞報道的信息中提取詞語,形成詞典;詞典中存儲的目標詞語也可以是狹義范圍的詞語,具體地,可以從目標信息數(shù)據(jù)庫中存儲的信息獲取目標詞語并形成詞典,其中,目標信息數(shù)據(jù)庫用于存儲待進行識別的信息,例如如果本發(fā)明實施例提供的自然語音識別方法應用在車輛導航領域中,目標信息數(shù)據(jù)庫用于存儲地理位置信息和/或目的地名稱信息等。需要說明的是,不論是廣義范圍的詞語還是狹義范圍的詞語,詞典中的目標詞語均是唯一的,各個目標詞語之間不重復。由于語音識別技術一般是在特定領域中使用的,例如應用在導航、點歌或者查找聯(lián)系人等領域,為了減小詞典中目標詞語的冗余量,節(jié)省存儲空間,提高語音識別的速度,本發(fā)明實施例優(yōu)選地將詞典中的目標詞語設置為根據(jù)目標信息數(shù)據(jù)庫設置的狹義范圍詞語,但不限于上述設置方式,本領域技術人員公知的是,對于該識別技術所應用的每個行業(yè)領域,所述行業(yè)的技術人員均可根據(jù)其行業(yè)特點,進行合理設置其目標信息數(shù)據(jù)庫。在本實施例中,步驟102具體可以根據(jù)步驟101獲取的拼音查找詞典,將拼音按照出現(xiàn)順序與詞典中包含的目標詞語的拼音進行匹配,當查找到與目標詞語的拼音完全匹配的詞語拼音串時,將該詞語拼音串從拼音中分割出來,繼續(xù)循環(huán)上述查找的動作,直到結束為止,從而實現(xiàn)對拼音的分詞處理。步驟103,從詞典中查找步驟102獲取的詞語拼音串對應的待識別詞語。
步驟104,根據(jù)待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語匹配度最高的目標信息。在本實施例中,步驟104可以通過兩種方法從目標信息數(shù)據(jù)庫中獲取與待識別詞語匹配度最高的目標信息,下面對這兩種方法進行分別介紹I、權重系數(shù)判決法在本實施例中,如果詞典還用于存儲目標詞語對應的權重等級η以及權重等級范圍N,η、N均為整數(shù),N彡2,n e [I,N],第η級的目標詞語在所述文字信息中的重要性要比第n+1級的目標詞語在所述文字信息中的重要性大,當然,其重要性與權重等級η的關系也可以相反,本領域技術人員可以自己根據(jù)需要定義,本實施方式按照前者進行示例,則步驟
104之前,還包括根據(jù)詞典獲取待識別詞語對應的權重等級的步驟。具體地,可以預先設置詞典中詞語的權重等級范圍N,以及每個詞語的權重等級 η,例如可以將詞典包含的目標詞語的權重等級范圍設置為3,其中,重等級為I最高,權重等級為3最低,然后按照目標詞語的專有性以及廣泛性設置每個目標詞語的權重等級,如,目標詞語是地名時,權重等級設置為3,目標詞語是非地理位置的專有指代名詞(如小肥羊)時,權重等級設置為1,當然,所述領域技術人員可根據(jù)其他設置規(guī)則對上述目標詞語進行權重等級劃分,此處不對每種情況進行一一贅述。在步驟102將文字信息劃分成詞語之后,從詞典中獲取每個詞語的權重等級屬性信息。則此時,如圖2所示,步驟104可以包括步驟1041,根據(jù)待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語中的任意一個或多個詞語匹配的信息組成的信息集合。步驟1042,根據(jù)待識別詞語對應的權重等級,對步驟1041獲取的信息集合中的每條信息分別進行處理,獲取每條信息的權重系數(shù)。在本實施例中,步驟1042可以采用加權平均算法獲取每條信息的權重系數(shù),當然也可以采用其他算法獲取每條信息的權重信息,此處不作一一贅述。步驟1043,從步驟1041獲取的信息集合中選取權重系數(shù)最高的信息為目標信息。需要說明的是,為了保證步驟104獲取的目標信息的準確性,提高語音識別質(zhì)量,在本實施例中,步驟103獲取的待識別詞語中應包含至少一個權重等級為I的詞語,如果待識別詞語中不存在權重等級為I的詞語,則在步驟104之前,還包括重新對步驟101獲取的拼音進行分詞處理,以獲取至少一個權重等級為I的詞語,則此時步驟104替換為根據(jù)重新分詞后的待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語匹配度為I的目標信息。進一步地,本發(fā)明實施例提供的自然語音識別方法還可以包括將重新分詞后獲得的至少一個權重等級最高的詞語以及該詞語對應的拼音串添加到所述詞典中。需要說明的是,本發(fā)明實施例對權重等級高低的劃分進行具體的舉例,在實際的使用過程中還可以通過其他規(guī)則設置權重等級的高低屬性,例如當權重等級范圍為3時,可以設置權重等級為3最高,權重等級為I最低,以上方法是本領域技術人員能夠在不付出創(chuàng)造性勞動的前提下輕易聯(lián)想到的,此處不再一一贅述。2、嵌套查找法如圖3所示,步驟104可以包括
步驟1044,對步驟103獲取的待識別詞語進行排序。在本實施例中,步驟1044可以將詞語按照在文字信息中出現(xiàn)的先后順序進行排序,優(yōu)選地,為了提高查找速度,步驟1044可以先獲取文字信息包含的詞語中的關鍵詞,然后將文字信息包含的詞語按照關鍵詞、后輔助詞和前輔助詞的順序進行排序。其中,關鍵詞是具有專有指代意義的詞語,后輔助詞是文字信息中位于關鍵詞之后的詞語,前輔助詞是文字信息中位于關鍵詞之前的詞語。在本實施例中,可以預先設置關鍵詞表,該關鍵詞表可以根據(jù)目標信息數(shù)據(jù)庫中存儲的信息設置,本發(fā)明實施例提供的技術方案在獲取待識別詞語后,對待識別詞語中的每個詞語分別查找關鍵詞表,獲取與關鍵詞表中存儲的關鍵詞匹配的詞語為文字信息包含的關鍵詞。
·
需要說明的是,如果經(jīng)查找后獲知待識別詞語中不存在關鍵詞,則步驟1044按照詞語出現(xiàn)的先后順序進行排序;如果經(jīng)查找后獲知待識別詞語中包含兩個以上關鍵詞,則后輔助詞為待識別詞語中第一個關鍵詞以后的非關鍵詞,步驟1044仍然按照關鍵詞、后輔助詞以及前輔助詞的順序進行排序。需要說明的是,如果在步驟103中,同一個詞語拼音串在詞典中查找到兩個以上待查找詞語,則步驟1044將所述兩個以上待查找詞語作為一個集合整體進行排序。本發(fā)明實施例通過將文字信息包含的詞語按照關鍵詞、后輔助詞和前輔助詞的順序進行排序,使得后續(xù)步驟按照詞語順序進行查找匹配時,重點信息突出,能夠大幅度的縮短詞語查找匹配的時間,進行提高語音識別的速度。步驟1045,按照步驟1044的排序結果,從待識別詞語中獲取第一個詞語,從目標信息數(shù)據(jù)庫中獲取與第一個詞語匹配的信息。步驟1046,從待識別詞語中獲取第二個詞語,從與第一個詞語匹配的信息組成的信息集合中獲取與第二個詞語匹配的信息。以此類推,步驟1047,從待識別詞語中獲取最后一個詞語,從與最后一個詞語相鄰的上一個詞語匹配的信息組成的信息集合中獲取與最后一個詞語匹配的目標信息。需要說明的是,在以上步驟1045-1047中,如果未查找到與當前詞語匹配的信息,則可以將當前詞語的匹配信息設置為與該當前詞語相鄰的上一個詞語匹配的信息,如果,當前詞語為第一個詞語,則該第一個詞語匹配的信息為整個目標信息數(shù)據(jù)庫中包含的信肩、O為了使本領域技術人員能夠?qū)σ陨纤龅那短撞檎曳ㄓ懈羁痰恼J識,下面通過具體的例子對嵌套查找法的具體實現(xiàn)進行說明例如當用戶輸入的語音信息為北京石景山區(qū)八角東路小肥羊火鍋店時,獲取與該語音信息對應的拼音,包括beijingshijingshanqubajiaodongluxiaofeiyanghuoguodian ;根據(jù)詞典對該拼音進行分詞,獲取詞語拼音串,包括beijing, shijingshanqu,bajiao, donglu, xiaofeiyang, huoguodian ;根據(jù)詞語拼音串查找詞典獲取待識別詞語,包括北京,石景山區(qū),八角,東路,(小肥羊、小沸羊),火鍋店;如果xiaofeiyang對應的待識別詞語(小肥羊和小沸羊)為關鍵詞,按照關鍵詞、后輔助詞和前輔助詞排序為(小肥羊、小沸羊),火鍋店,北京,石景山區(qū),八角,東路;當目標信息數(shù)據(jù)庫包括北京小肥羊超市,北京小沸羊火鍋店,上海小沸羊餐飲公司,北京石景山區(qū)小沸羊烤肉店,石景山區(qū)古城路小肥羊火鍋店,北京東來順火鍋店,北京八角北路東來順火鍋店,北京八角小肥羊火鍋店等信息時,按照上述嵌套查找法,首先,從目標信息數(shù)據(jù)庫中獲取與“小肥羊和小沸羊”組成的關鍵詞集合匹配的信息,形成第一信息庫,該第一信息庫包括北京小肥羊超市,北京小沸羊火鍋店,上海小沸羊餐飲公司,北京石景山區(qū)小沸羊烤肉店,石景山區(qū)古城路小肥羊火鍋店,北京八角小肥羊火鍋店,然后,從第一信息庫中獲取與“火鍋店”匹配的信息,形成第二信息庫,該第二信息庫包括北京小沸羊火鍋店,石景山區(qū)古城路小肥羊火鍋店,北京八角小肥羊火鍋店,第三,從第二信息庫中獲取與“北京”匹配的信息,形成第三信息庫,該第三信息庫包括北京小沸羊火鍋店,北京八角小肥羊火鍋店,第四,從第三信息庫中獲取與“八角”匹配的信息,形成第四信息庫,該第四信息庫包括北京八角小肥羊火鍋店,第五,從第四信息庫中獲取與“東路”匹配的目標信息,由于第四信息庫中沒有與“東路”匹配的信息,所以目標信息為第四信息庫中包含的信息,即北京八角小肥羊火鍋店。通過以上所述的權重系數(shù)判決法以及嵌套查找法能夠準確地查找到與文本信息包含的詞語匹配度最高的目標信息,實現(xiàn)對用戶輸入的語音信息的識別。當然,在實際的使用過程中,還可以采用其他方法獲取與文本信息包含的詞語匹配度最高的目標信息,此處不作一一贅述。進一步地,如果在步驟104中選取了兩條以上目標信息,為了提高語音識別的準確定,如圖4所示,步驟104之后還可以包括步驟105,獲取用戶發(fā)送的目標信息選取指示或者用戶的語音識別統(tǒng)計信息。具體地,本發(fā)明實施例在步驟104之后可以將選取的兩條以上目標信息顯示給用戶,步驟105接收用戶通過語音或者按鍵或者文字輸入等方式發(fā)送的目標信息選取指示。
或者,本發(fā)明實施例提供的自然語音識別方法可以對用戶每次進行語音識別的信息進行統(tǒng)計,該統(tǒng)計可以是針對特定用戶個人的,也可以是針對特定用戶群體的。進一步地,該語音識別統(tǒng)計數(shù)據(jù)可以為對用戶的一個或者多個目標信息進行語音識別的次數(shù)或者頻率統(tǒng)計的結果,也可以為對多個用戶最后一次進行語音識別的目標信息的統(tǒng)計結果,當然還可以為其他與語音識別相關的統(tǒng)計結果,此處不作一一贅述。步驟106,根據(jù)目標信息選取指示或者語音識別統(tǒng)計信息從兩條以上目標信息中選取優(yōu)選目標信息。例如當語音識別統(tǒng)計數(shù)據(jù)為對用戶的多個目標信息進行語音識別的次數(shù)進行統(tǒng)計的結果時,如果用戶輸入的語音信息對應的拼音為xiaofeiyanghuoguodian,步驟104獲取了 4條目標信息,包括海淀區(qū)小肥羊火鍋店,海淀區(qū)中關村小肥羊火鍋店,石景山八角東路小肥羊火鍋店,以及西直門嘉茂小沸羊火鍋店時,步驟105可以獲取所述4條目標信息對應的語音識別統(tǒng)計數(shù)據(jù),如“海淀區(qū)小肥羊火鍋店”進行語音識別3次,“海淀區(qū)中關村小肥羊火鍋店”進行語音識別5次,“石景山八角東路小肥羊火鍋店”進行語音識別40次,“西直門嘉茂小沸羊火鍋店”進行語音識別I次,則步驟106可以根據(jù)統(tǒng)計結果,從4條目標信息中選取“石景山八角東路小肥羊火鍋店”為優(yōu)選目標信息??蛇x地,為了進一步縮短語音識別的時間,提高語音識別速度,在本實施例中,步驟104之前,還可以包括根據(jù)待識別詞語查找口語詞庫,根據(jù)查找結果,從待識別詞語中刪除口語詞的步驟,其中,口語詞庫用于存儲口語詞,該口語詞中不包括涉及到用戶輸入的語音信息中具有實質(zhì)性含義的文字信息。
在本實施例中,可以采用統(tǒng)計的方法預先設置口語詞庫,該口語詞庫中可以包括人們?nèi)粘J褂玫目谡Z詞,例如“我想去”、“我想要”、“請問”、“是不是”、“對不對”、“可不可以”以及“怎么”等等,此處不對口語詞庫中包含的口語詞進行一一贅述。進一步地,為了使本發(fā)明實施例提供的自然語音識別方法能夠適用于發(fā)音吐字不清楚以及發(fā)音規(guī)范不同的人群,提高語音識別的成功率與準確率,在以上圖1-4所示的技術方案基礎上,本發(fā)明實施例提供的自然語音識別方法還可以包括對步驟101獲取的拼音進行模糊音匹配處理,獲取模糊匹配后的拼音的步驟,則此時步驟102具體為采用預先設置的詞典對模糊匹配后的拼音進行分詞處理,獲取分詞后的詞語拼音串。
具體地,可以預先設置拼音模糊匹配表,在該拼音模糊匹配表中定義匹配規(guī)則,例如z = zh, c = ch, s = sh, I = n, f = h, r = I, an = ang, en = eng, in = ing, ian =
iang, uan = uang, iong = ing等,此處不作--贅述,根據(jù)所述規(guī)則對步驟101獲取的拼
音進行模糊音匹配處理。通過對拼音進行模糊匹配,解決了由于用戶口齒不清、發(fā)音不準確造成的語音識別失敗或者識別錯誤等問題,進而提高了本發(fā)明實施例提供自然語音識別方法的識別成功率與準確率。本發(fā)明實施例提供的自然語音識別方法,根據(jù)詞語拼音串對應的待識別詞語進行信息匹配,并將目標信息數(shù)據(jù)庫中與待識別詞語匹配度最高的信息作為對語音信息識別得到的目標信息,不需要對語音信息進行完全匹配即可獲得目標信息,提高了語音識別的成功率,解決了現(xiàn)有技術采用對語音信息進行完全匹配方法進行語音識別,造成由于表述方式不一致而使語音識別失敗,語音識別成功率低的問題,由于本發(fā)明實施例提供的技術方案采用詞語匹配的方式進行語音識別,只需要在詞典中存儲目標詞語并在目標信息數(shù)據(jù)庫中存儲標準信息即可,不需要對同一事物按照語言表述方式存儲大量不同形式的文本信息,詞典和目標信息數(shù)據(jù)庫的數(shù)據(jù)規(guī)模較小,便于進行查找,進而提高了語音識別速度,解決了現(xiàn)有技術需要在詞表中對同一事物存儲大量不同表述形式的文本信息,造成詞表規(guī)模龐大,不便于查找,進行語音識別的速度較慢的問題。本發(fā)明實施例提供的技術方案不同于英文語音識別技術,該技術方案針對中文語言文字量大,語句中詞語連貫、無停頓的特點,采用按照拼音對語句中詞語進行分詞,并根據(jù)分詞后的待識別詞語查找的方式進行語音識另IJ,對中文語音識別的成功率以及識別速度較高。如圖5所示,本發(fā)明實施例還提供一種自然語音識別裝置,包括第一獲取單元501,用于獲取用戶輸入的語音信息對應的拼音;分詞處理單元502,用于采用預先設置的詞典對第一獲取單元501獲取的拼音進行分詞處理,獲取分詞后的詞語拼音串;第二獲取單元503,用于從詞典中查找分詞處理單元502獲取的詞語拼音串對應的待識別詞語;查找單元504,用于根據(jù)第二獲取單元503獲取的待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語匹配度最高的目標信息;其中,所述詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。進一步地,如圖6所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括第三獲取單元505,用于如果詞典還用于存儲目標詞語對應的權重等級η以及權重等級范圍N,根據(jù)詞典獲取第二獲取單元503獲取的待識別詞語對應的權重等級,其中,n、N均為整數(shù),N彡2,n e [1,N],第η級的目標詞語在所述文字信息中的重要性要比第n+1級的目標詞語在所述文字信息中的重要性大,當然,其重要性與權重等級η的關系也可以相反,本領域技術人員可以自己根據(jù)需要定義,本實施方式按照前者進行示例;貝丨J,查找單元504可以包括查找子單元5041,用于根據(jù)第二獲取單元503獲取的待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語中的任意一個或多個詞語匹配的信息組成的信息集合;第一獲取子單元5042,用于根據(jù)第三獲取單元505獲取的待識別詞語對應的權重等級,對查找子單元5041獲取的信息集合中的每條信息分別進行處理,獲取每條信息的權重系數(shù);第二獲取子單元5043,用于從查找子單元5041獲取的信息集合中選取第一獲取子單元5042獲取的權重系數(shù)最高的信息為目標信息。進一步地,如圖7所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括重分詞單元506,用于如果第二獲取單元503獲取的待識別詞語中不存在權重等級為I的詞語,重新對第一獲取單元501獲取的拼音進行分詞處理,以獲取至少一個權重等級為I的詞語;查找單元504,還可以用于根據(jù)重分詞單元506重新分詞后的待識別詞語查找目標信息數(shù)據(jù)庫,從目標信息數(shù)據(jù)庫中獲取與待識別詞語匹配度最高的目標信息。進一步地,如圖8所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括更新單元507,用于將重分詞單元506獲取的至少一個權重等級為I的詞語以及該詞語對應的拼音串添加到詞典中。進一步地,如圖9所示,查找單元504還可以包括排序子單元5044,用于對待識別詞語進行排序;第三獲取子單元5045,用于按照排序子單元5044排序的結果,從待識別詞語中獲取第一個詞語,從目標信息數(shù)據(jù)庫中獲取與第一個詞語匹配的信息;第四獲取子單元5046,用于從待識別詞語中獲取第二個詞語,從與第一個詞語匹配的信息組成的信息集合中獲取與第二個詞語匹配的信息;以此類推,第五獲取子單元5047,用于從待識別詞語中獲取最后一個詞語,從與最后一個詞語相鄰的上一個詞語匹配的信息組成的信息集合中獲取與最后一個詞語匹配的目標信息。進一步地,如圖10所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括刪除單元508,用于根據(jù)第二獲取單元503獲取的待識別詞語查找口語詞庫,根據(jù)查找結果,從待識別詞語中刪除口語詞,其中,口語詞庫用于存儲口語詞,該口語詞中不包括涉及到所述用戶輸入的語音信息中具有實質(zhì)性含義的文字信息。進一步地,如圖11所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括第四獲取單元509,用于如果查找單元504查找到兩條以上目標信息,獲取用戶發(fā)送的目標信息選取指示或者用戶的語音識別統(tǒng)計信息; 選取單元5010,用于根據(jù)第四獲取單元509獲取的目標信息選取指示或者語音識別統(tǒng)計信息從查找単元504查找到的兩條以上目標信息中選取優(yōu)選目標信息。進ー步地,如圖12所示,本發(fā)明實施例提供的自然語音識別裝置還可以包括模糊處理單元5011,用于對第一獲取單元501獲取的拼音進行模糊音匹配處理,獲取模糊匹配后的拼音;分詞處理単元502,還可以用于采用預先設置的詞典對模糊處理單元5011獲取的模糊匹配后的拼音進行分詞處理,獲取分詞后的詞語拼音串。本發(fā)明實施例提供的自然語音識別裝置的具體實現(xiàn)可以參見本發(fā)明實施例提供 的自然語音識別方法所述,此處不再贅述。本發(fā)明實施例提供的自然語音識別裝置,根據(jù)詞語拼音串對應的待識別詞語進行信息匹配,并將目標信息數(shù)據(jù)庫中與待識別詞語匹配度最高的信息作為對語音信息識別得到的目標信息,不需要對語音信息進行完全匹配即可獲得目標信息,提高了語音識別的成功率,解決了現(xiàn)有技術采用對語音信息進行完全匹配方法進行語音識別,造成由于表述方式不一致而使語音識別失敗,語音識別成功率低的問題,由于本發(fā)明實施例提供的技術方案采用詞語匹配的方式進行語音識別,只需要在詞典中存儲目標詞語并在目標信息數(shù)據(jù)庫中存儲標準信息即可,不需要對同一事物按照語言表述方式存儲大量不同形式的文本信息,詞典和目標信息數(shù)據(jù)庫的數(shù)據(jù)規(guī)模較小,便于進行查找,進而提高了語音識別速度,解決了現(xiàn)有技術需要在詞表中對同一事物存儲大量不同表述形式的文本信息,造成詞表規(guī)模龐大,不便于查找,進行語音識別的速度較慢的問題。本發(fā)明實施例提供的技術方案不同于英文語音識別技術,該技術方案針對中文語言文字量大,語句中詞語連貫、無停頓的特點,采用按照拼音對語句中詞語進行分詞,井根據(jù)分詞后的待識別詞語查找的方式進行語音識另IJ,對中文語音識別的成功率以及識別速度較高。本發(fā)明實施例提供的自然語音識別方法和裝置可以應用在如導航、點歌以及聯(lián)系人查詢等信息服務系統(tǒng)中。以上所述,僅為本發(fā)明的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應所述以權利要求的保護范圍為準。
權利要求
1.一種自然語音識別方法,其特征在于,包括 獲取用戶輸入的語音信息對應的拼音; 采用預先設置的詞典對所述拼音進行分詞處理,獲取分詞后的詞語拼音串; 從所述詞典中查找所述詞語拼音串對應的待識別詞語; 根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息; 其中,所述詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。
2.根據(jù)權利要求I所述的方法,其特征在于,所述方法還包括 如果所述詞典還用于存儲所述目標詞語對應的權重等級η以及權重等級范圍N,根據(jù)所述詞典獲取所述待識別詞語對應的權重等級,其中,η、N均為整數(shù),N > 2,n e [1,Ν],第η級的目標詞語在所述文字信息中的重要性要比第n+1級的目標詞語在所述文字信息中的重要性大; 則根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息包括 根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語中的任意一個或多個詞語匹配的信息組成的信息集合; 根據(jù)所述待識別詞語對應的權重等級,對所述信息集合中的每條信息分別進行處理,獲取每條信息的權重系數(shù); 從所述信息集合中選取權重系數(shù)最高的信息為目標信息。
3.根據(jù)權利要求2所述的方法,其特征在于,所述方法還包括 如果所述待識別詞語中不存在權重等級為I的詞語,重新對所述拼音進行分詞處理,以獲取至少一個權重等級為I的詞語; 則所述根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息為 根據(jù)重新分詞后的待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息。
4.根據(jù)權利要求3所述的方法,其特征在于,所述方法還包括 將所述至少一個權重等級為I的詞語以及該詞語對應的拼音串添加到所述詞典中。
5.根據(jù)權利要求I所述的方法,其特征在于,所述根據(jù)所述待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息包括 對所述待識別詞語進行排序; 按照所述排序的結果,從所述待識別詞語中獲取第一個詞語,從所述目標信息數(shù)據(jù)庫中獲取與所述第一個詞語匹配的信息; 從所述待識別詞語中獲取第二個詞語,從所述與第一個詞語匹配的信息組成的信息集合中獲取與所述第二個詞語匹配的信息; 以此類推,從所述待識別詞語中獲取最后一個詞語,從與所述最后一個詞語相鄰的上一個詞語匹配的信息組成的信息集合中獲取與所述最后一個詞語匹配的目標信息。
6.根據(jù)權利要求5所述的方法,其特征在于,所述對所述待識別詞語進行排序包括 獲取所述待識別詞語中的關鍵詞;將所述待識別詞語按照關鍵詞、后輔助詞以及前輔助詞的順序進行排序; 其中,后輔助詞為所述待識別詞語中位于關鍵詞之后的詞語,前輔助詞為所述待識別詞語中位于關鍵詞之前的詞語。
7.根據(jù)權利要求6所述的方法,其特征在于,如果所述待識別詞語中包含兩個以上關鍵詞,所述后輔助詞為所述待識別詞語中第一個關鍵詞以后的非關鍵詞。
8.根據(jù)權利要求I所述的方法,其特征在于,所述方法還包括 根據(jù)所述待識別詞語查找口語詞庫,根據(jù)查找結果,從所述待識別詞語中刪除口語詞,其中,口語詞庫用于存儲口語詞,所述口語詞中不包括涉及到所述用戶輸入的語音信息中具有實質(zhì)性含義的文字信息。
9.根據(jù)權利要求I所述的方法,其特征在于,所述方法還包括 如果查找到兩條以上目標信息,獲取用戶發(fā)送的目標信息選取指示或者用戶的語音識別統(tǒng)計信息; 根據(jù)所述目標信息選取指示或者語音識別統(tǒng)計信息從所述兩條以上目標信息中選取優(yōu)選目標信息。
10.根據(jù)權利要求1-9中任意一項所述的方法,其特征在于,所述方法還包括 對所述拼音進行模糊音匹配處理,獲取模糊匹配后的拼音; 則所述采用預先設置的詞典對所述拼音進行分詞處理,獲取分詞后的詞語拼音串為 采用所述預先設置的詞典對所述模糊匹配后的拼音進行分詞處理,獲取分詞后的詞語拼首串。
11.一種自然語音識別裝置,其特征在于,包括 第一獲取單元,用于獲取用戶輸入的語音信息對應的拼音; 分詞處理單元,用于采用預先設置的詞典對所述第一獲取單元獲取的拼音進行分詞處理,獲取分詞后的詞語拼音串; 第二獲取單元,用于從所述詞典中查找所述分詞處理單元獲取的詞語拼音串對應的待識別詞語; 查找單元,用于根據(jù)所述第二獲取單元獲取的待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息; 其中,所述詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。
12.根據(jù)權利要求11所述的裝置,其特征在于,所述裝置還包括 第三獲取單元,用于如果所述詞典還用于存儲所述目標詞語對應的權重等級η以及權重等級范圍N,根據(jù)所述詞典獲取所述第二獲取單元獲取的待識別詞語對應的權重等級,其中,η、N均為整數(shù),N彡2,n e [I, N],第η級的目標詞語在所述文字信息中的重要性要比第n+1級的目標詞語在所述文字信息中的重要性大; 則,所述查找單元包括 查找子單元,用于根據(jù)所述第二獲取單元獲取的待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語中的任意一個或多個詞語匹配的信息組成的信息集合; 第一獲取子單元,用于根據(jù)所述第三獲取單元獲取的待識別詞語對應的權重等級,對所述查找子單元獲取的信息集合中的每條信息分別進行處理,獲取每條信息的權重系數(shù);第二獲取子單元,用于從所述查找子單元獲取的信息集合中選取第一獲取子單元獲取的權重系數(shù)最高的信息為目標信息。
13.根據(jù)權利要求12所述的裝置,其特征在于,所述裝置還包括 重分詞單元,用于如果所述第二獲取單元獲取的待識別詞語中不存在權重等級為I的詞語,重新對所述第一獲取單元獲取的拼音進行分詞處理,以獲取至少一個權重等級為I的詞語; 所述查找單元,還用于根據(jù)所述重分詞單元重新分詞后的待識別詞語查找目標信息數(shù)據(jù)庫,從所述目標信息數(shù)據(jù)庫中獲取與所述待識別詞語匹配度最高的目標信息。
14.根據(jù)權利要求13所述的裝置,其特征在于,所述裝置還包括 更新單元,用于將所述重分詞單元獲取的至少一個權重等級為I的詞語以及該詞語對應的拼音串添加到所述詞典中。
15.根據(jù)權利要求11所述的裝置,其特征在于,所述查找單元還包括 排序子單元,用于對所述待識別詞語進行排序; 第三獲取子單元,用于按照所述排序子單元排序的結果,從所述待識別詞語中獲取第一個詞語,從所述目標信息數(shù)據(jù)庫中獲取與所述第一個詞語匹配的信息; 第四獲取子單元,用于從所述待識別詞語中獲取第二個詞語,從所述與第一個詞語匹配的信息組成的信息集合中獲取與所述第二個詞語匹配的信息; 以此類推,第五獲取子單元,用于從所述待識別詞語中獲取最后一個詞語,從與所述最后一個詞語相鄰的上一個詞語匹配的信息組成的信息集合中獲取與所述最后一個詞語匹配的目標信息。
16.根據(jù)權利要求11所述的裝置,其特征在于,所述裝置還包括 刪除單元,用于根據(jù)所述第二獲取單元獲取的待識別詞語查找口語詞庫,根據(jù)查找結果,從所述待識別詞語中刪除口語詞,其中,口語詞庫用于存儲口語詞,所述口語詞中不包括涉及到所述用戶輸入的語音信息中具有實質(zhì)性含義的文字信息。
17.根據(jù)權利要求11所述的裝置,其特征在于,所述裝置還包括 第四獲取單元,用于如果所述查找單元查找到兩條以上目標信息,獲取用戶發(fā)送的目標信息選取指示或者用戶的語音識別統(tǒng)計信息; 選取單元,用于根據(jù)所述第四獲取單元獲取的目標信息選取指示或者語音識別統(tǒng)計信息從所述查找單元查找到的兩條以上目標信息中選取優(yōu)選目標信息。
18.根據(jù)權利要求11-17中任意一項所述的裝置,其特征在于,所述裝置還包括 模糊處理單元,用于對所述第一獲取單元獲取的拼音進行模糊音匹配處理,獲取模糊匹配后的拼音; 所述分詞處理單元,還用于采用所述預先設置的詞典對所述模糊處理單元獲取的模糊匹配后的拼音進行分詞處理,獲取分詞后的詞語拼音串。
全文摘要
本發(fā)明公開一種自然語音識別方法和裝置,涉及語音識別技術。以解決采用關鍵詞的方式進行語音識別成功率較低的問題。包括獲取用戶輸入的語音信息對應的拼音;采用預先設置的詞典對拼音進行分詞處理,獲取分詞后的詞語拼音串;從詞典中查找詞語拼音串對應的待識別詞語;根據(jù)待識別詞語查找目標信息數(shù)據(jù)庫獲取與待識別詞語匹配度最高的目標信息;其中,詞典用于存儲進行語音識別的目標詞語以及目標詞語對應的拼音。本發(fā)明實施例提供的技術方案可以應用在如導航、點歌以及聯(lián)系人查詢等信息服務系統(tǒng)中。
文檔編號G06F17/30GK102867512SQ201110184759
公開日2013年1月9日 申請日期2011年7月4日 優(yōu)先權日2011年7月4日
發(fā)明者余喆 申請人:余喆