專利名稱:語(yǔ)音處理裝置、語(yǔ)音處理方法、程序、和記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及一種語(yǔ)音處理裝置、語(yǔ)音處理方法、程序、和記錄介質(zhì),具體地,涉及用于防止獲得錯(cuò)誤未知單詞(word)的語(yǔ)音處理裝置、語(yǔ)音處理方法、程序、和記錄介質(zhì)。
背景技術(shù):
為了在具有獲得新單詞功能的連續(xù)語(yǔ)音識(shí)別系統(tǒng)中得到諸如名字的未知單詞,即,不包括在詞典中的未知單詞,該系統(tǒng)需要估計(jì)在言語(yǔ)中的未知單詞的持續(xù)時(shí)間并且將發(fā)音(讀音)指定給該未知單詞。
為了在言語(yǔ)中估計(jì)未知單詞的持續(xù)時(shí)間,系統(tǒng)根據(jù)比單詞短的單元(子單詞(sub-word)),如音素、音節(jié)和另一個(gè)音位單元(phonological unit),來(lái)執(zhí)行語(yǔ)音識(shí)別。將音節(jié)序列指定給言語(yǔ),即,將日語(yǔ)假名的讀音指定給言語(yǔ)從而獲得每個(gè)音節(jié)的記分。通過適當(dāng)?shù)靥幹糜浄郑瑒t可以為不在詞匯表中的單詞(OOV)估計(jì)記分。如果有一定持續(xù)時(shí)間的OOV單詞的記分高于包括在詞典中的單詞的記分,則將該持續(xù)時(shí)間中的言語(yǔ)識(shí)別為未知單詞。由未知單詞的持續(xù)時(shí)間中的子單詞序列(如音節(jié)序列)代表未知單詞的發(fā)音(例如,參考由Issam Bazzi和James R.Glass所著的、2000年10月出版的“Proceedings ofInternational Conference on Spoken Language Processing(ICSLP)2000”的433-436頁(yè),由Atsuhiko KAI和Seiichi NAKAGAWA所著的、1997年10月出版的日本電子、信息和通信工程師學(xué)會(huì)期刊J80-D-II卷上的2615-2625頁(yè)刊登的“Comparison of Continuous Speech Recognition Systems with Unknown WordProcessing for Speech Disfluencies”,和由Hiroaki KOKUBO、ShigehikoONISHI、Hirofumi YAMAMOTO和Genichiro KIKUI所著的、2002年7月出版的日本信息處理協(xié)會(huì)期刊43卷第7號(hào)的2082-2090頁(yè)上刊登的“EfficientDecoding Method for OOV word Recognition with Subword Models”)。
但是,當(dāng)根據(jù)音節(jié)單元執(zhí)行語(yǔ)音識(shí)別處理以估計(jì)未知單詞的持續(xù)時(shí)間時(shí),單詞間的邊界并不必須匹配于音節(jié)間的邊界。
在單詞和音節(jié)邊界間的這種不匹配,即,單詞序列和子單詞序列邊界間的不匹配將隨后參照?qǐng)D1進(jìn)行說明。
例如,如圖1所示,當(dāng)根據(jù)<OOV>和相鄰單詞間的邊界、單詞語(yǔ)音識(shí)別結(jié)果為“單詞1”<OOV>“單詞2”時(shí),單詞間的邊界有時(shí)不匹配于子單詞序列中的邊界(即,子單詞序列Sy11到Sy18)。如這里所使用的,<OOV>是代表未知單詞的符號(hào)。“單詞1”和“單詞2”是在詞典中包括的單詞(即,已知單詞)。
在圖1所示的例子中,<OOV>的較早邊界暫時(shí)對(duì)應(yīng)于Sy14的中點(diǎn),并且<OOV>的較后邊界暫時(shí)對(duì)應(yīng)于Sy17的中點(diǎn)。因此,對(duì)應(yīng)于不匹配的邊界的子單詞Sy14和Sy17有時(shí)包括在<OOV>中,并且有時(shí)被排除在<OOV>之外。為了獲得<OOV>的發(fā)音,最好確定子單詞的邊界。
作為通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音的方法,已知有通過確定子單詞的邊界(即,未知單詞的持續(xù)時(shí)間的邊界)來(lái)獲得<OOV>的發(fā)音的方法。
隨后參考圖2說明通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音的方法。
在通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音的方法中,如果包括任一<OOV>邊界的音節(jié)的持續(xù)時(shí)間的50%或更多包含在<OOV>中,則認(rèn)為該音節(jié)是<OOV>的一部分。
例如,如圖2所示,被正常識(shí)別的單詞序列的一部分為“單詞1”、<OOV>、和“單詞2”。從語(yǔ)音打字機(jī)來(lái)的子單詞序列的一部分是音節(jié)i、音節(jié)j、音節(jié)k。在這種情況下,因?yàn)長(zhǎng)1>L2,其中L1是與單詞1對(duì)應(yīng)的音節(jié)i的持續(xù)時(shí)間,而L2是與<OOV>對(duì)應(yīng)的音節(jié)i的持續(xù)時(shí)間,所以確定音節(jié)i不包括在<OOV>中。另一方面,當(dāng)考慮音節(jié)k(其包括<OOV>的暫時(shí)較后邊界)的持續(xù)時(shí)間L3+L4時(shí),因?yàn)長(zhǎng)3>L4,其中L3是與<OOV>對(duì)應(yīng)的音節(jié)k的持續(xù)時(shí)間,而L4是與單詞2對(duì)應(yīng)的音節(jié)k的持續(xù)時(shí)間,則確定音節(jié)k包括在<OOV>中。
圖3示出了通過使用圖2所示的子單詞序列來(lái)獲得<OOV>的發(fā)音的方法的試驗(yàn)結(jié)果。
在包括酒店入住和在餐館點(diǎn)菜言語(yǔ)的旅行應(yīng)用中,為12個(gè)人(6男,6女)的言語(yǔ)的752個(gè)類型進(jìn)行了通過使用圖2所示的子單詞序列來(lái)獲得<OOV>的發(fā)音的方法的試驗(yàn)。如圖4所示,設(shè)置特征參數(shù)的條件、聲學(xué)模型、和語(yǔ)言模型。特征參數(shù)設(shè)置為16比特和16KHz語(yǔ)音采樣、10毫秒(msec)幀時(shí)間段、25毫秒幀長(zhǎng)度、第12級(jí)嘜(Mel)頻率倒譜系數(shù)(MFCC)、和0到第12級(jí)MFCC的第一級(jí)衰退系數(shù)(25維)。聲學(xué)模型是16混合物和1000約束狀態(tài)(tied-state)隱馬爾可夫模型(HMM)。語(yǔ)言模型是子單詞三字母組(trigram)、截止(cut-off)三字母組5、和二字母組(bigram)5。在這個(gè)試驗(yàn)中,使用314個(gè)類型的音節(jié)和音節(jié)鏈作為子單詞。使用的語(yǔ)言模型是用根據(jù)NIKKEI Shimbun(NihonKeizai Shimbun)文章的長(zhǎng)達(dá)六年的語(yǔ)料庫(kù)來(lái)訓(xùn)練的音素三字母組。
圖3以百分比形式示出了當(dāng)使用通過使用圖2所示的子單詞序列來(lái)獲得<OOV>的發(fā)音的方法而獲得<OOV>發(fā)音時(shí),子單詞序列的識(shí)別精確度、替換錯(cuò)誤、刪除錯(cuò)誤、和插入錯(cuò)誤。如同這里所使用的,術(shù)語(yǔ)“替換錯(cuò)誤”指其中由另一個(gè)音節(jié)替換了正確的音節(jié)的錯(cuò)誤,術(shù)語(yǔ)“刪除錯(cuò)誤”指其中要被識(shí)別的音節(jié)根本沒有被識(shí)別的錯(cuò)誤,以及術(shù)語(yǔ)“插入錯(cuò)誤”指其中要被識(shí)別的音節(jié)未出現(xiàn)在識(shí)別結(jié)果中的錯(cuò)誤。根據(jù)公式Acc=(N_C-N_I)/N,由總音節(jié)數(shù)目N、正確回答數(shù)目N_C、和插入錯(cuò)誤數(shù)目N_I確定識(shí)別精確度Acc。
如圖3所示,在通過使用圖2所示的子單詞序列來(lái)獲得<OOV>的發(fā)音的方法中,識(shí)別精確度是42.2%。替換錯(cuò)誤率、刪除錯(cuò)誤率、和插入錯(cuò)誤率分別是22.4%、33.3%和4.1%。
發(fā)明內(nèi)容
在使用通過使用圖2所示的子單詞序列來(lái)獲得<OOV>的發(fā)音的方法中,如果與<OOV>的任一邊界對(duì)應(yīng)的音節(jié)的持續(xù)時(shí)間的50%或更多包括在<OOV>中,則認(rèn)為該音節(jié)是<OOV>的一部分。因此,如果錯(cuò)誤地估計(jì)了未知單詞的持續(xù)時(shí)間中的一個(gè)或多個(gè)音節(jié),則很難更正音節(jié)的錯(cuò)誤,從而獲得錯(cuò)誤的未知單詞。結(jié)果,例如,如果認(rèn)為已經(jīng)非常錯(cuò)誤地估計(jì)或可能非常錯(cuò)誤地估計(jì)未知單詞的持續(xù)時(shí)間,則不應(yīng)該使用該語(yǔ)音識(shí)別結(jié)果來(lái)獲得未知單詞。
因此,需要防止獲得錯(cuò)誤未知單詞的一種語(yǔ)音處理裝置、語(yǔ)音處理方法、程序和記錄介質(zhì)。
根據(jù)本發(fā)明的實(shí)施例,語(yǔ)音處理裝置處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包括在輸入言語(yǔ)中的單詞進(jìn)行注冊(cè)。語(yǔ)音處理裝置包括識(shí)別裝置,用于識(shí)別輸入的言語(yǔ);未知單詞確定裝置,用于確定由識(shí)別裝置獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;識(shí)別結(jié)果拒絕裝置,用于確定是否拒絕由未知單詞確定裝置確定為包括未知單詞的識(shí)別結(jié)果;以及單詞提取裝置,用于獲得與在確定的未被識(shí)別結(jié)果拒絕裝置拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
根據(jù)本發(fā)明的實(shí)施例,語(yǔ)音處理方法處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)輸入言語(yǔ)中包括的單詞進(jìn)行注冊(cè)。語(yǔ)音處理方法包括步驟(a)識(shí)別輸入的言語(yǔ),(b)確定由識(shí)別輸入的言語(yǔ)的步驟所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞,(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果,和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
根據(jù)本發(fā)明的實(shí)施例,計(jì)算機(jī)可讀記錄介質(zhì)存儲(chǔ)程序,其處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包括在輸入言語(yǔ)中的單詞進(jìn)行注冊(cè)。該程序包括步驟(a)識(shí)別輸入的言語(yǔ),(b)確定由識(shí)別輸入的言語(yǔ)的步驟所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞,(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果,和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
根據(jù)本發(fā)明的實(shí)施例,程序處理輸入的言語(yǔ)并且根據(jù)處理結(jié)果對(duì)包括在輸入言語(yǔ)中的單詞進(jìn)行注冊(cè)。該程序包括用于使得計(jì)算機(jī)執(zhí)行下列步驟的程序代碼(a)識(shí)別輸入的言語(yǔ),(b)確定由識(shí)別輸入的言語(yǔ)的步驟所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞,(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果,和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
如上所述,根據(jù)本發(fā)明,可以防止獲得錯(cuò)誤的未知單詞。
圖1是圖解說明單詞和音節(jié)邊界間的不匹配的示意圖;圖2是圖解說明通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音方法的示意圖;圖3示出了通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音的方法的試驗(yàn)結(jié)果;圖4是圖解說明通過使用子單詞序列來(lái)獲得<OOV>的發(fā)音方法的試驗(yàn)條件的示意圖;
圖5圖解說明了根據(jù)本發(fā)明實(shí)施例的對(duì)話系統(tǒng)的配置;圖6是圖解說明特征空間的示意圖;圖7是圖解說明存儲(chǔ)在關(guān)聯(lián)存儲(chǔ)器單元3中的項(xiàng)目的示意圖;圖8是圖解說明語(yǔ)音識(shí)別單元1的配置的方框圖;圖9是圖解說明對(duì)話系統(tǒng)操作的流程圖;圖10是圖解說明在步驟S22的詳細(xì)語(yǔ)音識(shí)別過程的流程圖;圖11是圖解說明在步驟S54的詳細(xì)單詞序列產(chǎn)生過程的流程圖;圖12是圖解說明語(yǔ)言模型數(shù)據(jù)庫(kù)53的語(yǔ)言模型的例子的示意圖;圖13是圖解說明使用有限狀態(tài)自動(dòng)機(jī)的語(yǔ)言模型的例子的示意圖;圖14是圖解說明使用三字母組計(jì)算語(yǔ)言記分例子的示意圖;圖15是圖解說明三字母組數(shù)據(jù)庫(kù)的例子的示意圖;圖16是圖解說明使用有限狀態(tài)自動(dòng)機(jī)的OOV檢查語(yǔ)言模型的例子的示意圖;圖17A、17B、和17C是圖解說明單詞/音節(jié)網(wǎng)絡(luò)的產(chǎn)生的示意圖;圖18示出了使用單詞/音節(jié)網(wǎng)絡(luò)獲得OOV的試驗(yàn)結(jié)果;圖19示出了使用單詞/音節(jié)網(wǎng)絡(luò)獲得OOV的試驗(yàn)結(jié)果;圖20是圖解說明在步驟S28的詳細(xì)單詞提取過程的流程圖;圖21是圖解說明模板的例子的示意圖;圖22是圖解說明包括語(yǔ)音打字機(jī)45的語(yǔ)法的例子的示意圖;圖23是圖解說明語(yǔ)音識(shí)別單元1的另一個(gè)配置的方框圖;圖24是圖解說明在音素邊界k的左右的兩種上下文的定義的示意圖;圖25是圖解說明在音素邊界k的左右的兩種上下文的定義的示意圖;圖26是圖解說明在音素邊界k的左右的兩種上下文的定義的示意圖;和圖27是圖解說明根據(jù)本發(fā)明實(shí)施例的計(jì)算機(jī)的配置的方框圖。
具體實(shí)施例方式
以下,參照附圖來(lái)詳細(xì)說明本發(fā)明的實(shí)施例。
圖5圖解說明了根據(jù)本發(fā)明實(shí)施例的對(duì)話系統(tǒng)的配置。
例如,可以將這種對(duì)話系統(tǒng)集成到機(jī)器人里以通過語(yǔ)音與人類用戶進(jìn)行交流。當(dāng)輸入語(yǔ)音時(shí),從語(yǔ)音提取例如用戶名或機(jī)器人名的未知單詞進(jìn)行注冊(cè)。
即,將用戶發(fā)出的聲音信號(hào)輸入到語(yǔ)音識(shí)別單元1。語(yǔ)音識(shí)別單元1識(shí)別輸入的聲音信號(hào),并且在需要時(shí),根據(jù)識(shí)別的結(jié)果輸出文本和附加的信息到對(duì)話控制單元4和單詞提取單元2。
單詞提取單元2從語(yǔ)音識(shí)別單元1輸出的信息中獲得還沒有在語(yǔ)音識(shí)別單元1的單詞詞典中注冊(cè)的未知單詞。然后單詞提取單元2自動(dòng)存儲(chǔ)該單詞的音頻特征,從而語(yǔ)音識(shí)別單元1能夠隨后作為已知單詞來(lái)識(shí)別該單詞的聲音。
即,單詞提取單元2根據(jù)對(duì)應(yīng)聲音的特征、將未知單詞分類為在特征空間中形成的幾個(gè)群集。每個(gè)群集具有ID(標(biāo)識(shí))和代表音節(jié)序列(發(fā)音)。根據(jù)ID來(lái)管理群集。
圖6特別圖解說明了聲音的特征(特征空間)。為了簡(jiǎn)化,在圖6中兩維地示出了聲音的特征。
例如,將三個(gè)聲音“AKA”、“AO”和“MIDORI”輸入到單詞提取單元2。單詞提取單元2將這三個(gè)聲音分類為三個(gè)對(duì)應(yīng)的群集,分別是“AKA”群集21、“AO”群集22和“MIDORI”群集23。同時(shí),單詞提取單元2將代表音節(jié)序列(在圖6所示情況中的“A/KA”、“A/O”和“MI/DO/RI”)和ID(在圖6所示情況中的“1”、“2”和“3”)分配給群集。
如果再次輸入聲音“AKA”,因?yàn)閷?duì)應(yīng)的群集存在,則單詞提取單元2將輸入的聲音分類為“AKA”群集21。不創(chuàng)建新群集。相反,如果輸入聲音“KURO”,則對(duì)應(yīng)的群集不存在。單詞提取單元2創(chuàng)建“KURO”群集24并且將代表音節(jié)序列(在圖6所示的情況中的“KU/RO”)和ID(在圖6所示的情況中的“4”)分配給該群集。
因此,可以通過檢查是否創(chuàng)建了新的群集來(lái)確定輸入的聲音是否為未獲得的單詞(即,未知單詞)。本發(fā)明者的日本專利申請(qǐng)No.2001-97843公開了用于獲得單詞的詳細(xì)過程。
回來(lái)參照?qǐng)D5,關(guān)聯(lián)存儲(chǔ)器單元3存儲(chǔ)諸如類別的信息,該類別辨別未知單詞(精確地說,曾經(jīng)是未知單詞的已知單詞)是用戶名還是機(jī)器人名。例如,在圖7所示的情況中,關(guān)聯(lián)存儲(chǔ)器單元3存儲(chǔ)包括群集ID和分類名稱的一對(duì)項(xiàng)目。在圖7的例子中,群集ID“1”、“3”和“4”屬于“用戶名”類別,而群集ID“2”屬于“機(jī)器人名”類別。
對(duì)話控制單元4根據(jù)語(yǔ)音識(shí)別單元1的輸出來(lái)理解從用戶而來(lái)的言語(yǔ)內(nèi)容,并且控制對(duì)用戶的響應(yīng)。對(duì)話控制單元4還參考關(guān)聯(lián)存儲(chǔ)器單元3以在需要時(shí)理解從用戶而來(lái)的言語(yǔ)內(nèi)容。
圖8示出了圖5所示的語(yǔ)音識(shí)別單元1的配置。
語(yǔ)音識(shí)別單元1包括麥克風(fēng)41、模數(shù)(AD)轉(zhuǎn)換器42、特征提取模塊43、匹配模塊44、語(yǔ)音打字機(jī)45、拒絕模塊46、網(wǎng)絡(luò)產(chǎn)生模塊47、控制模塊48、聲學(xué)模型數(shù)據(jù)庫(kù)51、詞典數(shù)據(jù)庫(kù)52、語(yǔ)言模型數(shù)據(jù)庫(kù)53、和OOV檢查語(yǔ)言模型數(shù)據(jù)庫(kù)54。
將從用戶來(lái)的言語(yǔ)輸入到麥克風(fēng)41,其將言語(yǔ)轉(zhuǎn)換為電音頻信號(hào)。將該音頻信號(hào)提供給AD轉(zhuǎn)換器42。AD轉(zhuǎn)換器42對(duì)從麥克風(fēng)41輸入的模擬音頻信號(hào)進(jìn)行采樣、量化、并且隨后將它們轉(zhuǎn)換為數(shù)字音頻信號(hào)。將這些數(shù)字音頻信號(hào)傳送給特征提取模塊43。
特征提取模塊43從AD轉(zhuǎn)換器42輸出的被適當(dāng)定義的音頻數(shù)據(jù)的每幀中提取諸如頻譜、能量線性預(yù)測(cè)系數(shù)(power liner predictive coefficient)、倒譜系數(shù)和線頻譜對(duì)(line spectrum pair)的特征參數(shù)(特征)。將該特征參數(shù)傳送到匹配模塊44和語(yǔ)音打字機(jī)45。
根據(jù)從特征提取模塊43來(lái)的特征參數(shù),并同時(shí)在需要時(shí)參照聲學(xué)模型數(shù)據(jù)庫(kù)51、詞典數(shù)據(jù)庫(kù)52和語(yǔ)言模型數(shù)據(jù)庫(kù)53,匹配模塊44對(duì)輸入到麥克風(fēng)41的言語(yǔ)(輸入聲音)執(zhí)行語(yǔ)音識(shí)別。然后匹配模塊44將由語(yǔ)音識(shí)別所獲得的單詞序列輸出到拒絕模塊46和控制模塊48。
使用特征提取模塊43提供的特征參數(shù)并同時(shí)參照聲學(xué)模型數(shù)據(jù)庫(kù)51,語(yǔ)音打字機(jī)45還在音節(jié)基礎(chǔ)上對(duì)輸入的聲音進(jìn)行語(yǔ)音識(shí)別,然后將通過語(yǔ)音識(shí)別獲得的音節(jié)序列輸出到匹配模塊44和網(wǎng)絡(luò)產(chǎn)生模塊47。例如,從言語(yǔ)“WATASHINONAMAEWAOGAWADESU”,獲得音節(jié)序列“WA/TA/SHI/NO/NA/MA/E/WA/O/GA/WA/DE/SU”。可以將任何商業(yè)用的語(yǔ)音打字機(jī)作為語(yǔ)音打字機(jī)45來(lái)使用。
在語(yǔ)音打字機(jī)45的位置,可以使用能夠從任何言語(yǔ)獲得音節(jié)序列的裝置。例如,可以使用根據(jù)日語(yǔ)音素(a/i/u/e/o/ka/ki/.....)執(zhí)行語(yǔ)音識(shí)別的裝置,或使用根據(jù)另一個(gè)音位(phonological)單元或者比單詞小的單元的子單詞執(zhí)行語(yǔ)音識(shí)別的裝置。
拒絕模塊46參考OOV檢查語(yǔ)言模塊數(shù)據(jù)庫(kù)54以確定拒絕模塊46是否拒絕作為語(yǔ)音識(shí)別結(jié)果所獲得的、從匹配模塊44傳送來(lái)的單詞序列。然后拒絕模塊46根據(jù)確定的結(jié)果拒絕單詞序列或?qū)⑵鋫魉偷骄W(wǎng)絡(luò)產(chǎn)生模塊47。
網(wǎng)絡(luò)產(chǎn)生模塊47產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),即,根據(jù)從拒絕模塊46來(lái)的單詞序列和從語(yǔ)音打字機(jī)45來(lái)的音節(jié)序列的單詞和音節(jié)的網(wǎng)絡(luò)。即,網(wǎng)絡(luò)產(chǎn)生模塊47產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),其包括包含在與<OOV>的較早邊界對(duì)應(yīng)的時(shí)刻音節(jié)的路徑、未包含這個(gè)音節(jié)的路徑、包含在與<OOV>的較后邊界對(duì)應(yīng)的時(shí)刻的音節(jié)的路徑、和不包含這個(gè)音節(jié)的路徑。將單詞/音節(jié)網(wǎng)絡(luò)輸出到匹配模塊44。
控制模塊48控制AD轉(zhuǎn)換器42、特征提取模塊43、匹配模塊44、語(yǔ)音打字機(jī)45、和拒絕模塊46的操作??刂颇K48還確定從匹配模塊44提供的語(yǔ)音識(shí)別結(jié)果是否包含未知單詞。
聲學(xué)模型數(shù)據(jù)庫(kù)51存儲(chǔ)聲學(xué)模型,其代表將被識(shí)別的言語(yǔ)的語(yǔ)言的獨(dú)立音素和音節(jié)的聲學(xué)特征。例如,可以使用隱馬爾可夫模型(HMM)作為聲學(xué)模型。詞典數(shù)據(jù)庫(kù)52存儲(chǔ)描述有關(guān)發(fā)音信息的詞典和描述將被識(shí)別的單詞和短語(yǔ)的音素和音節(jié)鏈的模型。
如在這里使用的,術(shù)語(yǔ)“單詞”指適合識(shí)別過程的單元。其不必與語(yǔ)言單詞相同。例如“TAROUKUN”可以是一個(gè)單詞,或可以是以“TAROU”和“KUN”形式的兩個(gè)單詞。而且可以將較大的單元“KONNICHIWATAROUKUN”考慮為一個(gè)單詞。
此外,術(shù)語(yǔ)“音節(jié)”指聲學(xué)地適合識(shí)別過程的單元。其不必與語(yǔ)音音節(jié)相同。例如可以由兩個(gè)音節(jié)符號(hào)“TO/U”,或“TO”的托長(zhǎng)音“TO”來(lái)表示在單詞“TOUKYOU”中的“TOU”。而且可以采用代表無(wú)聲的符號(hào)。再進(jìn)一步,可以采用將無(wú)聲分類為“言語(yǔ)前無(wú)聲”、“言語(yǔ)間的短無(wú)聲”、“言語(yǔ)中的無(wú)聲”和“與‘TSU’對(duì)應(yīng)的無(wú)聲”的符號(hào)。
語(yǔ)言模型數(shù)據(jù)庫(kù)53存儲(chǔ)語(yǔ)言模型,其為關(guān)于如何鏈接或連接在詞典數(shù)據(jù)庫(kù)52中注冊(cè)的單詞(即,已知單詞)的語(yǔ)言(語(yǔ)法)信息。
OOV檢查語(yǔ)言模型數(shù)據(jù)庫(kù)54存儲(chǔ)語(yǔ)言模型,用于檢查包括<OOV>的語(yǔ)句。
下面參照?qǐng)D9的流程圖說明圖5中所示的對(duì)話系統(tǒng)的處理過程。
在步驟S21,用戶輸入言語(yǔ)到語(yǔ)音識(shí)別單元1的麥克風(fēng)41(見圖8),該語(yǔ)音識(shí)別單元1將言語(yǔ)轉(zhuǎn)換為電音頻信號(hào),并且輸出電音頻信號(hào)。在步驟S22,語(yǔ)音識(shí)別單元1執(zhí)行語(yǔ)音識(shí)別處理。
下面參照?qǐng)D10來(lái)詳細(xì)說明語(yǔ)音識(shí)別過程。在步驟S51,AD轉(zhuǎn)換器42將從麥克風(fēng)41輸出的音頻信號(hào)轉(zhuǎn)換為數(shù)字音頻信號(hào),并且將它們傳送到特征提取模塊43。
在步驟S52,特征提取模塊43從AD轉(zhuǎn)換器42接收音頻信號(hào)。隨后,處理過程行進(jìn)到步驟S53,其中特征提取模塊43從音頻信號(hào)中提取每個(gè)適當(dāng)幀的特征參數(shù),如頻譜、能量、和它們的時(shí)間變化,并且將它們傳送到匹配模塊44和語(yǔ)音打字機(jī)45。
在步驟S54,匹配模塊44和語(yǔ)音打字機(jī)45執(zhí)行單詞序列產(chǎn)生處理以產(chǎn)生將被語(yǔ)音識(shí)別的單詞序列。將被語(yǔ)音識(shí)別的單詞序列包括為未知單詞的符號(hào)的“<OOV>”,以及在詞典數(shù)據(jù)庫(kù)52中注冊(cè)的已知單詞。下面參照?qǐng)D11來(lái)詳細(xì)說明單詞序列產(chǎn)生的處理過程。
在步驟S81,匹配模塊44和語(yǔ)音打字機(jī)45在輸入言語(yǔ)的某持續(xù)時(shí)間計(jì)算兩種類型的聲學(xué)記分當(dāng)假設(shè)該持續(xù)時(shí)間的言語(yǔ)是已知單詞時(shí)的聲學(xué)記分,和當(dāng)假設(shè)該持續(xù)時(shí)間的言語(yǔ)是<OOV>時(shí)的聲學(xué)記分。即,匹配模塊44通過將輸入言語(yǔ)的持續(xù)時(shí)間與在詞典數(shù)據(jù)庫(kù)52中注冊(cè)的已知單詞進(jìn)行匹配來(lái)計(jì)算聲學(xué)記分,而語(yǔ)音打字機(jī)45計(jì)算持續(xù)時(shí)間的聲學(xué)記分。聲學(xué)記分指示從語(yǔ)音識(shí)別產(chǎn)生的單詞序列的候選者與輸入的言語(yǔ)在聲音方面的緊密相似程度。
隨后,從將輸入言語(yǔ)的部分對(duì)在詞典數(shù)據(jù)庫(kù)52中注冊(cè)的已知單詞進(jìn)行匹配結(jié)果而來(lái)的聲學(xué)記分與從語(yǔ)音打字機(jī)45接收來(lái)的聲學(xué)記分進(jìn)行比較。雖然逐單詞地執(zhí)行對(duì)于已知單詞的匹配,但是由語(yǔ)音打字機(jī)45進(jìn)行的匹配是逐音節(jié)執(zhí)行的。因?yàn)闃?biāo)度不一樣,所以難以比較。通常,音節(jié)的聲學(xué)記分高于單詞的聲學(xué)記分。因此,在步驟S82,匹配模塊44更正從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分從而以相同的標(biāo)度比較兩個(gè)聲學(xué)記分。
例如,用某系數(shù)乘以從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分,或從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分減去預(yù)定值或與幀長(zhǎng)度成比例的值。如所知的,因?yàn)檫@個(gè)處理過程是相對(duì)的,所以可以更正對(duì)已知單詞進(jìn)行匹配而來(lái)的聲學(xué)記分。在例如,“在大型詞匯系統(tǒng)中使用自動(dòng)定義的單詞片段作為過濾器的OOV檢測(cè)”,EUROSPEECH 99卷1,49-52頁(yè)中詳細(xì)說明了這個(gè)處理過程。
在步驟S83,匹配模塊44比較兩個(gè)聲學(xué)記分,即,對(duì)已知單詞進(jìn)行匹配而產(chǎn)生的聲學(xué)記分和從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分(在更正之后),以確定哪個(gè)聲學(xué)記分更高。如果在步驟S83確定從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分高于另外的聲學(xué)記分,則處理過程行進(jìn)到步驟S84,于此匹配模塊44估計(jì)將為<OOV>單詞(即,未知單詞)的持續(xù)時(shí)間(即,計(jì)算聲學(xué)記分的持續(xù)時(shí)間)。
如果在步驟S83,確定從通過對(duì)已知單詞進(jìn)行匹配而獲得的聲學(xué)記分而來(lái)的聲學(xué)記分高于其他記分,則處理過程行進(jìn)到步驟S85,于此匹配模塊44估計(jì)將是已知單詞的持續(xù)時(shí)間。
即,例如,當(dāng)輸入言語(yǔ)是“WATASHINONAMAEWAOGAWADESU”時(shí),在言語(yǔ)中、對(duì)于“O/GA/WA”,將從語(yǔ)音打字機(jī)45輸出的聲學(xué)記分與從對(duì)已知單詞進(jìn)行匹配而來(lái)的聲學(xué)記分進(jìn)行比較。如果對(duì)于“O/GA/WA”,從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分高于從對(duì)已知單詞進(jìn)行匹配而來(lái)的聲學(xué)記分,則將與持續(xù)時(shí)間“OGAWA”對(duì)應(yīng)的單詞估計(jì)為“<OOV>(O/GA/WA)”。相反,如果已知單詞的聲學(xué)記分(即,從對(duì)已知單詞進(jìn)行匹配而來(lái)的聲學(xué)記分)高于從語(yǔ)音打字機(jī)45來(lái)的聲學(xué)記分,則將已知單詞估計(jì)為與持續(xù)時(shí)間“OGAWA”對(duì)應(yīng)的單詞。
將輸入的言語(yǔ)的全部持續(xù)時(shí)間劃分為幾個(gè)模式的子持續(xù)時(shí)間。以某些模式為所有的子持續(xù)時(shí)間執(zhí)行從步驟S81到S85的處理過程。然后處理過程行進(jìn)到步驟S86。
在步驟S86,為了執(zhí)行語(yǔ)音識(shí)別,匹配模塊44獲得n個(gè)單詞序列,估計(jì)該n個(gè)單詞序列具有優(yōu)先基于從單詞序列中來(lái)的高的總聲學(xué)記分,其中每個(gè)都與輸入言語(yǔ)的全部持續(xù)時(shí)間對(duì)應(yīng),并且其中每個(gè)都是在步驟S84或步驟S85所估計(jì)的子持續(xù)時(shí)間的單詞連接。
再參照?qǐng)D10,在步驟S55,根據(jù)與步驟S54的處理過程相獨(dú)立的語(yǔ)音基礎(chǔ),語(yǔ)音打字機(jī)45識(shí)別由特征提取模塊43在步驟S53的處理過程所提取的特征參數(shù),并且輸出獲得的音節(jié)序列到匹配模塊44。例如,當(dāng)言語(yǔ)“WATASHINONAMAEWAOGAWADESU”(其中“OGAWA”是未知單詞)輸入到語(yǔ)音打字機(jī)45時(shí),語(yǔ)音打字機(jī)45輸出音節(jié)序列“WA/TA/SHI/NO/NA/MA/E/WA/O/GA/WA/DE/SU”。在步驟S55,使用步驟S54的處理結(jié)果可以獲得音節(jié)序列。
在步驟S56,匹配模塊44為在步驟54獲得的每個(gè)單詞序列計(jì)算聲學(xué)記分。對(duì)于沒有<OOV>(未知單詞)的單詞序列,采用已知的方法,即,計(jì)算言語(yǔ)的特征參數(shù)的每個(gè)單詞序列(單詞模型的連接)的似然性。在另一方面,對(duì)于帶有<OOV>的單詞序列,很難使用已知方法為與<OOV>對(duì)應(yīng)的聲音跨度計(jì)算聲學(xué)記分,因?yàn)槭孪炔淮嬖谂c<OOV>對(duì)應(yīng)的單詞模型。因此,從語(yǔ)音打字機(jī)45的識(shí)別結(jié)果中提取用于聲音跨度的聲學(xué)記分。更正聲學(xué)記分以作為<OOV>的聲學(xué)記分來(lái)使用,進(jìn)一步將其集成到為其他已知單詞的聲學(xué)記分。使用最終記分作為單詞序列的記分。
在步驟S57,匹配模塊44提取從頂端具有高記分的單詞序列的m個(gè)候選者,其中m≤n。在步驟S58,匹配模塊44參照語(yǔ)言模型數(shù)據(jù)庫(kù)53計(jì)算單詞序列的每個(gè)候選者的語(yǔ)言記分。語(yǔ)言記分指示候選單詞序列在語(yǔ)言方面的適合性。下面將說明用于計(jì)算語(yǔ)言記分的方法。
為了語(yǔ)音識(shí)別單元1識(shí)別未知單詞,語(yǔ)言模型可以支持未知單詞。下面將說明使用支持未知單詞的語(yǔ)法或有限狀態(tài)自動(dòng)機(jī)(FSA)的例子,和使用作為支持未知單詞的統(tǒng)計(jì)語(yǔ)言模型之一的三字母組的例子。
參照?qǐng)D12說明使用語(yǔ)法的例子。圖12中所示的語(yǔ)法以Backus-Naur形式(BNF)表示。在圖12中,“$A”代表變量,“A|B”代表A或者B?!癧A]”表示A是可選的?!皗A}”表示A重復(fù)零或多次。
<OOV>是未知單詞的符號(hào)。在語(yǔ)法中定義<OOV>允許包含要處理的未知單詞的單詞序列。雖然在圖12中沒有定義“$ACTION”,但定義了諸如“KIRITU”(起立)、“CHAKUSEKI”(坐下)、“OJIGI”(鞠躬)、和“AISATSU”(問候)的動(dòng)作名稱。
通過確定候選單詞序列是否符合(適合)下面語(yǔ)法“<start>/KONNICHIWA/<end>”、“<start>/SAYOUNARA/<end>”、和“<start>/WATASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”(其中“/”代表單詞分隔符),匹配模塊44將語(yǔ)言記分分配給候選單詞序列。在圖12中,“<start>”和“<end>”分別是表示言語(yǔ)前和后的特定符號(hào)。
為了使用這種語(yǔ)法來(lái)計(jì)算語(yǔ)言記分,引入了分析程序(分析器)。分析程序?qū)卧~序列分類為語(yǔ)法接受的單詞序列組和語(yǔ)法不接受的單詞序列組。即,例如,匹配模塊44將語(yǔ)言記分1給予符合圖12中的語(yǔ)法的單詞序列,而將語(yǔ)言記分0給予不符合該語(yǔ)法的單詞序列。
因此,例如,兩個(gè)候選單詞序列“<start>/WATASHI/NO/NAMAE/WA/<OOV>(TA/RO/U)/DESU/<end>”和“<start>/WATASHI/NO/NAMAE/WA/<OOV>(JI/RO/U)/DESU/<end>”適合圖12所示的語(yǔ)法“<start>/WATASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”。因此,例如將語(yǔ)言記分1給予兩個(gè)候選單詞序列的每一個(gè)。
因此,在將語(yǔ)法轉(zhuǎn)換為等效的有限態(tài)自動(dòng)機(jī)(之后稱為“FSA”)或適當(dāng)?shù)腇SA后,可以通過確定FSA是否能夠接受候選單詞序列來(lái)計(jì)算候選單詞序列的語(yǔ)言記分。
圖13圖解說明了將圖12所示的語(yǔ)法轉(zhuǎn)換為等效的FSA的例子。FSA是包括狀態(tài)(節(jié)點(diǎn))和路徑(弧)的有方向的(directed)圖形。如圖13所示,S1代表起始狀態(tài),而S16代表最終狀態(tài)。實(shí)際上,如圖12中,將動(dòng)作名稱注冊(cè)為“$ACTION”。
將單詞分配給路徑。當(dāng)發(fā)生從預(yù)定狀態(tài)到隨后狀態(tài)的轉(zhuǎn)變時(shí),路徑擁有(consume)該單詞。被分配“∈”的路徑是不擁有單詞的特殊路徑(在下面被稱為“∈轉(zhuǎn)變”)。即,例如,當(dāng)發(fā)生從起始狀態(tài)S1到狀態(tài)S2的轉(zhuǎn)變時(shí),擁有<start>。當(dāng)發(fā)生從狀態(tài)S2到狀態(tài)S3的轉(zhuǎn)變時(shí),擁有“WATASHI”。但是,因?yàn)閺臓顟B(tài)S3到狀態(tài)S5的轉(zhuǎn)變是∈轉(zhuǎn)變,所以在轉(zhuǎn)變期間不擁有單詞。因此,在從狀態(tài)S3跳到狀態(tài)S5之后,可能發(fā)生從狀態(tài)S3到隨后的狀態(tài)S6的轉(zhuǎn)變。
通過從起始狀態(tài)S1開始之后確定轉(zhuǎn)變是否可以到達(dá)最后狀態(tài)S16來(lái)確定FSA是否可以接受給定單詞序列。
即,例如,當(dāng)候選單詞序列是“<start>/WATASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”,可以通過使從起始狀態(tài)S1到狀態(tài)S2的轉(zhuǎn)變發(fā)生來(lái)?yè)碛袉卧~“<start>”??梢酝ㄟ^導(dǎo)致發(fā)生從狀態(tài)S2到狀態(tài)S3的轉(zhuǎn)變來(lái)?yè)碛袉卧~“<WATASHI>”。以相同的方式,可以通過使從狀態(tài)S3到狀態(tài)S4、從狀態(tài)S4到狀態(tài)S5、從狀態(tài)S5到狀態(tài)S6、和從狀態(tài)S6到狀態(tài)S7的轉(zhuǎn)變順序發(fā)生來(lái)?yè)碛袉卧~“NO”、“NAMAE”、“WA”、和“<OOV>”。隨后,從狀態(tài)S7到狀態(tài)S15的轉(zhuǎn)變能夠擁有“DESU”,而從狀態(tài)S15到狀態(tài)S16的轉(zhuǎn)變能夠消耗“<end>”。最后,轉(zhuǎn)變可以到達(dá)最后狀態(tài)S16。因此,F(xiàn)SA接受候選單詞序列“<start>/WATASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”,并且,例如將語(yǔ)言記分1給予候選單詞序列。
例如,如果候選單詞序列是“<start>/KIMI/NO/<OOV>/NAMAE/<end>”,則可能發(fā)生從狀態(tài)S1到狀態(tài)S2、從狀態(tài)S2到狀態(tài)S8、和從狀態(tài)S8到狀態(tài)S9的轉(zhuǎn)變,并且可能擁有“<start>”、“<KIMI>”和“<NO>”。但是,不能發(fā)生隨后的轉(zhuǎn)變,因此不能擁有下個(gè)單詞<OOV>。即,轉(zhuǎn)變不能到達(dá)最后的狀態(tài)S16,從而FSA不接受“<start>/KIMI/NO/<OOV>/NAMAE/<end>”,并且,例如,將語(yǔ)言記分0給予候選單詞序列。
參照?qǐng)D14說明使用統(tǒng)計(jì)語(yǔ)言模型之一的三字母組來(lái)計(jì)算語(yǔ)言記分的例子。在統(tǒng)計(jì)語(yǔ)言模型中,發(fā)現(xiàn)單詞序列的產(chǎn)生概率是語(yǔ)言記分。根據(jù)統(tǒng)計(jì)語(yǔ)言模型,當(dāng)候選單詞序列例如是如在圖14中第1行所示的“<start>/WATASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”,則由如第2行所示的單詞序列的產(chǎn)生概率表示候選單詞序列的語(yǔ)言記分。它也由在第3到第6行所示的條件概率之積來(lái)表示。這里例如“P(NO|<start>WATASHI)”表示在“NO”之前緊鄰的單詞是“WATASHI”而在“WATASHI”之前緊鄰的單詞是“<start>”的條件下“NO”的出現(xiàn)概率。
在三字母組中,在圖14中第3到第6行所示的等式用在第7到第9行所示的三個(gè)連續(xù)單詞的條件概率近似??梢酝ㄟ^參考圖15中所示的三字母組數(shù)據(jù)庫(kù)獲得連續(xù)單詞的條件概率。通過提前分析大量的文本而完成三字母組數(shù)據(jù)庫(kù)。
在圖15所示的例子中,當(dāng)三個(gè)單詞w1、w2和w3以這個(gè)順序出現(xiàn)時(shí),示出了三個(gè)連續(xù)單詞w1、w2和w3的概率P(w3|w1 w2)。例如當(dāng)三個(gè)單詞w1、w2和w3分別是“<start>”、“WATASHI”和“NO”時(shí),概率P(w3|w1 w2)是0.12。當(dāng)三個(gè)單詞w1、w2和w3分別是“WATASHI”、“NO”和“NAMAE”時(shí),概率P(w3|w1 w2)是0.01。當(dāng)三個(gè)單詞w1、w2和w3分別是“<OOV>”、“DESU”和“<end>”時(shí),概率P(w3|w1 w2)是0.87。
應(yīng)該理解預(yù)先以相同的方式得到“P(W)”和“P(w2|w1)”。
如上所述,在語(yǔ)言模型中為未知單詞使用符號(hào)<OOV>允許包括<OOV>的候選單詞序列的語(yǔ)言記分得以計(jì)算。
此外,在其他語(yǔ)言模型的情況下,使用符號(hào)<OOV>允許包括<OOV>的候選單詞序列的語(yǔ)言記分以相同的方式得以計(jì)算。
而且,在沒有<OOV>條目的語(yǔ)言模型的情況下,將<OOV>映射到語(yǔ)言模型中適當(dāng)?shù)膯卧~的機(jī)制使得包括<OOV>的候選單詞序列的語(yǔ)言記分得以計(jì)算。例如,在不具有“P(<OOV>|WATASHIWA)”而具有“P(OGAWA|WATASHIWA)”的三字母組中,可以通過映射<OOV>到“OGAWA”和通過將“P(<OOV>|WATASHIWA)”的值考慮為“P(OGAWA|WATASHIWA”的值來(lái)計(jì)算語(yǔ)言記分。
再參照?qǐng)D10,在步驟S58匹配模塊44計(jì)算每個(gè)候選單詞序列的語(yǔ)言記分。然后處理過程行進(jìn)到步驟S59,于此匹配模塊44為每個(gè)候選單詞序列合并聲學(xué)記分和語(yǔ)言記分。在步驟S60,根據(jù)在步驟S59獲得的聲學(xué)記分和語(yǔ)言記分的合并記分,匹配模塊44選擇具有最佳記分的候選單詞序列之一。然后匹配模塊44將候選單詞序列作為識(shí)別結(jié)果輸出到拒絕模塊46和控制模塊48。
當(dāng)使用圖12所示的語(yǔ)法和如圖13所示的有限狀態(tài)自動(dòng)機(jī)作為語(yǔ)言模型時(shí),在步驟S59的合并過程期間,可以刪除具有語(yǔ)言記分0的候選單詞序列而保留具有非零語(yǔ)言記分的候選單詞序列。
再參照?qǐng)D9,如上所述,在步驟S22執(zhí)行語(yǔ)音識(shí)別后,處理過程行進(jìn)到步驟S23。在步驟S23,語(yǔ)音識(shí)別單元1的控制模塊48確定從匹配模塊44來(lái)的所識(shí)別的單詞序列是否包括未知單詞。
如果在步驟S23確定在識(shí)別結(jié)果中包括未知單詞,則處理過程行進(jìn)到步驟S24。在步驟S24,控制模塊48控制拒絕模塊46,從而確定是否采用或拒絕從匹配模塊44來(lái)的包括未知單詞的語(yǔ)音識(shí)別結(jié)果以獲得未知單詞。然后處理過程從步驟S24行進(jìn)到步驟S25,于此拒絕模塊46通過在控制模塊48的控制下參考OOV檢查語(yǔ)言模型數(shù)據(jù)庫(kù)54來(lái)確定是否拒絕語(yǔ)音識(shí)別結(jié)果。
下面參照?qǐng)D16說明由拒絕模塊46在步驟S25所執(zhí)行的處理過程。
圖16圖解說明了存儲(chǔ)在OOV檢查語(yǔ)言模型數(shù)據(jù)庫(kù)54中的OOV檢查語(yǔ)言模型。OOV檢查語(yǔ)言模型是包括未知單詞的語(yǔ)句的語(yǔ)法。在圖16中,使用有限狀態(tài)自動(dòng)機(jī)(FSA)說明該語(yǔ)法。
如在圖13所示的情況,作為如圖16中所示的OOV檢查語(yǔ)言模型而工作的FSA是包括狀態(tài)(節(jié)點(diǎn))和路徑(弧)的有方向的圖形。
將單詞分配給狀態(tài)。當(dāng)發(fā)生從預(yù)定狀態(tài)到隨后狀態(tài)的轉(zhuǎn)變時(shí),起始狀態(tài)擁有單詞。在圖16中,C1代表起始狀態(tài)而C8代表最后狀態(tài)。
根據(jù)作為如圖16所示的OOV檢查語(yǔ)言模型而工作的FSA是否能夠接受語(yǔ)音識(shí)別結(jié)果,拒絕模塊46確定是否拒絕語(yǔ)音識(shí)別結(jié)果。
為了確定作為OOV檢查語(yǔ)言模型而工作的FSA是否能夠接受語(yǔ)音識(shí)別結(jié)果,確定從起始狀態(tài)C1開始的狀態(tài)轉(zhuǎn)變是否能夠到達(dá)最后狀態(tài)C8,同時(shí)擁有在語(yǔ)音識(shí)別結(jié)果的單詞序列中的每個(gè)單詞。
如圖16中所示的OOV檢查語(yǔ)言模型接受下面六個(gè)語(yǔ)音識(shí)別結(jié)果WATASHINO NAMAEWA <OOV> DESU
WATASHINO NAMAEWA <OOV> DAYOBOKUNO NAMAEWA <OOV> DESUBOKUNO NAMAEWA <OOV> DAYONAMAEWA <OOV> DESUNAMAEWA <OOV> DAYO在圖9中的步驟S25,如果OOV檢查語(yǔ)言模型接受語(yǔ)音識(shí)別結(jié)果,則拒絕模塊46確定采用從匹配模塊44提供的語(yǔ)音識(shí)別結(jié)果,而如果OOV檢查語(yǔ)言模型不接受語(yǔ)音識(shí)別結(jié)果,則拒絕模塊46確定拒絕語(yǔ)音識(shí)別結(jié)果。
除了這個(gè)方法,拒絕模塊46還能夠通過使用例如諸如如圖14和15所示的三字母組的統(tǒng)計(jì)語(yǔ)言模型來(lái)確定是否采用或拒絕語(yǔ)音識(shí)別結(jié)果。在這種情況下,如果從統(tǒng)計(jì)語(yǔ)言模型獲得的語(yǔ)言記分小于或等于預(yù)定的閾值,則拒絕模塊46確定拒絕語(yǔ)音識(shí)別結(jié)果,而如果該語(yǔ)言記分大于(或等于)預(yù)定的閾值,則拒絕模塊46確定采用語(yǔ)音識(shí)別結(jié)果。
再參照?qǐng)D9,如果在步驟S25確定拒絕模塊46不拒絕語(yǔ)音識(shí)別結(jié)果而是采用它,則拒絕模塊46輸出語(yǔ)音識(shí)別結(jié)果到網(wǎng)絡(luò)產(chǎn)生模塊47。然后處理過程行進(jìn)到步驟S26。
在步驟S26,根據(jù)從拒絕模塊46來(lái)的語(yǔ)音識(shí)別結(jié)果和從語(yǔ)音打字機(jī)45來(lái)的語(yǔ)音識(shí)別結(jié)果的音節(jié)序列,網(wǎng)絡(luò)產(chǎn)生模塊47產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò)。然后網(wǎng)絡(luò)產(chǎn)生模塊47輸出單詞/音節(jié)網(wǎng)絡(luò)到匹配模塊44。即,網(wǎng)絡(luò)產(chǎn)生模塊47產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),該網(wǎng)絡(luò)包括包含在與<OOV>之前緊鄰的邊界對(duì)應(yīng)的時(shí)刻的音節(jié)的路徑、不包含該音節(jié)的路徑、包含在與<OOV>之后緊鄰的邊界對(duì)應(yīng)的時(shí)刻音節(jié)的路徑、和不包含該音節(jié)的路徑。將單詞/音節(jié)網(wǎng)絡(luò)輸出到匹配模塊44。
在步驟S27,根據(jù)從語(yǔ)音打字機(jī)45來(lái)的語(yǔ)音識(shí)別結(jié)果的音節(jié)序列和從網(wǎng)絡(luò)產(chǎn)生模塊47提供來(lái)的單詞/音節(jié)網(wǎng)絡(luò),匹配模塊44將單詞/音節(jié)網(wǎng)絡(luò)匹配從用戶輸入的言語(yǔ)。
下面參照?qǐng)D17說明使用單詞/音節(jié)網(wǎng)絡(luò)的匹配過程和單詞/音節(jié)網(wǎng)絡(luò)的產(chǎn)生過程。
例如,用戶輸入言語(yǔ)“WATASHINONAMAEWAOGAWADESU”到麥克風(fēng)41,其中“OGAWA”是未知單詞。如圖17A所示,匹配模塊44例如獲得單詞序列“<start>/WTASHI/NO/NAMAE/WA/<OOV>/DESU/<end>”作為語(yǔ)音識(shí)別結(jié)果。同時(shí),如圖17B所示,語(yǔ)音打字機(jī)(phonetic typewriter)45輸出音節(jié)序列“WA/TA/SHI/NO/NA/MA/E/WA/O/GA/WA/DE/SU”作為語(yǔ)音識(shí)別結(jié)果。
在這種情況下,如圖17A和17B所示,在從匹配模塊44的語(yǔ)音識(shí)別結(jié)果獲得的單詞序列中的邊界通常并不匹配在從語(yǔ)音打字機(jī)45獲得的音節(jié)序列中的邊界。例如,在圖17A和17B的情況下,在單詞序列中的單詞“WA”和單詞“<OOV>”之間的邊界對(duì)應(yīng)于在音節(jié)序列中的音節(jié)“WA”。在單詞序列中的單詞“<OOV>”和單詞“DESU”之間的邊界對(duì)應(yīng)于音節(jié)序列中的音節(jié)“WA”(最后的“WA”)。即,當(dāng)考慮單詞序列中的單詞“WA”和單詞“<OOV>”之間的邊界時(shí),與該邊界對(duì)應(yīng)的、在音節(jié)序列中的音節(jié)“WA”被包括在單詞序列中的單詞“WA”和單詞“<OOV>”兩者之中。
為了解決這個(gè)問題,產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),其包括在語(yǔ)音識(shí)別結(jié)果的單詞序列中的單詞和在語(yǔ)音識(shí)別結(jié)果的音節(jié)序列中的音節(jié)。即,如圖17C所示,產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),其包括包含在與<OOV>之前緊鄰的邊界對(duì)應(yīng)的時(shí)刻音節(jié)的路徑、不包含該音節(jié)的路徑、包含在與<OOV>之后緊鄰的邊界對(duì)應(yīng)的時(shí)刻音節(jié)的路徑、和不包含該音節(jié)的路徑。
更具體地,例如,通過將單詞序列的每個(gè)單詞分配給狀態(tài)和通過使用路徑連接狀態(tài)(單詞),來(lái)產(chǎn)生語(yǔ)音識(shí)別結(jié)果“WATASHI/NO/NAMAE/WA/<OOV>/DESU”(<start>和<end>未示出)的單詞序列的單詞/音節(jié)網(wǎng)絡(luò)。
在<OOV>之前緊鄰的單詞“WA”和在<OOV>之后緊鄰的單詞“DESU”之間的持續(xù)時(shí)間與音節(jié)“WA”、“O”、“GA”和“W/A”對(duì)應(yīng)。在這種情況下,將這些音節(jié)分配給使用路徑92、93、94、102和103連接的狀態(tài)。此外,代表在<OOV>之前緊鄰的單詞“WA”的狀態(tài)將代表與<OOV>之前緊鄰的邊界對(duì)應(yīng)的音節(jié)“WA”的狀態(tài)旁路(bypass),并且使用路徑91連接到代表隨后音節(jié)“O”的狀態(tài)。而且,代表在<OOV>之后緊鄰的單詞“DESU”的狀態(tài)將代表與<OOV>之后緊鄰的邊界對(duì)應(yīng)的音節(jié)“WA”的狀態(tài)旁路,并且使用路徑101連接到代表先前音節(jié)“GA”的狀態(tài)。
結(jié)果,如圖17C中所示,在單詞序列中的單詞“WA”和單詞“<OOV>”之間的邊界處,在單詞/音節(jié)網(wǎng)絡(luò)中產(chǎn)生不包含與邊界對(duì)應(yīng)的音節(jié)“WA”的路徑91,和包含音節(jié)“WA”的路徑92和93。在單詞序列中的單詞“DESU”和單詞“<OOV>”之間的邊界處,在單詞/音節(jié)網(wǎng)絡(luò)中產(chǎn)生不包含與邊界對(duì)應(yīng)的音節(jié)“WA”的路徑101,和包含音節(jié)“WA”的路徑102和103。因此,可以選擇與輸入言語(yǔ)的單詞/音節(jié)網(wǎng)絡(luò)中的<OOV>對(duì)應(yīng)的子單詞序列(音節(jié)序列),而不用確定在子單詞序列中的邊界。
在圖17C所示的單詞/音節(jié)網(wǎng)絡(luò)中,在<OOV>之前緊鄰的單詞“WA”和在<OOV>之后緊鄰的單詞“DESU”之間的持續(xù)時(shí)間包括音節(jié)“WA”、“O”、“GA”和“WA”,它們是可能與<OOV>的發(fā)音對(duì)應(yīng)的音節(jié)。因此,單詞/音節(jié)網(wǎng)絡(luò)可以產(chǎn)生下面的四個(gè)語(yǔ)句假設(shè)WATASHINO-NAMAE-WA-WA-O-GA-WA-DESUWATASHINO-NAMAE-WA-WA-O-GA-DESUWATASHINO-NAMAE-WA-O-GA-WA-DESUWATASHINO-NAMAE-WA-O-GA-DESU如圖9中所示,在步驟S27,匹配模塊44將從用戶輸入的言語(yǔ)(即,產(chǎn)生語(yǔ)句假設(shè)的輸入言語(yǔ))匹配每個(gè)語(yǔ)句假設(shè)。然后處理過程行進(jìn)到步驟S28,于此根據(jù)從用戶輸入的言語(yǔ)和語(yǔ)句假設(shè)之間的匹配結(jié)果,匹配模塊44例如選擇具有最高聲學(xué)記分的語(yǔ)句假設(shè)。然后該處理過程行進(jìn)到步驟S29。在步驟S29,根據(jù)在步驟S28所選擇的語(yǔ)句假設(shè),匹配模塊44獲得與<OOV>對(duì)應(yīng)的發(fā)音。即,如果例如在步驟S28從四個(gè)語(yǔ)句假設(shè)中選擇“WATASHINO-NAMAE-WA-O-GA-WA-DESU”,則在步驟S29獲得“OGAWA”作為<OOV>的發(fā)音。
圖18和19示出了使用上述方法來(lái)獲得<OOV>的試驗(yàn)結(jié)果。試驗(yàn)條件相同于圖4的試驗(yàn)條件,因此將不再重復(fù)那些描述。
圖18以百分比示出了<OOV>的音節(jié)序列的識(shí)別精確度、替換錯(cuò)誤率、刪除錯(cuò)誤率、和插入錯(cuò)誤率。每個(gè)項(xiàng)目的詳細(xì)說明與圖3的相同,因此不再重復(fù)其說明。如可以從圖18中的試驗(yàn)結(jié)果看出的,識(shí)別精確度為48.5%,其與使用圖3所示的子單詞序列的<OOV>發(fā)音獲得方法的40.2%相比較有所改進(jìn)。刪除錯(cuò)誤和插入錯(cuò)誤的出現(xiàn)概率分別為11.6%和8.0%。與使用圖3所示的子單詞序列獲得<OOV>發(fā)音方法中的33.3%和4.1%的那些相比,兩個(gè)比率的平衡有所改進(jìn),即,兩個(gè)比率之間的差減小了。
圖19示出了試驗(yàn)結(jié)果,在該試驗(yàn)中一個(gè)人輸出包括<OOV>“KUROSAKI”的言語(yǔ)和包括<OOV>“KAZUMI”的言語(yǔ),并且從所述言語(yǔ)中獲得<OOV>。
如圖19中所示,在第一個(gè)識(shí)別中,將“KUROSAKI”識(shí)別為“KUROTACHI”,其中在“TA”和“CHI”發(fā)生了替換錯(cuò)誤。在第二個(gè)識(shí)別中,將“KUROSAKI”識(shí)別為“OROSA”,其中發(fā)生刪除錯(cuò)誤“KU”和替換錯(cuò)誤“O”。在第三個(gè)識(shí)別中,將“KUROSAKI”識(shí)別為“ROSAKI”,其中發(fā)生刪除錯(cuò)誤“KU”。在第四個(gè)識(shí)別中,將“KUROSAKI”識(shí)別為“ROSAKI”,其中發(fā)生刪除錯(cuò)誤“KU”。最后,在第五個(gè)識(shí)別中,將“KUROSAKI”識(shí)別為“KUROSAKI”,即,沒有發(fā)生錯(cuò)誤。
在第一個(gè)識(shí)別中,將“KAZUMI”識(shí)別為“KAZUMI”,其中沒有錯(cuò)誤發(fā)生。在第二個(gè)識(shí)別中,將“KAZUMI”識(shí)別為“KATSUNI”,其中發(fā)生“ZU”和“MI”的替換錯(cuò)誤。在第三個(gè)識(shí)別中,將“KAZUMI”識(shí)別為“KAZUMI”,其中沒有錯(cuò)誤發(fā)生。在第四個(gè)識(shí)別中,將“KAZUMI”識(shí)別為“KATSUMI”,其中發(fā)生替換錯(cuò)誤“ZU”。在第五個(gè)識(shí)別中,將“KAZUMI”識(shí)別為“KASUMI”,其中發(fā)生替換錯(cuò)誤“ZU”。
再參照?qǐng)D9,在步驟S29,匹配模塊44將所獲得的、與<OOV>對(duì)應(yīng)的發(fā)音(未知單詞的發(fā)音或讀音(reading))和發(fā)音持續(xù)時(shí)間的特征參數(shù)提供給控制模塊48。然后處理過程行進(jìn)到步驟S30。
在步驟S30,控制模塊48將從匹配模塊44接收的未知單詞的特征參數(shù)和發(fā)音傳送給單詞提取單元2(見圖5),并且控制單詞提取單元2以執(zhí)行單詞提取處理,從而獲得未知單詞。
參照?qǐng)D20來(lái)詳細(xì)說明單詞提取處理過程。在步驟S111,單詞提取單元2提取從語(yǔ)音識(shí)別單元1傳送來(lái)的未知單詞(<OOV>)的特征參數(shù)。在步驟S112,根據(jù)未知單詞的特征參數(shù),單詞提取單元2確定未知單詞是否屬于現(xiàn)存的群集。如果在步驟S112確定未知的單詞不屬于現(xiàn)存的群集,則在步驟S113,單詞提取單元2創(chuàng)建與未知單詞對(duì)應(yīng)的新群集,并且將唯一的群集ID分配給該群集。然后,在步驟S114,單詞提取單元2輸出未知單詞所從屬的群集的ID到語(yǔ)音識(shí)別單元1的控制模塊48。
如果在步驟S112確定未知單詞屬于現(xiàn)存的群集之一,則單詞提取單元2不必創(chuàng)建新群集,因此單詞提取單元2跳過在步驟S113的處理過程。處理過程行進(jìn)到步驟S114,于此單詞提取單元2輸出未知單詞所從屬的現(xiàn)存的群集的ID到語(yǔ)音識(shí)別單元1的控制模塊48??刂颇K48將從單詞提取單元2輸出的未知單詞的群集ID和未知單詞的發(fā)音以及包括未知單詞的語(yǔ)音識(shí)別結(jié)果一同傳送給對(duì)話控制單元4。
再參照?qǐng)D9,在步驟S30完成單詞提取處理之后,在步驟S31,對(duì)話控制單元4確定從控制模塊48傳送來(lái)的語(yǔ)音識(shí)別結(jié)果的單詞序列是否與模板匹配。換句話說,在這個(gè)步驟,確定所識(shí)別的單詞序列是否需要注冊(cè)某個(gè)名稱。隨后,如果在步驟S31確定所識(shí)別的單詞序列與模板匹配,則處理過程行進(jìn)到步驟S32,于此對(duì)話控制單元4控制關(guān)聯(lián)的存儲(chǔ)器單元3以存儲(chǔ)從控制模塊48接收的其類別和群集ID。
參照?qǐng)D21說明在步驟S31對(duì)話控制單元4所使用的模板的例子。在圖21中,“/A/”意味著“如果包括了單詞序列A”,而“A|B”意味著A或B?!?”意味著任何單一的字符,而“A+”意味著A重復(fù)一次或多次?!?.)+”意味著任何字符序列。
在圖21中所示的模板121指示如果所識(shí)別的單詞序列匹配于在圖的左列中的常規(guī)表達(dá),則執(zhí)行在右列中的對(duì)應(yīng)操作。例如,如果所識(shí)別的單詞序列為“<start>/WATASHI/NO/NAMAE/WA/<OOV>(O/GA/WA)/DESU/<end>”,則從這個(gè)語(yǔ)音識(shí)別結(jié)果“WATASHINONAMAEWA<OOV>”所產(chǎn)生的字符序列與圖21中的第二常規(guī)表示相匹配。隨后,執(zhí)行對(duì)應(yīng)的操作“將與<OOV>對(duì)應(yīng)的群集ID作為用戶名稱進(jìn)行注冊(cè)”。即,如果“<OOV>(O/GA/WA)”的群集ID是“1”,如圖7中所示,則將群集ID“1”的類別名稱注冊(cè)為“用戶名”。
此外,例如,如果所識(shí)別的單詞序列是“<start)/KIMI/NO/NAMAE/WA/<OOV>(A/I/BO)/DAYO/(end)”,則在所識(shí)別單詞序列中的“KIMINONAMAEWA<OOV>”匹配于圖21中的第一常規(guī)表達(dá)。因此,如果“<OOV>(A/I/BO)”的群集ID是“2”,則將群集ID“2”的類別名稱注冊(cè)為“機(jī)器人名”。
一些對(duì)話系統(tǒng)僅僅具有所注冊(cè)單詞的一種類型(例如,僅僅“用戶名”)。在這種情況下,可以簡(jiǎn)化模板121和關(guān)聯(lián)的存儲(chǔ)器單元3。例如,模板121包含操作“如果語(yǔ)音識(shí)別結(jié)果包括<OOV>,則存儲(chǔ)<OOV>的ID”,并且關(guān)聯(lián)存儲(chǔ)器單元3只存儲(chǔ)群集ID。
因此,對(duì)話控制單元4利用上述的在關(guān)聯(lián)存儲(chǔ)器單元3中注冊(cè)的信息來(lái)在隨后的對(duì)話中執(zhí)行確定的處理過程。例如,當(dāng)對(duì)話系統(tǒng)執(zhí)行下面的處理過程時(shí)確定來(lái)自用戶的言語(yǔ)是否包含機(jī)器人名;如果該言語(yǔ)包含機(jī)器人名,則確定從用戶調(diào)用該對(duì)話系統(tǒng);和如果包含機(jī)器人名,則將傳送回適當(dāng)?shù)膽?yīng)答,或當(dāng)對(duì)話系統(tǒng)執(zhí)行下面的處理過程時(shí)允許機(jī)器人說出用戶名,通過參考在關(guān)聯(lián)存儲(chǔ)器單元3中的信息,對(duì)話控制單元4可以獲得機(jī)器人名的單詞(類別名稱為“機(jī)器人名”的條目)或用戶名的單詞(類別名稱為“用戶名”的條目)。
在另一方面,如果在圖9的步驟S23確定語(yǔ)音識(shí)別結(jié)果不包含未知單詞,或如果在步驟S25確定拒絕語(yǔ)音識(shí)別結(jié)果,或如果在步驟S31確定語(yǔ)音識(shí)別結(jié)果不匹配于模板,則處理過程行進(jìn)到步驟S33,于此對(duì)話控制單元4為輸入的言語(yǔ)產(chǎn)生應(yīng)答。即,不注冊(cè)名稱(未知單詞),并且執(zhí)行用戶輸入的言語(yǔ)的預(yù)定處理過程。
更具體地,如果在步驟S23確定語(yǔ)音識(shí)別結(jié)果不包含未知單詞,即,如果語(yǔ)音識(shí)別結(jié)果只包含已知單詞,則語(yǔ)音識(shí)別單元1的控制模塊48將只包含已知單詞的語(yǔ)音識(shí)別結(jié)果傳送到對(duì)話控制單元4。對(duì)話控制單元4產(chǎn)生例如對(duì)只包含已知單詞的語(yǔ)音識(shí)別結(jié)果的應(yīng)答語(yǔ)句,并且使用合成聲音輸出回答語(yǔ)句。
此外,如果在步驟S25確定拒絕語(yǔ)音識(shí)別結(jié)果,即,如果確定語(yǔ)音識(shí)別結(jié)果包含未知單詞并且認(rèn)為未知單詞的持續(xù)時(shí)間已經(jīng)被錯(cuò)誤地估計(jì),則語(yǔ)音識(shí)別單元1的控制模塊48傳送那個(gè)事件。在這種情況下,對(duì)話控制單元4例如產(chǎn)生提示消息要求用戶再次給出言語(yǔ),并且用合成聲音輸出提示消息。
而且,如果在步驟S31確定語(yǔ)音識(shí)別結(jié)果不匹配于模板,即,如果在圖5中所示的對(duì)話系統(tǒng)中沒有定義對(duì)包含未知單詞的語(yǔ)音識(shí)別結(jié)果的響應(yīng)(即,動(dòng)作),則對(duì)話控制單元4產(chǎn)生例如指示對(duì)話系統(tǒng)不能理解用戶的言語(yǔ)的消息,并且使用合成聲音輸出該消息。
如上所述,當(dāng)語(yǔ)音識(shí)別結(jié)果包含未知單詞,并且當(dāng)估計(jì)未知單詞(<OOV>)的持續(xù)時(shí)間是錯(cuò)誤時(shí),拒絕語(yǔ)音識(shí)別的結(jié)果。因此,可以防止錯(cuò)誤未知單詞的獲得。
在步驟S32,當(dāng)對(duì)話控制單元4使關(guān)聯(lián)存儲(chǔ)器單元3與其類別關(guān)聯(lián)地存儲(chǔ)作為未知單詞的名稱的群集ID時(shí),語(yǔ)音識(shí)別單元1的控制模塊48可以將名稱(即,未知單詞)的發(fā)音注冊(cè)到詞典數(shù)據(jù)庫(kù)52中。因此在注冊(cè)之后,語(yǔ)音識(shí)別單元1能夠?qū)⒅拔粗膯卧~作為已知單詞來(lái)識(shí)別。
此外,可以在步驟S28的處理過程之后緊接著執(zhí)行圖9中的步驟S24和S25的處理過程(即,在步驟S29的處理過程之前緊鄰著)。即,如果在步驟S23確定語(yǔ)音識(shí)別結(jié)果包含未知單詞,則處理過程可以直接行進(jìn)到步驟S26。而且在步驟S28選擇語(yǔ)句假設(shè)之后,可以在步驟S24和S25確定是否以上述的方式拒絕語(yǔ)句假設(shè)。如果確定拒絕語(yǔ)句假設(shè),則處理過程行進(jìn)到步驟S33。如果確定不拒絕語(yǔ)句假設(shè),則處理過程可以行進(jìn)到步驟S29。
當(dāng)在圖9所示的步驟S22中的語(yǔ)音識(shí)別處理過程中將語(yǔ)法用作語(yǔ)言模型時(shí),該語(yǔ)法可以包括與語(yǔ)音打字機(jī)45的功能對(duì)應(yīng)的說明。圖22圖解說明了在這種情況下的語(yǔ)法的例子。在圖22中所示的語(yǔ)法131中,在第一行的變量“$SYLLABLE”包含用“|”連接的所有音節(jié),其意味著“或”。因此,$SYLLABLE代表音節(jié)符號(hào)之一。這個(gè)功能對(duì)應(yīng)于語(yǔ)音打字機(jī)45。變量“$OOV”代表“$SYLLABLE”的零或多次重復(fù)。因此,在第三行的“WA”和“DESU”之間的“$OOV”可以接受任何發(fā)音。
在使用語(yǔ)法131的語(yǔ)音識(shí)別結(jié)果中,使用代表一個(gè)或多個(gè)音節(jié)的符號(hào)書寫與“$OOV”對(duì)應(yīng)的部分。例如,“WATASHINONAMAEWAOGAWADESU”(其中“OGAWA”是未知單詞)的語(yǔ)音識(shí)別結(jié)果是“<start>/WATASHI/NO/NAMAE/WA/O/GA/WA/DESU/<end>”。
在上面的說明中,通過關(guān)聯(lián)存儲(chǔ)器單元3,將類別注冊(cè)為關(guān)于未知單詞的信息;但是,可以注冊(cè)其他信息。此外,可以除去圖9中流程圖的步驟S30。在這種情況下,在步驟S32,對(duì)話控制單元4控制關(guān)聯(lián)存儲(chǔ)器單元3以與其對(duì)應(yīng)類別相關(guān)聯(lián)來(lái)存儲(chǔ)子單詞序列(未知單詞的發(fā)音)。
而且,在前面的說明中,網(wǎng)絡(luò)產(chǎn)生模塊47從單詞和音節(jié)產(chǎn)生單詞/音節(jié)網(wǎng)絡(luò),如圖17C所示;但是,網(wǎng)絡(luò)產(chǎn)生模塊47可以從單詞和子單詞產(chǎn)生有別于音節(jié)的不同網(wǎng)絡(luò),諸如音素和其他音位單元。
圖23圖解說明了圖5所示的語(yǔ)音識(shí)別單元1的另一個(gè)配置。在圖23中,將相同的附圖標(biāo)記指定給相關(guān)于圖8的那些所說明和示出的相同的元件,因此不再重復(fù)說明。即,在圖23中所示的語(yǔ)音識(shí)別單元1相同于圖8中所示的,除了在圖23中的語(yǔ)音識(shí)別單元1不包括OOV檢查語(yǔ)言模型數(shù)據(jù)庫(kù)54,而在拒絕模塊46的位置包括拒絕模塊346。
拒絕模塊346為從匹配模塊44傳送來(lái)的語(yǔ)音識(shí)別結(jié)果計(jì)算置信度(confidence measure)。然后拒絕模塊346根據(jù)置信度確定是否拒絕語(yǔ)音識(shí)別結(jié)果。
如圖23中所示,在具有這樣配置的語(yǔ)音識(shí)別單元1中,在圖9的步驟S25確定是否拒絕從匹配模塊44來(lái)的、包含未知單詞的語(yǔ)音識(shí)別結(jié)果,過程如下即,拒絕模塊346為與從匹配模塊44來(lái)的、包含未知單詞的語(yǔ)音識(shí)別結(jié)果中的未知單詞相鄰的已知單詞計(jì)算置信度。換句話說,拒絕模塊346為緊鄰于未知單詞前的單詞和緊接于未知單詞之后的單詞計(jì)算置信度。這里,置信度指示與語(yǔ)音識(shí)別結(jié)果相關(guān)的單詞的同一性(identity)的置信程度(可信度)。
如果例如在未知單詞(<OOV>)之前緊鄰的單詞的置信度和在未知單詞之后緊接的單詞的置信度大于或等于(或僅僅大于)預(yù)定的閾值,則拒絕模塊346確定采用語(yǔ)音識(shí)別結(jié)果。而且,如果例如在未知單詞(<OOV>)之前緊鄰的單詞的置信度或者在未知單詞之后緊接的單詞的置信度小于(或等于)預(yù)定的閾值,則拒絕模塊346確定拒絕語(yǔ)音識(shí)別結(jié)果。
或者,例如,根據(jù)在語(yǔ)音識(shí)別結(jié)果中的未知單詞之前緊鄰的單詞的置信度和未知單詞之后緊接的單詞的置信度的平均值與預(yù)定閾值之間的幅度關(guān)系,拒絕模塊346能夠確定是否拒絕語(yǔ)音識(shí)別結(jié)果。此外,根據(jù)在語(yǔ)音識(shí)別結(jié)果中的未知單詞之前緊鄰的單詞的置信度和未知單詞之后緊接的單詞的置信度之一與預(yù)定閾值之間的幅度關(guān)系,拒絕模塊346可以確定是否拒絕語(yǔ)音識(shí)別結(jié)果。而且,根據(jù)在語(yǔ)音識(shí)別結(jié)果中的未知單詞之前緊鄰的兩個(gè)或多個(gè)單詞的置信度和未知單詞之后緊接的兩個(gè)或多個(gè)單詞的置信度與預(yù)定閾值之間的幅度關(guān)系,拒絕模塊346可以確定是否拒絕語(yǔ)音識(shí)別結(jié)果。
在使用圖16所示的有限狀態(tài)自動(dòng)機(jī)(FSA)作為OOV檢查語(yǔ)言模型并且根據(jù)OOV檢查語(yǔ)言模型來(lái)確定是否拒絕語(yǔ)音識(shí)別結(jié)果的情況下,如果作為OOV檢查語(yǔ)言模型工作的FSA不接受語(yǔ)音識(shí)別結(jié)果,則拒絕語(yǔ)音識(shí)別結(jié)果。因此,雖然FSA限制用戶輸出來(lái)注冊(cè)他或她自己的名字(即,未知單詞)的言語(yǔ),仍然可以準(zhǔn)確地拒絕(可能包括錯(cuò)誤估計(jì)的未知單詞的持續(xù)時(shí)間的)語(yǔ)音識(shí)別結(jié)果。
相反,在使用統(tǒng)計(jì)語(yǔ)言模型作為OOV檢查語(yǔ)言模型并且根據(jù)OOV檢查語(yǔ)言模型確定是否拒絕語(yǔ)音識(shí)別結(jié)果的情況下,或在根據(jù)語(yǔ)音識(shí)別結(jié)果的置信度來(lái)確定是否拒絕語(yǔ)音識(shí)別結(jié)果的情況下,可能接受(極可能包括錯(cuò)誤估計(jì)的未知單詞的持續(xù)時(shí)間的)語(yǔ)音識(shí)別結(jié)果。但是,當(dāng)用戶注冊(cè)他或她自己的名稱(即,未知單詞)時(shí),用戶可以幾乎不帶有任何限制的進(jìn)行言語(yǔ)。
此外,為了確定是否拒絕語(yǔ)音識(shí)別結(jié)果,可以合并上述方法。即,使用有限狀態(tài)自動(dòng)機(jī)(FSA)作為OOV檢查語(yǔ)言模型并且根據(jù)OOV檢查語(yǔ)言模型來(lái)確定是否拒絕語(yǔ)音識(shí)別結(jié)果。如果確定采用語(yǔ)音識(shí)別結(jié)果,則還要確定是否根據(jù)語(yǔ)音識(shí)別結(jié)果的置信度來(lái)拒絕所采用的語(yǔ)音識(shí)別結(jié)果。
如上所述,在圖23中所示的拒絕模塊346根據(jù)語(yǔ)音識(shí)別結(jié)果的置信度來(lái)確定是否拒絕語(yǔ)音識(shí)別結(jié)果(在語(yǔ)音識(shí)別結(jié)果中的單詞)。隨后將說明計(jì)算置信度的方法。
置信度指示語(yǔ)音識(shí)別結(jié)果(在語(yǔ)音識(shí)別結(jié)果中的單詞)的信任度(可信度)。因此,在包含未知單詞的語(yǔ)音識(shí)別結(jié)果中,如果與未知單詞相鄰的已知單詞(即,在未知單詞前緊鄰的單詞和在未知單詞后緊接的單詞)的置信度處于一定水平,作為一些已知單詞的已知單詞的概率也相關(guān)于語(yǔ)音識(shí)別結(jié)果而處于一定水平。因此,可能在已知單詞之間的持續(xù)時(shí)間中是未知單詞(未知單詞的持續(xù)時(shí)間)。相反,如果與未知單詞相鄰的已知單詞的置信度低,則作為一些已知單詞的已知單詞的概率相關(guān)于語(yǔ)音識(shí)別結(jié)果也是低的。因此,在已知單詞之間的持續(xù)時(shí)間中不可能是未知單詞(未知單詞的持續(xù)時(shí)間)。
這樣,在圖23示出的拒絕模塊346中,通過根據(jù)與未知單詞相鄰的已知單詞的置信度來(lái)拒絕語(yǔ)音識(shí)別結(jié)果,可以拒絕可能包括錯(cuò)誤估計(jì)的未知單詞的持續(xù)時(shí)間的語(yǔ)音識(shí)別結(jié)果,從而防止錯(cuò)誤未知單詞的獲得。
例如,當(dāng)匹配模塊44使用HMM來(lái)執(zhí)行語(yǔ)音識(shí)別處理時(shí),拒絕模塊346計(jì)算置信度,過程如下即,通常,在使用HMM聲學(xué)模型的語(yǔ)音識(shí)別處理中,在HMM中將單詞模型表示為音素和音節(jié)的連接,音素和音節(jié)是基本的識(shí)別單元。在語(yǔ)音識(shí)別期間,由于輸入的言語(yǔ)沒有被正確地分離為音素單元和音節(jié)單元,所以可能導(dǎo)致識(shí)別錯(cuò)誤(錯(cuò)誤識(shí)別)。從反面說,如果可以準(zhǔn)確地確定在輸入的言語(yǔ)中的例如音素單元之間的邊界(位置),則能夠準(zhǔn)確地識(shí)別音素,并且因此,可以正確地識(shí)別單詞和語(yǔ)句。
為了確定在語(yǔ)音識(shí)別結(jié)果中是否將輸入的音頻信號(hào)準(zhǔn)確地劃分為具有精確邊界的音素單元,作為驗(yàn)證尺度引入了音素邊界驗(yàn)證量度PBVM。為在語(yǔ)音識(shí)別結(jié)果(單詞序列)中的每個(gè)音素計(jì)算音素邊界驗(yàn)證量度PBVM。為單詞單元或語(yǔ)句單元擴(kuò)展每個(gè)音素的音素邊界驗(yàn)證量度PBVM,從而為單詞和語(yǔ)句獲得置信度。因此,可以為單詞和語(yǔ)句兩者(全部的語(yǔ)音識(shí)別結(jié)果)計(jì)算置信度。
例如,計(jì)算音素邊界驗(yàn)證量度PBVM,過程如下即,將音素邊界k定義為在語(yǔ)音識(shí)別結(jié)果(單詞序列)中任何音素k和隨后的音素k+1之間的邊界。然后定義在音素邊界k左右的(暫時(shí)在音素邊界k之前或之后的)的上下文(context)。為了定義在音素邊界k左右(前后)的兩種上下文,可以采用圖24、25和26所示的三種定義之一。
即,圖24圖解說明了在音素邊界k的左右(前后)的兩種上下文的第一種定義的例子。
在圖24中,示出了音素k、k+1、音素k+2、作為音素k和k+1間的邊界的音素邊界k、和作為音素k+1和k+2間的邊界的音素邊界k+1。在音素k和k+1中,由虛線示出了音頻信號(hào)的幀之間的邊界。例如,音素k的最后幀是幀i,而音素k+1的第一幀是幀i+1。而且,在音素k中,HMM狀態(tài)順序移動(dòng)到狀態(tài)a、b和C,然而在音素k+1中,HMM狀態(tài)順序地移動(dòng)到狀態(tài)a′、b′和C′。
在圖24(以及在下述圖25和26)中的實(shí)線曲線表示例如音頻信號(hào)的能量轉(zhuǎn)變。
在對(duì)圖24所示的音素邊界k的左右(前后)的兩種上下文的第一定義中,在音素邊界k左邊(在時(shí)間序列中在音素邊界k之前)的上下文包括與狀態(tài)c對(duì)應(yīng)的所有幀,狀態(tài)c是音素k的最后的HMM狀態(tài),即,在幀(i-4)和幀i之間的幀。在音素邊界k右邊(在時(shí)間序列中在音素邊界k之后)的上下文包括與狀態(tài)a′對(duì)應(yīng)的所有幀,狀態(tài)a′是音素k+1的第一HMM狀態(tài),即,在幀(i+1)和幀(i+4)之間的幀。
圖25圖解說明了對(duì)在音素邊界k的左右(前后)的兩種上下文的第二定義的例子。在圖25中,相同的附圖標(biāo)記指定給那些與圖24相關(guān)而示出和說明的相同元件,因此不再重復(fù)說明(在下述的圖26中也相同)。
在對(duì)如圖25所示的音素邊界k的左右(前后)的兩種上下文的第二定義中,在音素邊界k左邊的上下文包括與狀態(tài)b對(duì)應(yīng)的所有幀,狀態(tài)b是音素k的第二最后的HMM狀態(tài)。在音素邊界k右邊的上下文包括與狀態(tài)b′對(duì)應(yīng)的所有幀,狀態(tài)b′是音素k+1的第二HMM狀態(tài)。
圖26示出了對(duì)在音素邊界k的左右(前后)的兩種上下文的第三定義的例子。
在對(duì)如圖26所示的音素邊界k的左右(前后)的兩種上下文的第三定義中,在音素邊界k左邊的上下文包括幀(i-n)到i。在音素邊界k右邊的上下文包括幀(i+1)到(i+m)。這里,n和m是大于或等于1的整數(shù)。
隨后,計(jì)算指示兩種上下文的相似性的相似性函數(shù)。為了計(jì)算相似性函數(shù),引入代表上下文的矢量。
例如,為了執(zhí)行語(yǔ)音識(shí)別(匹配),在幀(frame)的基礎(chǔ)上提取頻譜。在這種情況下,例如為上下文的每個(gè)幀產(chǎn)生包括頻譜的系數(shù)的矢量。上下文的矢量(即,指示上下文的矢量)可以是在上下文中所有幀的平均矢量。
使得兩種上下文的矢量為x和y。例如,由下面等式(1)給出相似性函數(shù)s(x,y)s(x,y)=xty||x||·||y||·····(1)]]>在等式(1)中,‖x‖是在矢量x的矢量空間中的范數(shù)(對(duì)于‖y‖類似),x′是矢量x的轉(zhuǎn)置。因?yàn)橥ㄟ^矢量x和y的內(nèi)積x′y除以矢量x和y的幅度值之積‖x‖·‖y‖來(lái)計(jì)算等式(1)中的相似性函數(shù)s(x,y),所以相似性函數(shù)s(x,y)是兩個(gè)矢量x和y之間的夾角(cosθ)。
這里,隨著相似性函數(shù)s(x,y)的值減小,矢量x和y的相似性增加。
通過使用相似性函數(shù)s(x,y),可以由下面等式(2)表達(dá)給定音素邊界k的音素邊界驗(yàn)證量度PBVM(k)PBVM(k)=1-s(x,y)2···(2)]]>除了相似性函數(shù)s(x,y),為了計(jì)算兩個(gè)矢量x和y的相似性,可以采用表示兩個(gè)矢量x和y之間距離的距離函數(shù)d(x,y)(注意在從1到-1的范圍中將d(x,y)歸一化)。在這種情況中,可以用下面等式(3)表達(dá)音素邊界驗(yàn)證量度PBVM(k)PBVM(k)=1-d(x,y)2··········(3)]]>產(chǎn)生指示包括在上下文中的每個(gè)幀的頻譜的矢量(包括頻譜的系數(shù)的矢量),并且使用在上下文中所有幀的矢量的平均值(平均矢量)作為在音素邊界k處的上下文的兩個(gè)矢量x和y。此外,(例如)表示最接近于音素邊界k的幀的頻譜的矢量具有代表從其減去的上下文中所有幀的頻譜的矢量平均值。可以采用結(jié)果矢量作為矢量x和y兩者。此外,當(dāng)使用高斯分布來(lái)表示在HMM中的特征的輸出概率密度函數(shù)時(shí),可以從例如定義高斯分布的平均矢量計(jì)算在音素邊界k的上下文的矢量x和y,該高斯分布代表在與上下文中的幀對(duì)應(yīng)的HMM狀態(tài)中的輸出概率密度函數(shù)。
通過等式(2)和(3)獲得的給定音素邊界k的音素邊界驗(yàn)證量度PBVM(k)是與變量k相關(guān)的具有0和1之間的值的連續(xù)函數(shù)?!癙BVM(k)=0”指示在音素邊界k的左右的上下文的矢量定向于相同的方向。即,當(dāng)音素邊界驗(yàn)證量度PBVM(k)的函數(shù)值為0時(shí),音素邊界k不與實(shí)際的音素邊界一致,即,可能發(fā)生識(shí)別錯(cuò)誤。
相反,當(dāng)音素邊界驗(yàn)證量度PBVM(k)的函數(shù)值為1時(shí),在音素邊界k的左右的上下文的矢量定向于相反的方向,并因此,音素邊界k可能與在音頻信號(hào)中的精確的音素邊界一致。
如上所述,具有0到1之間范圍的音素邊界驗(yàn)證量度PBVM(k)指示作為實(shí)際音素邊界的音素邊界k的似然性。
隨后,因?yàn)樵谡Z(yǔ)音識(shí)別結(jié)果的單詞序列中的每個(gè)單詞包括多個(gè)音素,所以可以從單詞的音素的音素邊界驗(yàn)證量度PBVM(k)來(lái)計(jì)算單詞的置信度。
即,可以采用下面的值作為單詞的置信度每個(gè)單詞的音素的音素邊界驗(yàn)證量度PBVM的平均值;每個(gè)單詞的音素的音素邊界驗(yàn)證量度PBVM的最小值;每個(gè)單詞的音素的音素邊界驗(yàn)證量度PBVM的最大值和最小值之差;每個(gè)單詞的音素的音素邊界驗(yàn)證量度PBVM的標(biāo)準(zhǔn)方差;或每個(gè)單詞的音素的音素邊界驗(yàn)證量度PBVM的變差(variation)系數(shù)(由除以平均值的標(biāo)準(zhǔn)方差計(jì)算的值)。
可以用與單詞的置信度相同的方式獲得語(yǔ)音識(shí)別結(jié)果的單詞序列的總置信度。
即,當(dāng)語(yǔ)音識(shí)別結(jié)果例如是“The weather yesterday was nice”,并且單詞“The”、“weather”、“yesterday”、“was”和“nice”的置信度分別是0.90、0.86、0.13、0.81和0.95,并且當(dāng)采用例如在單詞序列中的單詞的置信度中的最小值作為語(yǔ)音識(shí)別結(jié)果的置信度時(shí),語(yǔ)音識(shí)別結(jié)果“The weather yesterday wasnice”的置信度是0.13,這是單詞“yesterday”的置信度值?;蛘?,當(dāng)采用語(yǔ)音識(shí)別結(jié)果的單詞序列中的單詞的置信度中的平均值作為該語(yǔ)音識(shí)別結(jié)果的置信度時(shí),語(yǔ)音識(shí)別結(jié)果“The weather yesterday was nice”的置信度是0.73,這是各個(gè)單詞“The”、“weather”、“yesterday”、“was”和“nice”的置信度0.90、0.86、0.13、0.81和0.95的平均值。
在上述情況中,從在語(yǔ)音識(shí)別結(jié)果的單詞序列中的每個(gè)單詞的置信度獲得語(yǔ)音識(shí)別結(jié)果的置信度。此外,例如可以從在語(yǔ)音識(shí)別結(jié)果的單詞序列中的每個(gè)單詞的音素邊界的音素邊界驗(yàn)證量度PBVM直接獲得語(yǔ)音識(shí)別結(jié)果的置信度。
此外,如在日本待審專利申請(qǐng)公開號(hào)No.9-259226中所公開的,可以采用在第一位置和第二位置中語(yǔ)音識(shí)別結(jié)果的候選者的信任記分值之間的差作為置信度。而且,可以從HMM計(jì)算的每個(gè)幀的聲學(xué)記分計(jì)算置信度。再進(jìn)一步,可以使用神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算置信度。
可以由硬件和軟件來(lái)執(zhí)行上述處理過程。當(dāng)由軟件來(lái)執(zhí)行該處理過程時(shí),從單詞/音節(jié)網(wǎng)絡(luò)或記錄介質(zhì)、在包括專用硬件的計(jì)算機(jī)或能夠通過安裝各種程序來(lái)執(zhí)行各種功能的通用個(gè)人計(jì)算機(jī)中安裝軟件程序。
如圖27所示,記錄介質(zhì)的例子不僅包括被分發(fā)給用戶以為用戶提供與設(shè)備分離的程序的包裝介質(zhì),如磁盤171、光盤172、磁光盤173、和半導(dǎo)體存儲(chǔ)器174,還包括存儲(chǔ)程序的ROM(只讀存儲(chǔ)器)152和包括在存儲(chǔ)單元158中的硬盤,它們被預(yù)儲(chǔ)存在設(shè)備中,并且用該設(shè)備分發(fā)給用戶。
圖27圖解說明了個(gè)人計(jì)算機(jī)150的配置,該個(gè)人計(jì)算機(jī)150用于通過軟件執(zhí)行圖5所示的對(duì)話系統(tǒng)的處理過程。個(gè)人計(jì)算機(jī)150包括CPU(中央處理單元)151。輸入和輸出(I/O)接口155經(jīng)由總線154連接到CPU151。ROM152和RAM(隨機(jī)存取存儲(chǔ)器)153連接到總線154。
由用戶操作的鼠標(biāo)、鍵盤、和麥克風(fēng)、包括諸如AD轉(zhuǎn)換器的輸入裝置的輸入單元157、和包括諸如顯示器、揚(yáng)聲器和DA轉(zhuǎn)換器的輸出單元的輸出單元156連接到I/O接口155。此外,用于存儲(chǔ)程序和各種數(shù)據(jù)的、包括硬盤驅(qū)動(dòng)器的存儲(chǔ)單元158和用于經(jīng)由諸如因特網(wǎng)的單詞/音節(jié)網(wǎng)絡(luò)傳送和接收數(shù)據(jù)的通信單元159連接到I/O接口155。
可選驅(qū)動(dòng)器160連接到I/O接口155。驅(qū)動(dòng)器160從/向諸如磁盤171、光盤172、磁光盤173和半導(dǎo)體存儲(chǔ)器174的記錄介質(zhì)上讀出或?qū)懭霐?shù)據(jù)。
允許個(gè)人計(jì)算機(jī)150執(zhí)行實(shí)施本發(fā)明的實(shí)施例的語(yǔ)音處理裝置的功能的語(yǔ)音處理程序存儲(chǔ)在磁盤171(包括軟盤)、光盤172(包括CD-ROM(致密盤只讀存儲(chǔ)器)和DVD(數(shù)字通用盤))、磁光盤173(包括MD,(小型盤))、或半導(dǎo)體存儲(chǔ)器174中。將包括語(yǔ)音處理程序的記錄介質(zhì)提供給個(gè)人計(jì)算機(jī)150,其中由驅(qū)動(dòng)器160讀出語(yǔ)音處理程序,并且被安裝在包括在存儲(chǔ)單元158中的硬盤驅(qū)動(dòng)器上。響應(yīng)于與經(jīng)由輸入單元157輸入的用戶命令對(duì)應(yīng)的、從CPU來(lái)的命令,將在存儲(chǔ)單元158中安裝的語(yǔ)音處理程序從存儲(chǔ)單元158中裝載于RAM 153。
在本說明書中,描述存儲(chǔ)在記錄介質(zhì)中的程序的步驟不僅包括上述順序執(zhí)行的處理過程,而且還包括平行或獨(dú)立執(zhí)行的處理過程。
此外,作為使用在本說明書中,“系統(tǒng)”指多個(gè)設(shè)備的邏輯組合;多個(gè)設(shè)備不必包括在一個(gè)機(jī)身中。
本領(lǐng)域的技術(shù)人員應(yīng)該理解依照設(shè)計(jì)要求和其他因素,可以發(fā)生各種改動(dòng)、組合、子組合和改變,只要它們?cè)谒降臋?quán)利要求書或等效文件的范圍之內(nèi)。
權(quán)利要求
1.一種語(yǔ)音處理裝置,用于處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包含在輸入的言語(yǔ)中的單詞進(jìn)行注冊(cè),該裝置包括識(shí)別裝置,用于識(shí)別輸入的言語(yǔ);未知單詞確定裝置,用于確定由識(shí)別裝置獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;識(shí)別結(jié)果拒絕裝置,用于確定是否拒絕由未知單詞確定裝置確定為包括未知單詞的識(shí)別結(jié)果;以及單詞提取裝置,用于獲得與在確定未被識(shí)別結(jié)果拒絕裝置拒絕的識(shí)別結(jié)果中所包含的未知單詞對(duì)應(yīng)的單詞。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音處理裝置,其中所述識(shí)別結(jié)果拒絕裝置根據(jù)包含未知單詞的語(yǔ)句的未知單詞語(yǔ)言模型來(lái)確定是否拒絕識(shí)別結(jié)果。
3.根據(jù)權(quán)利要求2所述的語(yǔ)音處理裝置,其中所述未知單詞語(yǔ)言模型是用有限狀態(tài)自動(dòng)機(jī)編寫的語(yǔ)法模型。
4.根據(jù)權(quán)利要求2所述的語(yǔ)音處理裝置,其中所述未知語(yǔ)言模型是統(tǒng)計(jì)語(yǔ)言模型。
5.根據(jù)權(quán)利要求1所述的語(yǔ)音處理裝置,其中所述識(shí)別結(jié)果拒絕裝置根據(jù)識(shí)別結(jié)果的置信度來(lái)確定是否拒絕識(shí)別結(jié)果。
6.根據(jù)權(quán)利要求5所述的語(yǔ)音處理裝置,其中所述識(shí)別結(jié)果拒絕裝置根據(jù)與包含在識(shí)別結(jié)果中的未知單詞相鄰的已知單詞的置信度來(lái)確定是否拒絕識(shí)別結(jié)果。
7.一種語(yǔ)音處理方法,用于處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)輸入言語(yǔ)中包括的單詞進(jìn)行注冊(cè),該語(yǔ)音處理方法包括步驟(a)識(shí)別輸入的言語(yǔ);(b)確定由步驟(a)所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果;和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
8.一種存儲(chǔ)程序的計(jì)算機(jī)可讀記錄介質(zhì),該程序處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包括在輸入言語(yǔ)中的單詞進(jìn)行注冊(cè),該程序包括步驟(a)識(shí)別輸入的言語(yǔ);(b)確定由步驟(a)所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果;和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
9.一種程序,用于處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包括在輸入言語(yǔ)中的單詞進(jìn)行注冊(cè),該程序包括程序代碼,其使得計(jì)算機(jī)執(zhí)行步驟(a)識(shí)別輸入的言語(yǔ);(b)確定由步驟(a)所獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;(c)確定是否拒絕在步驟(b)確定為包括未知單詞的識(shí)別結(jié)果;和(d)獲得與在確定未被步驟(c)拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
10.一種語(yǔ)音處理裝置,用于處理輸入的言語(yǔ),并且根據(jù)處理結(jié)果對(duì)包含在輸入的言語(yǔ)中的單詞進(jìn)行注冊(cè),該裝置包括識(shí)別單元,被配置來(lái)識(shí)別輸入的言語(yǔ);未知單詞確定單元,被配置來(lái)確定由識(shí)別單元獲得的輸入言語(yǔ)的識(shí)別結(jié)果是否包括未知單詞;識(shí)別結(jié)果拒絕單元,被配置來(lái)確定是否拒絕由未知單詞確定單元確定為包括未知單詞的識(shí)別結(jié)果;以及單詞提取裝置單元,被配置來(lái)獲得與在確定未被識(shí)別結(jié)果拒絕單元拒絕的識(shí)別結(jié)果中所包括的未知單詞對(duì)應(yīng)的單詞。
全文摘要
本發(fā)明提供了一種裝置,其輸入言語(yǔ),并且根據(jù)輸入的言語(yǔ)執(zhí)行語(yǔ)音識(shí)別。該語(yǔ)音處理裝置確定識(shí)別結(jié)果是否包含未知單詞。如果確定識(shí)別的結(jié)果包含未知單詞,則確定是否拒絕識(shí)別的結(jié)果。如果確定不拒絕識(shí)別的結(jié)果,則獲得與包含在識(shí)別結(jié)果中的未知單詞對(duì)應(yīng)的單詞。該裝置可用作語(yǔ)音處理裝置。
文檔編號(hào)G10L15/00GK1725295SQ20051008475
公開日2006年1月25日 申請(qǐng)日期2005年7月20日 優(yōu)先權(quán)日2004年7月22日
發(fā)明者小川浩明 申請(qǐng)人:索尼株式會(huì)社