欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用發(fā)音圖表來(lái)改進(jìn)新字的發(fā)音學(xué)習(xí)的制作方法

文檔序號(hào):2821284閱讀:231來(lái)源:國(guó)知局
專(zhuān)利名稱:使用發(fā)音圖表來(lái)改進(jìn)新字的發(fā)音學(xué)習(xí)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及通過(guò)組合基于語(yǔ)言和基于文本的語(yǔ)音描述來(lái)改進(jìn)新字發(fā)音以產(chǎn)生發(fā)音。
背景技術(shù)
本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及通過(guò)組合基于語(yǔ)言和基于文本的語(yǔ)音描述來(lái)改進(jìn)新字發(fā)音以產(chǎn)生發(fā)音。
在語(yǔ)音識(shí)別中,人類(lèi)的語(yǔ)音被轉(zhuǎn)換成文本。為了執(zhí)行該轉(zhuǎn)換,語(yǔ)音識(shí)別系統(tǒng)標(biāo)識(shí)可產(chǎn)生語(yǔ)音符號(hào)的最可能的聲學(xué)單元序列。為了減少必須執(zhí)行的計(jì)算量,大多數(shù)系統(tǒng)限制對(duì)用感興趣的語(yǔ)言代表文字的聲學(xué)單元序列的搜索。
聲學(xué)單元序列和文字之間的映射存儲(chǔ)在至少一個(gè)詞典中(有時(shí)稱為字典)。不管詞典有多大,語(yǔ)音信號(hào)中的某些字將會(huì)在詞典之外。語(yǔ)音識(shí)別系統(tǒng)不能識(shí)別這些詞匯表外(OOV)的字,因?yàn)樵撓到y(tǒng)不知道它們的存在。例如,有時(shí)在口述期間,用戶會(huì)發(fā)現(xiàn)系統(tǒng)未識(shí)別一口述字。這會(huì)發(fā)生,因?yàn)橄到y(tǒng)對(duì)特定字定義有與用戶發(fā)音不同的發(fā)音,即用戶帶有外國(guó)口音地發(fā)音該字。有時(shí),字根本就不在詞匯表中。相反,識(shí)別系統(tǒng)會(huì)被強(qiáng)迫去識(shí)別其它字來(lái)替換詞匯表外字,從而導(dǎo)致了識(shí)別錯(cuò)誤。
在過(guò)去的語(yǔ)音識(shí)別系統(tǒng)中,通過(guò)提供字的拼寫(xiě)以及帶有用戶聲音的字的聲學(xué)樣本或發(fā)音,用戶可添加語(yǔ)音識(shí)別系統(tǒng)未識(shí)別的字。
使用字母-聲音規(guī)則,字的拼寫(xiě)被轉(zhuǎn)換成一組語(yǔ)音描述。將輸入字存儲(chǔ)為上下文無(wú)關(guān)語(yǔ)法(CFG)的僅有條目。通過(guò)把語(yǔ)音樣本應(yīng)用到語(yǔ)音描述中的音素(phone)的聲學(xué)模型中,可對(duì)它計(jì)分。每個(gè)語(yǔ)音描述的總分包括語(yǔ)言模型得分。在CFG中,語(yǔ)言模型概率等于1比CFG中每個(gè)節(jié)點(diǎn)上的分支數(shù)。然而,由于輸入字是CFG中僅有的條目,僅有從起始節(jié)點(diǎn)起的一個(gè)分支(CFG中僅有的另一節(jié)點(diǎn)是結(jié)束節(jié)點(diǎn))。結(jié)果,出于字母-聲音規(guī)則的任何語(yǔ)音描述總是具有語(yǔ)言模型概率為1。
在單獨(dú)的解碼路徑中,通過(guò)標(biāo)識(shí)類(lèi)音節(jié)單元序列將語(yǔ)音樣本轉(zhuǎn)換為語(yǔ)音描述,而該類(lèi)音節(jié)單元序列基于類(lèi)音節(jié)單元中音素的聲學(xué)模型和類(lèi)音節(jié)單元n-字母語(yǔ)言模型來(lái)提供最佳組合的聲學(xué)和語(yǔ)言模型總分。
然后比較通過(guò)字母-聲音CFG標(biāo)識(shí)的語(yǔ)音序列總分以及通過(guò)類(lèi)音節(jié)單元n-字母解碼標(biāo)識(shí)的類(lèi)音節(jié)單元的最可能序列總分。具有最高總分的語(yǔ)音序列被選為字的語(yǔ)音序列。
因而,在現(xiàn)有技術(shù)系統(tǒng)中,以兩個(gè)單獨(dú)并行路徑來(lái)執(zhí)行字母-聲音解碼和類(lèi)音節(jié)單元解碼。這因眾多原因而不太理想。
首先,由于兩個(gè)路徑未使用共同的語(yǔ)言模型,兩個(gè)路徑之間的總分不能總進(jìn)行具有意義的比較。特別地,由于CFG的語(yǔ)言模型總是提供概率1,字母-聲音語(yǔ)音描述的總分通常將比類(lèi)音節(jié)單元描述更高,這取決于n-字母語(yǔ)言模型的概率通常會(huì)遠(yuǎn)遠(yuǎn)小于1。(類(lèi)音節(jié)單元的語(yǔ)言模型概率是10-4的數(shù)量級(jí)。)正因?yàn)檫@個(gè),即使當(dāng)聲學(xué)樣本更匹配于來(lái)自類(lèi)音節(jié)單元路徑的語(yǔ)音描述時(shí),現(xiàn)有技術(shù)系統(tǒng)仍然傾向于來(lái)自字母-聲音規(guī)則的語(yǔ)音序列。
第二種精確性問(wèn)題在產(chǎn)生諸如“voicexml”的組合字發(fā)音時(shí)發(fā)生。重要的是要注意在現(xiàn)有技術(shù)系統(tǒng)中CFG路徑和n-字母音節(jié)路徑彼此無(wú)關(guān)。因而,類(lèi)似“voicexml”的組合字可導(dǎo)致發(fā)音錯(cuò)誤,因?yàn)檫x定的發(fā)音必須是CFG發(fā)音或者是n-字母音節(jié)發(fā)音。然而,與CFG引擎一起使用的字母-聲音(LTS)規(guī)則趨于在類(lèi)似“voice”的相對(duì)可預(yù)測(cè)的字上執(zhí)行得較好,而在像“xml”的正確發(fā)音幾乎與其如何拼寫(xiě)無(wú)關(guān)的不可預(yù)測(cè)字上執(zhí)行得較差。
相反,n-字母音節(jié)模型通常在產(chǎn)生類(lèi)似“xml”的字的發(fā)音時(shí)就執(zhí)行得相當(dāng)好,因?yàn)樗噲D捕捉聲學(xué)樣本中的任何聲音或字節(jié)序列而與拼寫(xiě)無(wú)關(guān)。然而對(duì)類(lèi)似“voice”的可預(yù)測(cè)字它執(zhí)行得就不如CFG引擎了。
基于這些原因,如果用兩個(gè)單獨(dú)路徑估算來(lái)自兩個(gè)解碼系統(tǒng)的語(yǔ)音描述,從由例如帶有首字母縮拼詞的可預(yù)測(cè)字,諸如“voicexml”,組合的組合字可導(dǎo)致發(fā)音錯(cuò)誤。
用于改進(jìn)諸如“voicexml”的組合字發(fā)音的語(yǔ)音識(shí)別系統(tǒng)將具有重要的功用。

發(fā)明內(nèi)容
方法和計(jì)算機(jī)可讀介質(zhì)把字的文本和該字的用戶發(fā)音轉(zhuǎn)換成語(yǔ)音描述,以添加到語(yǔ)音識(shí)別詞典中。開(kāi)始,產(chǎn)生至少兩個(gè)的多個(gè)可能語(yǔ)音描述。通過(guò)解碼代表字的用戶發(fā)音的語(yǔ)音信號(hào)形成一個(gè)語(yǔ)音描述。從該字的文本產(chǎn)生至少一個(gè)其它語(yǔ)音描述。對(duì)準(zhǔn)包括基于語(yǔ)言和基于文本的語(yǔ)音描述的多個(gè)可能序列以產(chǎn)生發(fā)音圖表。然后通過(guò)再次使用用戶的發(fā)音語(yǔ)音,再次對(duì)發(fā)音圖表計(jì)分。然后選擇最高分的語(yǔ)音描述作為語(yǔ)音識(shí)別詞典中的條目。
本發(fā)明的一方面是使用類(lèi)音節(jié)單元(SLU)來(lái)把語(yǔ)音發(fā)音解碼成語(yǔ)音描述。類(lèi)音節(jié)單元通常比單個(gè)音素大但比字小。本發(fā)明提供用于使用不需要語(yǔ)言專(zhuān)用語(yǔ)言學(xué)規(guī)則的基于互信息的數(shù)據(jù)驅(qū)動(dòng)方法來(lái)定義這些類(lèi)音節(jié)單元的裝置??稍谡Z(yǔ)音解碼過(guò)程中構(gòu)建和使用基于這些類(lèi)音節(jié)單元的語(yǔ)言模型。
本發(fā)明的另一方面使用戶能輸入與對(duì)應(yīng)于拼寫(xiě)的典型發(fā)音很不相同的字的可聽(tīng)發(fā)音。例如,當(dāng)輸入英文字的文本時(shí),能可聽(tīng)地對(duì)外文字發(fā)音。在本發(fā)明的該方面下,可從詞典檢索添加到詞典中的新字語(yǔ)音描述,并將其轉(zhuǎn)換成包括例如英文字的外文翻譯的可聽(tīng)信號(hào)。


圖1是本發(fā)明可在其中實(shí)現(xiàn)的一般計(jì)算環(huán)境框圖。
圖2是本發(fā)明可在其中實(shí)現(xiàn)的一般移動(dòng)計(jì)算環(huán)境框圖。
圖3是本發(fā)明中語(yǔ)音識(shí)別系統(tǒng)的框圖。
圖4是本發(fā)明一實(shí)施例的詞典更新組件的框圖。
圖5是本發(fā)明中把字添加到語(yǔ)音識(shí)別詞典的方法的流程圖。
圖6是示出本發(fā)明對(duì)特定字的實(shí)現(xiàn)的流程圖。
圖7是構(gòu)建一類(lèi)音節(jié)單元集的流程圖。
具體實(shí)施例方式
圖1示出了本發(fā)明可在其上實(shí)現(xiàn)的適當(dāng)計(jì)算系統(tǒng)環(huán)境100的示例。該計(jì)算系統(tǒng)環(huán)境100僅是適當(dāng)計(jì)算環(huán)境的一個(gè)示例,并非旨在提出本發(fā)明使用或功能性范圍的任何限制。計(jì)算環(huán)境100也不應(yīng)被解釋為對(duì)示例性操作環(huán)境100中所示的任一組件或其組合有任何依賴性或任何需求。
本發(fā)明也可在很多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置中使用。適于本發(fā)明使用的眾所周知的計(jì)算系統(tǒng)、環(huán)境、和/或配置的示例包括,但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程電器消費(fèi)品、網(wǎng)絡(luò)PC、迷你計(jì)算機(jī)、大型機(jī)、電話系統(tǒng)、包括任一種以上系統(tǒng)或裝置的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在計(jì)算機(jī)可執(zhí)行指令的一般上下文中進(jìn)行說(shuō)明,諸如由計(jì)算機(jī)執(zhí)行的程序模塊。一般而言,程序模塊包括執(zhí)行具體任務(wù)或?qū)崿F(xiàn)具體抽象數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。本發(fā)明還可在任務(wù)由經(jīng)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理裝置執(zhí)行的分布式計(jì)算環(huán)境中實(shí)踐。在分布式計(jì)算環(huán)境中,程序模塊可置于包括存儲(chǔ)器存儲(chǔ)裝置的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)。
參照?qǐng)D1,實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算裝置。計(jì)算機(jī)110的組件可包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130以及把包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可能是若干總線結(jié)構(gòu)類(lèi)型中的任何一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線、以及使用多種總線結(jié)構(gòu)的任一種的本地總線。作為示例,而非限制,這些結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微信道結(jié)構(gòu)(MSA)總線、擴(kuò)展ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線和也稱為Mezzanine總線的外圍部件互連(PCI)總線。
計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是能被計(jì)算機(jī)110訪問(wèn)的任何可用介質(zhì),并包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例,而非限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)、用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字化視頻光盤(pán)(DVD)或其它光學(xué)存儲(chǔ)技術(shù)、磁卡、磁帶、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)裝置、或任何其它可用于存儲(chǔ)所需信息并可由計(jì)算機(jī)110訪問(wèn)的介質(zhì)。通信介質(zhì)通常包括諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號(hào)中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或其它數(shù)據(jù),且包括任何信息輸送介質(zhì)。術(shù)語(yǔ)“調(diào)制數(shù)據(jù)信號(hào)”意指以信息中的信息編碼方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號(hào)。作為示例,而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直線連接的有線介質(zhì),和諸如聲學(xué)、射頻、紅外線和其它無(wú)線介質(zhì)的無(wú)線介質(zhì)。以上任何介質(zhì)的組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍中。
系統(tǒng)存儲(chǔ)器130包括諸如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132的易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)可讀介質(zhì)。包含有助于計(jì)算機(jī)110如起動(dòng)時(shí)在元件間傳送信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS)133通常存儲(chǔ)在ROM 131中。RAM 132通常包含可被處理單元120立即訪問(wèn)和/或現(xiàn)時(shí)操作的數(shù)據(jù)和/或程序模塊。作為示例,而非限制,圖1示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136、和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。作為示例,圖1圖示了讀取和寫(xiě)入不可移動(dòng)、非易失性磁性介質(zhì)的硬盤(pán)驅(qū)動(dòng)器141,讀取和寫(xiě)入可移動(dòng)、非易失性磁盤(pán)152的磁盤(pán)驅(qū)動(dòng)器151,讀取和寫(xiě)入可移動(dòng)、非易失性光盤(pán)156,諸如CD-ROM或其它光學(xué)介質(zhì)的光盤(pán)驅(qū)動(dòng)器155。其它也用在示例性計(jì)算環(huán)境中的可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,如磁帶、閃存卡、數(shù)字化視頻光盤(pán)、數(shù)字化錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤(pán)驅(qū)動(dòng)器141通常通過(guò)諸如接口140的不可移動(dòng)存儲(chǔ)器接口與系統(tǒng)總線121連接,而磁盤(pán)驅(qū)動(dòng)器151和光盤(pán)驅(qū)動(dòng)器155通常通過(guò)諸如接口150的可移動(dòng)存儲(chǔ)器接口與系統(tǒng)總線121連接。
如上所述并如圖1所示的盤(pán)驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)110提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、和其它數(shù)據(jù)的存儲(chǔ)。在圖1中,例如,硬盤(pán)驅(qū)動(dòng)器141被示為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146、和程序數(shù)據(jù)147。注意這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136、和程序數(shù)據(jù)137相同或不同。在此給予操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146、和程序數(shù)據(jù)147的數(shù)字不同至少說(shuō)明他們是不同的復(fù)制件。
用戶可通過(guò)輸入裝置如鍵盤(pán)162、話筒163和諸如鼠標(biāo)、跟蹤球或觸摸板等定位裝置161向計(jì)算機(jī)110輸入命令和信息。其它輸入裝置(未示出)可包括話筒、游戲桿、游戲墊、衛(wèi)星接收器、掃描儀、無(wú)線電接收器、或電視或廣播視頻接收器等等。這些和其它輸入裝置常常通過(guò)與系統(tǒng)總線耦合的用戶輸入接口160與處理單元120相連,但也可通過(guò)諸如并行端口、游戲端口或通用串行總線(USB)的其它接口連接。監(jiān)視器191或其它類(lèi)型的顯示裝置也可通過(guò)諸如視頻接口190的接口與系統(tǒng)總線121相連。除了監(jiān)視器,計(jì)算機(jī)還可包括諸如揚(yáng)聲器197和打印機(jī)196的其它輸出裝置,它們通過(guò)輸出外圍接口195相連。
計(jì)算機(jī)110可以在使用與一臺(tái)或多臺(tái)遠(yuǎn)程計(jì)算機(jī),諸如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接的網(wǎng)絡(luò)化環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等裝置或其它普通網(wǎng)絡(luò)節(jié)點(diǎn),而且通常包括上述與個(gè)人計(jì)算機(jī)110相關(guān)的許多或全部組件,盡管在圖1中僅圖示了存儲(chǔ)器存儲(chǔ)裝置181。圖1中所描繪的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)化環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)上是常見(jiàn)的。
當(dāng)用于LAN網(wǎng)絡(luò)化環(huán)境中時(shí),計(jì)算機(jī)110通過(guò)網(wǎng)絡(luò)接口或適配器170與局域網(wǎng)171連接。當(dāng)用于WAN網(wǎng)絡(luò)化環(huán)境中時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或其它用于在廣域網(wǎng)173,諸如因特網(wǎng)中建立通信的裝置。可以是內(nèi)置式或外置式的調(diào)制解調(diào)器172與系統(tǒng)總線121通過(guò)用戶輸入接口160或其它適當(dāng)機(jī)制連接。在網(wǎng)絡(luò)化環(huán)境中,與計(jì)算機(jī)110相關(guān)的程序模塊或其一部分可存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)裝置中。作為示例,而非限制,圖1示出了駐留于遠(yuǎn)程計(jì)算機(jī)180中的遠(yuǎn)程應(yīng)用程序185。應(yīng)當(dāng)理解,所示網(wǎng)絡(luò)連接是示例性的,且其它用于在計(jì)算機(jī)間建立通信鏈路的技術(shù)也可以使用。
圖2是可選示例性計(jì)算環(huán)境的移動(dòng)裝置200的框圖。移動(dòng)裝置200包括微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)組件206、以及用于與遠(yuǎn)程計(jì)算機(jī)或其它移動(dòng)裝置進(jìn)行通信的通信接口208。在一實(shí)施例中,前述組件經(jīng)適當(dāng)總線210耦合用于彼此通信。
存儲(chǔ)器204被實(shí)現(xiàn)為諸如隨機(jī)存取存儲(chǔ)器(RAM)帶有電池備份模塊(未示出)的非易失性電子存儲(chǔ)器,從而當(dāng)移動(dòng)裝置200的總電源關(guān)閉時(shí)存儲(chǔ)在存儲(chǔ)器204中的信息不會(huì)丟失。存儲(chǔ)器204的一部分更適于被分配為用于程序執(zhí)行的可尋址存儲(chǔ)器,而存儲(chǔ)器204的另一部分更適于用來(lái)存儲(chǔ),諸如模擬盤(pán)驅(qū)動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器204包括操作系統(tǒng)212、應(yīng)用程序214以及典型存儲(chǔ)器216。在操作期間,操作系統(tǒng)212更適于由處理器202從存儲(chǔ)器204上執(zhí)行。在一優(yōu)選實(shí)施例中,操作系統(tǒng)212是可從微軟公司購(gòu)買(mǎi)的WINDOWSCE品牌的操作系統(tǒng)。操作系統(tǒng)212更適于為移動(dòng)裝置設(shè)計(jì),并實(shí)現(xiàn)可由應(yīng)用程序214通過(guò)一組外露應(yīng)用程序編程接口和方法利用的數(shù)據(jù)庫(kù)特征。由應(yīng)用程序214和操作系統(tǒng)212至少部分地響應(yīng)于對(duì)外露應(yīng)用程序編程接口和方法的調(diào)用,來(lái)維護(hù)對(duì)象存儲(chǔ)器216中的對(duì)象。
通信接口208代表使移動(dòng)裝置200能夠發(fā)送和接收信息的多種裝置和技術(shù)。這些裝置包括有線和無(wú)線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器(僅列舉若干)。移動(dòng)裝置200還可直接與計(jì)算機(jī)連接以交換數(shù)據(jù)。這樣,通信接口208可以是都能夠傳輸流信息的紅外線收發(fā)器或串行或并行通信連接。
輸入/輸出組件206包括各種輸入設(shè)備,諸如觸摸感應(yīng)屏幕、按鈕、滾軸和話筒以及各種輸出設(shè)備,諸如音頻發(fā)生器、振動(dòng)設(shè)備、和顯示器。以上所列設(shè)備作為示例,且無(wú)需都在移動(dòng)裝置200上出現(xiàn)。另外,其它輸入/輸出設(shè)備可附于移動(dòng)裝置200或與其一體,在本發(fā)明范圍之內(nèi)。
圖3提供了與本發(fā)明特別相關(guān)的語(yǔ)音識(shí)別模塊的更詳細(xì)框圖。在圖3中,如果需要可由話筒300把輸入語(yǔ)音符號(hào)轉(zhuǎn)換為電子信號(hào)。然后通過(guò)模擬-數(shù)字或A/D轉(zhuǎn)換器把電子信號(hào)轉(zhuǎn)換成電子信號(hào)。在若干實(shí)施例中,A/D轉(zhuǎn)換器302在16kHz對(duì)模擬信號(hào)取16比特的樣本,因此創(chuàng)建每秒32KB的語(yǔ)音數(shù)據(jù)。
向框架建構(gòu)單元304提供數(shù)字式數(shù)據(jù),該單元把數(shù)字式值分組成值的幀。在一實(shí)施例中,每個(gè)幀25毫秒長(zhǎng),且在前一幀開(kāi)始之后10毫秒開(kāi)始。
向從數(shù)字信號(hào)中提取特征的特征提取器304提供數(shù)字式數(shù)據(jù)的幀。特征提取模塊的示例包括用于執(zhí)行線性預(yù)測(cè)編碼(LPC)、LPC導(dǎo)出對(duì)數(shù)倒頻譜、感應(yīng)式線性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征提取、以及Mel頻率對(duì)數(shù)倒頻譜系數(shù)(MFCC)特征提取。注意,本發(fā)明并不限于這些特征提取模塊,且可在本發(fā)明的上下文中使用其它模塊。
特征提取器306能每幀產(chǎn)生一個(gè)多維特征向量。特征向量中的維數(shù)和數(shù)值量取決于使用的特征提取類(lèi)型。例如,Mel頻率對(duì)數(shù)倒頻譜系數(shù)向量通常具有12個(gè)系數(shù),加上一個(gè)代表總共13維的冪數(shù)的系數(shù)。在一實(shí)施例中,通過(guò)取Mel頻率系數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)加上相對(duì)于時(shí)間的冪,特征向量可從Mel系數(shù)計(jì)算。因而,對(duì)于這種特征向量,每幀都與形成特征向量的39個(gè)數(shù)值相關(guān)聯(lián)。
在語(yǔ)音識(shí)別期間,由特征提取器306產(chǎn)生的特征向量流提供給解碼器308,該解碼器基于特征向量流、系統(tǒng)詞典310、應(yīng)用程序詞典312(如果有)、用戶詞典314、語(yǔ)言模型316、以及聲學(xué)模型318來(lái)標(biāo)識(shí)詞的最可能或最相似序列。
在大多數(shù)實(shí)施例中,聲學(xué)模型318是由一組隱藏狀態(tài)組成的隱藏馬爾可夫模型,其中每個(gè)輸入信號(hào)幀一個(gè)狀態(tài)。每個(gè)狀態(tài)具有描述匹配特定狀態(tài)的輸入特征向量可能的相關(guān)聯(lián)概率分布組。在某些實(shí)施例中,概率的混合(通常為10個(gè)高斯概率)關(guān)聯(lián)于每個(gè)狀態(tài)。隱藏馬爾可夫模型還包括用于在兩個(gè)相鄰模型狀態(tài)之間轉(zhuǎn)換、以及用于特定語(yǔ)言學(xué)單元狀態(tài)之間轉(zhuǎn)換的概率。對(duì)于本發(fā)明的不同實(shí)施例,語(yǔ)言學(xué)單元的尺寸可不同。例如,語(yǔ)言學(xué)單元可以是senones、音素、雙音素、三音素、音節(jié)、甚至整個(gè)字。
系統(tǒng)詞典310由對(duì)特定語(yǔ)言有效的語(yǔ)言學(xué)單元(通常為字或音節(jié))列表組成。解碼器308使用系統(tǒng)詞典310以把其對(duì)可能語(yǔ)言學(xué)單元的搜索限制在那些確實(shí)是語(yǔ)言一部分的那些單元。系統(tǒng)詞典310還包含發(fā)音信息(即從每個(gè)語(yǔ)言學(xué)單元映射到由聲學(xué)模型318使用的一個(gè)聲學(xué)單元序列)。可任選的應(yīng)用詞典312與系統(tǒng)詞典310相似,除了應(yīng)用詞典312包含由特定應(yīng)用添加的語(yǔ)言學(xué)單元,而系統(tǒng)詞典310包含由語(yǔ)音識(shí)別系統(tǒng)提供的語(yǔ)言學(xué)單元。用戶詞典314也與系統(tǒng)詞典310相似,除了用戶詞典314包含已由用戶添加的語(yǔ)言學(xué)單元。在本發(fā)明中,提供了用于把新語(yǔ)言學(xué)單元添加到特別是用戶詞典314的方法和裝置。
語(yǔ)言模型316提供特定的語(yǔ)言學(xué)單元序列將出現(xiàn)在特定語(yǔ)言中的一組似然性或概率。在許多實(shí)施例中,語(yǔ)言模型316基于諸如北美商業(yè)新聞(NAB)的文本數(shù)據(jù)庫(kù),諸如在題為“CSR-III Text Language Model”賓州州立大學(xué)1994的文章有更詳細(xì)的描述。語(yǔ)言模型316可以是上下文無(wú)關(guān)語(yǔ)法、諸如三字母(trigram)的統(tǒng)計(jì)學(xué)n-字母模型、或兩者的組合。在一實(shí)施例中,語(yǔ)言模型316是緊密三字銘模型,它基于字序列的三字分段的組合概率確定該序列的概率。
基于聲學(xué)模型318、語(yǔ)言模型316、以及詞典310、312、314,解碼器308從所有可能的語(yǔ)言學(xué)單元序列中標(biāo)識(shí)最可能的語(yǔ)言學(xué)單元序列。該語(yǔ)言學(xué)單元序列代表語(yǔ)音信號(hào)的謄本。
該謄本被提供給輸出模型320,它處理與把該謄本發(fā)送給一個(gè)或多個(gè)應(yīng)用程序相關(guān)聯(lián)的開(kāi)銷(xiāo)成本。在一實(shí)施例中,輸出模塊320與存在于圖3語(yǔ)音識(shí)別引擎和一個(gè)或多個(gè)應(yīng)用程序之間的中間層(如果有)進(jìn)行通信。
在本發(fā)明中,可通過(guò)在用戶界面321上輸入字的文本來(lái)把新字添加到用戶字典314中。由A/D轉(zhuǎn)換器302、幀建構(gòu)器304以及特征提取器306把發(fā)音字轉(zhuǎn)換成特征向量。在添加字的過(guò)程期間,這些特征向量提供給字典更新單元322而不是解碼器308。更新單元322還從用戶界面321接收新字的文本?;谔卣飨蛄亢托伦值奈谋荆值涓聠卧?22通過(guò)以下進(jìn)一步描述的過(guò)程來(lái)更新用戶字典314和語(yǔ)言模型316。
圖4提供了用于更新用戶詞典314和語(yǔ)言模型316的詞典更新單元322的組件的框圖。圖5提供了由圖4組件實(shí)現(xiàn)的用于更新用戶詞典314的方法的流程圖。
在步驟502,用戶通過(guò)對(duì)著話筒念字輸入新字以產(chǎn)生用戶提供聲學(xué)樣本401。用戶提供聲學(xué)樣本401如上所述被轉(zhuǎn)換成提供給詞典更新單元322的特征向量403。特別地,將特征向量403提供給類(lèi)音節(jié)單元(SLU)引擎405以在圖5的步驟504產(chǎn)生由特征向量403代表的類(lèi)音節(jié)單元的最可能序列。SLU引擎405包括或訪問(wèn)SLU字典409和聲學(xué)模型318以通常基于最高概率得分產(chǎn)生SLU的最可能序列。然后SLU引擎403把類(lèi)音節(jié)單元的最可能序列轉(zhuǎn)換成提供給對(duì)準(zhǔn)模塊414的語(yǔ)音單元序列。SLU字典409將對(duì)應(yīng)于以下的圖7進(jìn)行更詳細(xì)描述。
重要的是要注意在某些情形中用戶對(duì)新字的發(fā)音與典型發(fā)音極為不同。例如,說(shuō)話者可能通過(guò)代之以英文字的外文翻譯來(lái)發(fā)音該英文字。例如這種特征將使得語(yǔ)音識(shí)別詞典以一種語(yǔ)言存儲(chǔ)字的文本或拼寫(xiě),而用不同于第一種語(yǔ)言的第二語(yǔ)言存儲(chǔ)語(yǔ)音描述。
在步驟506,用戶輸入新字的文本以產(chǎn)生用戶提供文本樣本402。注意步驟506可在步驟502之前、之后、或者與之同時(shí)執(zhí)行。用戶提供文本樣本402被提供給語(yǔ)法模塊404,它在步驟508將該文本轉(zhuǎn)換成可能的基于文本的語(yǔ)音序列列表。尤其是語(yǔ)法模塊404為用戶提供文本樣本402構(gòu)建諸如上下文無(wú)關(guān)語(yǔ)法的語(yǔ)法。語(yǔ)法模塊404包括或訪問(wèn)詞典406以及字母-聲音(LTS)引擎408。語(yǔ)法模塊404首先搜索包括系統(tǒng)詞典310、可任選應(yīng)用詞典312、以及用戶詞典314的詞典406來(lái)為用戶提供文本樣本402(如果有)以檢索可能的語(yǔ)音描述、發(fā)音、或序列。
LTS引擎408把用戶提供的文本樣本402轉(zhuǎn)換成一個(gè)或多個(gè)可能語(yǔ)音序列,特別是當(dāng)沒(méi)有在詞典406中發(fā)現(xiàn)該字時(shí)。通過(guò)利用適于感興趣的特定語(yǔ)言的發(fā)音規(guī)則集合410來(lái)執(zhí)行該轉(zhuǎn)換。在大多數(shù)實(shí)施例中,語(yǔ)音序列由一系列音素構(gòu)建而成。在其它實(shí)施例中,該語(yǔ)音序列是三音素序列。語(yǔ)法模塊404因而從詞典406和LTS引擎408產(chǎn)生了一個(gè)或多個(gè)可能的基于文本語(yǔ)音序列412。
再看圖4,向?qū)?zhǔn)模塊414提供來(lái)自SLU引擎405的最佳語(yǔ)音序列407以及來(lái)自語(yǔ)法模塊404的可能語(yǔ)音序列列表402。在步驟510,對(duì)準(zhǔn)模塊414以與用于計(jì)算例如來(lái)自置換錯(cuò)誤、刪除錯(cuò)誤、以及插入錯(cuò)誤的語(yǔ)音識(shí)別誤差率的眾所周知的對(duì)準(zhǔn)模塊和/或方法相似的方式來(lái)對(duì)準(zhǔn)語(yǔ)音序列404和412。在某些實(shí)施例中,使用兩個(gè)序列字符串之間的最小距離(例如正確的基準(zhǔn)和識(shí)別假設(shè))可執(zhí)行對(duì)準(zhǔn)。對(duì)準(zhǔn)模塊414產(chǎn)生經(jīng)對(duì)準(zhǔn)語(yǔ)音序列的列表、圖表或表格。
在步驟511,對(duì)準(zhǔn)模塊414把經(jīng)對(duì)準(zhǔn)語(yǔ)音序列置入單個(gè)圖表。在該過(guò)程期間,相互對(duì)準(zhǔn)的同一語(yǔ)音單元在單一路徑上進(jìn)行組合。相互對(duì)準(zhǔn)的相異語(yǔ)音單元?jiǎng)t置于圖表上的并行的備選路徑上。
該單個(gè)圖表被提供給重新計(jì)分模塊416。在步驟512,再次使用特征向量403以對(duì)由遍布該單個(gè)圖表的路徑所代表的語(yǔ)音單元的可能組合重新計(jì)分。在一實(shí)施例中,使用通過(guò)沿路徑比較由用戶對(duì)字的發(fā)音產(chǎn)生的特征向量403和存儲(chǔ)在聲學(xué)模型318中的每個(gè)語(yǔ)音單元的模型參數(shù)而產(chǎn)生的聲學(xué)模型得分,重新計(jì)分模塊416執(zhí)行維特比(Viterbi)搜索以標(biāo)識(shí)該圖表中的最佳路徑。該計(jì)分過(guò)程與由解碼器308在語(yǔ)音識(shí)別期間執(zhí)行的計(jì)分過(guò)程相似。
得分選擇和更新模塊418選擇單個(gè)圖表中最高得分語(yǔ)音序列或路徑。選中序列被提供以在步驟514更新用戶詞典314,及在步驟516更新語(yǔ)言模型316。
圖6示出了本發(fā)明如何處理或?qū)W習(xí)字的發(fā)音的示例???02示出字“voicexml”的用戶發(fā)音,而框603代表“voicexml”的輸入文本。字“voicexml”用于說(shuō)明本發(fā)明在如上所述產(chǎn)生組合字的發(fā)音中的優(yōu)點(diǎn)。字“voicexml”的第一部分或“voice”是諸如圖4中LTS引擎408的LTS引擎通常能精確處理的相對(duì)可預(yù)測(cè)字或字分段。然而,該字的第二部分“xml”是LTS引擎會(huì)有精確處理問(wèn)題的不可預(yù)測(cè)或非典型字或首字母縮拼詞。然而,諸如SLU引擎405的典型SLU引擎通??珊芎玫靥幚碇T如“xml”的字或字分段,因?yàn)镾LU引擎取決于用戶的聲學(xué)發(fā)音。
框604示出諸如由圖4中SLU引擎405和圖5中步驟504產(chǎn)生的最可能語(yǔ)音序列。因而,字“voicexml”的聲學(xué)或口語(yǔ)版的最佳發(fā)音如下ow-s-eh-k-s-eh-m-eh-l。
在此情形中,用戶沒(méi)有對(duì)語(yǔ)音單元“v”發(fā)音或者SLU模型未較好地預(yù)測(cè)語(yǔ)音單元“v”。結(jié)果,在語(yǔ)音序列的開(kāi)始去掉了可預(yù)期的語(yǔ)音單元“v”。
在框609字“voicexml”的拼寫(xiě)或文本版本的可能語(yǔ)音序列606和608的列表由LTS引擎408產(chǎn)生,包括語(yǔ)音單元的以下序列v-oy-s-eh-k-s-m-ax-l,v-ow-s-g-z-m-ax-l。
由對(duì)準(zhǔn)模塊414在框610所示的對(duì)準(zhǔn)結(jié)構(gòu)中組合來(lái)自框604和609的語(yǔ)音序列。通常,使用動(dòng)態(tài)規(guī)劃以及基于給定各種對(duì)準(zhǔn)下語(yǔ)音序列之間差異的成本函數(shù)來(lái)執(zhí)行該對(duì)準(zhǔn)。在框610,經(jīng)對(duì)準(zhǔn)語(yǔ)音單元重新在同一豎直列中。注意某些欄具有標(biāo)識(shí)沒(méi)有語(yǔ)音單元與之相關(guān)聯(lián)的空路徑的“-”,意思是該欄是可任選的或可跳過(guò)的。
框612示出由包括可從經(jīng)對(duì)準(zhǔn)結(jié)構(gòu)形成的可能語(yǔ)音序列的經(jīng)對(duì)準(zhǔn)結(jié)構(gòu)610構(gòu)建的單個(gè)圖表。框612表示語(yǔ)音單元可置于節(jié)點(diǎn)間路徑上的搜索結(jié)構(gòu)。在該結(jié)構(gòu)中,在從SLU引擎標(biāo)識(shí)的語(yǔ)音單元、基于語(yǔ)言的語(yǔ)音單元、以及由LTS引擎標(biāo)識(shí)的語(yǔ)音單元、基于文本的語(yǔ)音單元之間允許進(jìn)行轉(zhuǎn)移???12還示出選中路徑可包括“跳過(guò)”,其中該路徑中特定欄未包括語(yǔ)音單元。
如上所述,使用字的用戶發(fā)音和聲學(xué)模型來(lái)選擇語(yǔ)音序列或路徑。框614示出根據(jù)本發(fā)明的選中語(yǔ)音序列或路徑,且提供如下v-oy-s-eh-k-s-eh-m-eh-l。
注意最后路徑用由LTS引擎預(yù)測(cè)的語(yǔ)音序列開(kāi)始,而用由SLU引擎預(yù)測(cè)的語(yǔ)音序列結(jié)束。在現(xiàn)有技術(shù)中,這是不可能的。因而,本發(fā)明從結(jié)合了來(lái)自基于語(yǔ)言SLU引擎和基于文本LTS引擎的可能語(yǔ)音序列的單個(gè)圖表中選擇語(yǔ)音序列,以產(chǎn)生字的更精確發(fā)音。
類(lèi)音節(jié)單元(SLU)集圖7示出了構(gòu)建可用于本發(fā)明某些實(shí)施例中的類(lèi)音節(jié)單元(SLU)409的字典或集合的方法。通常,圖7的方法是有利的,因?yàn)樗恍枰Z(yǔ)言專(zhuān)用語(yǔ)言學(xué)規(guī)則。因而,圖7所示的方法可用于任何語(yǔ)言且要實(shí)現(xiàn)它相對(duì)便宜,因?yàn)樗恍枰渌椒?,特別是語(yǔ)言學(xué)基于規(guī)則方法所必需的熟練語(yǔ)言學(xué)家。
圖7的方法采用了互信息(MI)以構(gòu)建SLU集,并使用了類(lèi)似于用于不同環(huán)境的在題為“Modeling Out-of-vocabulary Words For Robust Speech Recognition”Issam Bazzi 2000年的博士論文中所述算法的算法。在本發(fā)明中,給定一大語(yǔ)音字典,例如約有5萬(wàn)或更多字的帶有語(yǔ)音描述的訓(xùn)練字典,預(yù)定或有限尺寸(例如1萬(wàn)單元)的類(lèi)音節(jié)單元集合得以構(gòu)建。
在框702,起始的SLU集S0等于音素集P={p1,p2,...pn},通常為在英語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中發(fā)現(xiàn)的40個(gè)音素,從而S0={s1,s2,...sm}={p1,P2,...pn},其中m和n是分別SLU和音素的數(shù)量,且開(kāi)始時(shí)m=n。
使(u1,u2)為當(dāng)前迭代中的任一對(duì)SLU。在框704,在字典條目中發(fā)現(xiàn)的語(yǔ)言學(xué)單元對(duì)(u1,u2)的互信息由以下等式進(jìn)行計(jì)算。
MI(u1,u2)=Pr(u1,u2)logPr(u1,u2)Pr(u1)Pr(u2)]]>等式1其中MI(u1,u2)是類(lèi)音節(jié)單元對(duì)(u1,u2)的互信息,Pr(u1,u2)是(u1,u2)的聯(lián)合概率,且Pr(u1)和Pr(u2)分別是u1和u2的單字母概率。
使用以下等式來(lái)計(jì)算單字母概率Pr(u1)和Pr(u2)Pr(u1)=Count(u1)Count(*)]]>等式2Pr(u2)=Count(u2)Count(*)]]>等式3其中Count(u1)和Count(u2)分別是在訓(xùn)練字典中發(fā)現(xiàn)類(lèi)音節(jié)單元u1和u2的次數(shù),而Count(*)是訓(xùn)練字典中類(lèi)音節(jié)單元實(shí)例的總數(shù)。(u1,u2)的聯(lián)合概率可由以下等式計(jì)算Pr(u1,u2)=Pr(u2|u1)Pr(u1)]]>=Count(u1,u2)Count(u1)Count(u1,*)Count(*)]]>=Count(u1,u2)Count(*)]]>等式4
其中Count(u1,u2)是(u1,u2)對(duì)在訓(xùn)練字典中一起(即相鄰)出現(xiàn)的次數(shù)。
在框706,選擇或標(biāo)識(shí)具有最大互信息的對(duì)(u1,u2)。在框708,帶有最多互信息的對(duì)(u1,u2)被并入新的更長(zhǎng)的類(lèi)音節(jié)單元u3。新類(lèi)音節(jié)單元u3替換或置換訓(xùn)練字典的字中的對(duì)(u1,u2)。
在框710,判定是否要中止迭代。在某些實(shí)施例中,可使用控制LSU最大長(zhǎng)度的參數(shù)。例如,最大類(lèi)音節(jié)單元長(zhǎng)度可設(shè)定為4個(gè)音素。如果達(dá)到了選中長(zhǎng)度,則中止對(duì)選中對(duì)的合并,而改為檢查具有最大互信息的下一對(duì)。如果不再有其它對(duì)或者如果SLU的數(shù)量達(dá)到所需數(shù)量、或者最多互信息降到某閾值之下,圖7的方法進(jìn)行到框712,其中SLU集S被輸出。否則,方法返回到框704,其中產(chǎn)生新u3之后重新計(jì)算類(lèi)音節(jié)單元的互信息,并重新計(jì)算受影響單元的單字母和雙字母計(jì)數(shù)。在一實(shí)施例中,在每次迭代中僅并入一對(duì)類(lèi)音節(jié)單元。然而,在其它實(shí)施例中,如果速度是關(guān)注對(duì)象,諸如在Bazzi的論文中,可在每次迭代中合并選定的對(duì)數(shù)(例如50對(duì))。
當(dāng)圖7的算法結(jié)束,輸入或訓(xùn)練字典被分成最終的SLU集。然后可從分段字典中訓(xùn)練類(lèi)音節(jié)單元n-字母,并以本發(fā)明實(shí)現(xiàn)之。已發(fā)現(xiàn)該數(shù)據(jù)驅(qū)動(dòng)方法能比基于規(guī)則的按音節(jié)發(fā)音方法獲得略好的精確度。然而,更重要的是,可不作代碼改變?cè)谌魏握Z(yǔ)言中使用該方法,因?yàn)樗恍枰Z(yǔ)言專(zhuān)用語(yǔ)言學(xué)規(guī)則。
盡管已參照特定實(shí)施例描述了本發(fā)明,本領(lǐng)域技術(shù)人員將連接可在形式和細(xì)節(jié)上作改變,不背離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種包括計(jì)算機(jī)可讀指令的計(jì)算機(jī)可讀介質(zhì),其特征在于,在實(shí)現(xiàn)所述指令時(shí)執(zhí)行的步驟包括產(chǎn)生字的基于語(yǔ)言的語(yǔ)音描述,而無(wú)需引用所述字的文本;基于所述字的文本產(chǎn)生所述字的基于文本的語(yǔ)音描述;在逐音素基礎(chǔ)上對(duì)準(zhǔn)所述基于語(yǔ)言的語(yǔ)音描述和所述基于文本的語(yǔ)音描述,以形成單個(gè)圖表;以及從所述單個(gè)圖表選擇語(yǔ)音描述。
2.如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括基于該字的用戶發(fā)音產(chǎn)生所述基于語(yǔ)言的語(yǔ)音描述。
3.如權(quán)利要求2所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括解碼代表所述字的用戶發(fā)音的語(yǔ)言信號(hào)以產(chǎn)生所述字的基于語(yǔ)言的語(yǔ)音描述。
4.如權(quán)利要求2所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,解碼語(yǔ)言信號(hào)包括從所述語(yǔ)言信號(hào)識(shí)別類(lèi)音節(jié)單元的序列。
5.如權(quán)利要求4所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括在解碼語(yǔ)言信號(hào)之前使用互信息來(lái)產(chǎn)生一類(lèi)音節(jié)單元集合,以標(biāo)識(shí)類(lèi)音節(jié)單元序列。
6.如權(quán)利要求5所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用互信息來(lái)產(chǎn)生類(lèi)音節(jié)單元包括計(jì)算訓(xùn)練字典中字分段單元對(duì)的互信息值;基于所述互信息值來(lái)選擇字分段單元對(duì);以及把所述字分段單元的選定對(duì)合并成類(lèi)音節(jié)單元。
7.如權(quán)利要求2所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,產(chǎn)生所述基于文本語(yǔ)音描述包括使用字母-聲音規(guī)則。
8.如權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,從所述單個(gè)圖表中選擇語(yǔ)音描述包括比較語(yǔ)言樣本和所述單個(gè)圖表中語(yǔ)音單元的聲學(xué)模型。
9.一種包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述指令用于執(zhí)行步驟包括接收用于要把語(yǔ)音發(fā)音添加到語(yǔ)音識(shí)別字典的字的文本;接收由某人發(fā)音所述字產(chǎn)生的語(yǔ)言信號(hào)的表示;把所述字的文本轉(zhuǎn)換成語(yǔ)音單元的至少一個(gè)基于文本的語(yǔ)音序列;從所述語(yǔ)言信號(hào)的表示中產(chǎn)生語(yǔ)音單元的基于語(yǔ)言的語(yǔ)音序列;把所述至少一個(gè)基于文本語(yǔ)音序列和基于語(yǔ)語(yǔ)言音序列的語(yǔ)音單元置入搜索結(jié)構(gòu),所述搜索結(jié)構(gòu)允許所述基于文本語(yǔ)音序列的語(yǔ)音單元和所述基于語(yǔ)語(yǔ)言音序列的語(yǔ)音單元之間的轉(zhuǎn)移;以及從所述搜索結(jié)構(gòu)選擇語(yǔ)音發(fā)音。
10.如權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,把所述語(yǔ)音單元置入搜索結(jié)構(gòu)中包括對(duì)準(zhǔn)所述基于語(yǔ)語(yǔ)言音序列和所述至少一個(gè)基于文本語(yǔ)音序列,以標(biāo)識(shí)作為彼此可選體的語(yǔ)音單元。
11.如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)準(zhǔn)所述基于語(yǔ)語(yǔ)言音序列和所述至少一個(gè)基于文本的語(yǔ)音序列包括計(jì)算兩個(gè)語(yǔ)音序列之間的最小距離。
12.如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,選擇所述語(yǔ)音發(fā)音部分地基于語(yǔ)言單元聲學(xué)模型和所述語(yǔ)言信號(hào)的表示之間的比較。
13.如權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,產(chǎn)生語(yǔ)音單元的基于語(yǔ)言的語(yǔ)音序列包括產(chǎn)生多個(gè)語(yǔ)音單元的可能語(yǔ)音序列;使用至少一個(gè)模型以為每個(gè)可能語(yǔ)音序列產(chǎn)生概率得分;以及選擇具有最高分的所述可能語(yǔ)音序列作為語(yǔ)音單元的所述基于語(yǔ)語(yǔ)言音序列。
14.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用至少一個(gè)模型包括使用聲學(xué)模型和語(yǔ)言模型。
15.如權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用語(yǔ)言模型包括使用基于類(lèi)音節(jié)單元的語(yǔ)言模型。
16.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,選擇語(yǔ)音發(fā)音包括基于至少一個(gè)模型對(duì)通過(guò)所述搜索結(jié)構(gòu)的路徑計(jì)分。
17.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述至少一個(gè)模型包括聲學(xué)模型。
18.如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述搜索結(jié)構(gòu)包含在所述基于文本的語(yǔ)音序列和所述基于語(yǔ)語(yǔ)言音序列中都發(fā)現(xiàn)的語(yǔ)音單元的單個(gè)路徑。
19.一種用于把字的聲學(xué)描述添加到語(yǔ)音識(shí)別詞典中的方法,其特征在于,所述方法包括基于所述字的文本產(chǎn)生基于文本的語(yǔ)音描述;產(chǎn)生基于文本的語(yǔ)音描述,而無(wú)需引用所述字的文本;在結(jié)構(gòu)中對(duì)準(zhǔn)所述基于文本的語(yǔ)音描述和所述基于語(yǔ)言的語(yǔ)音描述,所述結(jié)構(gòu)包括表示語(yǔ)音單元的路徑,至少一個(gè)來(lái)自所述基于文本的語(yǔ)音描述的語(yǔ)音單元的路徑被連接到來(lái)自所述基于語(yǔ)語(yǔ)言音描述的語(yǔ)音單元的路徑;通過(guò)所述結(jié)構(gòu)選擇路徑序列;以及基于所述選定的路徑序列產(chǎn)生所述字的聲學(xué)描述。
20.如權(quán)利要求19所述的方法,其特征在于,選擇路徑序列包括產(chǎn)生所述結(jié)構(gòu)中路徑的得分。
21.如權(quán)利要求20所述的方法,其特征在于,產(chǎn)生路徑的得分包括比較字的用戶發(fā)音和所述結(jié)構(gòu)中語(yǔ)音單元的模型。
22.如權(quán)利要求20所述的方法,其特征在于,還包括基于所述字的文本產(chǎn)生多個(gè)基于文本的語(yǔ)音描述。
23.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生基于語(yǔ)語(yǔ)言音描述包括解碼包括所述字的用戶發(fā)音的語(yǔ)言信號(hào)。
24.如權(quán)利要求23所述的方法,其特征在于,解碼語(yǔ)言信號(hào)包括使用類(lèi)音節(jié)單元的語(yǔ)言模型。
25.如權(quán)利要求24所述的方法,其特征在于,還包括跳過(guò)以下步驟構(gòu)建類(lèi)音節(jié)單元的所述語(yǔ)言模型計(jì)算訓(xùn)練字典中類(lèi)音節(jié)單元對(duì)的互信息值;基于所述互信息值選擇類(lèi)音節(jié)單元對(duì);以及移除所述選定對(duì),并用新的類(lèi)音節(jié)單元來(lái)置換訓(xùn)練字典中的所述被移除的選定對(duì)。
26.如權(quán)利要求24所述的方法,其特征在于,還包括重新計(jì)算所述訓(xùn)練字典中剩下的類(lèi)音節(jié)單元對(duì)的互信息值;基于所述經(jīng)重新計(jì)算的互信息值選擇新的類(lèi)音節(jié)單元對(duì);以及移除所述新的類(lèi)音節(jié)單元對(duì),并用第二個(gè)新的類(lèi)音節(jié)單元來(lái)置換訓(xùn)練字典中的所述新的類(lèi)音節(jié)單元對(duì)。
27.如權(quán)利要求24所述的方法,其特征在于,還包括使用所述訓(xùn)練字典以產(chǎn)生類(lèi)音節(jié)單元的語(yǔ)言模型。
全文摘要
方法和計(jì)算機(jī)可讀介質(zhì)把字的文本和該字的用戶發(fā)音轉(zhuǎn)換成語(yǔ)音描述,以添加到語(yǔ)音識(shí)別詞典中。開(kāi)始,產(chǎn)生至少兩個(gè)的多個(gè)可能語(yǔ)音描述。通過(guò)解碼代表該字的用戶發(fā)音的語(yǔ)音信號(hào)形成一個(gè)語(yǔ)音描述。從該字的文本產(chǎn)生至少一個(gè)其它語(yǔ)音描述。包括基于語(yǔ)言和基于文本的語(yǔ)音描述的多個(gè)可能序列,基于其對(duì)用戶發(fā)音的對(duì)應(yīng)物,在單個(gè)圖表中進(jìn)行對(duì)準(zhǔn)和計(jì)分。然后選擇最高分的語(yǔ)音描述作為語(yǔ)音識(shí)別詞典中的條目。
文檔編號(hào)G10L15/18GK1667700SQ20051005453
公開(kāi)日2005年9月14日 申請(qǐng)日期2005年3月10日 優(yōu)先權(quán)日2004年3月10日
發(fā)明者M·-Y·黃 申請(qǐng)人:微軟公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
晋宁县| 邹平县| 敦化市| 朔州市| 儋州市| 南郑县| 成都市| 林甸县| 新乡市| 江西省| 乡宁县| 嘉峪关市| 遵义市| 新安县| 日土县| 健康| 太和县| 兰溪市| 南城县| 江门市| 华安县| 黄山市| 乌兰察布市| 霍州市| 独山县| 平和县| 尼木县| 莲花县| 湖口县| 金堂县| 清涧县| 宜川县| 杭锦旗| 那坡县| 扶沟县| 宜兴市| 观塘区| 安乡县| 锦州市| 余庆县| 饶河县|