專利名稱:基于話音特征自動(dòng)標(biāo)識(shí)電話呼叫者的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于話音特征對(duì)呼入電話呼叫的呼叫者進(jìn)行自動(dòng)標(biāo)識(shí)的計(jì)算機(jī)實(shí)現(xiàn)的方法和裝置,尤其涉及路由和篩選呼入電話呼叫的計(jì)算機(jī)化語(yǔ)音識(shí)別技術(shù)。
背景技術(shù):
在電話通信系統(tǒng)中,呼叫中心通常被用于基于呼叫者對(duì)自動(dòng)提示的響應(yīng)來(lái)路由和預(yù)篩選呼叫。這種提示—響應(yīng)機(jī)制通常非常耗時(shí),因?yàn)楹艚姓咴诒宦酚傻剿谕暮艚薪邮照呋蛐畔?shù)據(jù)庫(kù)前必須通過(guò)大量提示。另外,這種機(jī)制依賴呼叫者以正確地遵循提示命令。如果呼叫者不和提示命令合作,則呼叫就不能被準(zhǔn)確地路由。類似地,呼叫篩選機(jī)制依賴于呼叫者真實(shí)地響應(yīng)篩選命令的合作。這使呼叫者和接收者難以準(zhǔn)確且有效地路由和篩選呼叫。
所以,已提出了語(yǔ)音識(shí)別系統(tǒng)以輔助呼叫路由過(guò)程。但是,這種語(yǔ)音識(shí)別系統(tǒng)也依賴于提示—響應(yīng)機(jī)制,其中,呼叫者必須響應(yīng)預(yù)定提示。例如,系統(tǒng)可能要求呼叫者陳述呼叫者的名字和/或陳述表示該呼叫的主題或所期望的接收者的身份的預(yù)定的單詞或單詞序列。再一次,這些系統(tǒng)只有在呼叫者真實(shí)地響應(yīng)預(yù)定提示時(shí)才有效。另外,對(duì)不同呼叫者的話音輸入特征的廣泛范圍,用來(lái)確定語(yǔ)音的內(nèi)容的語(yǔ)音識(shí)別模型必須能夠準(zhǔn)確對(duì)這些內(nèi)容進(jìn)行分段。所以,這種系統(tǒng)可能還保持耗時(shí)或不準(zhǔn)確,并可能被不合作的呼叫者毫不費(fèi)力地繞過(guò)。
所以,需要基于話音特征對(duì)呼入電話呼叫進(jìn)行自動(dòng)預(yù)篩選和路由的改進(jìn)的方法和裝置。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)實(shí)施例針對(duì)一種對(duì)從呼叫者到接收者的呼叫的呼叫者進(jìn)行標(biāo)識(shí)的方法。從呼叫者接收話音輸入,并將話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型,以得到多個(gè)相應(yīng)的聲學(xué)得分。多個(gè)聲學(xué)模型包括通用聲學(xué)模型和任何先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型?;诙鄠€(gè)聲學(xué)得分,呼叫者被標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一或新的呼叫者。如果呼叫者被標(biāo)識(shí)為新的呼叫者,就為該新的呼叫者生成一新的聲學(xué)模型,它對(duì)該新的呼叫者是專用的。
本發(fā)明的另一個(gè)實(shí)施例針對(duì)一種對(duì)從呼叫者到接收者的呼叫的呼叫者進(jìn)行標(biāo)識(shí)的系統(tǒng)。該系統(tǒng)包括接收來(lái)自呼叫者的話音輸入的接收器,和存儲(chǔ)多個(gè)聲學(xué)模型的聲學(xué)模型庫(kù)。多個(gè)聲學(xué)模型包括通用聲學(xué)模型和任何先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型。該系統(tǒng)還包括用于把話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型以產(chǎn)生多個(gè)對(duì)應(yīng)的聲學(xué)得分,并用于基于多個(gè)聲學(xué)得分把呼叫者標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一或新的呼叫者的模塊。如果通用聲學(xué)模型的聲學(xué)得分好于多個(gè)先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型的聲學(xué)得分,則聲學(xué)模型發(fā)生器就為新的呼叫者生成新的聲學(xué)模型。
本發(fā)明的又一實(shí)施例針對(duì)一種包含計(jì)算機(jī)可執(zhí)行的指令的計(jì)算機(jī)可讀媒質(zhì),當(dāng)由計(jì)算機(jī)執(zhí)行指令時(shí),執(zhí)行標(biāo)識(shí)呼叫的呼叫者的方法。該方法包括接收來(lái)自呼叫者的話音輸入,和把話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型,以得到多個(gè)對(duì)應(yīng)的聲學(xué)得分。多個(gè)聲學(xué)模型包括通用聲學(xué)模型和任何先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型?;诙鄠€(gè)聲學(xué)得分,呼叫者被標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一或新的呼叫者。如果呼叫者被標(biāo)識(shí)為新的呼叫者,就為這個(gè)新的呼叫者生成新的聲學(xué)模型,它對(duì)新的呼叫者是專用的。
本發(fā)明的再一實(shí)施例針對(duì)一種對(duì)呼叫者進(jìn)行標(biāo)識(shí)的方法,其中,從呼叫者接收話音輸入。使用呼叫者不相關(guān)的通用聲學(xué)模型,話音輸入被分割成一已識(shí)別語(yǔ)音單元序列。話音輸入的特征被應(yīng)用到在多個(gè)聲學(xué)模型中的已識(shí)別語(yǔ)音單元的語(yǔ)音單元模型序列,其中,多個(gè)聲學(xué)模型包括通用聲學(xué)模型和任何先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型?;谠捯糨斎氲奶卣魑呛隙鄠€(gè)聲學(xué)模型的程度,呼叫者被標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一或新的呼叫者。
圖1是按照本發(fā)明的一個(gè)實(shí)施例以常規(guī)個(gè)人計(jì)算機(jī)形式實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)的方框圖。
圖2是按照本發(fā)明的一個(gè)實(shí)施例標(biāo)識(shí)呼叫者的模塊的系統(tǒng)的更詳細(xì)的方框圖。
圖3所示是作為時(shí)間的函數(shù)的從呼叫者接收的聲學(xué)輸入“波”的波形圖。
圖4所示是為圖3所示的聲學(xué)輸入生成的一組特征矢量的圖。
圖5所示是一個(gè)語(yǔ)音單元的基本隱馬爾可夫模型(HMM)的狀態(tài)圖。
圖6所示是可以用在本發(fā)明的一個(gè)實(shí)施例中的簡(jiǎn)化語(yǔ)言模型的例子的圖。
圖7所示是按照本發(fā)明的一個(gè)實(shí)施例對(duì)到接收者的電話呼叫的呼叫者進(jìn)行標(biāo)識(shí)的計(jì)算機(jī)執(zhí)行的過(guò)程的流程圖。
圖8所示是按照本發(fā)明的一個(gè)實(shí)施例在圖7所示的過(guò)程中檢測(cè)新的呼叫者或先前被標(biāo)識(shí)的呼叫者的流程圖。
圖9所示是按照本發(fā)明的一個(gè)實(shí)施例訓(xùn)練呼叫者專用語(yǔ)言模型以按呼叫的內(nèi)容檢測(cè)呼叫者的流程圖。
具體實(shí)施例方式
圖1和相關(guān)的論述是為了提供可以在其中實(shí)現(xiàn)本發(fā)明的合適的計(jì)算環(huán)境的簡(jiǎn)短概括的描述。雖然并非所需,本發(fā)明將至少部分地在例如由個(gè)人計(jì)算機(jī)或其它計(jì)算設(shè)備執(zhí)行的程序模塊等計(jì)算機(jī)可執(zhí)行指令的通用環(huán)境中被描述。一般而言,程序模塊包括完成特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。另外,本領(lǐng)域的技術(shù)人員會(huì)理解,本發(fā)明可以在其它計(jì)算機(jī)系統(tǒng)配置中被實(shí)現(xiàn),包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器或可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)和大型計(jì)算機(jī)等等。本發(fā)明也可以在由通過(guò)通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備完成任務(wù)的分布式計(jì)算環(huán)境中被實(shí)現(xiàn)。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備兩者中。
參考圖1,實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)包括常規(guī)個(gè)人計(jì)算機(jī)20形式的通用計(jì)算設(shè)備,包括處理單元(CPU)21、系統(tǒng)存儲(chǔ)器22和把包括系統(tǒng)存儲(chǔ)器22在內(nèi)的各種系統(tǒng)元件耦合到處理單元21的系統(tǒng)總線23。系統(tǒng)總線23可以是任何幾種總線結(jié)構(gòu)的一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和使用任何各種總線結(jié)構(gòu)的局部總線。系統(tǒng)存儲(chǔ)器22包括只讀存儲(chǔ)器(ROM)24和隨機(jī)存取存儲(chǔ)器(RAM)25?;据斎?輸出(BIOS)26,包含例如在啟動(dòng)時(shí)幫助在個(gè)人計(jì)算機(jī)20中的元件之間傳輸信息的基本例程,被存儲(chǔ)在ROM 24中。個(gè)人計(jì)算機(jī)20還包括用于對(duì)硬盤(未示出)進(jìn)行讀寫的硬盤驅(qū)動(dòng)器27、用于對(duì)可移動(dòng)磁盤29進(jìn)行讀寫的磁盤驅(qū)動(dòng)器28、以及用于對(duì)諸如CD ROM或其它光媒質(zhì)等可移動(dòng)光盤31進(jìn)行讀寫的光盤驅(qū)動(dòng)器30。硬盤驅(qū)動(dòng)器27、磁盤驅(qū)動(dòng)器28和光盤驅(qū)動(dòng)器30分別通過(guò)硬盤驅(qū)動(dòng)器接口32、磁盤驅(qū)動(dòng)器接口33和光盤驅(qū)動(dòng)器接口34連接到系統(tǒng)總線23。驅(qū)動(dòng)器和關(guān)聯(lián)的計(jì)算機(jī)可讀媒質(zhì)為個(gè)人計(jì)算機(jī)20提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的非易失性存儲(chǔ)。
雖然這里描述的示例性環(huán)境使用了硬盤、可移動(dòng)磁盤29和可移動(dòng)光盤31,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,能夠存儲(chǔ)計(jì)算機(jī)能夠存取的數(shù)據(jù)的其它類型的計(jì)算機(jī)可讀媒質(zhì)也可以被使用在示例性操作環(huán)境中,例如磁帶盒、閃存卡、數(shù)字視頻盤、柏努利盒式磁帶、隨機(jī)存取存儲(chǔ)器(RAM)和只讀存儲(chǔ)器(ROM)等。
許多程序模塊可以被存儲(chǔ)在硬盤、磁盤29、光盤31、ROM 24或RAM 25中,包括操作系統(tǒng)35、一個(gè)或多個(gè)應(yīng)用程序36、其它程序模塊37和程序數(shù)據(jù)38。用戶可以通過(guò)諸如鍵盤40、定位設(shè)備42和麥克風(fēng)43等本地輸入設(shè)備向個(gè)人計(jì)算機(jī)20輸入命令和信息。其它輸入設(shè)備包括操縱桿、游戲墊、圓盤式衛(wèi)星天線和掃描儀等。這些和其它輸入設(shè)備通常通過(guò)被耦合到系統(tǒng)總線23的串行端口接口46被連接到處理單元21,但也可以通過(guò)其它接口,例如聲卡、并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器47或其它類型的顯示設(shè)備通過(guò)諸如視頻適配器48等接口被連接到系統(tǒng)總線23。除了顯示器47之外,個(gè)人計(jì)算機(jī)通??砂ㄆ渌鈬敵鲈O(shè)備,例如揚(yáng)聲器45和打印機(jī)(未示出)。
個(gè)人計(jì)算機(jī)20可以在使用邏輯連接到例如遠(yuǎn)程計(jì)算機(jī)49等一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的聯(lián)網(wǎng)環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)49可以是另一臺(tái)個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括上面相對(duì)個(gè)人計(jì)算機(jī)20描述的許多或全部元件,雖然在圖1中只示出存儲(chǔ)器存儲(chǔ)設(shè)備50。圖1中描述的邏輯連接包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)。這些聯(lián)網(wǎng)環(huán)境常見(jiàn)于辦公室、企業(yè)范圍計(jì)算機(jī)內(nèi)聯(lián)和因特網(wǎng)。
當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),個(gè)人計(jì)算機(jī)20通過(guò)網(wǎng)絡(luò)接口或適配器53被連接到局域網(wǎng)51。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),個(gè)人計(jì)算機(jī)20通常包括調(diào)制解調(diào)器54或其它裝置,以通過(guò)廣域網(wǎng)52,如因特網(wǎng)建立通信。調(diào)制解調(diào)器54可以內(nèi)置或外置,通過(guò)串行端口接口46被連接到系統(tǒng)總線23。在網(wǎng)絡(luò)環(huán)境中,相對(duì)個(gè)人計(jì)算機(jī)20描述的程序模塊或其部分,可以被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中??梢岳斫猓揪W(wǎng)絡(luò)連接是示例性的,也可使用在計(jì)算機(jī)之間建立通信鏈路的其它方式。例如,在網(wǎng)絡(luò)的一個(gè)或多個(gè)部分之間可建立無(wú)線通信鏈路。
雖然圖1示出示例性環(huán)境,但是本發(fā)明不限于數(shù)字計(jì)算環(huán)境。具體地說(shuō),本發(fā)明可以在模擬設(shè)備或混合信號(hào)(模擬和數(shù)字)設(shè)備上被操作。另外,例如,本發(fā)明可以在單個(gè)集成電路上實(shí)現(xiàn)。模塊可以用硬件、軟件、或硬件和軟件的組合來(lái)實(shí)現(xiàn)。
如上所述,計(jì)算機(jī)20通常包括各種計(jì)算機(jī)可讀媒質(zhì)。計(jì)算機(jī)可讀媒質(zhì)可以是可以由計(jì)算機(jī)20存取的任何可用媒質(zhì),包括易失和非易失媒質(zhì)、可移動(dòng)和不可移動(dòng)媒質(zhì)。作為例子而非局限,計(jì)算機(jī)可讀媒質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)媒質(zhì)和通信媒質(zhì)。計(jì)算機(jī)存儲(chǔ)媒質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)來(lái)存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失和非易失、可移動(dòng)和不可移動(dòng)媒質(zhì)。計(jì)算機(jī)存儲(chǔ)媒質(zhì)包括但不限于RAM、ROM、EEPROM、閃存或其它存儲(chǔ)技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)器、磁盒、磁帶、磁盤存儲(chǔ)器或其它磁存儲(chǔ)設(shè)備、或其它任何可以用來(lái)存儲(chǔ)所需信息并可以由計(jì)算機(jī)20存取的媒質(zhì)。通信媒質(zhì)通常在諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)中包含計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任何信息傳遞媒質(zhì)。術(shù)語(yǔ)“已調(diào)制數(shù)據(jù)信號(hào)”是指其一個(gè)或多個(gè)特征以在信號(hào)中編碼信息的方式被設(shè)置或改變的信號(hào)。作為例子而非局限,通信媒質(zhì)包括諸如有線網(wǎng)絡(luò)或直接有線連接等有線媒質(zhì),和諸如聲學(xué)、射頻、紅外或其它無(wú)線媒質(zhì)等無(wú)線媒質(zhì)。上面任何媒質(zhì)的組合也應(yīng)該被包括在計(jì)算機(jī)可讀媒質(zhì)的范圍內(nèi)。
圖2提供了用于按照本發(fā)明的一個(gè)實(shí)施例標(biāo)識(shí)呼叫者的可以在參考圖1所描述的通用環(huán)境中實(shí)現(xiàn)的模塊100的系統(tǒng)的更詳細(xì)的方框圖。系統(tǒng)100包括接收器102,用于接收從呼叫者到接收者的呼叫的輸入語(yǔ)音信號(hào)。輸入語(yǔ)音信號(hào)可以是模擬信號(hào)或數(shù)字信號(hào)的任何形式。輸入語(yǔ)音信號(hào)可以通過(guò)任何通信方法經(jīng)由任何傳輸媒質(zhì)被傳輸?shù)浇邮掌?02?!敖邮照摺笨梢允抢鐐€(gè)別人、一群人、呼叫路由位置或信息數(shù)據(jù)庫(kù)。
接收器102可以包括任何合適的接收器,以接收正在傳輸?shù)恼Z(yǔ)音輸入信號(hào)的類型。例如,隨著啟用電話的個(gè)人計(jì)算機(jī)(PC)和附加電話的袖珍PC的出現(xiàn),接收器102可以包括用于耦合到LAN 51的網(wǎng)絡(luò)適配器53,或用于耦合到調(diào)制解調(diào)器54和WAN 52的串行端口接口46。
如果輸入語(yǔ)音信號(hào)是模擬信號(hào),則系統(tǒng)100包括?!獢?shù)轉(zhuǎn)換器(A/D)104,以把信號(hào)轉(zhuǎn)換為一系列數(shù)字?jǐn)?shù)值。在一個(gè)實(shí)施例中,A/D轉(zhuǎn)換器104以16kHz對(duì)模擬信號(hào)進(jìn)行采樣,從而產(chǎn)生每秒16千比特的語(yǔ)音數(shù)據(jù)。但是,也可以使用任何其它采樣率。
表示輸入語(yǔ)音信號(hào)樣值的數(shù)字信號(hào)被提供被計(jì)算機(jī)20。計(jì)算機(jī)20包括特征提取模塊106、語(yǔ)音識(shí)別器(例如解碼器)107、訓(xùn)練器模塊108、詞典模塊109、語(yǔ)言模型庫(kù)110、聲學(xué)模型庫(kù)111、呼叫者標(biāo)識(shí)模塊112、呼叫路由器113和提示—響應(yīng)模塊114。計(jì)算機(jī)20的元件被耦合到例如輸出設(shè)備115和I/O設(shè)備116。
應(yīng)該注意到,整個(gè)系統(tǒng)100或系統(tǒng)100的一部分可以在圖1所示的環(huán)境中實(shí)現(xiàn)。特征提取模塊106和訓(xùn)練器模塊108可以是計(jì)算機(jī)20中的硬件模塊或存儲(chǔ)在圖1所示的任何信息存儲(chǔ)設(shè)備中并可以由CPU21或另一合適的處理器存取的軟件模塊。另外,詞典存儲(chǔ)模塊109、聲學(xué)模型111和語(yǔ)言模型110也可以較佳地存儲(chǔ)在圖1所示的任何合適的存儲(chǔ)設(shè)備中。另外,搜索引擎107可以在CPU 21中實(shí)現(xiàn),CPU 21可以包括一個(gè)或多個(gè)處理器,或可以由個(gè)人計(jì)算機(jī)20使用的專用語(yǔ)音識(shí)別處理器實(shí)現(xiàn)。另外,輸出設(shè)備112和I/O設(shè)備113可以包括圖1所示的任何I/O設(shè)備,例如鍵盤40、定位設(shè)備43、監(jiān)視器47、打印機(jī)或圖1所示的任何存儲(chǔ)設(shè)備。
由接收器102接收或由A/D轉(zhuǎn)換器104生成的數(shù)字信號(hào)被提供給特征提取模塊106。在一個(gè)實(shí)施例中,特征提取模塊106包括常規(guī)陣列處理器,它對(duì)數(shù)字信號(hào)進(jìn)行頻譜分析并為頻譜的每一頻段計(jì)算幅度值。
特征提取模塊106把數(shù)字信號(hào)分割成幀,每幀包括多個(gè)數(shù)字樣點(diǎn)。在一個(gè)實(shí)施例中,每幀持續(xù)時(shí)間約是10毫秒。然后,幀被編碼成反映多個(gè)頻段的頻譜特征的特征矢量。在離散和半連續(xù)隱馬爾可夫建模的情況下,特征提取模塊106也使用矢量量化技術(shù)和源自訓(xùn)練數(shù)據(jù)的碼本把特征矢量編碼成一個(gè)或多個(gè)碼字。這樣,特征提取模塊106在其輸出為每一發(fā)音提供特征矢量(或碼字)。特征提取模塊106較佳地以例如約每10毫秒一個(gè)特征矢量的速率提供特征矢量。
特征提取模塊的例子包括用于執(zhí)行線性預(yù)測(cè)編碼(LPC)、LPC導(dǎo)出的倒譜、感知線性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征提取、Mel-頻率倒譜系數(shù)(MFCC)特征提取的模塊。注意,本發(fā)明不限于這些特征提取模塊,在本發(fā)明的上下文中其它模塊也可以被使用。
由特征提取模塊106產(chǎn)生的特征矢量流被提供給語(yǔ)音識(shí)別器107,語(yǔ)音識(shí)別器107基于特征矢量流、庫(kù)111中的一個(gè)或多個(gè)聲學(xué)模型、庫(kù)110中的一個(gè)或多個(gè)語(yǔ)言模型和詞典105來(lái)標(biāo)識(shí)最可能的語(yǔ)音單元序列,例如單詞或音素。呼叫者標(biāo)識(shí)模塊112通過(guò)把話音輸入的特征矢量應(yīng)用到由語(yǔ)音識(shí)別器107標(biāo)識(shí)的存儲(chǔ)在庫(kù)111中的通用和呼叫者專用的語(yǔ)音單元模型,把呼叫者標(biāo)識(shí)為新呼叫者或先前被標(biāo)識(shí)的呼叫者。在一個(gè)實(shí)施例中,呼叫者標(biāo)識(shí)模塊112也使用存儲(chǔ)在庫(kù)110中的通用和呼叫者專用的語(yǔ)言模型以幫助標(biāo)識(shí)。模塊112輸出呼叫者身份和/或最可能的發(fā)音單詞序列的文本到呼叫路由器113,或把這些結(jié)果存儲(chǔ)在例如圖1所示的存儲(chǔ)設(shè)備之一中。結(jié)果也可以通過(guò)I/O設(shè)備115被輸出到用戶或操作者。然后呼叫路由器113可以基于呼叫者身份和/或呼叫的內(nèi)容篩選該呼叫或把該呼叫路由到一個(gè)或多個(gè)選中的目標(biāo)。
聲學(xué)模型是指示特征矢量序列由在假設(shè)語(yǔ)音單元序列中發(fā)現(xiàn)的特定聲學(xué)單元序列產(chǎn)生的可能性的模型。在本發(fā)明的某些實(shí)施例中,每一語(yǔ)音單元可以包括任何常用的聲學(xué)單元,例如音位、音素、雙音素、音節(jié)或單詞。在某些實(shí)施例中,每一語(yǔ)音單元是一組子單元的組合。
如上所述,聲學(xué)模型庫(kù)111包括每一先前被標(biāo)識(shí)的呼叫者的至少一個(gè)聲學(xué)模型,和代表各種說(shuō)話人的語(yǔ)音特征的通用模型。每一聲學(xué)模型包括所要檢測(cè)的多個(gè)預(yù)定義語(yǔ)音單元的一組模型,例如隱馬爾可夫模型(HMM)。例如,每一HMM可以模擬單個(gè)音素。在一個(gè)實(shí)施例中,語(yǔ)音識(shí)別器107把自特征提取模塊106接收的特征矢量應(yīng)用到通用聲學(xué)模型,以確定表征特示矢量,從而表示接收自呼叫者的發(fā)音的最可能音素。
在被用來(lái)解碼輸入特征矢量序列之前,訓(xùn)練典型聲學(xué)模型。例如,在圖2中,這種訓(xùn)練可以由訓(xùn)練器108基于訓(xùn)練文本118、來(lái)自聲學(xué)模型的以前的模型參數(shù)和來(lái)自特征提取器106的訓(xùn)練特征矢量來(lái)完成。在本發(fā)明的某些實(shí)施例中,通用聲學(xué)模型使用代表一組通用發(fā)言人的通用訓(xùn)練文本來(lái)訓(xùn)練。然后這個(gè)通用聲學(xué)模型可以用來(lái)形成呼叫者專用聲學(xué)模型,其中,用為該呼叫者生成的每組特征矢量來(lái)更新HMM。在一個(gè)實(shí)施例中,基于單個(gè)發(fā)音,例如一個(gè)或多個(gè)音素的發(fā)音,可以為特定呼叫者生成唯的一聲學(xué)模型。隨著從該呼叫者接收到更多呼叫和發(fā)音,該呼叫者對(duì)應(yīng)的聲學(xué)模型繼續(xù)被更新。
語(yǔ)音識(shí)別器引擎107也可以訪問(wèn)存儲(chǔ)在庫(kù)110中的一個(gè)或多個(gè)語(yǔ)言模型,以幫助標(biāo)識(shí)由輸入數(shù)據(jù)表示的最可能的單詞或單詞序列。庫(kù)110可以存儲(chǔ)一通用、呼叫者不相關(guān)的語(yǔ)言模型,和/或多個(gè)呼叫者專用的語(yǔ)言模型。在一個(gè)實(shí)施例中,每一語(yǔ)言模型包括與上下文無(wú)關(guān)的語(yǔ)法(CFG)或統(tǒng)計(jì)n字母組(n-gram)模型,例如三字母組。三字母組模型基于序列的三單詞片段的組合概論來(lái)確定單詞序列的概率。這種語(yǔ)言模型可以被修改為向每一先前被標(biāo)識(shí)的呼叫者提供唯一模型,如下文詳細(xì)論述的。呼叫者專用語(yǔ)言模型可以被用來(lái)幫助計(jì)算機(jī)20標(biāo)識(shí)由特定呼叫者經(jīng)常使用的單詞或主題。
通用語(yǔ)言模型可以包括六萬(wàn)單詞的三字母組語(yǔ)言模型,例如,源自北美商務(wù)新聞,并在題為“CSR-III文本語(yǔ)言模型(CSR-III Text Language Model)”,賓夕法尼亞大學(xué),1994,的出版物中詳細(xì)陳述。
圖3-5說(shuō)明一組特征矢量的形成,以及隱馬爾可夫模型的細(xì)節(jié),它們可以按照本發(fā)明的一個(gè)實(shí)施例被使用。圖3所示是從呼叫者接收的作為時(shí)間的函數(shù)的聲學(xué)輸入“波”的波形圖。如上所述,聲學(xué)輸入被劃分成多個(gè)幀,其每一個(gè)長(zhǎng)例如10毫秒。特征提取模塊106為每一10毫秒幀生成一組特征矢量O[k],k=1,2,...,如圖4所示。特征矢量O[k]通常是聲學(xué)輸入“波”的快速傅里葉變換(FFT)的某種變換,以10毫秒的時(shí)隙被加窗。FFT系數(shù)反映語(yǔ)音特征,例如說(shuō)話人的基音或聲腔。然后,這些特征矢量可以被應(yīng)用到對(duì)應(yīng)聲學(xué)模型的隱馬爾可夫模型。
圖5所示是一個(gè)語(yǔ)音單元(例如音素、音位或三字母組等)的基本隱馬爾可夫模型(HMM)的狀態(tài)圖?;綡MM模型是語(yǔ)言不相關(guān)單元,它表示發(fā)音的聲學(xué)特性。每一狀態(tài)可以保持在當(dāng)前狀態(tài),或轉(zhuǎn)移到模型中的下一個(gè)狀態(tài)。每一語(yǔ)音單元有三個(gè)狀態(tài),在圖5中被標(biāo)記為S1、S2和S3,表示語(yǔ)音單元的“開始”狀態(tài)、“主要”狀態(tài)和“結(jié)束”狀態(tài)。每一狀態(tài)可以只保持在當(dāng)前狀態(tài),或沿圖5的箭頭轉(zhuǎn)移到下一個(gè)狀態(tài)。從一個(gè)狀態(tài)向下一個(gè)狀態(tài)的轉(zhuǎn)移有P(S1|S2)的概率,P(S1|S2)表示在給定當(dāng)前狀態(tài)S1時(shí)從狀態(tài)S1向狀態(tài)S2轉(zhuǎn)移的條件概率。每一狀態(tài)還有概率分布B[i],i=1到3,表示任何特征矢量O[k]的“輸出概率”(在0和1之間的數(shù)),它反映觀察到任何可能的特征矢量的可能性。例如,概率分布可以是高斯分布。
庫(kù)111中的每一聲學(xué)模型包括每一音素的這種隱馬爾可夫模型的集合。例如,之前有音素“B”并之后有音素“H”的音素“AX”(符號(hào)B-AX+H,如“bah”中)和之前有音素“L”并之后有音素“H”的音素“AX”(符號(hào)L-AX+H,如“blah”的最后部分中)不同。
在使用現(xiàn)有聲學(xué)模型進(jìn)行語(yǔ)音識(shí)別時(shí),系統(tǒng)的初始狀態(tài)以概率1為S1,而概率P[i|j]和概率密度B[i]對(duì)HMM中的每一狀態(tài)是已知的。在識(shí)別音素時(shí),聲學(xué)輸入被轉(zhuǎn)換成特征矢量o[k]的序列,語(yǔ)音識(shí)別器107(在圖2中示出)確定給定當(dāng)前HMM模型時(shí)的概率P[o[k]|模型]是多少。
換言之,語(yǔ)音識(shí)別器107確定由輸入特征矢量序列表示的聲音實(shí)際上有多大可能是由考慮中的當(dāng)前HMM建模的音素。由具有最大概率的HMM建模的音素被標(biāo)識(shí)為是所發(fā)出的音素。
在訓(xùn)練聲學(xué)模型時(shí),例如在訓(xùn)練通用模型或更新呼叫者專用的模型時(shí),假設(shè)聲學(xué)輸入“波”以及隨后的特征矢量o[k]序列是已知的。語(yǔ)音識(shí)別器107(或呼叫者標(biāo)識(shí)模塊112)生成得觀察每一音素的O[k]輸出序列的最大概率的模型(每一狀態(tài)的P′[i|j]和B′[i])。例如,在一個(gè)實(shí)施例中,呼叫者標(biāo)識(shí)模塊112使用鮑姆—韋爾奇(Baum-Welch)HMM重估方法來(lái)更新或者調(diào)整通用聲學(xué)模型,以反映特定說(shuō)話人的特征。例如,特定說(shuō)話人的聲學(xué)模型最初可以包括通用聲學(xué)模型的通用HMM模型,然后,在當(dāng)前呼叫中發(fā)生的音素的HMM模型可以通過(guò)鮑姆—韋爾奇HMM重估方法來(lái)更新,以反映該呼叫者的語(yǔ)音特征。
圖6所示是可以在本發(fā)明的一個(gè)實(shí)施例使用中的簡(jiǎn)化語(yǔ)言模型的例子的圖。在構(gòu)建三字母組語(yǔ)言模型時(shí),第一步是收集代表語(yǔ)言的大量文本。第二步是構(gòu)建每一單詞W的頻數(shù)P1[W]、每一雙字母組(詞對(duì))的頻數(shù)P2[W|W0]、每一三字母組的頻數(shù)P3[W|W1,W2]。語(yǔ)音識(shí)別器也可以由具有對(duì)應(yīng)語(yǔ)言中可能單詞列表的詞典(WD)進(jìn)行限制。下一步,使用折扣策略(discounting strategy)來(lái)避免使用所有可能的雙或三單詞序列,因?yàn)樗鼈兊臄?shù)量太大。詞典中的所有單詞都被分解成音素,以由類似于圖5所示的音素HMM來(lái)表示其特征。
下一步,通過(guò)粘合音素HMM并調(diào)整初始概率,以按照該HMM模型的P[W|W1,W0]進(jìn)入它們的每一起始狀態(tài)(S1),從而創(chuàng)建主HMM。在圖6所示的簡(jiǎn)化例子中,只看到過(guò)兩個(gè)單詞“at”和“the”,每個(gè)詞只看到過(guò)一次。這樣,主HMM將會(huì)有獨(dú)特的啟始狀態(tài)S0,它具有初始概率“1”,以及到“AX”音素HMM和到“TH”音素HMM的轉(zhuǎn)移概率“0.5”。由于只有兩個(gè)詞,“AX”HMM有到“T”HMM的轉(zhuǎn)移概率1.0,“TH”HMM有到“EH”HMM的轉(zhuǎn)移概率1.0?!癟H”HMM和“EH”HMM轉(zhuǎn)移到結(jié)束狀態(tài)S3。
在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)調(diào)整通用語(yǔ)言模型來(lái)為每一唯一標(biāo)識(shí)的呼叫者建立唯一語(yǔ)言模型。通過(guò)使用所識(shí)別的短語(yǔ)以及從該呼叫者的呼入中收集的“大量文本”來(lái)調(diào)整通用語(yǔ)言模型。這個(gè)過(guò)程并不發(fā)現(xiàn)新單詞,而是發(fā)現(xiàn)新概率P[W|W1,W0],因?yàn)槿魏翁囟ê艚姓弑绕渌艚姓吒锌赡苁褂媚承﹩卧~的組合。另外,在所有實(shí)施例中不需要在常規(guī)意義上收集“單詞”。在一個(gè)實(shí)施例中,語(yǔ)言模型以與微軟公司供應(yīng)的有其口述語(yǔ)言模型的MS識(shí)別器相似的方式收集“單詞”。在可選實(shí)施例中,語(yǔ)言模型可以僅收集“音素”作為“單詞”的音素小組,這和有其發(fā)音語(yǔ)言模型的MS識(shí)別器相似。后面的實(shí)施例有即使呼叫者發(fā)出諸如名字等不知道的單詞也能提供音素序列的有用概率的優(yōu)點(diǎn),但準(zhǔn)確度較低。
圖7所示是由計(jì)算機(jī)執(zhí)行的過(guò)程200的流程圖,過(guò)程200可以作為指令被存儲(chǔ)在例如計(jì)算機(jī)可讀媒質(zhì)中并可以由計(jì)算機(jī)20執(zhí)行(在圖1中示出)。按照本發(fā)明的一個(gè)實(shí)施例,過(guò)程200通過(guò)為每一被標(biāo)識(shí)的呼叫者生成唯一聲學(xué)模型來(lái)標(biāo)識(shí)到一個(gè)或多個(gè)接收者的電話呼叫的呼叫者。
在步驟201,來(lái)自呼叫者的呼入呼叫被接收。在步驟202,常規(guī)呼叫者身份(callerID)系統(tǒng)被用來(lái)捕捉呼入呼叫的電話號(hào)碼。如果該電話號(hào)碼和先前定義的可信電話號(hào)碼相匹配,則在步驟203,系統(tǒng)輸出指示檢測(cè)到可信電話號(hào)碼的信號(hào)。呼叫者身份系統(tǒng)可以被用來(lái)標(biāo)識(shí)來(lái)自可信源的呼叫,并提供過(guò)程200的提早退出,使得從該源接收的呼叫不會(huì)被過(guò)程200延遲。在步驟203生成的信號(hào)可以任何合適的方式使用,例如用來(lái)將呼入呼叫路由到特定郵箱,或通過(guò)允許該呼叫被路由到接收者的啟用電話的設(shè)備。
如果呼入呼叫不是可信的,或系統(tǒng)沒(méi)有用步驟202來(lái)配置,則在步驟204,話音輸入被應(yīng)用到語(yǔ)音識(shí)別器模塊107(在圖2中示出),以分割成已知音素序列。特征提取模塊106(也在圖2中示出)從話音輸入生成對(duì)應(yīng)的特征矢量,并把該特征矢量應(yīng)用到通用、上下文無(wú)關(guān)語(yǔ)法(CFG)模塊和呼叫者不相關(guān)通用聲學(xué)模型(在圖7中被標(biāo)記為“I-AM”)。上下文無(wú)關(guān)語(yǔ)法模塊可以包括例如自由形態(tài)的口述模型或發(fā)音隨機(jī)語(yǔ)言模型。CFG允許任何發(fā)音的識(shí)別。CFG不必要生成發(fā)音的文本形式,只要它產(chǎn)生適度準(zhǔn)確的音素分段。
呼叫者不相關(guān)、通用聲學(xué)模型I-AM可以包括能夠?qū)θ魏魏艚姓咂鹱饔玫哪P?。這種通用聲學(xué)模型有時(shí)被稱為“性別無(wú)關(guān)”的聲學(xué)模型,它對(duì)男、女或兒童呼叫者都起作用。
使用CFG和呼叫者不相關(guān)通用聲學(xué)模型I-AM,語(yǔ)音識(shí)別器把語(yǔ)音輸入分割成所識(shí)別的音素的序列。
例如,如果話音輸入包括“I am calling…(我正在呼叫……)”,則語(yǔ)音識(shí)別器就生成發(fā)音的文本形式(“I am calling…”)加上音素分段(“IX<sil>AX M<sil>CAX L IX N G”)。
在步驟205,呼叫者標(biāo)識(shí)模塊112(圖2)確定該呼叫者是新的呼叫者還是先前所標(biāo)識(shí)的呼叫者。這個(gè)過(guò)程參考圖8在下文詳細(xì)描述。如果該呼叫者是新的呼叫者,則過(guò)程200轉(zhuǎn)移到步驟206,在步驟206,呼叫者標(biāo)識(shí)模塊112把新的聲學(xué)模型AM[i]添加到聲學(xué)模型庫(kù)(圖2),并對(duì)模型數(shù)量變量NUMMODELS(即先前所標(biāo)識(shí)的呼叫者的數(shù)量)遞增一。呼叫者標(biāo)識(shí)模塊112通過(guò)制作通用聲學(xué)模型AM
的副本然后如上所述地更新由呼入呼叫中的呼叫者發(fā)音的任何音素的HMM,的生成新的聲學(xué)模型AM[i]。
在步驟207,呼叫者標(biāo)識(shí)模塊112輸出指示“新的呼叫者”的信號(hào),該信號(hào)可以被呼叫路由模塊113(也在圖2示出)或另一呼叫管理系統(tǒng)使用以按照要求指引該呼叫。呼叫者標(biāo)識(shí)模塊112也可以存儲(chǔ)表示語(yǔ)音輸入的聲音文件和對(duì)應(yīng)的文本(如果在步驟204得到識(shí)別)。
在一個(gè)實(shí)施例中,在步驟208,呼叫者標(biāo)識(shí)模塊112要求通過(guò)I/O設(shè)備115(圖2)的呼叫者/文本識(shí)別的手動(dòng)檢查。用戶或系統(tǒng)操作者可以審閱該呼叫的文本、聽(tīng)該呼叫的聲音和/或察看呼叫者標(biāo)識(shí),并通過(guò)I/O設(shè)備115做出任何糾正。例如,用戶可以審閱和丟棄呼叫,或者接受或否定標(biāo)識(shí)模塊所做的分類。在步驟207之后,過(guò)程200返回到步驟201,以接收另一個(gè)呼入呼叫。
如果在步驟205,呼叫者標(biāo)識(shí)模塊112標(biāo)識(shí)該呼叫者不是新的呼叫者,則過(guò)程200轉(zhuǎn)移到步驟210,以標(biāo)識(shí)哪一個(gè)先前所標(biāo)識(shí)的呼叫者再次呼叫。呼叫者標(biāo)識(shí)模塊112確定和該呼入呼叫的發(fā)音中的語(yǔ)音特征最接近匹配的呼叫者專用聲學(xué)模型。在一個(gè)實(shí)施例中,呼叫者標(biāo)識(shí)模塊112把話音特征(例如特征矢量)應(yīng)用到每個(gè)呼叫者專用聲學(xué)模型中的對(duì)應(yīng)的HMM,并標(biāo)識(shí)有最佳聲學(xué)分?jǐn)?shù)的聲學(xué)模型AM[j],j=0到NUMMODELS,如圖8中詳細(xì)描述的那樣。在步驟211,呼叫者標(biāo)識(shí)模塊112輸出指示“檢測(cè)到呼叫者j”的信號(hào),其中“j”對(duì)應(yīng)步驟210中有最佳聲學(xué)分?jǐn)?shù)的聲學(xué)模型。
圖8所示是按照本發(fā)明的一個(gè)實(shí)施例在圖7的步驟205中新的呼叫者或先前標(biāo)識(shí)的呼叫者的檢測(cè)的流程圖。該過(guò)程在300進(jìn)入步驟205。在步驟301,呼叫者標(biāo)識(shí)模塊112確定先前標(biāo)識(shí)的呼叫者的聲學(xué)模型數(shù)量NUMMODELS是否大于0。如果不是,則當(dāng)前呼入呼叫的呼叫者就是新的呼叫者,而過(guò)程205就在步驟302退出。如果先前標(biāo)識(shí)的呼叫者的數(shù)量NUMMODELS大于0,當(dāng)前呼叫者就可能是新的呼叫者或先前標(biāo)識(shí)的呼叫者之一。然后過(guò)程轉(zhuǎn)移到步驟303。
在步驟303,呼叫者標(biāo)識(shí)模塊112為聲學(xué)模型庫(kù)111中的每個(gè)聲學(xué)模型AM[j](j=0到NumModels)下的當(dāng)前發(fā)音計(jì)算聲學(xué)或“alpha”分?jǐn)?shù)A[j],其中模型AM
是呼叫者不相關(guān)的通用模型I-AM。alpha分?jǐn)?shù)被稱為“前向通過(guò)分?jǐn)?shù)”,它是由在圖7的步驟204中產(chǎn)生的分段上使用聲學(xué)模型AM[j]時(shí)運(yùn)行語(yǔ)音識(shí)別器解碼器或搜索樹所得的聲學(xué)分?jǐn)?shù)(通過(guò)呼叫者不相關(guān)模型AM
)。
在步驟303,呼叫者標(biāo)識(shí)模塊112確定通用聲學(xué)模型AM
的alpha分?jǐn)?shù)是否有最大的(或者最好的)alpha分?jǐn)?shù)。如果當(dāng)前發(fā)音比任何呼叫者專用聲學(xué)模型更匹配通用聲學(xué)模型,則該呼叫者就被標(biāo)識(shí)為新的呼叫者,過(guò)程在步驟305退出。如果通用聲學(xué)模型的alpha分?jǐn)?shù)A
不是最大的alpha分?jǐn)?shù),則該呼叫者就被標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一,而呼叫者標(biāo)識(shí)模塊112轉(zhuǎn)移到步驟306,以標(biāo)識(shí)特定呼叫者。
假設(shè)變量“k”等于其alpha分?jǐn)?shù)A[j]為最大的索引(k=argmax(A[j])),則呼叫者k被標(biāo)識(shí)為該呼叫者,而呼叫者“k”的對(duì)應(yīng)的呼叫者專用聲學(xué)模型AM[k]被更新,以反映該新發(fā)音的語(yǔ)音特征。以這種方式,每次呼入呼叫都被先前所標(biāo)識(shí)的呼叫者接收,該呼叫者的對(duì)應(yīng)的聲學(xué)模型基于該呼叫中包含的聲學(xué)單元被進(jìn)一步訓(xùn)練,以更好地表示該呼叫者的語(yǔ)音特征。在呼叫者專用聲學(xué)模型被更新后,過(guò)程在步驟205退出。
在一個(gè)實(shí)施例中,呼叫者專用聲學(xué)模型AM[k]可以用小至一個(gè)發(fā)音來(lái)創(chuàng)建或更新,這和常規(guī)語(yǔ)音識(shí)別或口述軟件通常要求通過(guò)大量發(fā)音以及發(fā)音的反復(fù)來(lái)訓(xùn)練相反。單個(gè)發(fā)音訓(xùn)練可以用當(dāng)前可用的語(yǔ)音識(shí)別軟件,例如微軟MS識(shí)別器,通過(guò)多次重復(fù)聲音輸入并把它重復(fù)應(yīng)用到MS識(shí)別器,或通過(guò)重新配置MS識(shí)別器以用信號(hào)發(fā)音訓(xùn)練來(lái)完成。其它類型的語(yǔ)音識(shí)別器或解碼器也可以被使用在替代性實(shí)施例中。
在一個(gè)替換實(shí)施例中,步驟304可以通過(guò)把當(dāng)前話音輸入分割成若干子段,例如兩個(gè)子段,并用每一聲學(xué)模型為兩個(gè)子段計(jì)算兩個(gè)alpha分?jǐn)?shù)A0[j]和A1[j],來(lái)被進(jìn)一步細(xì)化。步驟304只有在A0[j]和A1[j]對(duì)同一個(gè)索引k都有最大值(argmax(AM[k]))才會(huì)返回“否”(通用模型沒(méi)有最高聲學(xué)分?jǐn)?shù))。這個(gè)過(guò)程有益于對(duì)在話音輸入中有一個(gè)以上說(shuō)話人的呼叫進(jìn)行濾波,并有益于進(jìn)一步細(xì)化識(shí)別過(guò)程。
圖9所示是訓(xùn)練呼叫者專用語(yǔ)言模型(“概率性CFG”)以按呼叫的內(nèi)容(而不是按聲學(xué))來(lái)檢測(cè)用戶的過(guò)程400的流程圖。過(guò)程400可以和圖7所示的過(guò)程200一起被用來(lái)提高呼叫者標(biāo)識(shí)的準(zhǔn)確度,或作為標(biāo)識(shí)呼叫者的替代方法。在步驟401,呼入呼叫被接收。在步驟402,過(guò)程400通過(guò)運(yùn)行圖7所示的聲學(xué)呼叫者標(biāo)識(shí)過(guò)程得到聲學(xué)呼叫者標(biāo)識(shí)。在步驟403,過(guò)程400把該呼叫(如被圖2中的語(yǔ)音識(shí)別器107分割)的所標(biāo)識(shí)的“文本”添加到對(duì)應(yīng)的呼叫者專用語(yǔ)言模型的呼叫者文本庫(kù)。步驟403對(duì)應(yīng)參考圖6所描述的“收集大量文本”的步驟。
在步驟404,過(guò)程400確定在特定呼叫者文本庫(kù)中是否有足夠的單詞來(lái)訓(xùn)練語(yǔ)言模型LM(i)。如果沒(méi)有,則過(guò)程400返回到步驟401,以接收更多的來(lái)自該呼叫者的呼入呼叫。如果有足夠數(shù)量的單詞,則過(guò)程400按照參考圖6所述的過(guò)程來(lái)訓(xùn)練新的語(yǔ)言模型LM[i](用于呼叫者“i”),并在步驟405把LM[i]添加到語(yǔ)言模型庫(kù)110。然后,過(guò)程400把呼叫者專用語(yǔ)言模型的數(shù)量NUMLMMODELS加上一。
在步驟406,過(guò)程400輸出指示“新語(yǔ)言模型”的信號(hào),并可以在步驟407要求系統(tǒng)用戶作呼叫和文本識(shí)別的手動(dòng)審閱。用戶可以通過(guò)I/O設(shè)備115(圖2所示)審閱和修訂數(shù)據(jù)。然后過(guò)程400返回到步驟401,以接收進(jìn)一步的呼入呼叫。
過(guò)程400示出圖7中所示的聲學(xué)呼叫者標(biāo)識(shí)過(guò)程可以如何被用于為每個(gè)唯一的用戶構(gòu)建對(duì)應(yīng)的語(yǔ)言模型。為了使用語(yǔ)言模型來(lái)標(biāo)識(shí)呼叫者,一旦訓(xùn)練好足夠多的語(yǔ)言模型,呼叫者標(biāo)識(shí)模塊112就只要運(yùn)行語(yǔ)音識(shí)別器模塊107,而通用聲學(xué)模型和每個(gè)呼叫者專用語(yǔ)言模型LM[i]被輪流激活。產(chǎn)生有最高概率的文本識(shí)別的語(yǔ)言模型對(duì)應(yīng)于當(dāng)前呼叫者。
使用呼叫者專用語(yǔ)言模型去標(biāo)識(shí)呼叫者將標(biāo)識(shí)當(dāng)前呼叫的內(nèi)容和呼叫者專用語(yǔ)言模型LM[i]之一的語(yǔ)義相似度。但是,情況可能是當(dāng)前呼叫者是談?wù)摵秃艚姓摺癷”所談?wù)摰耐恢黝}的不同呼叫者(不是呼叫者“i”)。所以,呼叫者專用語(yǔ)言模型較佳地和特定呼叫者聲學(xué)模型一起使用,以正確標(biāo)識(shí)唯一的呼叫者。例如,在向標(biāo)識(shí)系統(tǒng)報(bào)告結(jié)果時(shí),可向圖7所示的聲學(xué)呼叫者標(biāo)識(shí)過(guò)程給予比圖9中被訓(xùn)練的語(yǔ)言模型呼叫者標(biāo)識(shí)過(guò)程更大的權(quán)值。例如,如果兩個(gè)標(biāo)識(shí)方法產(chǎn)生不同的結(jié)果,則僅當(dāng)語(yǔ)言模型檢測(cè)結(jié)果比最高得分聲學(xué)模型的呼叫者專用聲學(xué)分?jǐn)?shù)有更高的概率時(shí),才會(huì)使用它。此外,呼叫中心的系統(tǒng)用戶或操作者可以不考慮聲學(xué)模型標(biāo)識(shí)子系統(tǒng)或語(yǔ)言模型標(biāo)識(shí)子系統(tǒng)所做出的任何分類。
圖7-9所示的呼叫者標(biāo)識(shí)過(guò)程可為被誤認(rèn)為“新呼叫者”的呼叫者創(chuàng)建多個(gè)聲學(xué)和語(yǔ)言模型。例如,在來(lái)自同一呼叫者的兩個(gè)或多個(gè)不同的呼叫的音素或主題不重疊時(shí),就可能發(fā)生這一情況。由于聲學(xué)和語(yǔ)言模型繼續(xù)用來(lái)自先前被標(biāo)識(shí)的呼叫者的每個(gè)相繼的新呼叫來(lái)訓(xùn)練,因此對(duì)應(yīng)同一呼叫者的模型將開始彼此重疊隨后并然后可以被合并。呼叫者標(biāo)識(shí)系統(tǒng)可以包括一合并模塊,它周期性地審閱所有呼叫者專用模型以基于預(yù)定義的標(biāo)準(zhǔn)確定是否有任何模型應(yīng)該被合并。例如,這些標(biāo)準(zhǔn)可以是給定特征矢量組的模型概率的相似度。
更具體地,音素HMM通常使用由均值矢量和方差矩陣確定的多維高斯分布(在特征矢量空間)為狀態(tài)轉(zhuǎn)移概率建模。合并模型可以簡(jiǎn)單地為每個(gè)用戶的對(duì)應(yīng)音素聚集所述均值矢量和/或方差矩陣,并查看它們是否足夠相近以作合并(使用距離函數(shù),如Bhattacharya距離,它最適合比較概率函數(shù)分離,不象常規(guī)的Euclidean距離)。
此外,呼叫者標(biāo)識(shí)系統(tǒng)可以(在知道兩個(gè)已被訓(xùn)練的AM彼此太相近后)存儲(chǔ)“前任”AM(在圖8中的步驟306用作輸入到訓(xùn)練模塊的那一個(gè))以及被用來(lái)訓(xùn)練的“波”(當(dāng)前用戶輸入),而只在“手動(dòng)審閱”(如圖7的步驟208中)來(lái)自所述兩個(gè)呼叫者的樣點(diǎn)話音輸入后應(yīng)用訓(xùn)練。這防止由于已訓(xùn)練的呼叫者專用AM成為來(lái)自錯(cuò)誤呼叫者的反饋話音輸入而導(dǎo)致它們逐步退化。到底什么是“太相近”可以使用任何可用的用戶標(biāo)識(shí)任務(wù)的主體被實(shí)驗(yàn)性地量化(屬于大量人的大量電話呼叫/“波”文件)。
上述呼叫者標(biāo)識(shí)過(guò)程的一個(gè)優(yōu)點(diǎn)是系統(tǒng)能夠用少至來(lái)自呼叫者的單個(gè)發(fā)音來(lái)標(biāo)識(shí)呼叫者。從那個(gè)發(fā)音創(chuàng)建新的呼叫者專用聲學(xué)模型,以標(biāo)識(shí)來(lái)自該呼叫者的更多呼叫。同樣,即使呼叫者不配合用來(lái)路由呼入呼叫的任何提示—響應(yīng)機(jī)制,系統(tǒng)也能夠標(biāo)識(shí)呼叫者。任何發(fā)音的聲學(xué)特征,不管該發(fā)音是不是提示的正確應(yīng)答,都為該呼叫者建模。另外,系統(tǒng)能夠在不警告呼叫者有標(biāo)識(shí)過(guò)程的情況下來(lái)標(biāo)識(shí)呼叫者。例如系統(tǒng)可以被用來(lái)從來(lái)自已知呼叫者的期望呼叫中輕易慮去不想要的電話推銷員的呼叫。
同樣,大呼叫中心可以使用這個(gè)系統(tǒng)以更有效地把呼叫路由到正確的接收者或信息數(shù)據(jù)庫(kù)。一些呼叫中心要求呼叫者在被路由到正確的目標(biāo)前通過(guò)冗長(zhǎng)的提示迷宮。本系統(tǒng)可以為先前標(biāo)識(shí)的呼叫者提供基于該呼叫者的聲波紋和接收人或先前呼叫的主題從提示—響應(yīng)機(jī)制的快速退出。對(duì)這種呼叫者標(biāo)識(shí)系統(tǒng)存在大量其它應(yīng)用。
雖然本發(fā)明是參考優(yōu)選實(shí)施例描述的,但是本領(lǐng)域的技術(shù)人員會(huì)認(rèn)識(shí)到,可以作形式或細(xì)節(jié)上的變化而不脫離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種標(biāo)識(shí)從呼叫者到接收者的呼叫的呼叫者的方法,其特征在于,所述方法包括(a)從所述呼叫者接收話音輸入;(b)把所述話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型以獲得多個(gè)對(duì)應(yīng)的聲學(xué)分?jǐn)?shù),所述多個(gè)聲學(xué)模型包括一通用聲學(xué)模型和任何先前標(biāo)識(shí)的呼叫者的聲學(xué)模型;(c)基于所述多個(gè)聲學(xué)分?jǐn)?shù),把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一或新的呼叫者;以及(d)如果在步驟(c)中所述呼叫者被標(biāo)識(shí)為新的呼叫者,則為所述新的呼叫者生成一新的聲學(xué)模型,該模型對(duì)所述新的呼叫者是專用的。
2.如權(quán)利要求1所述的方法,其特征在于,所述(c)中的標(biāo)識(shí)包括(c)(1)如果所述相應(yīng)的聲學(xué)模型的聲學(xué)分?jǐn)?shù)好于所述通用聲學(xué)模型的聲學(xué)分?jǐn)?shù),則把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一;(c)(2)如果所述通用聲學(xué)模型的聲學(xué)分?jǐn)?shù)好于所述多個(gè)先前標(biāo)識(shí)的呼叫者的聲學(xué)模型的聲學(xué)分?jǐn)?shù),則把所述呼叫者標(biāo)識(shí)為新的呼叫者。
3.如權(quán)利要求1所述的方法,其特征在于步驟(a)包括使用所述通用聲學(xué)模型把所述話音輸入分割成識(shí)別的語(yǔ)音單元序列;所述多個(gè)聲學(xué)模型的每一個(gè)包括在步驟(a)中分割的所述語(yǔ)音單元的模型;以及步驟(b)包括把所述話音輸入的特征應(yīng)用到步驟(d)中所分割的所述語(yǔ)音單元的模型的序列。
4.如權(quán)利要求1所述的方法,其特征在于,所述多個(gè)聲學(xué)模型的每一個(gè)包括語(yǔ)音單元的模型,并且其中,所述方法還包括(e)如果在步驟(c)所述呼叫者被標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一,則通過(guò)基于所述語(yǔ)音輸入的特征修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的模型,來(lái)更新所述先前標(biāo)識(shí)的呼叫者的對(duì)應(yīng)的聲學(xué)模型。
5.如權(quán)利要求4所述的方法,其特征在于,步驟(e)包括基于小至單個(gè)發(fā)音來(lái)修改被包括在所述話音輸入中的語(yǔ)音單元的模型。
6.如權(quán)利要求1所述的方法,其特征在于,它還包括(e)和所述多個(gè)聲學(xué)模型一道把所述新的聲學(xué)模型存儲(chǔ)在一聲學(xué)模型庫(kù)中,使得所述新的聲學(xué)模型成為步驟(b)中的所述多個(gè)聲學(xué)模型之一,而所述新的呼叫者作為先前標(biāo)識(shí)的呼叫者被包括在內(nèi)。
7.如權(quán)利要求1所述的方法,其特征在于,所述通用聲學(xué)模型包括多個(gè)語(yǔ)音單元的呼叫者不相關(guān)模型,并且其中,步驟(d)包括(d)(1)從所述通用聲學(xué)模型的呼叫者不相關(guān)模型生成所述新的聲學(xué)模型,并修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的呼叫者不相關(guān)模型,以表示接收自所述新的呼叫者的話音輸入的特征。
8.如權(quán)利要求1所述的方法,其特征在于,執(zhí)行步驟(a)到(c),而不使所述呼叫者在所述呼叫期間警覺(jué)到所述呼叫者正被標(biāo)識(shí)。
9.如權(quán)利要求1所述的方法,其特征在于步驟(b)包括將所述語(yǔ)音輸入分割成子段,并把所述每一子段的特征應(yīng)用到所述多個(gè)聲學(xué)模型,以得到表示所述每一分段中的特征與所述對(duì)應(yīng)的聲學(xué)模型的匹配程度的多個(gè)對(duì)應(yīng)的聲學(xué)分?jǐn)?shù);以及步驟(c)包括,對(duì)每一子段,標(biāo)識(shí)具有該子段的最好聲學(xué)分?jǐn)?shù)的聲學(xué)模型,并僅當(dāng)所有子段的最好聲學(xué)分?jǐn)?shù)對(duì)應(yīng)于同一先前標(biāo)識(shí)的呼叫者時(shí),把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一。
10.如權(quán)利要求1所述的方法,其特征在于,它還包括(e)基于那些呼叫者的所述話音輸入,為所述先前標(biāo)識(shí)的呼叫者的每一個(gè)維護(hù)一呼叫者專用語(yǔ)言模型;(f)把所述話音輸入的特征應(yīng)用到所述通用聲學(xué)模型和所述呼叫者專用語(yǔ)言模型的每一個(gè),以產(chǎn)生多個(gè)已被識(shí)別的語(yǔ)音單元序列;(g)選擇相對(duì)其它所述已被識(shí)別的語(yǔ)音單元序列有最高概率的已被識(shí)別的語(yǔ)音單元序列;以及(h)至少部分地基于有所述最高概率的已被識(shí)別的語(yǔ)音單元序列來(lái)標(biāo)識(shí)所述呼叫者。
11.如權(quán)利要求10所述的方法,其特征在于,它還包括(i)如果步驟(h)所標(biāo)識(shí)的呼叫者和步驟(c)所標(biāo)識(shí)的呼叫者不同,則生成對(duì)下列的至少一個(gè)的手動(dòng)審閱的用戶提示所述話音輸入、所述已被識(shí)別的語(yǔ)音單元序列、所述被標(biāo)識(shí)的呼叫者、步驟(c)所標(biāo)識(shí)的呼叫者的聲學(xué)模型、以及步驟(h)所標(biāo)識(shí)的呼叫者的呼叫者專用語(yǔ)言模型。
12.如權(quán)利要求1所述的方法,其特征在于,它還包括(e)使用所述先前標(biāo)識(shí)的呼叫者的多個(gè)聲學(xué)模型之間的一距離量度,以標(biāo)記某些聲學(xué)模型用于合并在一起。
13.如權(quán)利要求12所述的方法,其特征在于,步驟(e)包括標(biāo)記所述某些聲學(xué)模型用于手動(dòng)檢查。
14.一種標(biāo)識(shí)從呼叫者到接收者的呼叫的所述呼叫者的系統(tǒng),其特征在于,所述系統(tǒng)包括一接收器,用于從所述呼叫者接收話音輸入;一聲學(xué)模型庫(kù),它包括多個(gè)聲學(xué)模型,包括一通用聲學(xué)模型和任何先前標(biāo)識(shí)的呼叫者的聲學(xué)模型在內(nèi);用于把所述話音輸入的特征應(yīng)用到所述多個(gè)聲學(xué)模型以產(chǎn)生多個(gè)相應(yīng)的聲學(xué)分?jǐn)?shù)的裝置;用于基于所述多個(gè)聲學(xué)分?jǐn)?shù)把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一或新的呼叫者的裝置;以及一聲學(xué)模型生成器裝置,用于如果所述通用聲學(xué)模型的聲學(xué)分?jǐn)?shù)好于所述多個(gè)先前標(biāo)識(shí)的呼叫者的聲學(xué)模型的聲學(xué)分?jǐn)?shù),則為所述新的呼叫者生成新的聲學(xué)模型。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于所述系統(tǒng)還包括一語(yǔ)音識(shí)別器,它使用所述通用聲學(xué)模型把所述話音輸入分割成所識(shí)別的語(yǔ)音單元的序列;所述多個(gè)聲學(xué)模型的每一個(gè)包括由所述語(yǔ)音識(shí)別器識(shí)別的語(yǔ)音單元的模型;以及用于應(yīng)用的所述裝置包括用于把所述話音輸入的特征應(yīng)用到由所述語(yǔ)音識(shí)別器為所述多個(gè)聲學(xué)模型分割的所述語(yǔ)音單元的模型的序列的裝置。
16.如權(quán)利要求14所述的系統(tǒng),其特征在于所述多個(gè)聲學(xué)模型的每一個(gè)包括語(yǔ)音單元的模型;以及所述系統(tǒng)還包括一聲學(xué)模型更新模塊,如果所述呼叫者被標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一,則所述聲學(xué)模型更新模塊通過(guò)基于所述語(yǔ)音輸入的特征修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的模型,來(lái)更新所述先前標(biāo)識(shí)的呼叫者的相應(yīng)的聲學(xué)模型。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于,所述聲學(xué)模型更新模塊能夠基于來(lái)自所述呼叫者的小至單個(gè)發(fā)音來(lái)修改被包括在所述話音輸入中的語(yǔ)音單元的模型。
18.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述聲學(xué)模型生成器裝置把所述新的聲學(xué)模型存儲(chǔ)在所述聲學(xué)模型庫(kù)中,使得所述新的聲學(xué)模型成為所述多個(gè)聲學(xué)模型之一,并且所述新的呼叫者作為先前標(biāo)識(shí)的呼叫者被包括在內(nèi)。
19.如權(quán)利要求18所述的系統(tǒng),其特征在于所述通用聲學(xué)模型包括多個(gè)語(yǔ)音單元的呼叫者不相關(guān)模型;以及所述聲學(xué)模型生成器從所述通用聲學(xué)模型的呼叫者不相關(guān)模型生成所述新的聲學(xué)模型,并修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的呼叫者不相關(guān)模型,以表示自所述新的呼叫者接收的話音輸入的特征。
20.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述系統(tǒng)被配置成接收所述話音輸入并標(biāo)識(shí)所述呼叫者,而在所述呼叫期間不使所述呼叫者警覺(jué)到所述呼叫者正被標(biāo)識(shí)。
21.如權(quán)利要求14所述的系統(tǒng),其特征在于用于應(yīng)用的所述裝置包括用于將所述語(yǔ)音輸入拆分成子段,并把每一子段的特征應(yīng)用到所述多個(gè)聲學(xué)模型,以得到表示所述每一分段中的特征與所述對(duì)應(yīng)的聲學(xué)模型的匹配程度的多個(gè)對(duì)應(yīng)的聲學(xué)分?jǐn)?shù)的裝置;以及用于標(biāo)識(shí)的所述裝置包括,對(duì)每一子段,用于標(biāo)識(shí)具有該子段的最好聲學(xué)分?jǐn)?shù)的聲學(xué)模型的裝置,和用于僅當(dāng)所有子段的最好聲學(xué)分?jǐn)?shù)對(duì)應(yīng)于同一先前標(biāo)識(shí)的呼叫者時(shí)把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一的裝置。
22.如權(quán)利要求14所述的系統(tǒng),其特征在于,它還包括一語(yǔ)言模型庫(kù),用于基于來(lái)自那些呼叫者的所述話音輸入為所述先前標(biāo)識(shí)的呼叫者的每一個(gè)存儲(chǔ)一呼叫者專用語(yǔ)言模型;用于把所述話音輸入的特征應(yīng)用到所述通用聲學(xué)模型和所述呼叫者專用語(yǔ)言模型的每一個(gè)以產(chǎn)生多個(gè)已被識(shí)別的語(yǔ)音單元序列的裝置;以及用于選擇相對(duì)其它已被識(shí)別的語(yǔ)音單元序列有最高概率的已被識(shí)別的語(yǔ)音單元序列的裝置,其中,用于標(biāo)識(shí)的所述裝置至少部分地基于有所述最高概率的已被識(shí)別的語(yǔ)音單元序列來(lái)標(biāo)識(shí)所述呼叫者。
23.如權(quán)利要求22所述的系統(tǒng),其特征在于,用于標(biāo)識(shí)的所述裝置包括用于生成對(duì)下列至少一個(gè)的手動(dòng)審閱的用戶提示的裝置(1)所述話音輸入,有所述最高概率的已被識(shí)別的語(yǔ)音單元序列、(2)產(chǎn)生有所述最高概率的已被識(shí)別的語(yǔ)音單元序列的呼叫者專用語(yǔ)言模型、(3)有所述最好聲學(xué)分?jǐn)?shù)的聲學(xué)模型,如果有所述最高概率的呼叫者專用語(yǔ)言模型和(3)中有所述最好聲學(xué)分?jǐn)?shù)的聲學(xué)模型對(duì)應(yīng)不同的呼叫者
24.如權(quán)利要求14所述的方法,其特征在于,它還包括基于所述多個(gè)聲學(xué)模型之間的一距離量度標(biāo)記某些聲學(xué)模型用于合并在一起的裝置。
25.如權(quán)利要求24所述的方法,其特征在于,用于標(biāo)記的所述裝置包括標(biāo)記所述某些聲學(xué)模型用于手動(dòng)檢查的裝置。
26.一種包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒質(zhì),其特征在于,當(dāng)所述指令由計(jì)算機(jī)執(zhí)行時(shí),執(zhí)行以下方法(a)接收來(lái)自呼叫者的呼叫的話音輸入;(b)把所述話音輸入的所述特征應(yīng)用到多個(gè)聲學(xué)模型,所述多個(gè)聲學(xué)模型包括一通用聲學(xué)模型和任何先前標(biāo)識(shí)的呼叫者的聲學(xué)模型,以得到表示所述特征與所述對(duì)應(yīng)的聲學(xué)模型的匹配程度的多個(gè)對(duì)應(yīng)的聲學(xué)分?jǐn)?shù);(c)基于所述多個(gè)聲學(xué)分?jǐn)?shù),把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一或新的呼叫者;以及如果在步驟(c)所述呼叫者被標(biāo)識(shí)為新的呼叫者,則為所述新的呼叫者生成一新的聲學(xué)模型,它對(duì)所述新的呼叫者是專用的。
27.如權(quán)利要求26所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于步驟(a)包括使用所述通用聲學(xué)模型把所述話音輸入分割成所識(shí)別的語(yǔ)音單元的序列;所述多個(gè)聲學(xué)模型的每一個(gè)包括在步驟(a)中分割的所述語(yǔ)音單元的模型;以及步驟(b)包括把所述話音輸入的特征應(yīng)用到步驟(a)中為所述多個(gè)聲學(xué)模型分割的所述語(yǔ)音單元的模型的序列。
28.如權(quán)利要求26所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述多個(gè)聲學(xué)模型的每一個(gè)包括語(yǔ)音單元的模型,并且其中,所述方法還包括(e)如果在步驟(c)所述呼叫者被標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一,則通過(guò)基于所述語(yǔ)音輸入的特征修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的模型,來(lái)更新所述先前標(biāo)識(shí)的呼叫者的相應(yīng)的聲學(xué)模型。
29.如權(quán)利要求26所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述方法還包括(e)和所述多個(gè)聲學(xué)模型一起把所述新的聲學(xué)模型存儲(chǔ)在一聲學(xué)模型庫(kù)中,使得所述新的聲學(xué)模型成為步驟(b)中的所述多個(gè)聲學(xué)模型之一,并且所述新的呼叫者作為先前標(biāo)識(shí)的呼叫者被包括在內(nèi)。
30.如權(quán)利要求29所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述通用聲學(xué)模型包括多個(gè)語(yǔ)音單元的呼叫者不相關(guān)模型,并且其中,步驟(d)包括(d)(1)從所述通用聲學(xué)模型的呼叫者不相關(guān)模型生成所述新的聲學(xué)模型,并把修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的呼叫者不相關(guān)模型,以表示自所述新的呼叫者接收的話音輸入的特征。
31.如權(quán)利要求26所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述方法還包括(e)為所述先前標(biāo)識(shí)的呼叫者的每一個(gè)維護(hù)一呼叫者專用語(yǔ)言模型;以及(f)至少部分地基于由自所述話音輸入的呼叫者專用語(yǔ)言模型產(chǎn)生的已被標(biāo)識(shí)的語(yǔ)音單元序列的概率來(lái)標(biāo)識(shí)所述呼叫者。
32.如權(quán)利要求31所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述方法還包括(g)如果步驟(f)所標(biāo)識(shí)的呼叫者和步驟(c)所標(biāo)識(shí)的呼叫者不同,則生成對(duì)下列至少一個(gè)的手動(dòng)審閱的用戶提示所述話音輸入、所述已被識(shí)別的語(yǔ)音單元序列、所述已被標(biāo)識(shí)的呼叫者、步驟(c)所標(biāo)識(shí)的呼叫者的聲學(xué)模型、以及步驟(f)所標(biāo)識(shí)的呼叫者的呼叫者專用語(yǔ)言模型。
33.如權(quán)利要求26所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述方法還包括(e)使用所述先前標(biāo)識(shí)的呼叫者的多個(gè)聲學(xué)模型之間的一距離量度,以標(biāo)記某些聲學(xué)模型用于合并在一起。
34.如權(quán)利要求33所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,步驟(e)包括標(biāo)記所述某些聲學(xué)模型用于手動(dòng)檢查。
35.一種對(duì)從呼叫者到接收者的呼叫的所述呼叫者進(jìn)行標(biāo)識(shí)的方法,其特征在于,所述方法包括(a)接收話音輸入;(b)使用一呼叫者不相關(guān)的、通用聲學(xué)模型把所述話音輸入分割成已識(shí)別的語(yǔ)音單元的序列;(c)把所述話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型中的已識(shí)別的語(yǔ)音單元的語(yǔ)音單元模型的序列,所述多個(gè)聲學(xué)模型包括一通用聲學(xué)模型和任何先前標(biāo)識(shí)的呼叫者的聲學(xué)模型;以及(d)基于所述話音輸入的特征與所述多個(gè)聲學(xué)模型的吻合程度,把所述呼叫者標(biāo)識(shí)為所述先前標(biāo)識(shí)的呼叫者之一或新的呼叫者。
36.如權(quán)利要求35所述的方法,其特征在于,它還包括(e)如果在步驟(d)所述呼叫者被標(biāo)識(shí)為新的呼叫者,則通過(guò)修改被包括在所述語(yǔ)音輸入中的語(yǔ)音單元的語(yǔ)音單元模型以表示自所述新的呼叫者接收的話音輸入的特征,從所述通用聲學(xué)模型為所述新的呼叫者生成一新的聲學(xué)模型;以及(f)把所述新的聲學(xué)模型存儲(chǔ)在一聲學(xué)模型庫(kù)中,使得所述新的聲學(xué)模型成為步驟(c)中的所述多個(gè)聲學(xué)模型之一,并且所述新的呼叫者作為先前標(biāo)識(shí)的呼叫者被包括在內(nèi)。
37.如權(quán)利要求35所述的方法,其特征在于,它還包括(e)基于那些呼叫者的所述話音輸入為所述先前標(biāo)識(shí)的呼叫者的每一個(gè)維護(hù)一呼叫者專用語(yǔ)言模型;(f)把所述話音輸入的特征應(yīng)用到所述通用聲學(xué)模型和所述呼叫者專用語(yǔ)言模型的每一個(gè),以產(chǎn)生多個(gè)已被識(shí)別的語(yǔ)音單元序列;(g)選擇相對(duì)其它已被識(shí)別的語(yǔ)音單元序列有最高概率的已被識(shí)別的語(yǔ)音單元序列;(h)基于有所述最高概率的已被識(shí)別的語(yǔ)音單元序列來(lái)標(biāo)識(shí)所述呼叫者;以及(i)如果步驟(h)所標(biāo)識(shí)的呼叫者和步驟(c)所標(biāo)識(shí)的呼叫者不同,則生成對(duì)下列至少一個(gè)的手動(dòng)審閱的用戶提示所述話音輸入、所述已被識(shí)別的語(yǔ)音單元序列、所述被標(biāo)識(shí)的呼叫者、步驟(d)所標(biāo)識(shí)的呼叫者的聲學(xué)模型、以及步驟(h)所標(biāo)識(shí)的呼叫者的呼叫者專用語(yǔ)言模型。
38.如權(quán)利要求35所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述方法還包括(e)使用所述先前標(biāo)識(shí)的呼叫者的多個(gè)聲學(xué)模型之間的一距離量度來(lái)標(biāo)記某些聲學(xué)模型用于合并在一起。
全文摘要
提供對(duì)從呼叫者到接收者的呼叫的呼叫者進(jìn)行標(biāo)識(shí)的一種方法和裝置。從所述呼叫者接收話音輸入,并將所述話音輸入的特征應(yīng)用到多個(gè)聲學(xué)模型,以得到多個(gè)對(duì)應(yīng)的聲學(xué)得分,其中,所述多個(gè)聲學(xué)模型包括一通用聲學(xué)模型和任何先前被標(biāo)識(shí)的呼叫者的聲學(xué)模型?;谒龆鄠€(gè)聲學(xué)得分,所述呼叫者被標(biāo)識(shí)為先前被標(biāo)識(shí)的呼叫者之一或新的呼叫者。如果呼叫者被標(biāo)識(shí)為新的呼叫者,就為所述新的呼叫者生成一新的聲學(xué)模型,它對(duì)所述新的呼叫者是專用的。
文檔編號(hào)G10L15/06GK1655235SQ20041008187
公開日2005年8月17日 申請(qǐng)日期2004年12月31日 優(yōu)先權(quán)日2004年2月12日
發(fā)明者A·帕斯科維西 申請(qǐng)人:微軟公司