欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)測自動(dòng)語音識別系統(tǒng)中的短語識別質(zhì)量的制作方法

文檔序號:10517920閱讀:706來源:國知局
預(yù)測自動(dòng)語音識別系統(tǒng)中的短語識別質(zhì)量的制作方法
【專利摘要】本發(fā)明公開了一種用于預(yù)測包括至少一個(gè)單詞的短語的語音識別質(zhì)量的方法,包括以下步驟:在計(jì)算機(jī)系統(tǒng)上接收短語,所述計(jì)算機(jī)系統(tǒng)包括處理器和存儲指令的內(nèi)存;在計(jì)算機(jī)系統(tǒng)上計(jì)算包括與短語相對應(yīng)的一個(gè)或多個(gè)特征的特征集;在計(jì)算機(jī)系統(tǒng)上提供短語給預(yù)測模型,并接收基于特征集的預(yù)測的質(zhì)量識別值;和返回預(yù)測的識別質(zhì)量值。
【專利說明】
預(yù)測自動(dòng)語音識別系統(tǒng)中的短語識別質(zhì)量
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例的多個(gè)方面涉及在語音識別系統(tǒng)的輸出上進(jìn)行語音識別和分析的 領(lǐng)域。更具體地,本發(fā)明實(shí)施例的多個(gè)方面涉及為了短語識別目的預(yù)測自動(dòng)語音識別(ASR) 系統(tǒng)的準(zhǔn)確率(查準(zhǔn)率(precision))和檢出率(查全率(recall))的計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng)和方 法。
【背景技術(shù)】
[0002] 組織和個(gè)人時(shí)常記錄和存儲包含口頭交談的音頻。例如,打給大型組織運(yùn)營的聯(lián) 絡(luò)中心(例如,由提供顧客支持或銷售的代理充當(dāng)員工的聯(lián)絡(luò)中心)的電話呼叫、醫(yī)療實(shí)踐 的音頻日志(例如,外科醫(yī)生敘述的外科手術(shù)的執(zhí)行過程)、演講記錄、對執(zhí)法和緊急調(diào)度服 務(wù)的呼叫等等,都經(jīng)常被記錄下來,以用于培訓(xùn)、保留記錄或其他目的。
[0003] 自動(dòng)語音識別(ASR)系統(tǒng)可以用于處理和識別已記錄的或?qū)崟r(shí)口述的語言(語 首)。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實(shí)施例的多個(gè)方面涉及一種用于預(yù)測給定短語在自動(dòng)語音識別(ASR)系統(tǒng) 中的識別質(zhì)量的方法和系統(tǒng)。
[0005] 與系統(tǒng)的顧客、客戶或其他用戶的交互分析(或執(zhí)行分析)通常用來識別這些用戶 行為的趨勢和模式。例如,可以分析公司的銷售聯(lián)絡(luò)中心中已記錄的口述交互(例如,電話 交談中的語音),以基于銷售代理的效率(例如,向上銷售嘗試的成功率)對呼叫分類,以識 別顧客的抱怨或識別系統(tǒng)中的當(dāng)前問題。
[0006] 自動(dòng)語音識別(ASR)系統(tǒng)可以用于處理這些記錄下來的交談,自動(dòng)識別錄制語音 中特定的口述短語,并自動(dòng)將記錄的通話分類為基于特定短語的存在的分類。例如,包含短 語"您有興趣更新您當(dāng)前的計(jì)劃嗎? "或"您對我們的保險(xiǎn)提議感興趣嗎? "的交談可以歸類 到包含"向上銷售嘗試"的交談中。根據(jù)一個(gè)實(shí)施例,與各種類別相關(guān)聯(lián)的短語由用戶(他可 能具有設(shè)計(jì)這些分類的專長)生成,用戶根據(jù)其知識和經(jīng)驗(yàn)在系統(tǒng)中手動(dòng)輸入短語。然而, 對用戶來說,預(yù)測哪些短語將被ASR系統(tǒng)可信地檢出和識別是很困難的,原因是例如受ASR 系統(tǒng)的技術(shù)水平限制。
[0007] 本發(fā)明的實(shí)施例的多個(gè)方面涉及一種用于預(yù)測用戶提供的給定短語(或者"術(shù)語" 或"請求")(例如,通過計(jì)算機(jī)鍵盤或類似設(shè)備輸入純文本來提供)的識別質(zhì)量的系統(tǒng)和方 法。因此,開發(fā)了感興趣的術(shù)語集或短語集的用戶可以在思考時(shí)使用計(jì)算出的短語預(yù)測(或 速率),以快速回答下面的問題:"識別好給定短語的概率是多少?"換句話說,本發(fā)明的實(shí)施 例可以幫助用戶確定他們輸入的任何給定短語是否可能是好的短語(例如,短語識別得準(zhǔn) 確且可靠),并且可以有助于根據(jù)語音識別性能找到性能好的術(shù)語。
[0008] 因此,本發(fā)明實(shí)施例允許在不用慢速的計(jì)算集中的音頻集分析進(jìn)程(例如,已記錄 的電話通話)的情況下進(jìn)行術(shù)語評估,以預(yù)測供應(yīng)短語的識別質(zhì)量結(jié)果。相反,本發(fā)明的實(shí) 施例使用問題中短語的單詞順序和預(yù)先訓(xùn)練好的統(tǒng)計(jì)模型以生成短語的預(yù)測識別質(zhì)量。在 一些實(shí)施例中,關(guān)于底層識別引擎的機(jī)制的知識也可以用于計(jì)算預(yù)測的識別質(zhì)量。
[0009] 換言之,本發(fā)明的實(shí)施例涉及用于在音頻集中執(zhí)行短語的識別之前預(yù)測該短語的 識別質(zhì)量(或"置信度"),而不是計(jì)算識別后的識別質(zhì)量。本文中,這種系統(tǒng)和方法也可以被 稱為術(shù)語質(zhì)量預(yù)測器或術(shù)語質(zhì)量預(yù)測(TQP)。
[0010] 根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種用于預(yù)測包括至少一個(gè)單詞的短語的語音識別質(zhì) 量的方法包括以下步驟:在包括處理器和存儲指令的內(nèi)存的計(jì)算機(jī)系統(tǒng)上接收短語;在計(jì) 算機(jī)系統(tǒng)上計(jì)算包括與短語相對應(yīng)的一個(gè)或多個(gè)特征的特征集;在計(jì)算機(jī)系統(tǒng)上提供短語 給預(yù)測模型,并接收基于特征集的預(yù)測的識別質(zhì)量值;和返回預(yù)測的識別質(zhì)量值。
[0011] 預(yù)測模型可以是神經(jīng)網(wǎng)絡(luò)。
[0012] 神經(jīng)網(wǎng)絡(luò)可以是多層感知器神經(jīng)網(wǎng)絡(luò),其中所述訓(xùn)練模型的步驟包括應(yīng)用反向傳 播算法。
[0013] 可以通過下面步驟生成預(yù)測模型:在計(jì)算機(jī)系統(tǒng)上由記錄的音頻集合生成多個(gè)訓(xùn) 練短語;在計(jì)算機(jī)系統(tǒng)上計(jì)算短語中的每一個(gè)的目標(biāo)值;計(jì)算短語中的每一個(gè)的多個(gè)特征; 在計(jì)算機(jī)系統(tǒng)上根據(jù)特征訓(xùn)練預(yù)測模型;和在計(jì)算機(jī)系統(tǒng)上設(shè)置過濾閾值。
[0014] 所述生成訓(xùn)練短語的步驟包括以下步驟:將多個(gè)真實(shí)抄本分段為多個(gè)真實(shí)短語; 使用自動(dòng)語音識別系統(tǒng)處理記錄的音頻集合,以生成識別器輸出;在真實(shí)短語和識別器輸 出之間進(jìn)行標(biāo)簽匹配,作為命中率;為命中率數(shù)量大于閾值的短語過濾標(biāo)記短語;和返回多 個(gè)訓(xùn)練短語。
[0015] 可以通過優(yōu)化多個(gè)訓(xùn)練短語的短語測試集的查準(zhǔn)率值和查全率值來設(shè)置過濾閾 值。
[0016] 短語特征可以包括下列內(nèi)容中的至少一個(gè):短語中的單詞的查準(zhǔn)率;短語中的單 詞的查全率;短語錯(cuò)誤率;短語的查準(zhǔn)率和查全率之和;短語中的長單詞的數(shù)量;短語中的 元音的數(shù)量;短語的長度;短語的混淆矩陣;和語言模型的特征。
[0017] 所述方法可以進(jìn)一步還包括以下步驟:比較預(yù)測的識別質(zhì)量值和閾值;和將表示 短語的識別質(zhì)量的標(biāo)記作為所述預(yù)測的識別質(zhì)量值返回,該標(biāo)記基于所述預(yù)測的識別質(zhì)量 值和閾值之間的比較。
[0018] 根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種系統(tǒng)包括:處理器;和內(nèi)存,其中所述內(nèi)存存儲指 令,當(dāng)處理器執(zhí)行指令時(shí),使所述處理器進(jìn)行以下操作:接收短語;計(jì)算包括與短語相對應(yīng) 的一個(gè)或多個(gè)特征的特征集;提供短語到預(yù)測模型和接收基于特征集的預(yù)測的識別質(zhì)量 值;和返回預(yù)測的識別質(zhì)量值。
[0019] 預(yù)測模型可以是神經(jīng)網(wǎng)絡(luò)。
[0020] 神經(jīng)網(wǎng)絡(luò)可以是多層感知器神經(jīng)網(wǎng)絡(luò),其中訓(xùn)練模型包括應(yīng)用反向傳播算法。
[0021] 系統(tǒng)可以配置成通過如下步驟生成預(yù)測模型:從記錄的音頻集合生成多個(gè)訓(xùn)練短 語;計(jì)算短語中的每一個(gè)的目標(biāo)值;計(jì)算短語中的每一個(gè)的多個(gè)特征;根據(jù)特征訓(xùn)練預(yù)測模 型;和設(shè)置過濾閾值。
[0022] 所述系統(tǒng)可以被配置為通過如下步驟生成多個(gè)訓(xùn)練短語:將多個(gè)真實(shí)抄本分段為 多個(gè)真實(shí)短語;使用自動(dòng)語音識別系統(tǒng)處理記錄的音頻集,以生成識別器輸出;在真實(shí)短語 和識別器輸出之間進(jìn)行標(biāo)簽匹配,作為命中率;為命中率的數(shù)量大于閾值的短語過濾已標(biāo) 記的短語;和返回多個(gè)訓(xùn)練短語。
[0023] 可以通過優(yōu)化多個(gè)訓(xùn)練短語的短語測試集的查準(zhǔn)率值和查全率值來設(shè)置過濾閾 值。
[0024] 短語特征可以包括下列內(nèi)容中的至少一個(gè):短語中的單詞的查準(zhǔn)率;短語中的單 詞的查全率;短語錯(cuò)誤率;短語的查準(zhǔn)率和查全率之和;短語中的長單詞的數(shù)量;短語中的 元音的數(shù)量;短語的長度;短語的混淆矩陣;和語言模型的特征。
[0025] 所述系統(tǒng)可以進(jìn)一步地被配置成:比較預(yù)測的識別質(zhì)量值和閾值;和將表明短語 的識別質(zhì)量的標(biāo)記作為預(yù)測的識別質(zhì)量值返回,標(biāo)記基于預(yù)測的識別質(zhì)量值和閾值之間的 比較。
【附圖說明】
[0026] 附圖以及說明書說明了本發(fā)明的示例性實(shí)施例,并且附圖及描述用于說明本發(fā)明 的原理。
[0027] 圖1是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于計(jì)算短語的預(yù)測的識別質(zhì)量的系統(tǒng)的 方框圖;
[0028] 圖2是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于訓(xùn)練用于預(yù)測短語質(zhì)量的模型的過程 的流程圖;
[0029] 圖3是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于生成訓(xùn)練術(shù)語集的方法的流程圖;
[0030] 圖4是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于使用訓(xùn)練模型預(yù)測短語質(zhì)量的方法的 流程圖;
[0031] 圖5示意性地顯示了主題與和這些主題的相關(guān)聯(lián)的短語之間的關(guān)系;
[0032] 圖6、7、8、9和10是根據(jù)本發(fā)明的一個(gè)實(shí)施例的終端用戶界面的屏幕截圖,所述終 端用戶界面用于向系統(tǒng)提供短語并接收短語識別質(zhì)量的預(yù)測;
[0033] 圖11是根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的支持配置為提供記錄的音頻交談會(huì)話 訪問的聯(lián)絡(luò)中心的系統(tǒng)的示意性方框圖;
[0034]圖12A是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算設(shè)備的方框圖;
[0035]圖12B是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算設(shè)備的方框圖;
[0036]圖12C是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算設(shè)備的方框圖;
[0037] 圖12D是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算設(shè)備的方框圖;以及
[0038] 圖12E是根據(jù)本發(fā)明的一個(gè)實(shí)施例的包括多個(gè)計(jì)算設(shè)備的網(wǎng)絡(luò)環(huán)境的方框圖。
【具體實(shí)施方式】
[0039] 在下面的詳細(xì)說明中,通過舉例說明的方式,僅僅顯示和說明了本發(fā)明特定的示 例性實(shí)施例。本領(lǐng)域的技術(shù)人員應(yīng)該了解,本發(fā)明可以采用許多不同的形式實(shí)施,而不應(yīng)該 被解釋為受限于在此所述的實(shí)施例。相同的附圖標(biāo)記在說明書通篇之中表示相同的元件。
[0040] 如文中所描述,本發(fā)明的各種應(yīng)用和方面可以以軟件、固件、硬件及其組合來實(shí) 現(xiàn)。當(dāng)以軟件實(shí)現(xiàn)時(shí),該軟件可以在通用目的計(jì)算設(shè)備上操作,如服務(wù)器、臺式計(jì)算機(jī)、平板 計(jì)算機(jī)、智能手機(jī)或者個(gè)人數(shù)字助理。這樣的通用目的計(jì)算機(jī)包括通用目的處理器和內(nèi)存。
[0041] 本發(fā)明的一些實(shí)施例會(huì)在聯(lián)絡(luò)中心的環(huán)境下描述。然而,本發(fā)明的實(shí)施例不限于 此,也可以在包括搜索錄音記錄在內(nèi)的其他情況下使用,如基于計(jì)算機(jī)的教育系統(tǒng)、語音消 息系統(tǒng)、醫(yī)療副本或任何來源的語音資料。
[0042] 為了對錄音集進(jìn)行分類和自動(dòng)檢測模式,通??梢詫τ勺詣?dòng)語音識別系統(tǒng)處理過 的語音記錄集進(jìn)行分析。例如,如圖5所示,在一個(gè)實(shí)施例中,每個(gè)主題都被定義為短語的組 合。如果主叫的人說"我的訂單在哪里? "或者"我還沒有收到貨物,",那么這一呼叫被歸類 為"我的東西在哪里? "這一話題。通過識別各種主題相關(guān)的通話的數(shù)量或者頻率,就可以監(jiān) 視和檢測總體客戶行為的趨勢。例如,在一個(gè)郵件訂購公司的呼叫中心的環(huán)境中,大量與 "我的東西在哪兒?"有關(guān)的呼叫主題可以表示訂單履行系統(tǒng)有問題。
[0043] 因?yàn)檫@些自動(dòng)音頻分析系統(tǒng)依賴于與每個(gè)主題相對應(yīng)的短語的準(zhǔn)確識別,所以由 此得到的數(shù)據(jù)的質(zhì)量會(huì)取決于選中的短語且可以取決于廣泛的變量。
[0044] 通常,自動(dòng)語音識別系統(tǒng),特別是大詞匯量連續(xù)語音識別(LVCSR)抄錄引擎,包括 三個(gè)主要部分:語言模型(LM)、聲學(xué)模型(AM)和解碼器。LM和AM是通過提供音頻文件和它們 的抄本(例如,由人來準(zhǔn)備的抄本)到學(xué)習(xí)模塊來訓(xùn)練的。通常來說,LM是基于統(tǒng)計(jì)的LM (SLM)〇
[0045] 通常情況下,使用對給定語言和AM感興趣的域的環(huán)境將系統(tǒng)用于對LM進(jìn)行預(yù)培 訓(xùn)。在實(shí)踐中,這可以通過抄錄(手動(dòng))足夠大量的音頻記錄(例如,聯(lián)絡(luò)中心環(huán)境下的電話 通話)和將會(huì)話的文本表示用作LM訓(xùn)練的輸入來完成。因此,訓(xùn)練好的LM包括與在已訓(xùn)練的 域中特定短語出現(xiàn)的頻率相關(guān)的信息。例如,在銷售聯(lián)絡(luò)中心域中訓(xùn)練好的LM可能表明與 產(chǎn)品特征、產(chǎn)品之間的對比、賬單地址以及訂單狀態(tài)信息相關(guān)聯(lián)的短語會(huì)頻繁在該域中出 現(xiàn)。相反,這樣的域也可能表明短語與棒球隊(duì)最近表現(xiàn)有關(guān)。
[0046] 在語言模型已經(jīng)過訓(xùn)練后,語言模型可以用來識別語音。音頻話語作為解碼器的 輸入,所述解碼器輸出一系列識別出來的單詞,通過對音頻記錄的每一部分都這樣操作(例 如,呼叫中心中存儲為音頻文件的每個(gè)呼叫),應(yīng)用程序可以通過有效的方式對輸出編制索 弓丨,使得終端用戶能夠快速搜索文本索引(LVCSR索引)。在一個(gè)實(shí)施例中,基于LVCSR的索引 本質(zhì)上允許即席(ad-hoc)搜索而不需要預(yù)定義任何東西。
[0047] 然而,一些ASR系統(tǒng),例如基于短語的識別器(PR),在預(yù)先給出感興趣查詢的一部 分時(shí),能在查準(zhǔn)率和查全率方面提供更高的精確度,例如,參見:美國申請第7,489,094號 "System and methods of call classification with context modeling based on composite words",該申請的全部公開內(nèi)容在此并入本文作為參考;2013年5月2日在美國 專利及商標(biāo)局申請的美國專利申請?zhí)?3/886,205 "Fast out-of-vocabulary search in automatic speech recognition systems",該申請的全部公開內(nèi)容在此并入本文作為參 考。在這樣的系統(tǒng)中,短語(也稱作"查詢"或者"術(shù)語")是預(yù)定義的。預(yù)定義的短語也可以按 不同主題或者類別分組,使得在根據(jù)記錄(例如,音頻通話或者其他交互)是否含有特定預(yù) 定義短語而進(jìn)行處理之后可以對該記錄進(jìn)行分類。
[0048] 在很多場景中,預(yù)定義是針對特定的領(lǐng)域或者客戶定制ASR的過程的一部分。例 如,所述過程可以包括一個(gè)人聆聽語音短語,然后手動(dòng)選擇重要的短語添加到系統(tǒng)配置中。 在傳統(tǒng)的系統(tǒng)中,通過對短語執(zhí)行語音識別(在ASR中處理給定短語)和度量選中短語的準(zhǔn) 確率和檢出率,測試選中的短語。例如,參看刊登在《IEEE TRANSACTIONS ON SPEECH AND AUDIO PR0CESSING》2002年 10月7 日的卷 10第7期的Stephen Cox和Srinandan Dasmahapatra的"High-Level Approaches to Confidence Estimation in Speech Recognition" 一文??梢愿鶕?jù)短語度量得到的性能刪除或者修改短語。
[0049]上述的手動(dòng)過程會(huì)耗費(fèi)大量的時(shí)間,這是因?yàn)橛捎诘讓诱Z音識別引擎不能很好地 識別出短語而使很多短語可能不適合這個(gè)任務(wù)。例如,語音識別系統(tǒng)可以在識別特定單詞 或短語時(shí)很困難,從而很難在記錄中檢測到該短語。此外,對短語進(jìn)行語音識別會(huì)耗時(shí)且計(jì) 算密集,從而為了基于短語定義主題,用戶部署的每一個(gè)迭代處理周期也都加長了。
[0050]因此,所得到的短語集的質(zhì)量通常高度依賴于開發(fā)所述短語集的人的技能,并且 可能需要大量的人員執(zhí)行這樣的任務(wù),范圍從專家、為客戶定制和客戶化系統(tǒng)的專業(yè)服務(wù) 分析師到新手和初始化短語和/或通過編輯、刪除和/或添加新短語來更新現(xiàn)有短語定義的 商務(wù)用戶。
[0051] 本發(fā)明的實(shí)施例的多個(gè)方面涉及用于預(yù)測用戶提供的短語(或術(shù)語)的識別質(zhì)量 的系統(tǒng)和方法。例如,根據(jù)本發(fā)明的實(shí)施例,如果用戶打字輸入短語項(xiàng)"我想和主管交談"并 提供該短語項(xiàng)給系統(tǒng),則系統(tǒng)會(huì)評估提供的短語,并提供在訓(xùn)練環(huán)境中將會(huì)遇到的典型音 頻記錄中正確識別該提供的短語項(xiàng)的概率預(yù)測。
[0052] 圖1是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于計(jì)算短語預(yù)測識別質(zhì)量的系統(tǒng)100的 方框圖。根據(jù)本發(fā)明實(shí)施例的系統(tǒng)100包括由模型訓(xùn)練器模塊120對訓(xùn)練數(shù)據(jù)訓(xùn)練的機(jī)器學(xué) 習(xí)模型110。訓(xùn)練數(shù)據(jù)包括自動(dòng)語音識別引擎44a的輸出,該自動(dòng)語音識別引擎的輸出可以 存儲在ASR輸出數(shù)據(jù)庫44b中。
[0053]自動(dòng)語音識別引擎44a和ASR輸出數(shù)據(jù)庫44b可以是聲音分析模塊44的組成部分。 ASR引擎44a被配置為處理存儲在音頻記錄存儲服務(wù)器42中的記錄的音頻(例如,存儲為 PCM、WAV、AIFF、MP3、FLAC、0GG Vorbis等格式的數(shù)字音頻文件),以識別存儲在記錄的音頻 中的口語詞匯(如談話)。在一些實(shí)施例中,ASR引擎44a被配置為執(zhí)行實(shí)時(shí)音頻分析。識別的 數(shù)據(jù)保存在ASR輸出數(shù)據(jù)庫44b中。
[0054]圖1還顯示了參考抄本數(shù)據(jù)庫48,它存儲了為音頻記錄存儲服務(wù)器42中存儲的至 少一些音頻的驗(yàn)證過的抄本的"真實(shí)抄本"(或"參考")。在有些實(shí)施例中,這些真實(shí)抄本可 以通過人工抄寫錄音來生成,或者可以通過首先通過ASR引擎處理音頻、然后校對并更正 ASR輸出來生成,以生成真實(shí)抄本。在抄錄和驗(yàn)證過程中由于人工成本高,參考抄本數(shù)據(jù)庫 48通常包括的抄本少于存儲在音頻記錄存儲服務(wù)器42中的所有音頻。
[0055]根據(jù)一個(gè)實(shí)施例,存儲在ASR輸出數(shù)據(jù)庫44b中的ASR輸出數(shù)據(jù)和存儲在參考抄本 數(shù)據(jù)庫48中的參考抄本被提供給模型訓(xùn)練器120,以生成訓(xùn)練模型110。如下面更詳細(xì)的描 述一樣,根據(jù)本發(fā)明的一個(gè)實(shí)施例,訓(xùn)練模型110是神經(jīng)網(wǎng)絡(luò)。管理員130或其他用戶可以使 用訓(xùn)練用戶界面140提供參數(shù)以設(shè)置模型訓(xùn)練器120。可以使用任何通用的技術(shù)來提供訓(xùn)練 用戶界面,例如使用網(wǎng)頁服務(wù)器,所述網(wǎng)頁服務(wù)器被配置成提供允許用戶輸入?yún)?shù)并接收 管理員130提交的參數(shù)的網(wǎng)頁。類似的,本發(fā)明的實(shí)施例還提供終端用戶160使用的終端用 戶界面150,其中該終端用戶UI150接收短語(或"查詢")并向訓(xùn)練模型110提供短語進(jìn)行評 價(jià)。短語的評價(jià)結(jié)果(例如,為"好"或"差"的短語分類)通過終端用戶UI 150返回給終端用 戶 160。
[0056]本發(fā)明的實(shí)施例還可以包括特征檢測器170,所述特征檢測器被配置成計(jì)算通過 終端用戶界面150接收的短語的各種特征。在下面會(huì)更詳細(xì)地描述這些特征,所述特征包括 例如短語的長度、短語中元音的數(shù)量、短語中單詞的數(shù)量以及先前度量的短語查準(zhǔn)率和查 全率。特征檢測器170被配置為基于提供的短語輸出特征集(或特征向量或包含一個(gè)或多個(gè) 特征的另一種數(shù)據(jù)結(jié)構(gòu))。例如,如果正在檢測的特征是短語中單詞的數(shù)量和短語中元音的 數(shù)量,那么當(dāng)提供的短語是"當(dāng)我的訂單到達(dá)時(shí)",特征檢測器170就會(huì)返回特征向量(或特 征集)[5,8]。
[0057]圖2是根據(jù)一個(gè)實(shí)施例的由模型訓(xùn)練器120為訓(xùn)練模型110執(zhí)行的訓(xùn)練過程200的 流程圖。根據(jù)一個(gè)實(shí)施例,模型110包括神經(jīng)網(wǎng)絡(luò)(NN)??偟膩碚f,模型訓(xùn)練器120被配置為 在為目標(biāo)值提供了訓(xùn)練短語時(shí),其中目標(biāo)函數(shù)f的輸出表示短語識別質(zhì)量的度量,所述模型 訓(xùn)練器試圖生成與訓(xùn)練短語上的目標(biāo)函數(shù)f的輸出(目標(biāo)值)近似的模型110。在類似的為訓(xùn) 練短語計(jì)算目標(biāo)函數(shù)的過程中,目標(biāo)函數(shù)對于記錄的音頻集(例如,訓(xùn)練數(shù)據(jù))外的短語來 說是未知的,因?yàn)椴粚Π擞?xùn)練短語之外的輸入音頻執(zhí)行識別,就不可能知道這些輸入 所對應(yīng)的確定的目標(biāo)函數(shù)輸出值。模型訓(xùn)練器120向模型110提供訓(xùn)練數(shù)據(jù),比較模型110的 輸出和目標(biāo)函數(shù)f的輸出,交互式調(diào)整模型110的參數(shù),直到確定模型的行為足夠類似于目 標(biāo)函數(shù)f的行為(或"f度量")為止。
[0058]所述過程以操作210開始,模型訓(xùn)練器120由記錄的音頻集生成訓(xùn)練短語210,以作 為訓(xùn)練模型110的輸入被提供。根據(jù)一個(gè)實(shí)施例,參照圖3,下面將更詳細(xì)地說明在操作210 中生成訓(xùn)練數(shù)據(jù)的過程。
[0059] 在操作220中,模型訓(xùn)練器120使用目標(biāo)函數(shù)(f)為每個(gè)短語計(jì)算目標(biāo)值,以提供用 于分析在操作210中生成的訓(xùn)練短語的目標(biāo)。在本發(fā)明的各實(shí)施例中,可以使用各種目標(biāo)函 數(shù)f,其中用真正(tp)、假負(fù)(fn)和假正(fp)定義目標(biāo)函數(shù)。
[0060] 根據(jù)一個(gè)實(shí)施例,真正(tp)是正確識別的匹配(例如,短語在ASR輸出和真實(shí)抄本 Ref的相應(yīng)部分中都被發(fā)現(xiàn))。根據(jù)一個(gè)實(shí)施例,假負(fù)(fn)是應(yīng)該識別但沒有識別的匹配(例 如,短語在真實(shí)抄本Ref中被發(fā)現(xiàn),但在ASR輸出的相應(yīng)部分中沒有被發(fā)現(xiàn))。根據(jù)一個(gè)實(shí)施 例,假正(fp)被識別為匹配,但不應(yīng)該是匹配(例如,ASR的輸出的被識別為包含短語的部 分,但真實(shí)抄本Ref顯示音頻的相應(yīng)部分不包含該短語)。
[0061] 根據(jù)一個(gè)實(shí)施例,評價(jià)短語時(shí)同時(shí)考慮"查全率"(或檢出率)和"查準(zhǔn)率"(或準(zhǔn)確 率)這兩個(gè)因素,這是因?yàn)閮烧叨寂c短語是好還是差的判定相關(guān)。例如,如果只考慮查準(zhǔn)率, 那么兩個(gè)具有相似的高查準(zhǔn)率的短語被認(rèn)為是"好",雖然它們可能具有不同的查全率值。 在這個(gè)例子中,如果一個(gè)短語具有高查全率,一個(gè)短語具有低查全率;那么具有低查全率的 那個(gè)短語應(yīng)該被認(rèn)為是"差"。
[0062]在本發(fā)明的一些實(shí)施例中,評估短語可以考慮使用"短語錯(cuò)誤率"(PER)這一度量。 根據(jù)一個(gè)實(shí)施例,PER像下面公式1這樣定義:
[0063]公式 1:
[0065] 其中,fp、fn和tp分別代表假正、假負(fù)和真正。PER函數(shù)將查準(zhǔn)率和查全率的多個(gè)方 面結(jié)合起來,在查準(zhǔn)率或查全率增加時(shí)減少。PER函數(shù)的特性是在單個(gè)標(biāo)量函數(shù)中結(jié)合查準(zhǔn) 率和查全率的正向變化。
[0066]在其他實(shí)施例中,也可以使用運(yùn)用查準(zhǔn)率或查全率的組成部分的其它函數(shù)。例如, 在一個(gè)實(shí)施例中,目標(biāo)函數(shù)f是查準(zhǔn)率和查全率的加權(quán)和。
[0067] 公式 2:
[0068] f=W1 ?查準(zhǔn)率+W2 ·查全率
[0069] 其中,wi和W2是權(quán)重,所述權(quán)重可以根據(jù)用戶情景的需求來調(diào)節(jié),以在f度量中改變 查準(zhǔn)率和查全率的相關(guān)影響。在一些實(shí)施例中, ¥1和¥2可以具有相等的值(例如,1)。
[0070] 根據(jù)一個(gè)實(shí)施例,查全率(或"靈敏度")可以通過計(jì)算真正(tp)除以真正和假負(fù) (fn)的值計(jì)算得出,如公式3所示:
[0071] 公式 3:
[0073]根據(jù)一個(gè)實(shí)施例,查準(zhǔn)率(或"正預(yù)測值")可以通過計(jì)算真正除以真正和假正(fp) 的值計(jì)算得出,如公式4所示:
[0074]公式 4:
[0076] 根據(jù)本發(fā)明的一個(gè)實(shí)施例,模型訓(xùn)練器120通過比較短語的f值和該目標(biāo)函數(shù)f的 閾值來確定短語的值。在一個(gè)實(shí)施例中,f的閾值用于將短語分類為"好"或"差"。根據(jù)一個(gè) 實(shí)施例,f值大于T高閾值的短語被認(rèn)為是"好"且得到目標(biāo)值1,f值小于T低閾值的短語被認(rèn)為 是"差"且得到目標(biāo)值0。一般地,T高>T低,在分類中,T高和T低之間差距的大小(例如,|T高一T低|) 可以根據(jù)用戶期望的確實(shí)性來改變。根據(jù)一個(gè)實(shí)施例,f值在T高和T低之間的短語會(huì)被從訓(xùn)練 數(shù)據(jù)中忽略。
[0077] 根據(jù)一個(gè)實(shí)施例,在操作220之后得到的訓(xùn)練數(shù)據(jù)是元組集,每個(gè)元組是一個(gè)短語 和它相應(yīng)的目標(biāo)值,其中目標(biāo)值1可以為"好"短語,〇可以為"差"短語。
[0078]在操作230中,根據(jù)本發(fā)明的一個(gè)實(shí)施例,模型訓(xùn)練器120使用從訓(xùn)練數(shù)據(jù)得出的 信息計(jì)算訓(xùn)練數(shù)據(jù)中短語的特征。在一個(gè)實(shí)施例中,這些信息包括來自類別的信息,包括但 不限于:基于長度的特征、基于混淆矩陣(CM)的特征和基于語言模型(LM)的特征。
[0079] 根據(jù)一個(gè)實(shí)施例,基于長度的特征包括但不限于:短語中長單詞的數(shù)量;短語中元 音的數(shù)量;和短語的長度。例如,長單詞可以被定義為字母或音素的數(shù)量大于閾值的單詞。 長單詞通常比短單詞更容易識別,從而增加識別的概率。元音也通常比其它音素更容易識 另lj,因此元音的數(shù)量也影響識別概率。
[0080] 另外,在某些實(shí)施例中(例如,使用基于短語識別的引擎),較長的短語比較短的短 語更可能被識別出來。在其它實(shí)施例(例如,使用LVCSR引擎)中,較長的短語被正確識別的 概率要小一些。這樣的話,調(diào)整中的短語長度特征的影響(或權(quán)重)基于是否使用的所述類 型的底層自動(dòng)語音識別系統(tǒng)。
[0081] 基于混淆矩陣的特征也可以用于代表來自識別的音頻(ASR輸出)和它的真實(shí)抄本 (Ref)中的單詞之間的普通混淆。通常,ASR輸出包括關(guān)于訓(xùn)練數(shù)據(jù)的過程中遇到的每一個(gè) 單詞的查準(zhǔn)率和查全率,并且該數(shù)據(jù)存儲在混淆矩陣中。使用所述矩陣可以從字級(例如, 短語中的每個(gè)單詞)推導(dǎo)出來先驗(yàn)(先驗(yàn)概率)相關(guān)的查準(zhǔn)率和查全率??紤]所描述的短語 中每個(gè)單詞的先驗(yàn)值,諸如以下的特征:短語中單詞的所有先驗(yàn)值的和、平均值或最大值; 短語中長單詞的先驗(yàn)值的和、平均值或最大值;或者短語中連續(xù)η個(gè)單詞的先驗(yàn)值的平均值 或最大值,都可以計(jì)算。
[0082]另外,關(guān)于底層語言的先驗(yàn)知識可以用作特征。例如,在識別過程中實(shí)際用到的語 言模型可以用于檢查在語言模型訓(xùn)練域中遇到短語中所給出的特定單詞序列的概率(參見 上面示例中比較遇到與產(chǎn)品特征有關(guān)的單詞序列的概率和遇到與聯(lián)絡(luò)中心的環(huán)境中的籃 球隊(duì)有關(guān)的單詞的概率)。在另外的實(shí)施例中,來自短語的η個(gè)單詞(元語法模型(n-gram)) 的任意序列都可以用來通過語言模型進(jìn)行概率的計(jì)算,也可以作為附加特征以及這些單詞 的平均值。
[0083]仍然參照圖2,根據(jù)本發(fā)明的一個(gè)實(shí)施例,在操作240中,模型訓(xùn)練器120接著訓(xùn)練 模型110。在一個(gè)實(shí)施例中,模型是神經(jīng)網(wǎng)絡(luò),例如多層感知器(MLP),所述多層感知器在輸 入層有X輸入神經(jīng)元且具有y隱含層,并且在輸出層中具有一個(gè)神經(jīng)元。在涉及神經(jīng)網(wǎng)絡(luò)的 這種實(shí)施例中,模型110可以按照本領(lǐng)域技術(shù)人員知道的標(biāo)準(zhǔn)技術(shù)進(jìn)行訓(xùn)練。
[0084] 簡要來說,根據(jù)一個(gè)實(shí)施例,訓(xùn)練數(shù)據(jù)被分為訓(xùn)練集、測試集和開發(fā)集。訓(xùn)練集的 每個(gè)短語的特征(在操作230中計(jì)算出來)被提供給神經(jīng)網(wǎng)絡(luò)的輸入層的X輸入神經(jīng)元。使用 反向傳播算法,迭代調(diào)整輸入層中的X神經(jīng)元、y隱含層和輸出層中的一個(gè)神經(jīng)元之間的鏈 接的權(quán)重,以嘗試達(dá)到計(jì)算出的訓(xùn)練集的目標(biāo)值,并且在對開發(fā)集的性能的提高低于閾值 (例如,定義的閾值)時(shí),這個(gè)過程才停止。得到的模型接著根據(jù)測試集進(jìn)行驗(yàn)證。根據(jù)一個(gè) 實(shí)施例,學(xué)習(xí)速率和動(dòng)量被設(shè)置為0.1。然而,在本發(fā)明另外的實(shí)施例中,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的 參數(shù)可以不同地進(jìn)行設(shè)置。
[0085] 神經(jīng)網(wǎng)絡(luò)的更多信息例如在JOURNAL OF MICROBIOLOGICAL METH0DS43(2000)3-31 的I·A·Basheer和Μ·Hajmeer·的Artificial neural networks : fundamentals , computing,design,and application中發(fā)現(xiàn),其內(nèi)容在此并入本文作為參考。
[0086] 當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)接收特征向量時(shí),所述神經(jīng)網(wǎng)絡(luò)輸出值v,例如,0和1之間的 值。如上所述,這個(gè)值用作短語的預(yù)測的識別質(zhì)量的置信度。在一個(gè)實(shí)施例中,過濾用于根 據(jù)短語的計(jì)算機(jī)預(yù)測識別質(zhì)量對短語進(jìn)行分類(例如,參見圖2中的操作250)??梢栽O(shè)置兩 個(gè)閾值以提供這樣的過濾:高閾值T好和低閾值Τιι。如果v>T好,那么相應(yīng)的短語分類為"好", 而如果ν〈Τ||,則短語被分類為"差"。兩個(gè)閾值之間的值被作為"不知道"或中間質(zhì)量對待。通 過對測試集優(yōu)化組合的查準(zhǔn)率和查全率,以及根據(jù)應(yīng)用程序的特定性能需求來計(jì)算這兩個(gè) 閾值。
[0087] 在本發(fā)明的一些實(shí)施例中,為了生成該元組集,最初要收集關(guān)于短語的性能的統(tǒng) 計(jì)。圖3是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種用于如操作210中所示生成訓(xùn)練短語集的方 法的流程圖。參照圖3,根據(jù)一個(gè)實(shí)施例,這些統(tǒng)計(jì)通過處理ASR系統(tǒng)中的呼叫、比較ASR輸出 的搜索和真實(shí)抄本(或者"Ref",其中例如抄本由人工生成)的搜索得到,借助于以下方式而 獲得:將Ref分段為短語212;使用ASR系統(tǒng)214處理記錄的音頻(例如,記錄的電話通話);比 較Ref和相應(yīng)的ASR結(jié)果(Hyp),標(biāo)記相似的值為"命中",不同的值為"未命中"216;和對具有 足夠高命中率(或"例證")的短語(例如,命中率超過閾值)過濾標(biāo)記的短語218。生成訓(xùn)練短 語的該過程的輸出是記錄的音頻集中被以足夠高的頻率正確識別的短語集。
[0088]在一些實(shí)施例中,如果記錄的音頻已經(jīng)由ASR系統(tǒng)處理過,那么操作214被省略。
[0089] 在本發(fā)明的特定實(shí)施例中,由于受到現(xiàn)實(shí)的約束,大量的音頻記錄不是始終都能 獲得真實(shí)抄本。因此,在一些實(shí)施例中,記錄的部分抄本(例如,預(yù)先選定的特定短語的抄 本)和ASR系統(tǒng)的輸出進(jìn)行比較。
[0090] 因此,如果訓(xùn)練數(shù)據(jù)有足夠的質(zhì)量使得訓(xùn)練過程(或者"學(xué)習(xí)")可行,那么訓(xùn)練模 型200的過程會(huì)生成能夠在訓(xùn)練的環(huán)境中對給定短語預(yù)測識別質(zhì)量的模型(例如,類似于在 訓(xùn)練集中使用的環(huán)境的音頻記錄)。參照圖4,考慮像上面描述那樣生成的訓(xùn)練模型,例如對 于圖2,根據(jù)一個(gè)實(shí)施例,系統(tǒng)用于利用訓(xùn)練模型110計(jì)算預(yù)測的識別質(zhì)量的過程300從接收 一個(gè)或多個(gè)短語開始,其中短語可以從在用戶界面中輸入一個(gè)或多個(gè)短語(例如,在網(wǎng)頁上 鍵入表格中)的用戶接收310。在操作320中,特征檢測器170度量短語的訓(xùn)練特征(例如,長 單詞的數(shù)量、元音的數(shù)量、混淆矩陣特征、語言模型特征等等),歸一化度量值,生成與短語 相對應(yīng)的特征向量(或特征集)。計(jì)算得到的特征集然后被提供給訓(xùn)練模型110,以通過向訓(xùn) 練模型11〇(例如,在過程200中生成的預(yù)測模型)提供歸一化的特征向量計(jì)算短語的預(yù)測識 別值330。
[0091] 在一些實(shí)施例中,在操作340中比較短語的預(yù)測識別值與閾值以對短語進(jìn)行分類 (例如,分為"好"或"差"短語,或"不知道")。在這種實(shí)施例中,在操作350中,基于短語分類 的每個(gè)短語的質(zhì)量指示可以接著返回給用戶。在根據(jù)一個(gè)實(shí)施例的用戶界面中,標(biāo)簽緊挨 著用戶提供的每個(gè)短語,以表明這些短語項(xiàng)的質(zhì)量(例如,參見圖6、圖7、圖8、圖9和圖10)。
[0092] 在一些實(shí)施例中,計(jì)算出的識別值連同操作340中算出的質(zhì)量指示一起被返回給 用戶。在其它實(shí)施例中,操作340和350可以省略,算出的識別值被返回給用戶,但沒有其他 的識別指示。
[0093] 在本發(fā)明的實(shí)施例中,訓(xùn)練模型接著可以用于幫助用戶設(shè)計(jì)短語集,該短語集將 通過提供所供應(yīng)的候選短語的識別質(zhì)量的預(yù)測而進(jìn)行分析。圖6、圖7、圖8、圖9和圖10是根 據(jù)本發(fā)明的一個(gè)實(shí)施例的終端用戶界面的屏幕截圖,所述終端用戶界面用于向系統(tǒng)提供短 語并接收短語識別質(zhì)量的預(yù)測。
[0094] 在一個(gè)實(shí)施例中,用戶可以如圖6所示定義短語,然后按"預(yù)測質(zhì)量"按鈕。(在另一 個(gè)實(shí)施例中,在用戶停下鍵入之后或用戶鍵入時(shí),預(yù)測的質(zhì)量可以自動(dòng)顯示)。系統(tǒng)例如通 過用紅色標(biāo)記來通知用戶該術(shù)語被認(rèn)為是"差"。用戶然后可以輸入類似的術(shù)語,如圖7所 示,并且系統(tǒng)將新術(shù)語標(biāo)為"好",這意味著新術(shù)語更可能出現(xiàn)在音頻中(例如,更可能在與 該特定聯(lián)絡(luò)中心的通話的環(huán)境中談到),并且更可能被自動(dòng)語音識別系統(tǒng)正確識別。用戶然 后可以決定保留后一個(gè)短語并刪除前一個(gè)短語,也可以通過系統(tǒng)的結(jié)果繼續(xù)開發(fā)短語集, 參見圖8、圖9和圖10。
[0095] 上面描述的本發(fā)明的實(shí)施例在短語識別(PR)自動(dòng)語音識別(ASR)系統(tǒng)的環(huán)境中。 然而,本發(fā)明的實(shí)施例不限于此。在一些實(shí)施例中,可以在ASR引擎上定義術(shù)語、主題和類 另IJ,該引擎不是基于PR的,例如大詞匯量連續(xù)的語音識別(LVCSR)引擎??梢杂妙愃频姆椒?進(jìn)行定義,如圖5所示;只有底層識別過程不同:使用LVCSR ASR引擎代替PR ASR引擎。在這 些實(shí)施例中,定義的術(shù)語、主題和類別在LVCSR文本輸出中搜索,代替了固有的PR過程所使 用的定義。
[0096] 當(dāng)使用LVCSR ASR引擎時(shí),本發(fā)明的實(shí)施例可以以附加質(zhì)量預(yù)測信息的形式提供 附加值,就像在PR ASR引擎環(huán)境中描述的那樣,其結(jié)果是增加了主題定義過程的效率。
[0097] 本發(fā)明的實(shí)施例可以應(yīng)用在各種不同的涉及記錄的音頻對話的領(lǐng)域中,包括:電 臺訪談?dòng)涗?;空中和海上交通通?執(zhí)法、火災(zāi)和緊急通信,等等。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,在聯(lián)絡(luò)中心中實(shí)現(xiàn)通話預(yù)測系統(tǒng),其中代理引導(dǎo)與客戶、顧客和其他個(gè)體的電話和其它 話音通信。
[0098] 圖11是根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的支持被配置成向顧客服務(wù)代理提供顧 客可用性信息的聯(lián)絡(luò)中心的系統(tǒng)的示意性方框圖。聯(lián)絡(luò)中心可以是在室內(nèi)的為企業(yè)服務(wù)的 行業(yè)或公司,執(zhí)行與通過企業(yè)提供的產(chǎn)品和服務(wù)相關(guān)的銷售和服務(wù)的功能。另一方面,聯(lián)絡(luò) 中心可以是第三方服務(wù)提供者。聯(lián)絡(luò)中心可以置于企業(yè)或第三方提供者的專用設(shè)備中,和/ 或置于遠(yuǎn)程計(jì)算環(huán)境中,如私有云或公有云環(huán)境且基礎(chǔ)設(shè)施用于支持多個(gè)企業(yè)的多個(gè)聯(lián)絡(luò) 中心。
[0099] 根據(jù)一個(gè)示例性實(shí)施例,聯(lián)絡(luò)中心包括資源(例如,人員、計(jì)算機(jī)和電信設(shè)備),以 便能夠通過電話或其它通信機(jī)制傳送服務(wù)。這種服務(wù)可以根據(jù)聯(lián)絡(luò)中心類型而不同,范圍 可以從顧客服務(wù)到服務(wù)臺、緊急響應(yīng)、電話銷售、訂單受理和類似的服務(wù)。
[0100] 需要從聯(lián)絡(luò)中心接受服務(wù)的顧客、潛在的顧客或其他終端用戶(統(tǒng)稱為顧客)可以 通過他們的終端用戶設(shè)備10a_10c(統(tǒng)稱為10)初始化到聯(lián)絡(luò)中心的入站呼叫。終端用戶設(shè) 備10中的每一個(gè)都可以是本領(lǐng)域常用的通信設(shè)備,例如電話、無線電話、智能電話、個(gè)人計(jì) 算機(jī)、電子平板和/或類似設(shè)備。操作終端用戶設(shè)備10的用戶可以初始化、管理和響應(yīng)電話 呼叫、電子郵件、聊天、文字消息、網(wǎng)頁-瀏覽會(huì)話和其它多媒體事務(wù)。
[0101] 到終端用戶設(shè)備10的和從終端用戶設(shè)備10出的入站呼叫和出站呼叫可以根據(jù)正 在使用的設(shè)備類型穿通電話、蜂窩和/或數(shù)據(jù)通信網(wǎng)絡(luò)14。例如,通信網(wǎng)14可以包括私有或 公共交換電話網(wǎng)絡(luò)(PSTN)、局域網(wǎng)(LAN)、私有廣域網(wǎng)(WAN)和/或公有廣域網(wǎng)(例如互聯(lián) 網(wǎng))。通信網(wǎng)14也可以包括無線載波網(wǎng)絡(luò),包括碼分多址(CDMA)網(wǎng)絡(luò)、全球移動(dòng)通信系統(tǒng) (GSM)網(wǎng)絡(luò)和/或本領(lǐng)域熟知的任何3G或4G網(wǎng)絡(luò)。
[0102] 根據(jù)一個(gè)示例性實(shí)施例,聯(lián)絡(luò)中心包括連接在通信網(wǎng)絡(luò)14中的交換/媒體網(wǎng)關(guān)12, 用以接收和傳送終端用戶和聯(lián)絡(luò)中心之間的呼叫。交換/媒體網(wǎng)關(guān)12可以包括電話交換機(jī), 所述電話交換機(jī)被設(shè)置為用作用于在聯(lián)絡(luò)中心內(nèi)為代理層級進(jìn)行路由的中心交換機(jī)。從這 點(diǎn)上來說,交換機(jī)12可以包括自動(dòng)呼叫分配器、專用分組交換機(jī)(PBX)、基于IP的軟件交換 機(jī)和/或其他任何配置為接收源自互聯(lián)網(wǎng)的呼叫和/或源自電話網(wǎng)絡(luò)的呼叫的交換機(jī)。根據(jù) 本發(fā)明的一個(gè)示例性實(shí)施例,交換機(jī)連接到呼叫服務(wù)器18,舉例來說,該呼叫服務(wù)器可以作 為交換機(jī)與聯(lián)絡(luò)中心的路由、監(jiān)控和其他呼叫處理系統(tǒng)的剩余部分之間的適配器或接口。
[0103] 聯(lián)絡(luò)中心還可以包括多媒體/社交媒體服務(wù)器,所述多媒體/社交媒體服務(wù)器用于 與終端用戶設(shè)備10和/或網(wǎng)頁服務(wù)器32進(jìn)行媒體交互,而不是語音交互。舉例來說,媒體交 互可以和電子郵件、語音郵件(通過電子郵件傳遞的語音郵件)、聊天、視頻、文本消息、網(wǎng) 頁、社交媒體、屏幕共享等相關(guān)。網(wǎng)頁服務(wù)器32可以包括例如用于各種公知的社交交互站點(diǎn) 的社交交互站點(diǎn)主機(jī),終端用戶可以在所述社交交互站點(diǎn)上進(jìn)行訂閱,例如Facebook、 Twitter或類似站點(diǎn)。網(wǎng)頁服務(wù)器還可以為聯(lián)絡(luò)中心支持的企業(yè)提供網(wǎng)頁。終端用戶可以瀏 覽網(wǎng)頁,獲得關(guān)于企業(yè)產(chǎn)品和服務(wù)的信息。網(wǎng)頁還可以提供用于聯(lián)系聯(lián)絡(luò)中心的機(jī)制,例如 通過網(wǎng)頁聊天、語音呼叫、電子郵件、網(wǎng)頁實(shí)時(shí)通信(WebRTC)等。
[0104]根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例,交換機(jī)連接到交互式語音應(yīng)答(IVR)服務(wù)器34。 例如,IVR服務(wù)器34配置有用于查詢顧客的需求的IVR腳本。例如,通過IVR腳本,銀行的聯(lián)絡(luò) 中心可以告訴呼叫者,如果他們希望得到賬號余額則"按1"。在這種情況下,通過后續(xù)和IVR 的交互,顧客可以結(jié)束服務(wù),而不需要和代理通話。
[0105] 如果呼叫被路由給代理,那么該呼叫被轉(zhuǎn)發(fā)到呼叫服務(wù)器18,所述呼叫服務(wù)器與 路由服務(wù)器20交互以用于尋找合適的處理呼叫的代理。呼叫服務(wù)器18可以配置用于處理 PSTN呼叫、VoIP呼叫和類似呼叫。例如,呼叫服務(wù)器18可以包括用于處理SIP呼叫的初始會(huì) 話協(xié)議(SIP)服務(wù)器。
[0106] 在一個(gè)實(shí)例中,當(dāng)定位代理,并且直到該代理能用時(shí),呼叫服務(wù)器可以將呼叫放入 例如呼叫隊(duì)列。呼叫隊(duì)列可以經(jīng)由本領(lǐng)域熟知的任何數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn),例如鏈表、陣列和/或 類似數(shù)據(jù)結(jié)構(gòu)。舉例來說,數(shù)據(jù)結(jié)構(gòu)可以在呼叫服務(wù)器18提供的緩存中維護(hù)。
[0107] 一旦合適的代理可用于處理呼叫,就從呼叫隊(duì)列中移除呼叫,并將呼叫轉(zhuǎn)移到相 應(yīng)的代理設(shè)備38a-38c(統(tǒng)稱為38)。收集的有關(guān)呼叫者的信息或者呼叫者的歷史信息也可 以提供給代理設(shè)備,以便幫助代理更好地為呼叫服務(wù)。在這點(diǎn)上,每個(gè)代理設(shè)備38都可以包 括適用于常規(guī)電話呼叫、VoIP呼叫和類似呼叫的電話。代理設(shè)備38還可以包括計(jì)算機(jī),所述 計(jì)算機(jī)用于與聯(lián)絡(luò)中心的一個(gè)或多個(gè)服務(wù)器通信,執(zhí)行與聯(lián)絡(luò)中心操作相關(guān)聯(lián)的數(shù)據(jù)處 理,并通過各種通信機(jī)制(例如,聊天、即時(shí)消息、語音呼叫和類似機(jī)制)與顧客接洽。
[0108] 舉例來說,可以基于路由服務(wù)器20采用的路由策略選擇合適的代理對入站呼叫進(jìn) 行路由,進(jìn)一步的,還可以基于與代理的可用性、技能和例如統(tǒng)計(jì)服務(wù)器22提供的其它路由 參數(shù)有關(guān)的信息進(jìn)行選擇。根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例,統(tǒng)計(jì)服務(wù)器22包括顧客可用 性聚集(CAA)模塊36,模塊36用于在不同的通信信道上監(jiān)測終端用戶的可用性,提供這些信 息給例如路由服務(wù)器20、代理設(shè)備38a-38c和/或其它聯(lián)絡(luò)中心應(yīng)用程序和設(shè)備。CAA模塊還 可以部署在獨(dú)立的應(yīng)用程序服務(wù)器中。聚合模塊36可以是通過存儲在統(tǒng)計(jì)服務(wù)器22(或其 他一些服務(wù)器)的內(nèi)存中的計(jì)算機(jī)程序指令實(shí)現(xiàn)的軟件模塊,這些程序指令由處理器執(zhí)行。 本領(lǐng)域的技術(shù)人員應(yīng)該理解,聚集模塊36還可以通過固件(例如,應(yīng)用程序?qū)S玫募呻?路)、硬件或者軟件、固件和硬件的組合來實(shí)現(xiàn)。
[0109] 根據(jù)一個(gè)示例性實(shí)施例,聚集模塊36被配置為從聯(lián)絡(luò)中心的中其他設(shè)備(例如,多 媒體/社交媒體服務(wù)器24)接收顧客可用性信息。舉例來說,多媒體/社交媒體服務(wù)器24可以 被配置為檢測用戶在包括社交媒體站點(diǎn)的不同網(wǎng)站的表現(xiàn),并提供這些信息給聚集模塊 36。多媒體/社交媒體服務(wù)器24還可以被配置為監(jiān)控和追蹤那些網(wǎng)站上的交互。
[0110] 多媒體/社交媒體服務(wù)器24還可以被配置為向終端用戶提供移動(dòng)應(yīng)用程序40,所 述移動(dòng)應(yīng)用程序用來下載到終端用戶設(shè)備10上。移動(dòng)應(yīng)用程序40可以提供用戶可配置的設(shè) 置,例如,表明用戶可用、不可用或可用性不知道,目的是讓聯(lián)絡(luò)中心代理進(jìn)行聯(lián)系。多媒 體/社交媒體服務(wù)器24可以監(jiān)控狀態(tài)設(shè)置,并在每次狀態(tài)信息改變時(shí)發(fā)送更新到聚集模塊。
[0111] 聯(lián)絡(luò)中心還可以包括報(bào)表服務(wù)器28,所述報(bào)表服務(wù)器被配置為從統(tǒng)計(jì)服務(wù)器22聚 集的數(shù)據(jù)中生成報(bào)表。這些報(bào)表可以包括關(guān)于資源狀態(tài)(例如,平均等待時(shí)間、放棄率、代理 機(jī)會(huì)和類似狀態(tài))的準(zhǔn)實(shí)時(shí)報(bào)告或歷史報(bào)告。報(bào)表可以自動(dòng)生成,也可以在響應(yīng)需求者的具 體需求中生成(例如,代理/管理員、聯(lián)絡(luò)中心應(yīng)用程序和/或類似需求)。
[0112]根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例,路由服務(wù)器20增強(qiáng)了用于管理分配給代理的后 臺辦公/離線活動(dòng)的能力。這些活動(dòng)可以例如包括響應(yīng)電子郵件、響應(yīng)信件、參加培訓(xùn)研討 會(huì)或任何其他不需要與顧客實(shí)時(shí)通信的活動(dòng)?;顒?dòng)一旦分配給代理,活動(dòng)就可以被推送到 代理,或者可以在代理的工作框26a-26c(統(tǒng)稱為26)中顯示為要由代理完成的任務(wù)。代理的 工作框可以通過本領(lǐng)域技術(shù)人員熟知的任何數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn),例如鏈表、陣列和/或類似數(shù)據(jù) 結(jié)構(gòu)??梢跃S護(hù)工作框,例如在每個(gè)代理設(shè)備38的緩存中維護(hù)。
[0113] 根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例,聯(lián)絡(luò)中心還包括一個(gè)或多個(gè)大容量存儲設(shè)備 30,用以存儲與代理數(shù)據(jù)(例如,代理配置、進(jìn)度表等)、顧客數(shù)據(jù)(例如,顧客配置)、交互數(shù) 據(jù)(例如,每個(gè)與顧客交互的細(xì)節(jié),包括交互的原因、傾向數(shù)據(jù)、等待時(shí)間、處理時(shí)間等)以及 類似數(shù)據(jù)相關(guān)的不同的數(shù)據(jù)庫。根據(jù)一個(gè)實(shí)施例,有些數(shù)據(jù)(例如,顧客配置數(shù)據(jù))可以由第 三方數(shù)據(jù)庫提供,例如,第三方客戶關(guān)系管理(CRM)數(shù)據(jù)庫。大容量存儲設(shè)備可以采用本領(lǐng) 域熟知的硬盤或磁盤陣列的形式。
[0114] 根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例,聯(lián)絡(luò)中心102還可以包括:呼叫記錄服務(wù)器40, 用來記錄通過聯(lián)絡(luò)中心102引導(dǎo)的通話音頻;音頻記錄存儲服務(wù)器42(在呼叫中心的環(huán)境中 也稱為呼叫記錄存儲服務(wù)器),用來存儲錄制的音頻;語音分析服務(wù)器44,被配置為處理和 分析從聯(lián)絡(luò)中心102收集的數(shù)字音頻形式的音頻;語音索引數(shù)據(jù)庫46,用于提供已分析音頻 的索引;和參考抄本(或真實(shí)抄本)數(shù)據(jù)庫48,用于存儲和提供錄制的通話的抄本集合,其中 所述抄本根據(jù)準(zhǔn)確率生成或校對和改正(例如,通過人手動(dòng)審核或抄寫)。
[0115] 語音分析服務(wù)器44可以連接到(或者可以包括)預(yù)測服務(wù)器100,所述預(yù)測服務(wù)器 包括模型訓(xùn)練器120、訓(xùn)練模型110、用于配置模型110的訓(xùn)練的訓(xùn)練用戶界面140和用于接 收短語和返回預(yù)測結(jié)果的終端用戶的用戶界面150。
[0116] 圖11的各種服務(wù)器每一個(gè)都可以包括一個(gè)或多個(gè)處理器,所述處理器執(zhí)行計(jì)算機(jī) 程序指令并與其他系統(tǒng)部件交互以執(zhí)行此處描述的各種功能。計(jì)算機(jī)程序指令存儲在內(nèi)存 中,所述內(nèi)存使用標(biāo)準(zhǔn)內(nèi)存設(shè)備(例如,隨機(jī)存取存儲器(RAM))來實(shí)現(xiàn)。計(jì)算機(jī)程序指令還 可以存儲在其他非易失性計(jì)算機(jī)可讀介質(zhì)中,例如CD-ROM、閃存驅(qū)動(dòng)器或類似的介質(zhì)。另 外,雖然每一個(gè)服務(wù)器的功能都像描述的那樣由特定服務(wù)器提供,但本領(lǐng)域的技術(shù)人員應(yīng) 該了解在不脫離本發(fā)明實(shí)施例范圍的情況下,各種服務(wù)器的功能可以合并或集成于單個(gè)服 務(wù)器中,或者一個(gè)特定服務(wù)器的功能可以分布在一個(gè)或多個(gè)其他服務(wù)器上。
[0117] 圖11的各種服務(wù)器可以位于與聯(lián)絡(luò)中心代理的物理位置一樣的現(xiàn)場,或者可以位 于地理位置不同的非現(xiàn)場(或在云端),例如在通過網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))連接到聯(lián)絡(luò)中心的遠(yuǎn) 程數(shù)據(jù)中心。另外,在一些服務(wù)器可以位于非現(xiàn)場時(shí),其他的服務(wù)器可以位于聯(lián)絡(luò)中心現(xiàn) 場,或者在現(xiàn)場和非現(xiàn)場同時(shí)提供具有冗余功能的服務(wù)器,以提供更大的容錯(cuò)能力。在本發(fā) 明的一些實(shí)施例中,位于非現(xiàn)場的服務(wù)器提供的功能可以通過虛擬專網(wǎng)(VPN)訪問和提供, 就好像這些服務(wù)器是現(xiàn)場的一樣,或者可以使用軟件即服務(wù)(SaaS)通過互聯(lián)網(wǎng)使用各種協(xié) 議來提供功能,例如通過使用編碼的擴(kuò)展標(biāo)記語言(XML)或JavaScript對象標(biāo)記(JS0N)交 換數(shù)據(jù)。
[0118] 聯(lián)絡(luò)中心中的各種服務(wù)器每一個(gè)都可以是進(jìn)程或線程,該進(jìn)程或線程運(yùn)行在一個(gè) 或多個(gè)計(jì)算設(shè)備500(例如,圖12A、圖12B)中的一個(gè)或多個(gè)處理器上,執(zhí)行計(jì)算機(jī)程序指令 和與其他系統(tǒng)組件交互以用于執(zhí)行此處描述的各種功能。計(jì)算機(jī)程序指令存儲在內(nèi)存中, 所述內(nèi)存在計(jì)算設(shè)備中可以使用標(biāo)準(zhǔn)內(nèi)存設(shè)備來實(shí)現(xiàn),例如隨機(jī)存取存儲器(RAM)。計(jì)算機(jī) 程序指令也可以存儲在其他非易失性計(jì)算機(jī)可讀介質(zhì)中,例如CD-ROM、閃存驅(qū)動(dòng)器或類似 介質(zhì)。而且,本領(lǐng)域的技術(shù)人員應(yīng)該了解到計(jì)算設(shè)備可以通過固件(例如,應(yīng)用型專用的集 成電路)、硬件、或者軟件、固件和硬件的組合來實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員也應(yīng)該知道,在不 脫離本發(fā)明的示例性實(shí)施例的范圍的情況下,各種計(jì)算設(shè)備的功能可以組合或集成在單個(gè) 的計(jì)算設(shè)備中,或者特定計(jì)算設(shè)備的功能可以分布在一個(gè)或多個(gè)其他計(jì)算設(shè)備上。服務(wù)器 可以是軟件模塊,所述軟件模塊也可以簡稱為模塊。聯(lián)絡(luò)中心中的模塊組可以包括服務(wù)器 和其他模塊。
[0119]前述圖中的各種服務(wù)器、控制器、交換機(jī)和/或網(wǎng)關(guān)中的每一個(gè)都可以是進(jìn)程或線 程,該進(jìn)程或線程運(yùn)行在一個(gè)或多個(gè)計(jì)算設(shè)備1500(例如,圖12A、圖12B)中的一個(gè)或多個(gè)處 理器上,執(zhí)行計(jì)算機(jī)程序指令和與其他系統(tǒng)組件交互以用于執(zhí)行此處描述的各種功能。計(jì) 算機(jī)程序指令存儲在內(nèi)存中,所述內(nèi)存在計(jì)算設(shè)備中可以使用標(biāo)準(zhǔn)內(nèi)存設(shè)備來實(shí)現(xiàn),例如 隨機(jī)存取內(nèi)存(RAM)。計(jì)算機(jī)程序指令也可以存儲在其他非易失性計(jì)算機(jī)可讀介質(zhì)中,例如 CD-ROM、閃存驅(qū)動(dòng)器或類似介質(zhì)。而且,本領(lǐng)域的技術(shù)人員應(yīng)該了解到計(jì)算設(shè)備可以通過固 件(例如,應(yīng)用型專用的集成電路)、硬件、或者軟件、固件和硬件的組合來實(shí)現(xiàn)。本領(lǐng)域的技 術(shù)人員也應(yīng)該知道,在不脫離本發(fā)明的示例性實(shí)施例的范圍的情況下,各種計(jì)算設(shè)備的功 能可以組合或集成在單個(gè)的計(jì)算設(shè)備中,或者特定計(jì)算設(shè)備的功能可以分布在一個(gè)或多個(gè) 其他計(jì)算設(shè)備上。服務(wù)器可以是軟件模塊,所述軟件模塊也可以簡稱為模塊。聯(lián)絡(luò)中心中的 模塊組可以包括服務(wù)器和其他模塊。
[0120]圖12A和圖12B描繪了本發(fā)明的示例性實(shí)施例中可以采用的計(jì)算設(shè)備1500的方框 圖。每個(gè)計(jì)算設(shè)備1500都包括中央處理單元1521和主內(nèi)存單元1522。如圖12A中所示,計(jì)算 機(jī)設(shè)備1500還可以包括存儲設(shè)備1528、可移除介質(zhì)接口 1516、網(wǎng)絡(luò)接口 1518、輸入/輸出(I / 0)控制器1523、一個(gè)或多個(gè)顯示設(shè)備1530c、鍵盤1530a和指向裝置1530b,例如鼠標(biāo)。存儲設(shè) 備1528可以包括但不限于用于操作系統(tǒng)和軟件的存儲器。如圖12B所示,每個(gè)計(jì)算設(shè)備1500 還可以包括附加的可選元件,例如內(nèi)存端口 1503、橋接器1570、一個(gè)或多個(gè)附加的輸入/輸 出設(shè)備1530d、1530e和與央處理單元1521通信的緩存1540。輸入/輸出設(shè)備1530a、1530b、 1530d和1530e在此可以共同使用附圖標(biāo)記1530來表示。
[0121] 中央處理單元1521是響應(yīng)和處理從主內(nèi)存單元1522取來的指令的任何邏輯電路。 例如,這可以在集成電路中實(shí)現(xiàn),形式為微處理器、微控制器或者圖形處理單元(GPU),或者 在現(xiàn)場可編程門陣列(FPGA)或應(yīng)用型專用的集成電路(ASIC)中實(shí)現(xiàn)。主內(nèi)存單元1522可以 是能夠存儲數(shù)據(jù)并允許中央處理單元1521直接訪問任何存儲位置的一個(gè)或多個(gè)內(nèi)存芯片。 如圖11A所示,中央處理單元1521通過系統(tǒng)總線1550與主內(nèi)存1522通信。如圖12B所示,中央 處理單元1521還可以通過內(nèi)存端口 1503直接與主內(nèi)存1522通信。
[0122] 圖12B顯示了一個(gè)實(shí)施例,其中中央處理單元1521通過二級總線直接與緩存1540 通信,二級總線有時(shí)也被稱為后端總線。在其它實(shí)施例中,中央處理單元1521使用系統(tǒng)總線 1550與緩存1540通信。緩存1540通常具有比主內(nèi)存1522更快的響應(yīng)時(shí)間。如圖12A所示,中 央處理單元1521通過局部系統(tǒng)總線1550與各種I/O設(shè)備1530通信。各種總線都可以用作局 部系統(tǒng)總線1550,包括視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線(VLB)、工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、 擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線、微信道體系結(jié)構(gòu)(MCA)總線、外圍組件互聯(lián)(PCI)總線、PCI 擴(kuò)展(PCI-X)總線、快速PCI總線或網(wǎng)絡(luò)用戶總線(NuBus)。有些實(shí)施例中,I/O設(shè)備是顯示設(shè) 備1530c,中央處理單元1521可以通過高級圖形端口(AGP)與顯示設(shè)備1530c通信。圖12B顯 示了計(jì)算機(jī)1500的一個(gè)實(shí)施例,其中中央處理單元1521直接與I/O設(shè)備1530e通信。圖12B還 示出了一個(gè)實(shí)施例,其中局部總線和直接通信被混合:中央處理單元1521使用局部系統(tǒng)總 線1550與I/O設(shè)備1530d通信,同時(shí)也直接和I/O設(shè)備1530e通信。
[0123] 計(jì)算設(shè)備1500中可以存在各種各樣的I/O設(shè)備1530。輸入設(shè)備包括一個(gè)或多個(gè)鍵 盤1530a、鼠標(biāo)、觸控板、軌跡球、擴(kuò)音器和畫板。輸出設(shè)備包括視頻顯示設(shè)備1530c、揚(yáng)聲器 和打印機(jī)。如圖12A中所示,I/O控制器1523可以控制I/O設(shè)備。I/O控制器可以控制一個(gè)或多 個(gè)I/O設(shè)備,例如鍵盤1530a和指向裝置1530b,例如鼠標(biāo)或光筆。
[0124] 再參照圖12A,計(jì)算設(shè)備1500可以支持一個(gè)或多個(gè)可移除介質(zhì)接口 1516,例如軟盤 驅(qū)動(dòng)器、CD-ROM驅(qū)動(dòng)器、DVD-ROM驅(qū)動(dòng)器、各種格式的磁帶驅(qū)動(dòng)器、USB端口、安全數(shù)字或 COMPACT FLASH?存儲卡端口、或者適合從只讀介質(zhì)讀數(shù)據(jù)或從讀寫介質(zhì)讀寫數(shù)據(jù)的其他任 何設(shè)備。I/O設(shè)備1530可以橋接在系統(tǒng)總線1550和可移除介質(zhì)接口 1516之間。
[0125] 舉例來說,可移除介質(zhì)接口 1516可以用于安裝軟件和程序。計(jì)算設(shè)備1500可以還 包括存儲設(shè)備1528,例如一個(gè)或多個(gè)硬盤驅(qū)動(dòng)器或硬盤驅(qū)動(dòng)器陣列,用于存儲操作系統(tǒng)和 其他相關(guān)軟件并用于存儲應(yīng)用軟件程序??蛇x地,可移除介質(zhì)接口 1516還可以用作存儲設(shè) 備。例如,操作系統(tǒng)和軟件可以由可啟動(dòng)介質(zhì)(例如,可啟動(dòng)CD)運(yùn)行。
[0126] 在一些實(shí)施例中,計(jì)算設(shè)備1500可以包括多個(gè)顯示設(shè)備1530c或連接到多個(gè)顯示 設(shè)備1530c,這些顯示設(shè)備每一個(gè)可以是相同或不同的類型和/或形式。因此,I/O設(shè)備1530 和/或I/O控制器1523中的任何一個(gè)可以包括任何類型和/或形式的合適的硬件、軟件或者 硬件和軟件的組合,以通過計(jì)算設(shè)備1500支持、實(shí)現(xiàn)或提供到多個(gè)顯示設(shè)備1530c的連接和 所述多個(gè)顯示設(shè)備的使用。舉例來說,計(jì)算設(shè)備1500可以包括任何類型和/或形式的視頻適 配器、視頻卡、驅(qū)動(dòng)器和/或庫,以接口、通信、連接或用其他方式使用顯示設(shè)備1530c。在一 個(gè)實(shí)施例中,視頻適配器可以包括多個(gè)連接器,以連接到多個(gè)顯示設(shè)備1530c。在其他實(shí)施 例中,計(jì)算設(shè)備1500可以包括多個(gè)視頻適配器,每個(gè)視頻適配器連接到顯示設(shè)備1530c中的 一個(gè)或多個(gè)。在一些實(shí)施例中,計(jì)算設(shè)備1500的操作系統(tǒng)的任何部分都可以被配置用于使 用多個(gè)顯示設(shè)備1530c。在其他實(shí)施例中,顯示設(shè)備1530c中的一個(gè)或多個(gè)可以由通過網(wǎng)絡(luò) 例如連接到計(jì)算設(shè)備1500的一個(gè)或多個(gè)其它計(jì)算設(shè)備提供。這些實(shí)施例可以包括設(shè)計(jì)和構(gòu) 造成使用另外的計(jì)算設(shè)備的顯示設(shè)備作為計(jì)算設(shè)備1500的第二顯示設(shè)備1530c的任何類型 的軟件。本領(lǐng)域的技術(shù)人員應(yīng)該知道和領(lǐng)會(huì)不同的方法和實(shí)施例中,計(jì)算設(shè)備1500可以配 置為具有多個(gè)顯示設(shè)備1530c〇
[0127] 圖12A和12B所示類型的計(jì)算設(shè)備1500可以在操作系統(tǒng)的控制下操作,操作系統(tǒng)控 制任務(wù)計(jì)劃和系統(tǒng)資源的訪問。計(jì)算設(shè)備1500可以運(yùn)行任何操作系統(tǒng)、任何嵌入式操作系 統(tǒng)、任何實(shí)時(shí)操作系統(tǒng)、任何開源操作系統(tǒng)、任何專有操作系統(tǒng)、用于移動(dòng)計(jì)算設(shè)備的任何 操作系統(tǒng)或者能夠運(yùn)行在計(jì)算設(shè)備上和執(zhí)行此處所述的操作的任何其它操作系統(tǒng)。
[0128] 計(jì)算設(shè)備1500可以是任何工作站、桌面計(jì)算機(jī)、膝上型電腦或筆記本電腦、服務(wù)器 機(jī)器、掌上電腦、移動(dòng)電話或其他便攜式通信設(shè)備、媒體播放設(shè)備、游戲系統(tǒng)、移動(dòng)計(jì)算設(shè)備 或任何其他類型和/或形式的能夠通信并具有足夠的處理器能力和內(nèi)存容量來執(zhí)行這里所 描述的操作的計(jì)算設(shè)備、電信設(shè)備或媒體設(shè)備。在一些實(shí)施例中,計(jì)算設(shè)備1500可以具有與 該設(shè)備相容的不同的處理器、操作系統(tǒng)和輸入設(shè)備。
[0129] 在其他實(shí)施例中,計(jì)算設(shè)備1500是移動(dòng)設(shè)備,例如啟用Java的蜂窩電話或個(gè)人數(shù) 字助手(PDA)、智能手機(jī)、數(shù)字音頻播放器或便攜式媒體播放器。在一些實(shí)施例中,計(jì)算設(shè)備 1500包括設(shè)備的組合,例如與數(shù)字音頻播放器或便攜式媒體播放器相組合的移動(dòng)電話。 [0130] 如圖12C所示,中央處理單元1521可以包括多個(gè)處理器?112、?3、?4,并且可以提 供用于同時(shí)執(zhí)行指令或者同時(shí)在多于一個(gè)的數(shù)據(jù)塊上執(zhí)行一個(gè)指令的功能。在一些實(shí)施例 中,計(jì)算設(shè)備1500可以包括具有單核或多核的并行處理器。在這些實(shí)施例中的一個(gè)中,計(jì)算 設(shè)備1500是共享內(nèi)存的并行設(shè)備,具有多個(gè)處理器和/或多個(gè)處理器核,從而能像訪問單個(gè) 的全局地址空間那樣訪問所有可用的內(nèi)存。在這些實(shí)施例中的另一個(gè)中,計(jì)算設(shè)備1500是 具有多個(gè)處理器的分布式內(nèi)存并行設(shè)備,其中每個(gè)處理器只能訪問本地內(nèi)存。在這些實(shí)施 例中的另一個(gè)實(shí)施例中,計(jì)算設(shè)備1500既有一些共享的內(nèi)存,又有一些只可以被特定處理 器或處理器的子集訪問的內(nèi)存。還是在這些實(shí)施例中的另外一個(gè)中,中央處理單元1521包 括多核微處理器,該微處理器將兩個(gè)或更多個(gè)獨(dú)立的處理器組合成單個(gè)封裝體,例如單個(gè) 集成電路(1C)。在圖12D所示的示例性實(shí)施例中,計(jì)算設(shè)備1500包括至少一個(gè)中央處理單元 1521和至少一個(gè)圖形處理單元1521\
[0131] 在一些實(shí)施例中,中央處理單元1521提供單個(gè)指令、多數(shù)據(jù)(snro)功能,例如同時(shí) 在多條數(shù)據(jù)上執(zhí)行單個(gè)指令。在其他的實(shí)施例中,中央處理單元1521中的多個(gè)處理器可以 提供在多條數(shù)據(jù)上同時(shí)執(zhí)行多個(gè)指令(Mnro)的功能。還是在這些實(shí)施例中,在單個(gè)設(shè)備中, 中央處理單元1521可以使用任意組合的sn?核和MMD核。
[0132] 計(jì)算設(shè)備可以是通過網(wǎng)絡(luò)連接的多個(gè)機(jī)器中的一個(gè),或者可以包括多個(gè)這樣連接 的機(jī)器。圖12E顯示一個(gè)例示性的網(wǎng)絡(luò)環(huán)境。該網(wǎng)絡(luò)環(huán)境包括通過一個(gè)或多個(gè)網(wǎng)絡(luò)1504與一 個(gè)或多個(gè)遠(yuǎn)程機(jī)器1506a、1506b、1506c (通常也稱為(多個(gè))服務(wù)器機(jī)器1506或(多個(gè))遠(yuǎn)程 機(jī)器1506)通信的一個(gè)或多個(gè)本地機(jī)器1502a、150 2b (通常也稱為(多個(gè))本地機(jī)器1502、(多 個(gè))客戶端1502、(多個(gè))客戶端節(jié)點(diǎn)1502、(多個(gè))客戶端機(jī)器1502、(多個(gè))客戶端計(jì)算機(jī) 1502、(多個(gè))客戶端設(shè)備1502、(多個(gè))端點(diǎn)1502或(多個(gè))端點(diǎn)節(jié)點(diǎn)1502)。在一些實(shí)施例中, 本地機(jī)器1502具有下面兩個(gè)功能:作為客戶端節(jié)點(diǎn),尋求訪問服務(wù)器機(jī)器提供的資源;作為 服務(wù)器機(jī)器,為其他客戶端1502a、1502b提供對托管資源的訪問。雖然圖12E中只顯示兩個(gè) 客戶端1502和三個(gè)服務(wù)器機(jī)器1506,但通常每一個(gè)可以具有任意數(shù)量。網(wǎng)絡(luò)1504可以是例 如為諸如公司互聯(lián)網(wǎng)的私人網(wǎng)絡(luò)的局域網(wǎng)(LAN)、城域網(wǎng)(MAN)或者例如為互聯(lián)網(wǎng)或其他公 共網(wǎng)絡(luò)的廣域網(wǎng)(WAN)或它們的組合。
[0133] 計(jì)算設(shè)備1500可以包括網(wǎng)絡(luò)接口 1518,以通過各種連接與網(wǎng)絡(luò)1504連接,所述各 種連接包括但不限于標(biāo)準(zhǔn)電話線、局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)鏈接、寬帶連接、無線連接或 上述中的任何一個(gè)或全部的組合??梢允褂酶鞣N通信協(xié)議建立連接。在一個(gè)實(shí)施例中,計(jì)算 設(shè)備1500與其他計(jì)算設(shè)備1500通過任何類型和/或形式的網(wǎng)關(guān)或隧道協(xié)議通信,例如安全 套接層(SSL)或傳輸層安全(TLS)。網(wǎng)絡(luò)接口 1518可以包括內(nèi)置的網(wǎng)絡(luò)適配器,例如網(wǎng)絡(luò)接 口卡,適用于將計(jì)算設(shè)備1500連接到能夠通信和執(zhí)行此處描述的操作的任何類型的網(wǎng)絡(luò)。 I/O設(shè)備1530可以是系統(tǒng)總線1550和外部通信總線之間的橋接器。
[0134] 雖然本發(fā)明已經(jīng)在特定示例性實(shí)施例中進(jìn)行了描述了,但是應(yīng)該理解本發(fā)明并不 限于已公開的實(shí)施例,相反,在所附權(quán)利要求的精神和范圍內(nèi),本發(fā)明意在覆蓋各種變形和 等效設(shè)置。
【主權(quán)項(xiàng)】
1. 一種用于預(yù)測包括至少一個(gè)單詞的短語的語音識別質(zhì)量的方法,所述方法包括以下 步驟: 在包括處理器和存儲有指令的內(nèi)存的計(jì)算機(jī)系統(tǒng)上接收所述短語; 在所述計(jì)算機(jī)系統(tǒng)上計(jì)算包括與所述短語相對應(yīng)的一個(gè)或多個(gè)特征的特征集; 將所述短語提供給所述計(jì)算機(jī)系統(tǒng)上的預(yù)測模型,并接收基于所述特征集的預(yù)測的識 別質(zhì)量值;和 返回所述預(yù)測的識別質(zhì)量值。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述預(yù)測模型是神經(jīng)網(wǎng)絡(luò)。3. 根據(jù)權(quán)利要求2所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)是多層感知器神經(jīng)網(wǎng)絡(luò),并且其中 所述神經(jīng)網(wǎng)絡(luò)通過應(yīng)用反向傳播算法進(jìn)行訓(xùn)練。4. 根據(jù)權(quán)利要求1所述的方法,其中,所述預(yù)測模型由下述步驟生成: 在所述計(jì)算機(jī)系統(tǒng)上從記錄的音頻集合中生成多個(gè)訓(xùn)練短語; 在所述計(jì)算機(jī)系統(tǒng)上計(jì)算所述短語中的每一個(gè)的目標(biāo)值; 計(jì)算所述短語中的每一個(gè)的多個(gè)特征; 在所述計(jì)算機(jī)系統(tǒng)上根據(jù)所述特征訓(xùn)練所述預(yù)測模型;和 在所述計(jì)算機(jī)系統(tǒng)上設(shè)置過濾閾值。5. 根據(jù)權(quán)利要求4所述的方法,其中,所述生成所述訓(xùn)練短語的步驟包括以下步驟: 將多個(gè)真實(shí)抄本分段為多個(gè)真實(shí)短語; 使用自動(dòng)語音識別系統(tǒng)處理所述記錄的音頻集合,以生成識別器輸出; 在所述真實(shí)短語和所述識別器輸出之間進(jìn)行標(biāo)簽匹配,作為命中率; 對命中率的數(shù)量大于閾值的短語過濾標(biāo)記的短語;和 返回所述多個(gè)訓(xùn)練短語。6. 根據(jù)權(quán)利要求4所述的方法,其中,通過對所述多個(gè)訓(xùn)練短語的測試短語集優(yōu)化查準(zhǔn) 率值和查全率值來設(shè)置所述過濾閾值。7. 根據(jù)權(quán)利要求1所述的方法,其中,所述短語的特征包括下述中的至少一個(gè): 所述短語中的單詞的查準(zhǔn)率; 所述短語中的單詞的查全率; 短語錯(cuò)誤率; 所述短語的查準(zhǔn)率和查全率之和; 所述短語中的長單詞的數(shù)量; 所述短語中的元音的數(shù)量; 所述短語的長度; 所述短語的混淆矩陣;和 語言模型的特征。8. 根據(jù)權(quán)利要求1所述的方法,還包括以下步驟: 比較所述預(yù)測的識別質(zhì)量值和閾值;和 將表示所述短語的所述識別質(zhì)量的標(biāo)記作為所述預(yù)測的識別質(zhì)量值返回,所述標(biāo)記基 于所述預(yù)測的識別質(zhì)量值和所述閾值之間的比較。9. 一種系統(tǒng),包括: 處理器;和 內(nèi)存,其中所述內(nèi)存存儲指令,所述指令在由所述處理器執(zhí)行時(shí)使所述處理器進(jìn)行以 下操作: 接收短語; 計(jì)算包括與所述短語相對應(yīng)的一個(gè)或多個(gè)特征的特征集; 提供所述短語到預(yù)測模型,并接收基于所述特征集的預(yù)測的識別質(zhì)量值;和 返回所述預(yù)測的識別質(zhì)量值。10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述預(yù)測模型是神經(jīng)網(wǎng)絡(luò)。11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)是多層感知器神經(jīng)網(wǎng)絡(luò),并且其 中神經(jīng)網(wǎng)絡(luò)通過應(yīng)用反向傳播算法訓(xùn)練。12. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述系統(tǒng)被配置成通過以下步驟生成所述預(yù)測 豐旲型: 從記錄的音頻集合中生成多個(gè)訓(xùn)練短語; 為所述短語中的每一個(gè)計(jì)算目標(biāo)值; 計(jì)算所述短語中的每一個(gè)的多個(gè)特征; 根據(jù)所述特征訓(xùn)練所述預(yù)測模型;和 設(shè)置過濾閾值。13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中,所述系統(tǒng)被配置成通過以下步驟生成多個(gè)訓(xùn)練 短語: 將多個(gè)真實(shí)抄本分段為多個(gè)真實(shí)短語; 使用自動(dòng)語音識別系統(tǒng)處理所述記錄的音頻集合,以生成識別器輸出; 在所述真實(shí)短語和所述識別器輸出之間進(jìn)行標(biāo)簽匹配,作為命中率; 對命中率的數(shù)量大于閾值的短語過濾標(biāo)記的短語;和 返回所述多個(gè)訓(xùn)練短語。14. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中,通過對所述多個(gè)訓(xùn)練短語的測試短語集優(yōu)化查 準(zhǔn)率值和查全率值來設(shè)置所述過濾閾值。15. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述短語的特征包括下述中的至少一個(gè): 所述短語中的單詞的查準(zhǔn)率; 所述短語中的單詞的查全率; 短語錯(cuò)誤率; 所述短語的查準(zhǔn)率和查全率之和; 所述短語中的長單詞的數(shù)量; 所述短語中的元音的數(shù)量; 所述短語的長度; 所述短語的混淆矩陣;和 語言模型的特征。16. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述系統(tǒng)還被配置為: 比較所述預(yù)測的識別質(zhì)量值和閾值;和 使表示所述短語的所述識別質(zhì)量的標(biāo)記作為所述預(yù)測的識別質(zhì)量值返回,所述標(biāo)記基 于所述預(yù)測的識別質(zhì)量值和所述閾值之間的比較。17. -種基本上如前面參照附圖所述的系統(tǒng)。18. -種基本上如前面參照附圖所述的方法。
【文檔編號】G10L15/02GK105874530SQ201480071972
【公開日】2016年8月17日
【申請日】2014年10月30日
【發(fā)明人】A·列夫·托夫, A·法伊扎科夫, Y·康尼格
【申請人】格林伊登美國控股有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
抚远县| 西昌市| 微博| 锦州市| 江西省| 建平县| 右玉县| 新龙县| 麻栗坡县| 慈溪市| 周至县| 和龙市| 高尔夫| 恭城| 砚山县| 大厂| 咸宁市| 杨浦区| 交城县| 兴义市| 峨山| 正定县| 新津县| 丹棱县| 凌源市| 任丘市| 乡城县| 秦皇岛市| 靖州| 巴林左旗| 特克斯县| 黔江区| 朔州市| 漳平市| 出国| 姜堰市| 安义县| 泸西县| 黑水县| 顺平县| 资源县|