用于識(shí)別語(yǔ)音的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上設(shè)及自動(dòng)語(yǔ)音識(shí)別,并且更具體地,設(shè)及在給予用戶低認(rèn)知負(fù)荷的 同時(shí)提供語(yǔ)音識(shí)別。
【背景技術(shù)】
[0002] 通常已知的是,由駕駛員執(zhí)行的任何非駕駛相關(guān)任務(wù)都可能使注意力不集中于駕 駛。因此,近期關(guān)注通過(guò)立法手段和通過(guò)駕駛員教育兩者來(lái)減少駕駛時(shí)移動(dòng)電話的使用。對(duì) 于駕駛員在車輛中使用信息、通信W及娛樂(lè)功能來(lái)說(shuō),還存在日益增長(zhǎng)的需求。
[0003]研究表明,與常規(guī)視覺(jué)或手動(dòng)接口相比,基于語(yǔ)音的接口可W不太分散注意力。用 于有限功能的基于命令的語(yǔ)音接口在車輛中正變得普遍。然而,因?yàn)樽R(shí)別大詞匯量連續(xù)語(yǔ) 音易于出錯(cuò),所W針對(duì)像SMS運(yùn)種功能使用語(yǔ)音的文本輸入是困難的。由此,需要糾正或W 其它方式改變已經(jīng)利用語(yǔ)音輸入的文本,同時(shí)減少正在駕駛的用戶方面的分屯、。
[0004] 用于糾正不受限制語(yǔ)音的一些方法利用編輯應(yīng)用,即,具有計(jì)算機(jī)顯示器和常規(guī) 鍵盤的字處理機(jī)。例如,U.S. 5, 960, 447中描述的方法通過(guò)W與關(guān)聯(lián)語(yǔ)音來(lái)標(biāo)記所識(shí)別文 本中的詞(word)并且允許字處理軟件的用戶收聽(tīng)用于編輯文本轉(zhuǎn)錄的語(yǔ)音,來(lái)糾正錯(cuò)誤 識(shí)別的語(yǔ)音。
[0005]U.S. 5, 970, 460中描述的另一種方法通過(guò)在編輯應(yīng)用程序中關(guān)聯(lián)"語(yǔ)音事件數(shù)據(jù) 庫(kù)"和文本轉(zhuǎn)錄中的位置并且加寬上下文,來(lái)改進(jìn)編輯操作。運(yùn)種方法需要主要關(guān)注糾正任 務(wù),包括常規(guī)鍵盤、鼠標(biāo)器W及菜單選擇,并且具體來(lái)說(shuō),利用為關(guān)注視覺(jué)顯示所需的視覺(jué) 資源。然而,鍵盤、觸摸屏W及大視覺(jué)顯示器的使用未最小化從駕駛分屯、。
[0006] 其它方法通過(guò)利用隨后語(yǔ)音編輯由第一語(yǔ)音所產(chǎn)生的轉(zhuǎn)錄,來(lái)最小化交互作用的 復(fù)雜性。例如,U.S. 6, 064, 959中描述的方法利用隨后說(shuō)話來(lái)糾正語(yǔ)音識(shí)別的結(jié)果。類似 的是,U.S. 7, 444, 286中描述的方法選擇語(yǔ)音識(shí)別中的要重新識(shí)別的部分。然而,該語(yǔ)音的 隨后解釋可W產(chǎn)生錯(cuò)誤,從而導(dǎo)致增加糾錯(cuò)工作,并且還導(dǎo)致駕駛員分屯、。
[0007]U.S. 2006/293889中描述的另一方法使用糾正由用戶給出的單個(gè)詞,來(lái)調(diào)整針對(duì) 與該單個(gè)詞相鄰的詞的另選建議。然而,如果用戶的語(yǔ)音中的多個(gè)詞被不正確地解釋,則該 用戶必須多次糾正該語(yǔ)音解釋。而且,與更一般類型的交互作用相對(duì)比,運(yùn)種方法的糾正限 于替換所選擇詞,其可W導(dǎo)致用戶的進(jìn)一步分屯、。因此,需要將引導(dǎo)語(yǔ)音的解釋所需的交互 作用和用戶注意力減到最小。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的一些實(shí)施方式基于W下認(rèn)知,即,在對(duì)包括一系列詞的大詞匯量連續(xù)語(yǔ) 音的語(yǔ)音識(shí)別中出現(xiàn)的錯(cuò)誤通常與其它錯(cuò)誤相關(guān)聯(lián)。因此,對(duì)識(shí)別結(jié)果的糾正可W用于預(yù) 測(cè)其它錯(cuò)誤可能出現(xiàn)在哪里并且用于糾正附加錯(cuò)誤,而不是只糾正初始錯(cuò)誤并等待附加的 用戶輸入。運(yùn)些其它錯(cuò)誤可在相鄰的詞位置出現(xiàn),或者可能在無(wú)需對(duì)相鄰的詞進(jìn)行任何改 變的情況下在較遠(yuǎn)的位置出現(xiàn),因此糾正應(yīng)當(dāng)用于更新識(shí)別結(jié)果。
[0009] 例如,在導(dǎo)航關(guān)注點(diǎn)任務(wù)中的識(shí)別結(jié)果可能包括兩個(gè)另選詞序列"Museumof FineArts"和"EmporiumofFineCarts"。在運(yùn)種情況下,如果原始解釋是"Museumof FineArts",并且用戶將"Arts"改變成"Carts",則很可能的是,詞"Museum"應(yīng)當(dāng)改變成 "Emporium",即使其間存在解釋未發(fā)生改變的幾個(gè)詞。
[0010] 另外,本發(fā)明的一些實(shí)施方式基于W下總體認(rèn)知,即,對(duì)大詞匯量連續(xù)語(yǔ)音的語(yǔ)音 識(shí)別的解釋的糾正不需要被限制成將一個(gè)可能的詞改變成另一個(gè),而是還可W包括更一般 種類的糾正約束。于是可將該糾正約束用于重新解釋用戶說(shuō)出的言語(yǔ)。
[0011] 與僅使用和單個(gè)詞相對(duì)應(yīng)的聲學(xué)信號(hào)的解釋相比,運(yùn)種約束可W改進(jìn)正確解釋一 組詞的概率。
[001引 例如,假設(shè)識(shí)別結(jié)果包括可選擇對(duì)象"Wreckanicebeach"和"Reco即ize speech",可W使用主題是"污染"的約束來(lái)更新第一識(shí)別的概率。
[0013] 因此,一些實(shí)施方式基于特定的認(rèn)知,即,可W通過(guò)對(duì)所提供的(例如由用戶說(shuō)出 語(yǔ)音)的詞序列使用約束來(lái)改進(jìn)整個(gè)語(yǔ)音的重新解釋。例如,詞序列約束可W包括語(yǔ)音中 的詞的數(shù)量和次序、語(yǔ)音中的在特定時(shí)間說(shuō)出的特定詞、語(yǔ)音中缺少該特定詞、該語(yǔ)音中的 兩個(gè)特定詞的連接或分離。
[0014] 例如,代替請(qǐng)求用戶糾正語(yǔ)音的解釋中的特定詞或多個(gè)特定詞,可W將來(lái)自用戶 的輸入用于確定詞序列約束,所述詞序列約束可被用于更新該語(yǔ)音的整個(gè)解釋。該實(shí)現(xiàn)允 許減少用戶糾正該語(yǔ)音的工作,因?yàn)樵~序列約束可W導(dǎo)致糾正語(yǔ)音的整個(gè)解釋,而糾正詞 僅可W導(dǎo)致糾正詞。
[0015] 由此,本發(fā)明的一些實(shí)施方式使用由用戶提供的詞序列約束,W更新該用戶的語(yǔ) 音的解釋。例如,整個(gè)語(yǔ)音的最佳假設(shè)可W在詞序列約束的情況下確定。實(shí)際上,運(yùn)種方法 可W將確定語(yǔ)音序列的正確解釋所需的許多交互減到最少。
[0016] 各種實(shí)施方式在接收語(yǔ)音之前、同時(shí)或之后確定詞序列約束。例如,在一些實(shí)施方 式中,詞序列約束包括該語(yǔ)音的元數(shù)據(jù),諸如語(yǔ)音中的詞的數(shù)量或語(yǔ)音中存不存在特定詞。 運(yùn)種詞序列約束可W按任何時(shí)間收集。
[0017] 在另一實(shí)施方式中,該詞序列約束更特定于語(yǔ)音的上下文。例如,詞序列約束可W 包括有關(guān)語(yǔ)音的初始解釋的信息,并且運(yùn)種信息被用于重新評(píng)估整個(gè)語(yǔ)音的解釋。該實(shí)施 方式的一個(gè)變型例通過(guò)利用用戶接口W允許糾正語(yǔ)音識(shí)別假設(shè)內(nèi)的特定詞來(lái)最小化用戶 的認(rèn)知負(fù)荷。糾正被反饋到系統(tǒng)中,作為被用于提高語(yǔ)音的假設(shè)正確的概率的約束,由此, 減少所需糾正動(dòng)作的數(shù)量。
[0018] 因此,一個(gè)實(shí)施方式公開(kāi)了一種用于識(shí)別包括詞序列的語(yǔ)音的方法。該方法包括: 利用聲學(xué)模型和語(yǔ)言模型來(lái)生成所述語(yǔ)音的一組解釋;針對(duì)每個(gè)解釋,確定在表示所述詞 序列時(shí)代表解釋的正確性的分?jǐn)?shù),W生成一組分?jǐn)?shù);確定用于識(shí)別經(jīng)受詞序列約束的所述 語(yǔ)音的約束;W及基于每個(gè)解釋與所述約束的一致性來(lái)更新所述一組分?jǐn)?shù)。所述方法的步 驟通過(guò)處理器來(lái)執(zhí)行。
[0019] 另一實(shí)施方式公開(kāi)了一種用于識(shí)別用戶的語(yǔ)音的方法,該方法包括W下步驟:識(shí) 別所述語(yǔ)音,W生成一組解釋,該組解釋與表示所述語(yǔ)音時(shí)代表各個(gè)解釋的正確性的對(duì)應(yīng) 的一組分?jǐn)?shù)相關(guān)聯(lián);W及根據(jù)至少一個(gè)約束迭代地更新該組分?jǐn)?shù),使得針對(duì)每一個(gè)迭代,對(duì) 于每一個(gè)解釋,如果該解釋與所述約束一致,則增加該解釋的分?jǐn)?shù),并且如果該解釋與所述 約束不一致,則減少該解釋的分?jǐn)?shù)。所述方法的步驟通過(guò)處理器來(lái)執(zhí)行。
[0020] 又一實(shí)施方式公開(kāi)了一種用于識(shí)別語(yǔ)音的系統(tǒng)。該系統(tǒng)包括:處理器,該處理器實(shí) 現(xiàn)語(yǔ)音識(shí)別模塊和糾錯(cuò)模塊,其中,所述語(yǔ)音識(shí)別模塊利用聲學(xué)模型和語(yǔ)言模型來(lái)生成所 述語(yǔ)音輸入的一組解釋,并且針對(duì)每一個(gè)解釋,確定在表示所述語(yǔ)音時(shí)代表解釋的正確性 的分?jǐn)?shù);并且其中,所述糾錯(cuò)模塊確定用于識(shí)別所述語(yǔ)音的約束,并且基于每一個(gè)解釋與所 述約束的一致性來(lái)更新所述解釋的分?jǐn)?shù)。
【附圖說(shuō)明】
[0021][圖1A]
[0022] 圖1A是根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于語(yǔ)音識(shí)別的系統(tǒng)的組件的示意圖;
[0023][圖1B]
[0024] 圖1B是包括根據(jù)本發(fā)明一些實(shí)施方式的系統(tǒng)的車輛的儀表盤的局部正視圖;
[00巧][圖 2A]
[0026] 圖2A是例示根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音識(shí)別模塊的功能的框圖;
[0027][圖2B]
[0028] 圖2B是圖2A的方法的步驟的示例;
[0029][圖3A]
[0030] 圖3A是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟 的流程圖;
[003。[圖3B]
[0032] 圖3B是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟 的流程圖;
[0033][圖3C]
[0034] 圖3C是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟 的流程圖;
[003引[圖3D]
[0036] 圖3D是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟 的流程圖;
[0037][圖 4]
[0038] 圖4是根據(jù)本發(fā)明一個(gè)實(shí)施方式的具有強(qiáng)調(diào)的詞的詞序列的示意圖;
[0039][圖引
[0040] 圖5是根據(jù)本發(fā)明一