用于識(shí)別語(yǔ)音的系統(tǒng)和方法

文檔序號(hào)：9529295閱讀：973來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于識(shí)別語(yǔ)音的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上設(shè)及自動(dòng)語(yǔ)音識(shí)別，并且更具體地，設(shè)及在給予用戶低認(rèn)知負(fù)荷的同時(shí)提供語(yǔ)音識(shí)別。
【背景技術(shù)】
[0002] 通常已知的是，由駕駛員執(zhí)行的任何非駕駛相關(guān)任務(wù)都可能使注意力不集中于駕駛。因此，近期關(guān)注通過(guò)立法手段和通過(guò)駕駛員教育兩者來(lái)減少駕駛時(shí)移動(dòng)電話的使用。對(duì) 于駕駛員在車輛中使用信息、通信W及娛樂(lè)功能來(lái)說(shuō)，還存在日益增長(zhǎng)的需求。
[0003]研究表明，與常規(guī)視覺(jué)或手動(dòng)接口相比，基于語(yǔ)音的接口可W不太分散注意力。用于有限功能的基于命令的語(yǔ)音接口在車輛中正變得普遍。然而，因?yàn)樽R(shí)別大詞匯量連續(xù)語(yǔ) 音易于出錯(cuò)，所W針對(duì)像SMS運(yùn)種功能使用語(yǔ)音的文本輸入是困難的。由此，需要糾正或W 其它方式改變已經(jīng)利用語(yǔ)音輸入的文本，同時(shí)減少正在駕駛的用戶方面的分屯、。
[0004] 用于糾正不受限制語(yǔ)音的一些方法利用編輯應(yīng)用，即，具有計(jì)算機(jī)顯示器和常規(guī) 鍵盤的字處理機(jī)。例如，U.S. 5, 960, 447中描述的方法通過(guò)W與關(guān)聯(lián)語(yǔ)音來(lái)標(biāo)記所識(shí)別文本中的詞（word)并且允許字處理軟件的用戶收聽(tīng)用于編輯文本轉(zhuǎn)錄的語(yǔ)音，來(lái)糾正錯(cuò)誤識(shí)別的語(yǔ)音。
[0005]U.S. 5, 970, 460中描述的另一種方法通過(guò)在編輯應(yīng)用程序中關(guān)聯(lián)"語(yǔ)音事件數(shù)據(jù) 庫(kù)"和文本轉(zhuǎn)錄中的位置并且加寬上下文，來(lái)改進(jìn)編輯操作。運(yùn)種方法需要主要關(guān)注糾正任務(wù)，包括常規(guī)鍵盤、鼠標(biāo)器W及菜單選擇，并且具體來(lái)說(shuō)，利用為關(guān)注視覺(jué)顯示所需的視覺(jué) 資源。然而，鍵盤、觸摸屏W及大視覺(jué)顯示器的使用未最小化從駕駛分屯、。
[0006] 其它方法通過(guò)利用隨后語(yǔ)音編輯由第一語(yǔ)音所產(chǎn)生的轉(zhuǎn)錄，來(lái)最小化交互作用的復(fù)雜性。例如，U.S. 6, 064, 959中描述的方法利用隨后說(shuō)話來(lái)糾正語(yǔ)音識(shí)別的結(jié)果。類似的是，U.S. 7, 444, 286中描述的方法選擇語(yǔ)音識(shí)別中的要重新識(shí)別的部分。然而，該語(yǔ)音的隨后解釋可W產(chǎn)生錯(cuò)誤，從而導(dǎo)致增加糾錯(cuò)工作，并且還導(dǎo)致駕駛員分屯、。
[0007]U.S. 2006/293889中描述的另一方法使用糾正由用戶給出的單個(gè)詞，來(lái)調(diào)整針對(duì) 與該單個(gè)詞相鄰的詞的另選建議。然而，如果用戶的語(yǔ)音中的多個(gè)詞被不正確地解釋，則該用戶必須多次糾正該語(yǔ)音解釋。而且，與更一般類型的交互作用相對(duì)比，運(yùn)種方法的糾正限于替換所選擇詞，其可W導(dǎo)致用戶的進(jìn)一步分屯、。因此，需要將引導(dǎo)語(yǔ)音的解釋所需的交互作用和用戶注意力減到最小。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的一些實(shí)施方式基于W下認(rèn)知，即，在對(duì)包括一系列詞的大詞匯量連續(xù)語(yǔ) 音的語(yǔ)音識(shí)別中出現(xiàn)的錯(cuò)誤通常與其它錯(cuò)誤相關(guān)聯(lián)。因此，對(duì)識(shí)別結(jié)果的糾正可W用于預(yù) 測(cè)其它錯(cuò)誤可能出現(xiàn)在哪里并且用于糾正附加錯(cuò)誤，而不是只糾正初始錯(cuò)誤并等待附加的用戶輸入。運(yùn)些其它錯(cuò)誤可在相鄰的詞位置出現(xiàn)，或者可能在無(wú)需對(duì)相鄰的詞進(jìn)行任何改變的情況下在較遠(yuǎn)的位置出現(xiàn)，因此糾正應(yīng)當(dāng)用于更新識(shí)別結(jié)果。
[0009] 例如，在導(dǎo)航關(guān)注點(diǎn)任務(wù)中的識(shí)別結(jié)果可能包括兩個(gè)另選詞序列"Museumof FineArts"和"EmporiumofFineCarts"。在運(yùn)種情況下，如果原始解釋是"Museumof FineArts",并且用戶將"Arts"改變成"Carts",則很可能的是，詞"Museum"應(yīng)當(dāng)改變成 "Emporium",即使其間存在解釋未發(fā)生改變的幾個(gè)詞。
[0010] 另外，本發(fā)明的一些實(shí)施方式基于W下總體認(rèn)知，即，對(duì)大詞匯量連續(xù)語(yǔ)音的語(yǔ)音識(shí)別的解釋的糾正不需要被限制成將一個(gè)可能的詞改變成另一個(gè)，而是還可W包括更一般種類的糾正約束。于是可將該糾正約束用于重新解釋用戶說(shuō)出的言語(yǔ)。
[0011] 與僅使用和單個(gè)詞相對(duì)應(yīng)的聲學(xué)信號(hào)的解釋相比，運(yùn)種約束可W改進(jìn)正確解釋一組詞的概率。
[001引例如，假設(shè)識(shí)別結(jié)果包括可選擇對(duì)象"Wreckanicebeach"和"Reco即ize speech",可W使用主題是"污染"的約束來(lái)更新第一識(shí)別的概率。
[0013] 因此，一些實(shí)施方式基于特定的認(rèn)知，即，可W通過(guò)對(duì)所提供的（例如由用戶說(shuō)出語(yǔ)音）的詞序列使用約束來(lái)改進(jìn)整個(gè)語(yǔ)音的重新解釋。例如，詞序列約束可W包括語(yǔ)音中的詞的數(shù)量和次序、語(yǔ)音中的在特定時(shí)間說(shuō)出的特定詞、語(yǔ)音中缺少該特定詞、該語(yǔ)音中的兩個(gè)特定詞的連接或分離。
[0014] 例如，代替請(qǐng)求用戶糾正語(yǔ)音的解釋中的特定詞或多個(gè)特定詞，可W將來(lái)自用戶的輸入用于確定詞序列約束，所述詞序列約束可被用于更新該語(yǔ)音的整個(gè)解釋。該實(shí)現(xiàn)允許減少用戶糾正該語(yǔ)音的工作，因?yàn)樵~序列約束可W導(dǎo)致糾正語(yǔ)音的整個(gè)解釋，而糾正詞僅可W導(dǎo)致糾正詞。
[0015] 由此，本發(fā)明的一些實(shí)施方式使用由用戶提供的詞序列約束，W更新該用戶的語(yǔ) 音的解釋。例如，整個(gè)語(yǔ)音的最佳假設(shè)可W在詞序列約束的情況下確定。實(shí)際上，運(yùn)種方法可W將確定語(yǔ)音序列的正確解釋所需的許多交互減到最少。
[0016] 各種實(shí)施方式在接收語(yǔ)音之前、同時(shí)或之后確定詞序列約束。例如，在一些實(shí)施方式中，詞序列約束包括該語(yǔ)音的元數(shù)據(jù)，諸如語(yǔ)音中的詞的數(shù)量或語(yǔ)音中存不存在特定詞。運(yùn)種詞序列約束可W按任何時(shí)間收集。
[0017] 在另一實(shí)施方式中，該詞序列約束更特定于語(yǔ)音的上下文。例如，詞序列約束可W 包括有關(guān)語(yǔ)音的初始解釋的信息，并且運(yùn)種信息被用于重新評(píng)估整個(gè)語(yǔ)音的解釋。該實(shí)施方式的一個(gè)變型例通過(guò)利用用戶接口W允許糾正語(yǔ)音識(shí)別假設(shè)內(nèi)的特定詞來(lái)最小化用戶的認(rèn)知負(fù)荷。糾正被反饋到系統(tǒng)中，作為被用于提高語(yǔ)音的假設(shè)正確的概率的約束，由此，減少所需糾正動(dòng)作的數(shù)量。
[0018] 因此，一個(gè)實(shí)施方式公開(kāi)了一種用于識(shí)別包括詞序列的語(yǔ)音的方法。該方法包括：利用聲學(xué)模型和語(yǔ)言模型來(lái)生成所述語(yǔ)音的一組解釋；針對(duì)每個(gè)解釋，確定在表示所述詞序列時(shí)代表解釋的正確性的分?jǐn)?shù)，W生成一組分?jǐn)?shù)；確定用于識(shí)別經(jīng)受詞序列約束的所述語(yǔ)音的約束；W及基于每個(gè)解釋與所述約束的一致性來(lái)更新所述一組分?jǐn)?shù)。所述方法的步驟通過(guò)處理器來(lái)執(zhí)行。
[0019] 另一實(shí)施方式公開(kāi)了一種用于識(shí)別用戶的語(yǔ)音的方法，該方法包括W下步驟：識(shí) 別所述語(yǔ)音，W生成一組解釋，該組解釋與表示所述語(yǔ)音時(shí)代表各個(gè)解釋的正確性的對(duì)應(yīng) 的一組分?jǐn)?shù)相關(guān)聯(lián)；W及根據(jù)至少一個(gè)約束迭代地更新該組分?jǐn)?shù)，使得針對(duì)每一個(gè)迭代，對(duì) 于每一個(gè)解釋，如果該解釋與所述約束一致，則增加該解釋的分?jǐn)?shù)，并且如果該解釋與所述約束不一致，則減少該解釋的分?jǐn)?shù)。所述方法的步驟通過(guò)處理器來(lái)執(zhí)行。
[0020] 又一實(shí)施方式公開(kāi)了一種用于識(shí)別語(yǔ)音的系統(tǒng)。該系統(tǒng)包括：處理器，該處理器實(shí) 現(xiàn)語(yǔ)音識(shí)別模塊和糾錯(cuò)模塊，其中，所述語(yǔ)音識(shí)別模塊利用聲學(xué)模型和語(yǔ)言模型來(lái)生成所述語(yǔ)音輸入的一組解釋，并且針對(duì)每一個(gè)解釋，確定在表示所述語(yǔ)音時(shí)代表解釋的正確性的分?jǐn)?shù)；并且其中，所述糾錯(cuò)模塊確定用于識(shí)別所述語(yǔ)音的約束，并且基于每一個(gè)解釋與所述約束的一致性來(lái)更新所述解釋的分?jǐn)?shù)。
【附圖說(shuō)明】
[0021][圖1A]
[0022] 圖1A是根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于語(yǔ)音識(shí)別的系統(tǒng)的組件的示意圖；
[0023][圖1B]
[0024] 圖1B是包括根據(jù)本發(fā)明一些實(shí)施方式的系統(tǒng)的車輛的儀表盤的局部正視圖；
[00巧][圖 2A]
[0026] 圖2A是例示根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音識(shí)別模塊的功能的框圖；
[0027][圖2B]
[0028] 圖2B是圖2A的方法的步驟的示例；
[0029][圖3A]
[0030] 圖3A是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟的流程圖；
[003。[圖3B]
[0032] 圖3B是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟的流程圖；
[0033][圖3C]
[0034] 圖3C是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟的流程圖；
[003引[圖3D]
[0036] 圖3D是按照根據(jù)本發(fā)明不同實(shí)施方式的在語(yǔ)音識(shí)別中糾錯(cuò)的方法所執(zhí)行的步驟的流程圖；
[0037][圖 4]
[0038] 圖4是根據(jù)本發(fā)明一個(gè)實(shí)施方式的具有強(qiáng)調(diào)的詞的詞序列的示意圖；
[0039][圖引
[0040] 圖5是根據(jù)本發(fā)明一

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5