基于話音記錄日志提供話音識別系統(tǒng)的方法和系統(tǒng)的制作方法
【專利說明】基于話音巧錄日志提供話音識別系統(tǒng)的方法和系統(tǒng)
【背景技術(shù)】
[0001] 計算設(shè)備包括硬件和軟件的各種組合,它們使得用戶能夠與計算系統(tǒng)交互,等等。 現(xiàn)代用戶界面的一個示例是"語音控制",其可允許用戶向計算系統(tǒng)的話音識別模塊提供話 音數(shù)據(jù)。該數(shù)據(jù)可被話音識別模塊接收、轉(zhuǎn)化成文本并處理,并且可最終被計算系統(tǒng)用作執(zhí) 行某些計算功能的基礎(chǔ)。話音識別模塊對于同時需要對其手部的自由使用和對計算設(shè)備的 控制的用戶仍是更有用的。例如,執(zhí)行外科手術(shù)的醫(yī)生可利用話音識別模塊W便在用他或 她的手為患者做手術(shù)的同時在計算設(shè)備上執(zhí)行命令。
[0002] 話音識別系統(tǒng)可需要通過處理話音查詢(稱為話語)的記錄的大數(shù)據(jù)庫來獲知用 戶如何發(fā)出話音的各種聲音。然而,話音識別系統(tǒng)在嘗試理解用戶的輸入時可遇到問題。例 如,話音識別模塊可從具有各種音調(diào)、對字詞的發(fā)音不同W及強調(diào)字詞的不同部分等等的 不同用戶接收輸入。此外,話音識別系統(tǒng)可檢測到背景噪聲、風(fēng)或者其他干擾,該些可與來 自用戶的輸入混淆。話音識別系統(tǒng)可能必須克服該些障礙W及其他障礙W便正確地工作。
【發(fā)明內(nèi)容】
[0003] 在一個方面中,描述了一種方法。該方法可包括接收一個或多個數(shù)據(jù)日志,并 且該一個或多個數(shù)據(jù)日志包括至少一個或多個口頭查詢的記錄。該方法還可包括轉(zhuǎn)錄 (transcribe) -個或多個口頭查詢的記錄,并且在一個或多個口頭查詢的記錄的轉(zhuǎn)錄本 (tranScriPtion)內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn)錄本。闊值可基于轉(zhuǎn)錄本與先前轉(zhuǎn)錄的 查詢的比較。該方法還可包括利用語言模型和聲學(xué)模型兩者來處理與所識別的轉(zhuǎn)錄本相對 應(yīng)的口頭查詢的記錄,并且基于對利用語言模型的處理與利用聲學(xué)模型的處理的比較,從 一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起的轉(zhuǎn)錄本相對應(yīng)的一個或多個記錄。 該方法還可包括生成包含口頭查詢的記錄的一個或多個修改后數(shù)據(jù)日志,并且將一個或多 個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一個或多個口頭查詢的記錄的關(guān)聯(lián) 轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或多個聲學(xué)模型。
[0004] 在另一方面中,描述了一種計算機可讀介質(zhì),其上存儲有指令,該些指令當(dāng)被計算 設(shè)備執(zhí)行時使得該計算設(shè)備執(zhí)行功能。功能可包括接收一個或多個數(shù)據(jù)日志,并且該一個 或多個數(shù)據(jù)日志包括至少一個或多個口頭查詢的記錄。功能還可包括轉(zhuǎn)錄一個或多個口頭 查詢的記錄,并且在一個或多個口頭查詢的記錄的轉(zhuǎn)錄本內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn) 錄本。闊值可基于轉(zhuǎn)錄本與先前轉(zhuǎn)錄的查詢的比較。功能還可包括利用語言模型和聲學(xué)模 型兩者來處理與所識別的轉(zhuǎn)錄本相對應(yīng)的口頭查詢的記錄,并且基于對利用語言模型的處 理與利用聲學(xué)模型的處理的比較,從一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起 的轉(zhuǎn)錄本相對應(yīng)的一個或多個記錄。功能還可包括生成包含口頭查詢的記錄的一個或多個 修改后數(shù)據(jù)日志,并且將一個或多個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一 個或多個口頭查詢的記錄的關(guān)聯(lián)轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或 多個聲學(xué)模型。
[0005] 在另外一個方面中,描述了一種系統(tǒng)。該系統(tǒng)可包括至少一個處理器和數(shù)據(jù)存儲 裝置,該數(shù)據(jù)存儲裝置包括可被至少一個處理器執(zhí)行來使得至少一個處理器執(zhí)行功能的程 序指令,功能包括接收一個或多個數(shù)據(jù)日志,并且該一個或多個數(shù)據(jù)日志包括至少一個或 多個口頭查詢的記錄。功能還可包括轉(zhuǎn)錄一個或多個口頭查詢的記錄并且在一個或多個口 頭查詢的記錄的轉(zhuǎn)錄本內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn)錄本,并且闊值是基于轉(zhuǎn)錄本與先 前轉(zhuǎn)錄的查詢的比較的。功能還可包括利用語言模型和聲學(xué)模型兩者來處理與所識別的轉(zhuǎn) 錄本相對應(yīng)的口頭查詢的記錄,并且基于對利用語言模型的處理與利用聲學(xué)模型的處理的 比較,從一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起的轉(zhuǎn)錄本相對應(yīng)的一個或多 個記錄。功能還可包括生成包含口頭查詢的記錄的一個或多個修改后數(shù)據(jù)日志,并且將一 個或多個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一個或多個口頭查詢的記錄 的關(guān)聯(lián)轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或多個聲學(xué)模型。
[0006] 前述
【發(fā)明內(nèi)容】
只是說明性的,而并不打算W任何方式進行限定。除了W上描述的 說明性方面、實施例和特征W外,通過參考附圖和W下詳細描述,另外的方面、實施例和特 征將變得清楚。
【附圖說明】
[0007] 圖1圖示了其中可實現(xiàn)示例方法的示例通信系統(tǒng)。
[000引圖2圖示了示例計算設(shè)備的示意圖。
[0009] 圖3圖示了另一示例計算設(shè)備的示意圖。
[0010] 圖4A-4B描繪了用于提供修改后數(shù)據(jù)日志的示例方法的流程圖。
[0011] 圖5圖示了包含口頭查詢的記錄的數(shù)據(jù)日志被修改成包含口頭查詢的轉(zhuǎn)錄本的 修改后數(shù)據(jù)日志的示例。
【具體實施方式】
[0012] W下詳細描述參考附圖描述了所公開的系統(tǒng)和方法的各種特征和功能。在圖中, 相似的符號標識相似的成分,除非上下文另有規(guī)定。本文描述的說明性系統(tǒng)和方法實施例 并不打算進行限定??扇菀桌斫?,所公開的系統(tǒng)和方法的某些方面可按許多種不同的配置 來布置和組合,所有該些在該里都已被設(shè)想到。
[0013] W下詳細描述可公開用于從話音記錄日志創(chuàng)建和改進話音識別系統(tǒng)的方法和系 統(tǒng)。在一個方面中,具有一個或多個實體的一種系統(tǒng)可被配置為執(zhí)行本文描述的方法。該系 統(tǒng)可被配置為從客戶端設(shè)備(例如,移動設(shè)備)接收包括一個或多個口頭查詢的記錄的一 個或多個數(shù)據(jù)日志。客戶端設(shè)備可與系統(tǒng)內(nèi)的實體通信并且可被配置為從客戶端設(shè)備的一 個或多個用戶接收言語輸入。系統(tǒng)可配置有話音識別模塊,該模塊可轉(zhuǎn)錄口頭查詢的記錄 并且識別比其他轉(zhuǎn)錄本出現(xiàn)得更頻繁的轉(zhuǎn)錄本。在一個示例中,話音識別模塊可識別超過 闊值頻率的轉(zhuǎn)錄本。系統(tǒng)內(nèi)的一個或多個實體可利用語言模型和聲學(xué)模型兩者處理與識別 的轉(zhuǎn)錄本相對應(yīng)的口頭查詢W作出比較。基于此比較,系統(tǒng)可識別并去除包含服務(wù)器確定 指示噪聲的口頭查詢的任何數(shù)據(jù)日志。在一些示例中,在去除包含噪聲的數(shù)據(jù)日志之后,修 改后數(shù)據(jù)日志和口頭查詢的關(guān)聯(lián)轉(zhuǎn)錄本可用作訓(xùn)練數(shù)據(jù)集合來更新特定語言的聲學(xué)模型。
[0014] 在另一示例中,額外的試探式過濾可被應(yīng)用到修改后數(shù)據(jù)日志W(wǎng)進一步提高訓(xùn)練 數(shù)據(jù)的精確性。額外的基于規(guī)則的參數(shù)可進一步去除不想要的口頭查詢或者應(yīng)用不同的算 法來將數(shù)據(jù)日志進一步提煉成精確的訓(xùn)練數(shù)據(jù)集合。例如,話音識別模塊可被配置為去除 包含統(tǒng)一資源定位符(uni化rmresourcelocator,冊L)或數(shù)值序列的口頭查詢的記錄的 任何轉(zhuǎn)錄本,從而可確定整體上更精確的轉(zhuǎn)錄本。包含所確定的精確轉(zhuǎn)錄本的修改后數(shù)據(jù) 日志可用于在不依賴于人類干預(yù)的情況下更新一個或多個聲學(xué)模型。
[0015] 現(xiàn)在將更詳細描述其中可實現(xiàn)示例的系統(tǒng)、方法和設(shè)備。一般地,描述的方法可由 各種類型的計算設(shè)備或設(shè)備的組件實現(xiàn)。在一個示例中,一種系統(tǒng)可包括一個或多個服務(wù) 器,該些服務(wù)器可從諸如移動電話之類的客戶端設(shè)備接收信息并向客戶端設(shè)備提供信息。 然而,描述的方法也可由其他計算設(shè)備實現(xiàn),例如個人計算機、可穿戴計算設(shè)備或者移動設(shè) 備,等等。另外,示例系統(tǒng)可采取計算機可讀介質(zhì)的形式,其上存儲有程序指令,該些程序 指令可被處理器執(zhí)行來提供本文描述的功能。從而,示例系統(tǒng)可采取諸如服務(wù)器之類的設(shè) 備或者該種設(shè)備的子系統(tǒng)的形式,其包括該種其上存儲有該樣的程序指令的計算機可讀介 質(zhì)。
[0016] 圖1圖示了示例通信系統(tǒng)100,其中可執(zhí)行用于基于話音記錄日志創(chuàng)建和改進話 音識別系統(tǒng)的方法。在圖1所示的示例中,服務(wù)器102可與一個或多個客戶端設(shè)備通信。服 務(wù)器102可被配置為經(jīng)由無線和/或有線接口與客戶端設(shè)備104通信。服務(wù)器102可包括 話音識別模塊106。
[0017] 在圖1所示的示例中,服務(wù)器102可W是被配置為執(zhí)行本文描述的方法和計算設(shè) 備功能的任何實體。服務(wù)器102可額外地被配置為執(zhí)行其他方法和執(zhí)行。在一個示例中, 服務(wù)器102可由多個實體構(gòu)成。服務(wù)器102可能夠同時與多個客戶端設(shè)備通信。在一些示 例中,服務(wù)器102可W是或者包括云接口。此外,服務(wù)器102可與其他服務(wù)器通信或者充當(dāng) 其他設(shè)備之間的鏈路。
[0018] 圖1示出了客戶端設(shè)備104a-104d,它們可W是任何類型的計算設(shè)備或者發(fā)送器, 包括膝上型計算機、移動電話、可穿戴計算設(shè)備或者平板計算設(shè)備,等等。在一些情況中,客 戶端設(shè)備104a可由被配置為執(zhí)行本文描述的方法和功能的一個或多個實體構(gòu)成。另外, 客戶端設(shè)備104a可包括用戶界面、通信接口、處理器和數(shù)據(jù)存儲裝置,該數(shù)據(jù)存儲裝置包 括可被處理器執(zhí)行來用于實現(xiàn)與發(fā)送到服務(wù)器102或由服務(wù)器102接收的數(shù)據(jù)有關(guān)的一 個或多個功能的指令。客戶端設(shè)備104a也可包含不同的界面。例如,用戶界面可包括按 鈕、觸摸屏、麥克風(fēng)和/或任何其他用于接收輸入的元件,W及一個或多個揚聲器、一個或 多個顯示器和/或任何其他用于傳達輸出的元件。在一些示例中,服務(wù)器102和客戶端設(shè) 備104a-104d可采取多種形式。此外,客戶端設(shè)備104a-104d和服務(wù)器102可通過各種手 段通信,例如共享網(wǎng)絡(luò)或者每一者可通過獨立的網(wǎng)絡(luò)通信。
[0019] 在通信的一個示例中,客戶端設(shè)備,例如客戶端設(shè)備104a,可從用戶接收某種形式 的輸入并且將該輸入傳遞到服務(wù)器102??蛻舳嗽O(shè)備104a可經(jīng)由無線和/或有線鏈路發(fā)送 輸入并且可重復(fù)此過程直到接收到來自服務(wù)器102的響應(yīng)為止。此外,服務(wù)器102可經(jīng)由 無線和/或有線鏈路向客戶端設(shè)備104a或另一設(shè)備發(fā)送信息并且可等待響應(yīng)。
[0020] 服務(wù)器102可使用話音識別模塊106來將言語輸入轉(zhuǎn)錄成計算設(shè)備可理解的格式 并將該格式傳遞回到客戶端設(shè)備l〇4a-104d中的一個或多個。話音識別模塊106可由一個 或多個實體構(gòu)成,該些實體可接收傳入的數(shù)據(jù),并且W使得計算設(shè)備能夠理解傳入數(shù)據(jù)的 轉(zhuǎn)錄本的方式來轉(zhuǎn)錄傳入的數(shù)據(jù)。話音識別模塊106可接收各種類型的輸入并將該些輸入 轉(zhuǎn)換成計算設(shè)備可使用的一個或多個形式,例如客戶端設(shè)備104a。在一些示例中,一個或多 個客戶端設(shè)備l〇4a-104d可包含可能夠被話音識別模塊106更新的話音識別模塊。其他示 例也可存在。
[0021] 話音識別模塊106可包括一個或多個應(yīng)用并且可使用一個或多個算法。話音識別 模塊106可被配置為包括語音用戶界面,例如捜索、呼叫路由、語音撥號、簡單數(shù)據(jù)輸入、文 檔準備或者話音到文本處理。此外,話音識別模塊106可被配置為識別數(shù)據(jù)的不同輸入。在 一個示例中,話音識別模塊106可使用一個或多個模擬到數(shù)字轉(zhuǎn)換器來將接收到的任何數(shù) 據(jù)數(shù)字化。話音識別模塊106可W是與服務(wù)器102分開的實體,或者可禪合到服務(wù)器102。 話音識別模塊106可被配置為去除不想要的噪聲并且向接收到的數(shù)字聲音一一例如口頭查 詢的記錄一一應(yīng)用過