基于話音記錄日志提供話音識別系統(tǒng)的方法和系統(tǒng)的制作方法

文檔序號：9252473閱讀：601來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于話音記錄日志提供話音識別系統(tǒng)的方法和系統(tǒng)的制作方法
【專利說明】基于話音巧錄日志提供話音識別系統(tǒng)的方法和系統(tǒng)
【背景技術(shù)】
[0001] 計算設(shè)備包括硬件和軟件的各種組合，它們使得用戶能夠與計算系統(tǒng)交互，等等。現(xiàn)代用戶界面的一個示例是"語音控制"，其可允許用戶向計算系統(tǒng)的話音識別模塊提供話音數(shù)據(jù)。該數(shù)據(jù)可被話音識別模塊接收、轉(zhuǎn)化成文本并處理，并且可最終被計算系統(tǒng)用作執(zhí) 行某些計算功能的基礎(chǔ)。話音識別模塊對于同時需要對其手部的自由使用和對計算設(shè)備的控制的用戶仍是更有用的。例如，執(zhí)行外科手術(shù)的醫(yī)生可利用話音識別模塊W便在用他或她的手為患者做手術(shù)的同時在計算設(shè)備上執(zhí)行命令。
[0002] 話音識別系統(tǒng)可需要通過處理話音查詢（稱為話語）的記錄的大數(shù)據(jù)庫來獲知用戶如何發(fā)出話音的各種聲音。然而，話音識別系統(tǒng)在嘗試理解用戶的輸入時可遇到問題。例如，話音識別模塊可從具有各種音調(diào)、對字詞的發(fā)音不同W及強調(diào)字詞的不同部分等等的不同用戶接收輸入。此外，話音識別系統(tǒng)可檢測到背景噪聲、風(fēng)或者其他干擾，該些可與來自用戶的輸入混淆。話音識別系統(tǒng)可能必須克服該些障礙W及其他障礙W便正確地工作。

【發(fā)明內(nèi)容】

[0003] 在一個方面中，描述了一種方法。該方法可包括接收一個或多個數(shù)據(jù)日志，并且該一個或多個數(shù)據(jù)日志包括至少一個或多個口頭查詢的記錄。該方法還可包括轉(zhuǎn)錄 (transcribe) -個或多個口頭查詢的記錄，并且在一個或多個口頭查詢的記錄的轉(zhuǎn)錄本 (tranScriPtion)內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn)錄本。闊值可基于轉(zhuǎn)錄本與先前轉(zhuǎn)錄的查詢的比較。該方法還可包括利用語言模型和聲學(xué)模型兩者來處理與所識別的轉(zhuǎn)錄本相對應(yīng)的口頭查詢的記錄，并且基于對利用語言模型的處理與利用聲學(xué)模型的處理的比較，從一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起的轉(zhuǎn)錄本相對應(yīng)的一個或多個記錄。該方法還可包括生成包含口頭查詢的記錄的一個或多個修改后數(shù)據(jù)日志，并且將一個或多個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一個或多個口頭查詢的記錄的關(guān)聯(lián) 轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或多個聲學(xué)模型。
[0004] 在另一方面中，描述了一種計算機可讀介質(zhì)，其上存儲有指令，該些指令當(dāng)被計算設(shè)備執(zhí)行時使得該計算設(shè)備執(zhí)行功能。功能可包括接收一個或多個數(shù)據(jù)日志，并且該一個或多個數(shù)據(jù)日志包括至少一個或多個口頭查詢的記錄。功能還可包括轉(zhuǎn)錄一個或多個口頭查詢的記錄，并且在一個或多個口頭查詢的記錄的轉(zhuǎn)錄本內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn) 錄本。闊值可基于轉(zhuǎn)錄本與先前轉(zhuǎn)錄的查詢的比較。功能還可包括利用語言模型和聲學(xué)模型兩者來處理與所識別的轉(zhuǎn)錄本相對應(yīng)的口頭查詢的記錄，并且基于對利用語言模型的處理與利用聲學(xué)模型的處理的比較，從一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起的轉(zhuǎn)錄本相對應(yīng)的一個或多個記錄。功能還可包括生成包含口頭查詢的記錄的一個或多個修改后數(shù)據(jù)日志，并且將一個或多個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一個或多個口頭查詢的記錄的關(guān)聯(lián)轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或多個聲學(xué)模型。
[0005] 在另外一個方面中，描述了一種系統(tǒng)。該系統(tǒng)可包括至少一個處理器和數(shù)據(jù)存儲裝置，該數(shù)據(jù)存儲裝置包括可被至少一個處理器執(zhí)行來使得至少一個處理器執(zhí)行功能的程序指令，功能包括接收一個或多個數(shù)據(jù)日志，并且該一個或多個數(shù)據(jù)日志包括至少一個或多個口頭查詢的記錄。功能還可包括轉(zhuǎn)錄一個或多個口頭查詢的記錄并且在一個或多個口頭查詢的記錄的轉(zhuǎn)錄本內(nèi)識別具有超過闊值的出現(xiàn)的轉(zhuǎn)錄本，并且闊值是基于轉(zhuǎn)錄本與先前轉(zhuǎn)錄的查詢的比較的。功能還可包括利用語言模型和聲學(xué)模型兩者來處理與所識別的轉(zhuǎn) 錄本相對應(yīng)的口頭查詢的記錄，并且基于對利用語言模型的處理與利用聲學(xué)模型的處理的比較，從一個或多個數(shù)據(jù)日志中識別與被認為是由于噪聲引起的轉(zhuǎn)錄本相對應(yīng)的一個或多個記錄。功能還可包括生成包含口頭查詢的記錄的一個或多個修改后數(shù)據(jù)日志，并且將一個或多個修改后數(shù)據(jù)日志和一個或多個修改后數(shù)據(jù)日志內(nèi)的一個或多個口頭查詢的記錄的關(guān)聯(lián)轉(zhuǎn)錄本作為訓(xùn)練數(shù)據(jù)集合提供來更新特定語言的一個或多個聲學(xué)模型。
[0006] 前述
【發(fā)明內(nèi)容】
只是說明性的，而并不打算W任何方式進行限定。除了W上描述的說明性方面、實施例和特征W外，通過參考附圖和W下詳細描述，另外的方面、實施例和特征將變得清楚。
【附圖說明】
[0007] 圖1圖示了其中可實現(xiàn)示例方法的示例通信系統(tǒng)。
[000引圖2圖示了示例計算設(shè)備的示意圖。
[0009] 圖3圖示了另一示例計算設(shè)備的示意圖。
[0010] 圖4A-4B描繪了用于提供修改后數(shù)據(jù)日志的示例方法的流程圖。
[0011] 圖5圖示了包含口頭查詢的記錄的數(shù)據(jù)日志被修改成包含口頭查詢的轉(zhuǎn)錄本的修改后數(shù)據(jù)日志的示例。
【具體實施方式】
[0012] W下詳細描述參考附圖描述了所公開的系統(tǒng)和方法的各種特征和功能。在圖中，相似的符號標識相似的成分，除非上下文另有規(guī)定。本文描述的說明性系統(tǒng)和方法實施例并不打算進行限定?？扇菀桌斫?，所公開的系統(tǒng)和方法的某些方面可按許多種不同的配置來布置和組合，所有該些在該里都已被設(shè)想到。
[0013] W下詳細描述可公開用于從話音記錄日志創(chuàng)建和改進話音識別系統(tǒng)的方法和系統(tǒng)。在一個方面中，具有一個或多個實體的一種系統(tǒng)可被配置為執(zhí)行本文描述的方法。該系統(tǒng)可被配置為從客戶端設(shè)備（例如，移動設(shè)備）接收包括一個或多個口頭查詢的記錄的一個或多個數(shù)據(jù)日志。客戶端設(shè)備可與系統(tǒng)內(nèi)的實體通信并且可被配置為從客戶端設(shè)備的一個或多個用戶接收言語輸入。系統(tǒng)可配置有話音識別模塊，該模塊可轉(zhuǎn)錄口頭查詢的記錄并且識別比其他轉(zhuǎn)錄本出現(xiàn)得更頻繁的轉(zhuǎn)錄本。在一個示例中，話音識別模塊可識別超過闊值頻率的轉(zhuǎn)錄本。系統(tǒng)內(nèi)的一個或多個實體可利用語言模型和聲學(xué)模型兩者處理與識別的轉(zhuǎn)錄本相對應(yīng)的口頭查詢W作出比較。基于此比較，系統(tǒng)可識別并去除包含服務(wù)器確定指示噪聲的口頭查詢的任何數(shù)據(jù)日志。在一些示例中，在去除包含噪聲的數(shù)據(jù)日志之后，修改后數(shù)據(jù)日志和口頭查詢的關(guān)聯(lián)轉(zhuǎn)錄本可用作訓(xùn)練數(shù)據(jù)集合來更新特定語言的聲學(xué)模型。
[0014] 在另一示例中，額外的試探式過濾可被應(yīng)用到修改后數(shù)據(jù)日志W(wǎng)進一步提高訓(xùn)練數(shù)據(jù)的精確性。額外的基于規(guī)則的參數(shù)可進一步去除不想要的口頭查詢或者應(yīng)用不同的算法來將數(shù)據(jù)日志進一步提煉成精確的訓(xùn)練數(shù)據(jù)集合。例如，話音識別模塊可被配置為去除包含統(tǒng)一資源定位符（uni化rmresourcelocator,冊L)或數(shù)值序列的口頭查詢的記錄的任何轉(zhuǎn)錄本，從而可確定整體上更精確的轉(zhuǎn)錄本。包含所確定的精確轉(zhuǎn)錄本的修改后數(shù)據(jù) 日志可用于在不依賴于人類干預(yù)的情況下更新一個或多個聲學(xué)模型。
[0015] 現(xiàn)在將更詳細描述其中可實現(xiàn)示例的系統(tǒng)、方法和設(shè)備。一般地，描述的方法可由各種類型的計算設(shè)備或設(shè)備的組件實現(xiàn)。在一個示例中，一種系統(tǒng)可包括一個或多個服務(wù) 器，該些服務(wù)器可從諸如移動電話之類的客戶端設(shè)備接收信息并向客戶端設(shè)備提供信息。然而，描述的方法也可由其他計算設(shè)備實現(xiàn)，例如個人計算機、可穿戴計算設(shè)備或者移動設(shè) 備，等等。另外，示例系統(tǒng)可采取計算機可讀介質(zhì)的形式，其上存儲有程序指令，該些程序指令可被處理器執(zhí)行來提供本文描述的功能。從而，示例系統(tǒng)可采取諸如服務(wù)器之類的設(shè) 備或者該種設(shè)備的子系統(tǒng)的形式，其包括該種其上存儲有該樣的程序指令的計算機可讀介質(zhì)。
[0016] 圖1圖示了示例通信系統(tǒng)100,其中可執(zhí)行用于基于話音記錄日志創(chuàng)建和改進話音識別系統(tǒng)的方法。在圖1所示的示例中，服務(wù)器102可與一個或多個客戶端設(shè)備通信。服務(wù)器102可被配置為經(jīng)由無線和/或有線接口與客戶端設(shè)備104通信。服務(wù)器102可包括話音識別模塊106。
[0017] 在圖1所示的示例中，服務(wù)器102可W是被配置為執(zhí)行本文描述的方法和計算設(shè) 備功能的任何實體。服務(wù)器102可額外地被配置為執(zhí)行其他方法和執(zhí)行。在一個示例中，服務(wù)器102可由多個實體構(gòu)成。服務(wù)器102可能夠同時與多個客戶端設(shè)備通信。在一些示例中，服務(wù)器102可W是或者包括云接口。此外，服務(wù)器102可與其他服務(wù)器通信或者充當(dāng) 其他設(shè)備之間的鏈路。
[0018] 圖1示出了客戶端設(shè)備104a-104d，它們可W是任何類型的計算設(shè)備或者發(fā)送器，包括膝上型計算機、移動電話、可穿戴計算設(shè)備或者平板計算設(shè)備，等等。在一些情況中，客戶端設(shè)備104a可由被配置為執(zhí)行本文描述的方法和功能的一個或多個實體構(gòu)成。另外，客戶端設(shè)備104a可包括用戶界面、通信接口、處理器和數(shù)據(jù)存儲裝置，該數(shù)據(jù)存儲裝置包括可被處理器執(zhí)行來用于實現(xiàn)與發(fā)送到服務(wù)器102或由服務(wù)器102接收的數(shù)據(jù)有關(guān)的一個或多個功能的指令。客戶端設(shè)備104a也可包含不同的界面。例如，用戶界面可包括按鈕、觸摸屏、麥克風(fēng)和/或任何其他用于接收輸入的元件，W及一個或多個揚聲器、一個或多個顯示器和/或任何其他用于傳達輸出的元件。在一些示例中，服務(wù)器102和客戶端設(shè) 備104a-104d可采取多種形式。此外，客戶端設(shè)備104a-104d和服務(wù)器102可通過各種手段通信，例如共享網(wǎng)絡(luò)或者每一者可通過獨立的網(wǎng)絡(luò)通信。
[0019] 在通信的一個示例中，客戶端設(shè)備，例如客戶端設(shè)備104a，可從用戶接收某種形式的輸入并且將該輸入傳遞到服務(wù)器102?？蛻舳嗽O(shè)備104a可經(jīng)由無線和/或有線鏈路發(fā)送輸入并且可重復(fù)此過程直到接收到來自服務(wù)器102的響應(yīng)為止。此外，服務(wù)器102可經(jīng)由無線和/或有線鏈路向客戶端設(shè)備104a或另一設(shè)備發(fā)送信息并且可等待響應(yīng)。
[0020] 服務(wù)器102可使用話音識別模塊106來將言語輸入轉(zhuǎn)錄成計算設(shè)備可理解的格式并將該格式傳遞回到客戶端設(shè)備l〇4a-104d中的一個或多個。話音識別模塊106可由一個或多個實體構(gòu)成，該些實體可接收傳入的數(shù)據(jù)，并且W使得計算設(shè)備能夠理解傳入數(shù)據(jù)的轉(zhuǎn)錄本的方式來轉(zhuǎn)錄傳入的數(shù)據(jù)。話音識別模塊106可接收各種類型的輸入并將該些輸入轉(zhuǎn)換成計算設(shè)備可使用的一個或多個形式，例如客戶端設(shè)備104a。在一些示例中，一個或多個客戶端設(shè)備l〇4a-104d可包含可能夠被話音識別模塊106更新的話音識別模塊。其他示例也可存在。
[0021] 話音識別模塊106可包括一個或多個應(yīng)用并且可使用一個或多個算法。話音識別模塊106可被配置為包括語音用戶界面，例如捜索、呼叫路由、語音撥號、簡單數(shù)據(jù)輸入、文檔準備或者話音到文本處理。此外，話音識別模塊106可被配置為識別數(shù)據(jù)的不同輸入。在一個示例中，話音識別模塊106可使用一個或多個模擬到數(shù)字轉(zhuǎn)換器來將接收到的任何數(shù) 據(jù)數(shù)字化。話音識別模塊106可W是與服務(wù)器102分開的實體，或者可禪合到服務(wù)器102。話音識別模塊106可被配置為去除不想要的噪聲并且向接收到的數(shù)字聲音一一例如口頭查詢的記錄一一應(yīng)用過

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5