專利名稱:使用轉錄門戶組件隨需轉錄語音的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及自動語音識別領域,更具體地涉及用于隨需轉錄的方法和系統(tǒng)。
背景技術:
基于計算機的語音轉錄傳統(tǒng)上是一種客戶-服務器模型應用,其中由客戶捕獲轉錄作業(yè),并提交到服務器以便處理。在服務器上裝載并運行語音識別軟件。為使用轉錄服務,該軟件的用戶必須首先典型地通過讀標準化的原稿來注冊并建立用戶簡檔,以便軟件能夠識別用戶獨特的語音模式。典型地在與語音識別軟件所在的同一服務器上存儲用戶簡檔?;蛘?,轉錄本身可由打字員手動完成,并反饋回系統(tǒng)中。一旦轉錄完成,就在單獨的數據庫中使結果對客戶可用,以便其查詢結果。這類系統(tǒng)在維護數百個用戶并管理他們的注冊數據以及數千個作業(yè)時具有很大的開銷,并且無法隨需利用。
已知的轉錄系統(tǒng)很難伸縮以便大量用戶可同時輸入不同的音頻數據來進行檢索。當處理用戶的轉錄(這可能涉及使用手動打字和校正)時,用戶典型地必須等待。這對于用戶產生了不希望的延遲。
例如,授予Kahn等人(Kahn)的美國專利No.6,122,614公開了這樣一種已知的轉錄系統(tǒng)。Kahn公開了通過在目錄系統(tǒng)中創(chuàng)建用戶簡檔來處理多個用戶的轉錄服務器,其中為每一用戶使用一子目錄。在訓練期間,人類轉錄員為每一接收的聲音口授文件創(chuàng)建轉錄文件。一旦用戶已通過了訓練時期,則將口授文件路由到語音識別程序。運行一轉錄會話,并且通過手動校正文本并發(fā)送文本以便校正來完成任何語音調整。使用特定用戶的語音簡檔的這種語音識別系統(tǒng)必須運行于存在該特定用戶的目錄存在的系統(tǒng)上。此外,在本參考中描述的系統(tǒng)是批方式系統(tǒng),其中數據被提交、排隊并然后在對于服務器方便的時間運行。
發(fā)明內容
本發(fā)明提供一種用于隨需的自動語音識別(ASR)文本轉錄的計算機實現的方法和系統(tǒng)。
本發(fā)明的一個方面涉及一種方法,該方法包括提供包括具有用于各個用戶的個人化語音簡檔的用戶數據的轉錄門戶組件(portlet)。該轉錄門戶組件可接收音頻數據??勺R別與該音頻數據相關聯(lián)的用戶??纱_定與所識別用戶對應的個人化語音簡檔??墒褂盟_定的個人化語音簡檔轉錄該音頻數據,以生成轉錄文本。轉錄門戶組件可呈現該轉錄文本。
本發(fā)明的另一個方面涉及包括Web門戶和至少一個轉錄服務器的轉錄系統(tǒng)。該Web門戶可包括轉錄門戶組件,該轉錄門戶組件被配置用于接收用戶提供的音頻數據,使用至少一個轉錄服務器來將音頻數據轉錄為轉錄文本,并將轉錄文本呈現給提供了該音頻數據的用戶。
應該注意,本發(fā)明可被實現為一種用于控制計算機來實現此處所述功能的程序,或一種用于使計算機能執(zhí)行對應于此處所公開的步驟的過程的程序??赏ㄟ^將程序存儲在磁盤、光盤、半導體存儲器、任何其他記錄媒體之中來提供此程序,或通過網絡分發(fā)此程序。
在附圖中示出了當前優(yōu)選的實施例;不過應當理解,本發(fā)明并不局限于所示出的確切裝置和工具。
圖1是說明了可在其中使用根據本發(fā)明一個實施例的系統(tǒng)的多模態(tài)(multimodal)通信環(huán)境的示意圖。
圖2是根據本發(fā)明一個實施例的系統(tǒng)的示意圖。
圖3是說明了根據本發(fā)明另一個實施例的方法的流程圖。
圖4是適合于查看轉錄結果的Web界面的說明性圖像。
具體實施例方式
圖1是說明了可在其中根據本發(fā)明使用用于隨需轉錄語音的系統(tǒng)200的多模態(tài)通信環(huán)境100的示意圖。如所說明的,通信環(huán)境100可以包括通信網絡110。通信網絡110可以包括但不限于局域網、廣域網、公共交換電話網、無線或移動通信網、或因特網。說明性地,系統(tǒng)200也能夠通過另一個或同一個通信網絡110與計算機系統(tǒng)120和電話130進行電子通信,以便進行轉錄輸入和輸出。系統(tǒng)200也能夠與由校正員操作的計算機系統(tǒng)140進行電子通信,以便校正所轉錄的語音。
從隨后的描述中,將很容易地看到,所說明的多模態(tài)通信環(huán)境100僅僅是可在其中方便地使用系統(tǒng)200的多模態(tài)通信環(huán)境的一種類型。其他多模態(tài)通信環(huán)境例如可以包括說明性示出的不同部件的各種子集。
另外參考圖2,系統(tǒng)200說明性地包括一個或多個轉錄服務器210和Web/門戶服務器220。轉錄服務器210具有在其上裝載的自動語音識別(ASR)引擎。可使用任何適當的ASR,例如IBM的Recognition Engine軟件。Web/門戶服務器220具有在其上裝載的門戶服務器應用,例如IBM的WebSphere Portal Server軟件。此外,在Web/門戶服務器上裝載了控制在系統(tǒng)200的部件之間的數據流的轉錄門戶組件。也可包括了一個或多個通信設備和通過其連接該應用程序的應用程序接口(API)。
應該理解,圖2中示出的裝置僅用于說明性的目的,并且本發(fā)明在這方面是不受限制的??捎貌煌诖颂幩f明的方式組合或分離可歸于各部件的功能。例如,在本發(fā)明的另一安排中,可將門戶服務器和轉錄門戶組件實現為單個軟件部件。所說明的通信部件僅是代表性的,并且應該理解,在本發(fā)明的裝置中可利用能夠發(fā)送和/或接收音頻文件和/或轉錄文本的任何通信部件。
圖3是說明了根據本發(fā)明的方面的語音轉錄的方法300的流程圖。如果用戶希望將音頻數據轉錄為文本,該用戶可請求訪問系統(tǒng)200。方法300可開始于步驟310。在步驟310中,管理員將一轉錄門戶組件添加到該用戶的簡檔。也可通過例如用戶登錄到基于因特網的應用并隨著提示設置他們自己的簡檔而加入系統(tǒng)200來完成此步驟。在步驟320中,一旦已將轉錄門戶組件添加到用戶簡檔,則用戶登錄到該門戶。用戶可使用任何適當的通信設備登錄到門戶,包括但并不限于電話、帶有Web瀏覽器的移動電話、連接有麥克風的計算機、個人數字助理(PDA)等。
在步驟330中,門戶服務器程序(未示出)查詢用于該用戶的注冊數據。如果用戶是該系統(tǒng)的新用戶,則提示其進行注冊。注冊過程可包括捕獲用于創(chuàng)建用戶的個人化簡檔的帶原稿的音頻文件??稍谟脩舻腤eb瀏覽器中對用戶顯示該原稿,或者通過例如電子郵件的任何適當的方法將該原稿發(fā)送給用戶。用戶讀出該原稿并將捕獲的音頻文件發(fā)送到系統(tǒng)200。在語音識別引擎上收集音頻文件并為用戶運行注冊,以便為用戶在其注冊數據中創(chuàng)建語音簡檔。注冊數據被保存在門戶人個化數據庫中。
一旦用戶已注冊,則該用戶可以開始上載要被轉錄的音頻數據。在步驟340中,從電話或與瀏覽器連接的麥克風或者從API捕獲音頻數據??赏ㄟ^任何適當的方法捕獲音頻,并且系統(tǒng)優(yōu)選地是多模態(tài)的,以便用戶可選擇用戶希望使用的任何適當的音頻捕獲方法,而且有利的是,本發(fā)明在這方面不受限制??衫斫?,具有音頻能力的任何應用可使用在門戶服務器上裝載的轉錄門戶組件,以將音頻文件轉發(fā)到轉錄服務器??捎砷T戶組件使用例如IBM的WebSphere語音服務器的任何適當的語音捕獲程序來捕獲音頻。
例如,語音服務器可以運行一程序,例如通過電話的VoiceXML,或者系統(tǒng)可以使用捕獲音頻的小應用程序。在另一示例中,可將音頻附加在電子郵件上,并發(fā)送到語音服務器或其他適當的服務器或應用。例如,在一個安排中,郵件應用可從音頻源捕獲音頻,可將所捕獲的音頻轉錄為文本,以及可通過電子郵件將所捕獲的音頻和/或所轉錄的文本作為附件傳送。應該注意,所述系統(tǒng)可有利地使用VoiceXML,而無需任何擴展。
在步驟350中,轉錄門戶組件從門戶人個化數據庫中裝載用戶語音簡檔,并通過將音頻文件和用戶語音簡檔發(fā)送到轉錄服務器210來開始轉錄會話。用戶數據存儲于門戶服務器220上,并僅當即將在轉錄服務器上運行作業(yè)時才被饋給轉錄服務器210。因此,可將任何數量的轉錄服務器210連接到系統(tǒng)200,并且門戶服務器220可將轉錄作業(yè)路由給任一適當的轉錄服務器210,以便在可能的最快時間內接收到轉錄結果。這使系統(tǒng)可被容易地伸縮,從而大量用戶可同時請求轉錄,因為當需求上升時可將更多轉錄服務器210添加到系統(tǒng)200,而無需將包含了用戶簡檔的門戶人個化數據庫復制或更新到每一服務器。
門戶服務器220也處理用于校正/更新用戶簡檔的GUI門戶組件。將結果作為表單結果通過電子郵件、Web瀏覽器、文本到語音轉換返回用戶,或者將結果通過API回調或作為到數據庫的記錄返回用戶。可以用例如html的任何希望的格式將所轉換的文本傳送給用戶。例如使用計算機120的用戶可接著查看轉錄結果??墒褂美鐖D4中說明性示出的Web界面400顯示結果。Web界面400可包括用戶ID數據410、用于操作連接于運行該Web界面的計算機的麥克風的音頻輸入按鈕420、轉錄作業(yè)列表430和其他數據。作為另一種選擇,可將結果反饋回用戶用來上載音頻數據的同一接口。在許多例子中,這可以是有用的,例如,醫(yī)生可使用圖像查看門戶來查看例如病人掃描檢查的圖像。圖像查看門戶可包括音頻門戶,當醫(yī)生查看圖像時可使用該音頻門戶來口授意見??勺銐蚩焖俚夭⒔鯇崟r地將轉錄文本從Web/門戶服務器返回到音頻門戶,以便當圖像還在屏幕上時醫(yī)生可檢查轉錄的文本。接著醫(yī)生可檢查文本并將結果保存在病人的文件中,或可委托校正員對任何錯誤進行校正。在另一示例中,當用戶想使用聲音回復電子郵件時,系統(tǒng)200可被用于降低帶寬。如果記錄了音頻文件并將其連同電子郵件發(fā)送,那么這需要很大的帶寬以便在用戶之間傳輸音頻文件。通過使用轉錄門戶組件,電子郵件門戶組件可捕獲音頻并將其發(fā)送到轉錄系統(tǒng)200,以轉錄音頻并以電子郵件僅發(fā)送文本。
系統(tǒng)200通過適應性調整隨時間提高了它的準確度。校正員260可登錄到系統(tǒng)200中,并可校正轉錄的文本。校正員的檢查可隨機地進行,或者可對于由系統(tǒng)轉錄的一特定用戶的最初幾個文檔進行校正員的檢查。當對文檔做出了校正時,將這些校正用于適應性調整和更新用戶的語音簡檔以便提高準確度。作為另一種選擇,或附加地,用戶可在接收時校正文檔,并上載這些校正,以便由系統(tǒng)或校正員檢查。更進一步地,用戶可錄制帶有這些校正的第二音頻文件,將所述第二音頻文件連同該轉錄文本上載到系統(tǒng),以便校正錯誤。將這些校正發(fā)送回所述識別引擎,該識別引擎針對數據運行一校正會話,并且得到的用戶數據被保存到門戶人個化數據庫,從而更新用戶的個人化語音簡檔以用于該用戶的下一轉錄作業(yè)。
可在硬件、軟件或硬件和軟件的組合中實現本發(fā)明??稍谝粋€計算機系統(tǒng)中以集中方式或者以其中不同元件分布于若干互連的計算機系統(tǒng)中的分布方式實現本發(fā)明。適合于執(zhí)行此處所述方法的任何類型的計算機系統(tǒng)或其他裝置都是適合的。硬件和軟件的典型組合可以是帶有計算機程序的通用計算機系統(tǒng),當所述的計算機程序被裝載并執(zhí)行時控制該計算機系統(tǒng)以使其執(zhí)行此處所述的方法。
本發(fā)明也可被嵌入到計算機程序產品中,該計算機程序產品包括使能實現此處所述方法的所有特征,并當其被裝載到計算機系統(tǒng)中時可執(zhí)行這些方法。本上下文中的計算機程序意味著用任何語言、代碼或符號表示的一組指令的任何表達,所述的一組指令旨在使具有信息處理能力的系統(tǒng)執(zhí)行特定功能,這種執(zhí)行或者是直接地或者是在經過以下任一操作或兩個操作之后a)轉換到另一種語言、代碼或符號;b)以不同材料的形式再現。
可以其他形式實現本發(fā)明,而不背離本發(fā)明的精神或基本特性。因此,應該參考以下的權利要求而非前述的說明來指明本發(fā)明的范圍。
權利要求
1.一種計算機實現的轉錄方法,包括以下步驟提供包括了具有用于各個用戶的個人化語音簡檔的用戶數據的轉錄門戶組件;該轉錄門戶組件接收音頻數據;識別與該音頻數據相關聯(lián)的用戶;確定與所識別用戶對應的個人化語音簡檔;使用所確定的個人化語音簡檔轉錄該音頻數據,以生成轉錄文本;以及該轉錄門戶組件呈現該轉錄文本。
2.權利要求1的方法,其中,所述轉錄門戶組件提供多模態(tài)接口。
3.權利要求2的方法,還包括以下步驟當在所述轉錄門戶組件和用戶之間建立通信時,確定用于該通信的通信類型;以及根據所確定的通信類型自動調整所述轉錄門戶組件的模態(tài)。
4.權利要求2的方法,其中,所述轉錄門戶組件通過聲音連接與電話設備接口連接,其中,通過該聲音連接接收所述音頻數據。
5.權利要求2的方法,其中,在Web瀏覽器中將所述轉錄門戶組件呈現為多模態(tài)Web瀏覽器界面。
6.權利要求2的方法,其中,所述多模態(tài)接口中的一個是應用程序接口。
7.權利要求1的方法,還包括以下步驟識別用戶選擇的文本輸出格式;以及轉錄門戶根據所述用戶選擇的文本輸出格式呈現所述轉錄文本。
8.權利要求1的方法,其中,在用戶于其中訪問所述轉錄門戶的單個通信會話期間執(zhí)行所述接收、識別、確定、轉錄和呈現步驟。
9.權利要求1的方法,其中,所述至少一個轉錄服務器包括多個轉錄服務器,所述方法還包括以下步驟所述轉錄門戶組件基于可用性從所述多個轉錄服務器中選擇一個,其中,由所述轉錄門戶組件執(zhí)行所述識別和確定步驟。
10.一種具有存儲于其上的具有多個代碼段的計算機程序的計算機可讀存儲器,所述代碼段可由機器執(zhí)行,以便使該機器執(zhí)行以下步驟提供包括了具有用于各個用戶的個人化語音簡檔的用戶數據的轉錄門戶組件;該轉錄門戶組件接收音頻數據;識別與該音頻數據相關聯(lián)的用戶;確定與所識別用戶對應的個人化語音簡檔;使用所確定的個人化語音簡檔轉錄該音頻數據,以生成轉錄文本;以及該轉錄門戶組件呈現該轉錄文本。
11.一種轉錄系統(tǒng),包括包括轉錄門戶組件的一個Web門戶;以及至少一個轉錄服務器,所述轉錄門戶組件被配置用于接收用戶提供的音頻數據,使用所述至少一個轉錄服務器將該音頻數據轉錄為轉錄文本,并將該轉錄文本呈現給提供了該音頻數據的用戶。
12.權利要求11的系統(tǒng),其中,所述轉錄門戶組件是被配置用于選擇性地通過聲音界面和通過圖形用戶界面與用戶接口連接的多模態(tài)門戶組件。
13.權利要求12的系統(tǒng),其中,所述轉錄門戶組件可通過電話設備訪問,其中所述轉錄門戶組件與使用聲音界面的電話設備的用戶接口連接。
14.權利要求12的系統(tǒng),其中,圖形用戶界面包括Web瀏覽器。
15.權利要求14的系統(tǒng),其中,所述轉錄門戶組件向Web瀏覽器用戶提供多模態(tài)接口。
16.權利要求11的系統(tǒng),其中,所述轉錄門戶組件以實時方式和近乎實時方式中的至少一種方式呈現所述轉錄文本。
17.權利要求11的系統(tǒng),其中,所述轉錄服務器利用與提供了所述音頻數據的用戶相關聯(lián)的個人化的語音簡檔,來將該音頻數據轉錄為轉錄文本,以便使所呈現的轉錄文本是為該用戶個人化的。
18.權利要求17的系統(tǒng),其中,所述轉錄門戶組件識別與所述用戶提供的音頻數據相關聯(lián)的用戶,其中,所述至少一個轉錄服務器基于由所述轉錄門戶組件提供的用戶身份確定所述個人化語音簡檔。
19.權利要求17的系統(tǒng),包括用于接收用戶提供的與所述轉錄文本有關的反饋的裝置,以便所述反饋引起對用于生成所述轉錄文本的個人化語音簡檔的更新。
20.權利要求11的系統(tǒng),其中,所述至少一個轉錄服務器包括多個轉錄服務器,其中所述Web門戶包括基于轉錄服務器的可用性選擇哪個轉錄服務器將生成所述轉錄文本的程序。
全文摘要
用于使用轉錄門戶組件隨需轉錄語音的方法和系統(tǒng)。所述方法可包括提供包括了具有用于各個用戶的個人化語音簡檔的用戶數據的轉錄門戶組件的步驟。該轉錄門戶組件可接收音頻數據??勺R別與該音頻數據相關聯(lián)的用戶??纱_定與所識別用戶對應的個人化語音簡檔??墒褂盟_定的個人化語音簡檔轉錄音頻數據,以生成轉錄文本。所述轉錄門戶組件可呈現轉錄文本。
文檔編號G10L15/26GK1801322SQ20051012350
公開日2006年7月12日 申請日期2005年11月17日 優(yōu)先權日2004年11月19日
發(fā)明者G·達納克施魯爾 申請人:國際商業(yè)機器公司