專利名稱:用于校正字幕的字幕校正設備和方法
技術領域:
本發(fā)明涉及字幕校正設備。具體來說,本發(fā)明涉及用于實時校正演示報告等等的語音識別結果的字幕的設備、方法、程序等等。
背景技術:
近年來,積極地鼓勵為通過語音傳輸?shù)男畔⑻峁┳帜唬员惚U嫌新犛X障礙的人、年長者等等獲取該信息。還可以想象,為演示報告等等中的語音提供字幕的需求也很強烈。作為提供這樣的字幕的傳統(tǒng)的方法,可以引用下面兩個典型的方法。
<重說>
重說是這樣的方法發(fā)言者在收聽語音時對著語音識別系統(tǒng)重說由實際發(fā)言者發(fā)出的語音。由于中間的重說者經(jīng)過專門培訓,他/她甚至可以在非常困難的情況下以較高的識別率重說語音。
<速記>
速記是這樣的方法,一般而言,幾個人輪流輸入由發(fā)言者提供的內(nèi)容,同時概括該內(nèi)容。
然而,可以想像,由于其單位時間內(nèi)的成本高,這樣的人工提供字幕過程不太可能普及。因此,人們提出了通過使用語音識別技術實時創(chuàng)建字幕的許多方法。例如,專利文件1說明了通過語音識別并使用在制作電視節(jié)目時的判斷最佳假設的方法來創(chuàng)建字幕的技術。此外,專利文件2還說明了通過2遍(2-pass)處理改善語音識別率的技術。另一方面,還說明了用于支持由檢查員(審查員)人工地執(zhí)行的檢查和校正語音識別結果的操作的技術,而不只依賴語音識別(例如,專利文件3到5)。
日本專利官方公開出版公報No.Hei 6(1994)-141240 日本專利官方公開出版公報No.2001-092496[專利文件3]日本專利官方公開出版公報No.2003-316384[專利文件4]日本專利官方公開出版公報No.2004-151614[專利文件5]日本專利官方公開出版公報No.2005-258198發(fā)明內(nèi)容[本發(fā)明解決的問題]一般而言,在語音識別中,在現(xiàn)實中不一定能獲得所需要的識別率。例如,根據(jù)來自某一演示實驗領域的信息,對于實時字幕,至少需要85%的識別率,更好的是90%。只通過語音識別就可以實現(xiàn)85%的識別率。然而,在現(xiàn)實中,識別率嚴重依賴于各種條件。因此,在很多情況下不能取得足夠的識別率是不爭的事實。
例如,下面顯示了某一演示實驗的結果。平均識別率是81.8%(范圍73.4%到89.2%。)此外,識別率超過85%的概率是27%,而識別率超過90%的概率是0%。
此外,除了與識別率關聯(lián)的問題之外,還有許多有問題的情況,如下所示。發(fā)言者發(fā)出的語音中包括的單詞被語音識別以同樣的方式錯誤地轉換為不是發(fā)言者想要的有差別的表達、引起爭議的表達等等。例如,意思為“實體”的″JI-TTAI″被錯誤地轉換為含義為“自己的尸體”的″JI-I-TAI″。然后,那些表達沒有經(jīng)過校正被作為字幕顯示出來,從而產(chǎn)生問題。
此外,對于語音識別,處理專有名稱也非常重要。因此,許多系統(tǒng)具有詞典注冊功能。然而,有這樣的情況,當注冊了好幾個單詞時,單詞具有相同的聲音,但是,以彼此不同的漢字書寫。在此情況下,常常難以判斷想要哪一個單詞,然后執(zhí)行了不正確的轉換。例如,對于名字“Yasuko”,多個候選被注冊為具有相同發(fā)音的不同專有名稱,與具有相同發(fā)音但具有不同拼寫的“Brown”和“Browne”的情況相同。類似地,可以肯定地為這樣的系統(tǒng)提供用于注冊和設置諸如數(shù)值之類的形式的功能。然而,注冊是以單一一致的方式進行的。相應地,在自由發(fā)言的情況下,沒有辦法逐個單詞地檢查哪一個形式是發(fā)言者想要的。
專利文件1和2中所描述的方法只取決于語音識別結果,沒有包括由人進行檢查的方法,校正不正確的識別的方法等等。相應地,可以想像,這些方法在處理不是發(fā)言者想要的引起爭議的表達和有差別的表達時的效率不是那么好。
此外,專利文件3說明了下列方法。具體來說,當發(fā)言者發(fā)出語音時,語音被轉換為文本。檢查員判斷轉換過來的文本中包括的每一個單詞是否不正確。此后,當判斷一個單詞不正確時,將該判斷呈現(xiàn)給發(fā)言者。然后,促使發(fā)言者一次又一次地重復語音,直到語音被正確地寫出。然而,此方法給發(fā)言者帶來了負擔。此外,從技術的角度來看,不管沒有正確地寫出的單詞重復了多少次,那些單詞最后也不一定被正確地寫出。因此,發(fā)言者的負擔增大,從而涉及實時特征的問題仍存在。
此外,在如專利文件4所描述的方法中,可以想像,由于檢查和校正都是人工地進行的,涉及實時特征和成本的問題仍存在。
同時,專利文件5的方法說明了用于與語音的再現(xiàn)同步地設置顯示語音的預先確定的內(nèi)容的時間的設備。然而,沒有說明獲得實時字幕顯示的方法。
如上文所描述的,在產(chǎn)生和校正實時字幕時會有許多問題。本發(fā)明要解決的問題如下。
具體來說,本發(fā)明解決的第一個問題涉及實時特征。作為此問題的解決方案,本發(fā)明提供了一種字幕顯示系統(tǒng),該系統(tǒng)可以實時(換句話說,在最大允許延遲時間內(nèi))顯示通過將語音轉換為字符生成的字幕。此外,本發(fā)明解決的第二個問題涉及成本。作為此問題的解決方案,本發(fā)明提供了一種字幕顯示系統(tǒng),該系統(tǒng)使用比諸如重說和速記之類的傳統(tǒng)的方法更加低廉的方法。此外,本發(fā)明解決的第三個問題涉及語音識別。作為此問題的解決方案,在本發(fā)明中,執(zhí)行關鍵字匹配,以便與執(zhí)行簡單語音識別的情況相比進一步改善理解。通過執(zhí)行關鍵字匹配,與執(zhí)行簡單語音識別的情況相比,有差別的表達和引起爭議的表達的不正確的轉換不是發(fā)言者所想要的,應盡可能地避免專有名稱和形式的不正確的轉換。
本發(fā)明的目的是解決上文所描述的問題,從而提供便宜的設備、方法、程序等等,用于改善作為通過對諸如演示報告之類的語音執(zhí)行語音識別而獲得的實時字幕的字符串的準確性。
本發(fā)明作為一個實施例提供了下列設備。
提供了一種用于實時校正演示報告中的語音字幕的字幕校正設備。該字幕校正設備包括語音識別單元、判斷分配單元、自動判斷單元和人工判斷單元。語音識別單元寫出演示報告中的語音。然后,語音識別單元,作為語音識別的結果,輸出候選字符串的一個或多個文本以及對應于相應候選字符串的語音識別的置信因子。判斷分配單元通過使用所述置信因子、作業(yè)處理信息和預先確定的最大允許延遲時間,選擇自動判斷和人工判斷中的一個,以便處理在所述候選字符串之中具有最高置信因子值的第一候選字符串。自動判斷單元響應所述判斷分配單元進行的自動判斷的選擇,自動地判斷是否設置所述第一候選字符串作為確認的字符串。人工判斷單元響應所述判斷分配單元進行的人工判斷的選擇,人工地判斷是否設置所述第一候選字符串作為確認的字符串。
應該注意,這里所描述的“演示報告”不僅限于使用演示報告軟件通過個人計算機等等進行的演示。演示報告還包括通過語音進行的信息傳輸,如電視節(jié)目。
上文所描述的字幕校正設備可以進一步包括自動校正單元和字幕顯示單元。自動校正單元作為校正結果輸出根據(jù)匹配分數(shù)獲得的關鍵字。這里,匹配分數(shù)是通過將演示報告的關鍵字列表與沒有經(jīng)過人工判斷單元確認的字符串進行比較而獲得的。字幕顯示單元顯示輸出的已確認的字符串和字符串作為校正結果,同時區(qū)別這兩種字符串。關鍵字列表是根據(jù)頁面單元演示報告關鍵字DB(稍后描述)動態(tài)地生成的。
作業(yè)處理信息包括當前延遲時間,語音識別單元中未處理的作業(yè)的數(shù)量,以及其平均作業(yè)處理時間。這里,作業(yè)可以被視為通過語音識別處理的最小單位,或判斷置信因子的最小單位。此外,通過對語音識別單元的每個作業(yè)的處理時間和人工判斷單元的每個作業(yè)的處理時間(或自動判斷單元的每個作業(yè)的處理時間)的總和求平均值來獲得平均作業(yè)處理時間。
此外,本發(fā)明的字幕校正設備中的判斷分配單元根據(jù)置信因子和置信因子的平均值之間的區(qū)別的程度,給自動判斷和人工判斷分配作業(yè)。
此外,如稍后所描述的,本發(fā)明的字幕校正設備中的人工判斷單元可以包括語音速度轉換裝置、無聲部分刪除裝置、提供空白的重點再現(xiàn)裝置、通過反復再現(xiàn)的自動提醒裝置,以及自動停止裝置中的至少一個。字幕校正設備還可以包括和進行人工判斷的檢查員(審查員)的數(shù)量一樣多的人工判斷單元。
當匹配分數(shù)等于或大于預先確定的參考值時,本發(fā)明的字幕校正設備中的自動校正單元將字符串校正為關鍵字。然后,自動校正單元作為未確認的字符串輸出字符串。當匹配分數(shù)小于預先確定的參考值時,自動校正單元輸出第二候選字符串作為未確認的字符串。在根據(jù)預先確定的條件判斷第二候選不適合作為校正結果的情況下,自動校正單元就候選是否適合作為校正結果逐個地對剩余候選進行判斷。在這種情況下,在基于條件的判斷中,當?shù)诙蜻x或剩余的候選是預先確定的有差別的表達或引起爭議的表達(通常從數(shù)據(jù)庫獲取)時,判斷候選不適合作為校正結果。
此外,本發(fā)明的字幕校正設備中的字幕顯示單元可以通過改變字體屬性(斜體、重點、顏色、下劃線等等)來顯示已確認的字符串和已校正的字符串。此外,字幕顯示單元可以通過添加其他的字母類型(例如,轉換為羅馬字符的字母類型,在日語的情況下平假名字符等等)來顯示已校正的字符串。
下面將描述本發(fā)明的設備的特征。首先,設備獲取通過語音識別作為語音識別結果輸出的一個或多個文本和有關置信因子(可靠性)的信息。接下來,根據(jù)此信息,設備判斷當前處理情況,以便在前面所指定的最大允許延遲時間內(nèi)完成所有處理,以便不丟失其實時特征。同時,設備對第一候選文本自動地或手動地執(zhí)行動態(tài)檢查。此外,通過使用第二候選的文本或隨后的候選的文本,或通過使用演示報告的備份信息中的關鍵字,自動地校正通過人工檢查判斷不正確的字符串。如此,只自動地校正被檢查員在人工檢查中判斷不正確的字符串。相應地,與無條件地只執(zhí)行自動校正的方法相比,大大地改善了自動校正的效率。此外,本發(fā)明的系統(tǒng)不依賴于語音識別引擎。相反地,系統(tǒng)可以通過優(yōu)化最大允許延遲時間、可以處理的作業(yè)的數(shù)量等等利用語音識別引擎的特征。
上文是作為單一設備描述本發(fā)明的,單一設備是典型形式。然而,本發(fā)明也可以被視為包括相同功能的多個設備,組合了多臺計算機的計算機系統(tǒng),或計算機系統(tǒng)中的處理方法。將根據(jù)稍后描述的實施例詳細描述本發(fā)明。
此外,本發(fā)明也可以提供包括本發(fā)明的設備的功能的程序,或包括其中存儲了程序的計算機可讀的記錄介質(zhì)的程序產(chǎn)品。程序可以通過記錄介質(zhì)以及通過網(wǎng)絡下載到計算機的方式來提供。
根據(jù)本發(fā)明,在使用語音識別的字幕校正系統(tǒng)中,與人工字幕制作相比,可以改善識別率、改善實時特征,并顯著地降低成本。
圖1是概要顯示了根據(jù)本發(fā)明的優(yōu)選實施例的字幕校正設備10的視圖。
圖2是顯示了判斷分配單元2的分配的判斷的概念。
圖3(a)到3(d)是顯示了用于判斷分配單元2進行自動判斷和人工判斷的分配的閾值的概念的圖形。
圖4是顯示了作為語音識別結果的作業(yè)的人工判斷的屏幕示例。
圖5是提供空白的重點再現(xiàn)的圖形。
圖6是顯示了簡單匹配中的識別率的實驗示例的表。
圖7是概要顯示了根據(jù)本發(fā)明的實施例的有一個檢查員的情況下的字幕校正系統(tǒng)100的視圖。
圖8是概要顯示了根據(jù)本發(fā)明的實施例的有兩個檢查員的情況下的字幕校正系統(tǒng)200的視圖。
圖9是顯示了執(zhí)行本發(fā)明的應用程序中的屏幕的示例的視圖。
圖10是顯示了本發(fā)明的示例中的語音識別率的改進的效果的視圖。
具體實施例方式
下面將參考圖形,詳細描述根據(jù)實施例的本發(fā)明。
圖1概要顯示了作為本發(fā)明的優(yōu)選實施例的字幕校正設備10。字幕校正設備10包括語音識別單元1、判斷分配單元2、人工判斷單元3、自動判斷單元4、自動校正單元5和字幕顯示單元6。然而,該設備不僅限于上文所描述的配置,也可以具有其他配置,只要獲得相同功能即可,也可以包括其子組合。
語音識別單元1將發(fā)言者的語音轉換為文本。在這種情況下,輸出轉換過來的文本的置信因子(也叫做“可靠程度”或識別分數(shù))。轉換過來的文本不僅限于一個,可以與對應于相應候選的置信因子一起輸出第二候選、第三候選和隨后的候選。就語音識別本身,可以使用迄今為止已知的技術。
判斷分配單元2自動地實時判斷是否使用自動判斷裝置或人工判斷裝置。判斷是基于語音識別的置信因子、最大允許延遲時間,當前延遲時間(處理時間)、未處理的作業(yè)的數(shù)量,以及平均作業(yè)處理時間進行的。語音識別的置信因子是從語音識別單元1獲取的,最大允許延遲時間是預先定義的,在該最大允許延遲時間內(nèi)作業(yè)被轉錄“實時”處理。具體來說,在未處理的作業(yè)的數(shù)量比較小以及延遲時間和最大允許延遲時間之間的區(qū)別仍大大地不同于最大允許延遲時間的情況下,當待判斷字符串的置信因子大大地不同于平均值時,選擇自動判斷。這是因為,當置信因子大大地不同于平均值時,語音識別結果的可靠性被視為“高”。此外,對于判斷分配單元2,考慮了平均作業(yè)處理時間以及未處理的作業(yè)的數(shù)量。從而,隨著延遲時間接近最大允許延遲時間,分配給自動判斷的程度可以動態(tài)地改變。
圖2顯示了分配的判斷的概念。在圖2的示例中,最大允許延遲時間被設置為8秒。假設當前延遲時間41是3秒,平均作業(yè)處理時間(42a到42c)是2秒,則可以處理的剩余作業(yè)的數(shù)量是2。這里,作業(yè)可以被視為由語音識別單元1處理的單位,或判斷置信因子的單位。例如,在稍后待描述的如圖4所示的語音識別結果的判斷屏幕的示例中,每一行都對應于一個作業(yè)。
在圖2的示例中,假設未處理的作業(yè)的數(shù)量是2或稍小,在延遲時間達到最大允許延遲時間之前,仍有空間,考慮了平均作業(yè)處理時間(42a和42b)。在此情況下,判斷分配單元2判斷,當作為語音識別的結果獲得的字符串的置信因子和平均值之間的區(qū)別非常大時,可以通過自動判斷獲得高可靠性。換句話說,判斷取決于置信因子是大于還是小于預先確定的閾值。另一方面,當平均作業(yè)處理時間比較長,或未處理的作業(yè)的數(shù)量較大時,判斷分配單元2根據(jù)置信因子判斷選中人工判斷更好。
這里,進行人工判斷的條件可以被定義為下面的公式1。然而,用于判斷是將作業(yè)分配給人工判斷還是分配給自動判斷的條件公式不僅限于下面的公式。在示例3中,描述了另一個條件公式。
圖3(a)到3(d)中的每一個圖都在概念上顯示了用于上文所描述的判斷的閾值α。這里,如圖3(a)到3(a)中的每一個圖形所示,置信因子X的分布符合某一概率密度函數(shù)(這里,正態(tài)分布函數(shù))。在圖3(a)到3(c)中的每一個圖形中,通過斜線表示了由于置信因子X與平均值μ相差α或更多而選擇自動判斷的區(qū)域。然而,就自動判斷,有正確的判斷和不正確的判斷的情況。假設α被設置為0,則一切都由自動判斷處理,如圖3(d)所示。
這里,將再次參考圖1進行描述。人工判斷單元3和自動判斷單元4兩者也可以被視為混合型檢查設備,如上文所描述的,包括自動和人工檢查功能兩者。在人工檢查的情況下,為了支持檢查員的操作(判斷),混合型檢查設備包括諸如語音速度轉換、刪除無聲部分、提供空白的重點再現(xiàn)裝置、通過反復再現(xiàn)的自動提醒,以及自動停止之類的功能。圖4顯示了用來執(zhí)行人工檢查的屏幕的示例。這里,圖4顯示了確認通過語音識別獲得的結果的過程。檢查員通過按下選擇按鈕“已確認”來確認結果。當檢查員不能確認結果(當判斷結果不正確時),檢查員按下選擇按鈕“不正確”,并將結果作為未確認的字符傳遞到自動校正單元5以便進行處理。
這里,將描述語音速度轉換。一般而言,說話速度比閱讀速度更快。因此,一般需要調(diào)整語音速度,以便通過閱讀字幕候選來將字幕候選與語音將進行比較。有根據(jù)選擇的速度直接改變音高的方法,只改變速度而不改變音高的方法等等。刪除無聲部分是當說話者不發(fā)聲時通過自動地刪除無聲部分縮短檢查時間的措施。
此外,提供空白的重點再現(xiàn),意味著再現(xiàn)前面的行(或前面的單詞)的前面的行“漸顯”再現(xiàn)和隨后的行(或隨后的單詞)的“漸隱”再現(xiàn)。提供空白的重點再現(xiàn)意味著,以漸顯的方式再現(xiàn)前面的行(或前面的單詞),以漸隱的方式再現(xiàn)隨后的行(或隨后的單詞)。
圖5是重點再現(xiàn)的圖像圖形。這里,以逐個單詞地使字符逐漸變大的方式表示“漸顯”的字符,以逐個單詞地使字符逐漸變小的方式表示“漸隱”的字符。如此,可以支持對單詞進行人工檢查。
此外,通過反復再現(xiàn)的自動提醒意味著通過再現(xiàn)重復的聲音來提醒檢查員輸入。此外,自動停止意味著當檢查員使用鼠標、鍵盤等等輸入時,停止提醒。
注意,字幕校正設備10可以包括和檢查員的數(shù)量一樣多的人工判斷單元3的人工檢查功能。稍后將對此進行描述。
圖1所示的自動校正單元5通過將從演示報告的備份材料動態(tài)地生成的關鍵字列表與被判斷不正確的字符串進行匹配來執(zhí)行自動校正。備份材料包括,例如,演示報告頁面、發(fā)言者備注,以及諸如腳本之類的補充的文本材料。
在自動校正單元5中,當匹配的結果不超過關鍵字列表中的任何關鍵字的閾值時,從通過語音識別獲得的第二候選中獲取校正結果。第二候選之后的候選是每一個都具有比由語音識別單元1寫出的字符串之中的第一候選的置信因子更低的置信因子的字符串。對于匹配,使用DP匹配(動態(tài)編程匹配),這是常見的比較字符串的方法。此外,當在字符串級別沒有匹配時,還在音素級別執(zhí)行匹配。
這里,在簡單匹配中,應該注意,在很多情況下,識別率不利地被匹配過程降低。具體來說,通過校正不正確部分改進識別的比率被設置為Re,由于意外地校正正確的部分而不利地降低識別率的概率被設置為Rc。這里,Re和Rc之間的比較的結果不一定是Re>Rc。圖6顯示了簡單匹配過程中的一段實際實驗數(shù)據(jù)供參考。在本發(fā)明的匹配方法中,在預先通過自動判斷或人工判斷執(zhí)行檢查之后,執(zhí)行匹配。相應地,不利地降低識別率的風險比較小。
這里,將再次參考圖1進行描述。在自動校正單元5中,當可能通過給從語音識別獲取的第二候選提供給定條件而獲得不適當?shù)男UY果時,通過使用第三候選以及隨后的候選,獲得校正結果。當沒有一個候選可以是適當?shù)男UY果時,照原樣不經(jīng)過校正地輸出原始第一候選。
一般而言,在使用演示報告應用程序的演示報告中,使用了多個演示報告頁面進行幻燈放映。因此,可以從演示報告的演示者實際呈現(xiàn)的每一個演示報告頁面中包括的字符串創(chuàng)建關鍵字列表。存儲了每一個演示報告頁面中包括的關鍵字的東西叫做頁面單元演示報告關鍵字DB,表示為圖1中的頁面單元演示報告關鍵字DB7。例如,當響應演示者使用鼠標或鍵盤作出的操作而發(fā)生頁面切換事件8時,可以寫出頁面切換。這里,演示報告關鍵字是諸如單詞和段落之類的從演示報告頁面、發(fā)言者備注和諸如腳本之類的補充文本獲取的關鍵字列表?;旧希瑢τ陉P鍵字表,使用了TF·IDF(TermFrequency·Inverse Document Frequency)。TF·IDF是使用形態(tài)分析和通過使用演示報告中的元素屬性進行加權的方法。由于TF·IDF是迄今為止已知的方法,這里將省略其說明。提供頁面單元演示報告關鍵字DB 7允許自動校正單元5使用DB對字幕進行事后編輯,如此通過與關鍵字進行自動匹配實時顯示字幕。
最后,字幕顯示單元6自動地合并從自動判斷單元4、人工判斷單元3和自動校正單元5獲取的字符串(已確認的字符串和未確認的字符串)。此外,字幕顯示單元6還使用字體屬性等等各種顯示樣式,取決于字符串是否正確。這里,除了常規(guī)字符類型之外,字幕顯示單元6還通過使用諸如音素、平假名字符之類的其他字符類型來表達被判斷為不正確的字符串。
在如圖1所示的實施例中,上文是作為單一設備描述根據(jù)本發(fā)明的字幕校正設備10的。然而,字幕校正設備10也可以具有其中每一個功能都被視為一個單獨的設備的系統(tǒng)配置。圖7顯示了有一個檢查員的情況的的系統(tǒng)配置。這里,圖7顯示了設備以及其內(nèi)部處理,這些設備對應于如圖1所示的相應的功能單元。
下面是如圖7所示的字幕校正系統(tǒng)100執(zhí)行的處理的流程。然而,由于相應的設備的配置大致對應于如圖1所示的設備中的那些配置,因此,將不再贅述。
1)通過語音識別設備11獲得識別結果字符串。這里,不僅是識別結果字符串,而且還有對應于識別結果字符串的置信因子。此外,作為識別結果字符串的下一個候選(第二候選、第三候選等等),獲取每一個都具有比識別結果字符串的置信因子更低的置信因子的字符串。相應的下一個候選的字符串可以存儲在如圖7所示的下一個候選DB 16中。
2)由判斷分配設備12將識別結果字符串分配給人工判斷或者自動判斷(步驟S10)。人工判斷作為結果提供了高于自動判斷所提供的置信因子的待獲取的置信因子。因此,當有足夠的空閑時間時,選擇人工判斷。同時,當從語音識別獲取的置信因子大大地不同于平均值(例如,50%)時,自動地判斷識別結果字符串的可能性比較高(例如,當置信因子是95%時,判斷字符串正確,當置信因子是5%時,判斷字符串不正確)。相應地,為了獲得實時字幕,在考慮到作業(yè)情況、最大延遲時間和實際消逝時間時有延遲的情況下,根據(jù)通過語音識別獲得的置信因子和置信因子的平均值之間的區(qū)別的程度,動態(tài)地將判斷分配給自動判斷。稍后將作為示例3描述判斷分配設備12的示例。
3)在人工判斷的情況下,通過語音速度轉換自動地再現(xiàn)語音(步驟S11),刪除不需要的無聲部分(步驟S12),語音再現(xiàn)方法(提供空白的重點再現(xiàn)、通過反復再現(xiàn)的自動提醒和自動停止)。然后,允許檢查員通過使用示例4中描述的將再現(xiàn)的語音與語音識別結果進行比較的方法執(zhí)行人工判斷(步驟S13)。將在稍后描述的示例2中描述檢查員進行判斷的UI(用戶界面)。在S10的判斷步驟中選擇了自動判斷的情況下,直接執(zhí)行自動判斷(步驟S14)。此外,在判斷確認的步驟S15中,更新由判斷分配設備12進行管理的作業(yè)隊列18。
4)對于沒有確認的字符串(在判斷步驟S15中為“NO”),通過使用上文所描述的匹配方法,將字符串與頁面單元演示報告關鍵字DB 17進行匹配。在步驟S17中,計算根據(jù)匹配的分數(shù)Sp(分數(shù)點)(步驟S16)。當Sp等于或大于預先確定的參考值時,通過校正字符串獲得的字符串被設置為為未確認的字符串(步驟S19)。另一方面,當Sp小于參考值時,作為未確認的字符串,輸出通過校正第二候選獲得的字符串(步驟S18)。
5)在根據(jù)前面給定條件(如有差別的表達)判斷第二候選不適合作為校正結果的情況下,連續(xù)地從下一候選DB 16獲取第三候選。相應地,通過使用獲得的候選,執(zhí)行校正。
6)如果由語音識別設備11獲得的候選中沒有一個可以是校正結果,則照原樣不經(jīng)過校正地輸出第一候選。
7)關于已確認的字符串和未確認的字符串(經(jīng)過匹配),改變其字體屬性,以便清楚地區(qū)別這兩種字符串。稍后作為示例1對此進行描述。
通常,如上文所描述的,只有一個檢查員就足夠了。然而,本發(fā)明的系統(tǒng)也適用于有兩個檢查員或更多的情況。在這樣的情況下,通過為若干個檢查員提供人工判斷設備13,識別率和字幕顯示進一步得到改善。圖8顯示了有兩個檢查員的情況下的字幕校正系統(tǒng)200。
有多個檢查員的情況的特征如下。
1)提供了與檢查員的數(shù)量相同的人工判斷設備13a和13b。
2)判斷分配設備12將作業(yè)分配給人工判斷設備13a和13b中的可用的那一個設備。
3)沒有被人工判斷設備13a和13b確認的字符串由自動校正設備15校正一次。此后,將字符串返回到判斷分配設備12。當人工判斷設備13a和13b中的任何一個可用時,判斷分配設備12將待進行人工判斷的作業(yè)分配到人工判斷設備13a或13b。另一方面,當人工判斷設備13a和13b都不可用時,直接執(zhí)行未確認的顯示。
4)對于相同字符串,不允許由自動校正設備15以這樣的方式執(zhí)行匹配兩次字符串被從人工判斷設備13a或13b傳遞到自動校正設備15,返回到人工判斷設備13a或13b,再次傳遞到自動校正設備15。具體來說,在這樣的情況下,用于由自動校正設備15進行第一次匹配的相同關鍵字和第二候選不會被使用兩次。相應地,通過使用第一次使用的關鍵字之外的關鍵字或第二候選之外的第三候選來執(zhí)行匹配。
<用于顯示已確認的和未確認的字符串的方法>
圖9顯示了本發(fā)明的示例。在圖9中,發(fā)言者(演示者)的圖像顯示在由參考編號64表示的窗口屏幕上。屏幕64顯示了發(fā)言者發(fā)出的語音的識別的結果。另外,窗口屏幕60顯示了由人工判斷設備13對通過語音識別獲得的識別字符串執(zhí)行的人工或自動檢查獲得的每一個結果。然而,可以隱藏語音識別的置信因子。為了顯示人工判斷設備13作出的檢查是否被確認或沒有被確認,檢查員執(zhí)行如S61所示的確認判斷。被判斷為不正確的字符串被設置為未確認的字符串,并在步驟62中進行匹配(自動校正設備15)。作為匹配的結果,已校正的字符串顯示在窗口63上,同時被分類為已確認的字符串和未確認的字符串。這里,圖9顯示了已確認的字符串以黑色顯示以及未確認的字符串以斜體顯示(實際以其他顏色顯示更好)的情況的顯示方法的示例。從圖9可以看出,通過使用PPT文件或其他文本的演示報告?zhèn)浞莶牧?,甚至可以正確地顯示未確認的字符串。此外,已確認的字符串可以通過自動判斷以及通過人工判斷來確認。相應地,分別通過兩種判斷確認的字符串也可以顯示出來,同時通過使用不同字體屬性彼此區(qū)別開來。
<人工判斷設備13中的人工操作>
這里將描述用戶在人工判斷設備13中執(zhí)行人工操作的UI(用戶界面)的示例。
1)在任何情況下執(zhí)行鍵操作(或鼠標點擊等等)。例如,當目標字符串正確時,按下回車鍵,當目標字符串不正確時,按下空格鍵。
2)與1)的情況相同,執(zhí)行選擇,但是提供了超時時段。當在該時段內(nèi)沒有按下任何鍵時,則強制地選擇默認值。由于識別結果通常在很多情況下是正確的,通過將默認值設置為正確,可以預期性能會得到改進。
<判斷分配設備12>
按如下方式設置自動判斷的條件。置信因子與平均值的差別越大,考慮到允許的延遲時間、平均作業(yè)時間和消逝時間,就越可能執(zhí)行自動判斷。此外,隨著允許的延遲時間流失,則接近于平均值的置信因子也比較可能分配給自動判斷。
下面將詳細描述置信因子Ci呈現(xiàn)正態(tài)分布的情況下的計算方法。下列公式給出了正態(tài)分布的概率密度函數(shù)f(x),其中,平均值和方差可以分別通過μ和σ表示。
f(x)=1σ2πe-(x-μ)22σ2]]>基于上文所描述的公式,由下列公式給出隨機變量X等于或小于α的概率。
P(X≤α)=∫-∞αf(x)dx]]>一般而言,此積分計算并不簡單。然而,通過使用概率密度函數(shù)和給定值的線性關系,可以判斷自動判斷或人工判斷中的哪一個是需要的。當滿足下列條件公式時,需要自動判斷,假設允許的延遲時間是Twmax,平均作業(yè)處理時間是Tave,處理時間是Ti。另一方面,當不滿足條件公式時,需要人工判斷。在自動判斷的情況下,可以判斷不超過平均值μ的置信因子導致未確認的顯示,大于平均值μ的置信因子導致已確認的顯示。
|u-Ci|≥|normsinv(1/Nj)|注意,“normsinv”表示標準正常累積分布的反函數(shù)。這里,由于Nj是剩余作業(yè)的數(shù)量,Nj被設置為舍入到最近的自然數(shù)的一個值,而不超過由下列公式給出的Ni。
Ni=(Twmax-Ti)/Tave注意,甚至在有多個人工判斷設備的情況下,也可以以同樣的方式獲得上述值。
<將語音識別結果與語音進行比較的方法>
作為檢查員將語音識別結果與語音進行比較的常見的方法,檢查員通常通過在收聽語音時閱讀字符串來將字符串與語音進行比較。然而,有視力障礙的人等等將字符串與輸入語音進行比較,同時通過語音合成再現(xiàn)字符串也是可以的。
<不使用聲音的檢查員>
已經(jīng)作為本發(fā)明的手段描述了將語音識別結果與輸入語音進行比較的方法。然而,在很多情況下,語音識別結果中包含嚴重的錯誤。因此,盡管沒有輸入語音,也可以執(zhí)行簡單的檢查。具體來說,具有聽覺障礙的人等等也可以肯定地執(zhí)行檢查。
<操作效果>
下文概述了成本降低、識別率改進、理解和實時特征改進作為本發(fā)明的操作效果。
<成本降低的效果>
首先,通過使用本發(fā)明的方法,與人工字幕校正相比,可以預期成本有顯著的降低。注意,關于與實際時間的延遲時間,在重說、速記和本發(fā)明的實施例之間沒有發(fā)現(xiàn)顯著的差異。
<識別率改進效果>
圖10顯示了在[本發(fā)明解決的問題]中介紹的基于在某一大學的演示實驗的結果的匹配實驗的結果。雖然上文已經(jīng)描述,但是一般而言,實時字幕需要85%或更高的識別率,更好的是,90%或更高的識別率。識別率超過85%的概率從27%提高到82%,識別率超過90%的概率從0%提高到27%。
<其他效果>
雖然量化是困難的,但是,對于重要的關鍵字,可以發(fā)現(xiàn)識別率有特別顯著的改進。因此,與簡單語音識別本身相比,識別率的改進大大地有助于理解的改進。此外,關于發(fā)言者不想要的有差別的表達和格式化,通過與頁面單元演示報告關鍵字匹配,可以取得顯著的改進。
上文作為字幕設備(一個實施例)或系統(tǒng)描述本發(fā)明。然而,本發(fā)明的設備或系統(tǒng)可以作為硬件、軟件或硬件和軟件的組合來實現(xiàn)。作為通過硬件和軟件的組合的實施方式,在具有預先確定的程序的計算機系統(tǒng)中的實施方式被引用為典型示例。在這樣的情況下,當預先確定的程序被加載到計算機系統(tǒng)中并執(zhí)行時,該程序允許計算機系統(tǒng)執(zhí)行根據(jù)本發(fā)明的處理。此程序包括一組可以通過任何語言、代碼或表示法表達的命令。這樣的一組命令使系統(tǒng)能直接執(zhí)行特定功能或執(zhí)行在執(zhí)行(1)轉換為另一個語言、代碼或表示法和(2)復制到另一個介質(zhì)兩者中的任何一個或兩者之后的功能。不用說,本發(fā)明的范圍不僅包括這樣的程序本身,而且還包括程序產(chǎn)品,該程序產(chǎn)品包括其中存儲了程序的介質(zhì)。用于執(zhí)行本發(fā)明的功能的程序可以存儲在任意計算機可讀的介質(zhì)中,如軟盤、MO、CD-ROM、DVD、硬盤設備、ROM、MRAM和RAM中??梢詮耐ㄟ^通信線路連接的另一個計算機系統(tǒng)下載上文所描述的程序,也可以從另一個介質(zhì)復制,以便存儲在計算機可讀的介質(zhì)中。此外,程序也可以通過壓縮或劃分為幾個部分存儲在單個記錄介質(zhì)或多個記錄介質(zhì)中。
注意,本說明書中使用的計算機或計算機系統(tǒng)不僅是指一般個人計算機或通用計算機,而且還指配備有微處理器(CPU或MPU)的各種設備。
雖然上文是基于實施例和示例描述本發(fā)明的,但是,本發(fā)明的技術范圍不僅限于實施例中所描述的那些??梢韵蚯懊娴膶嵤├刑砑痈鞣N改變或修改。此外,從權利要求的范圍的描述中可以看出,添加了這樣的改變或修改的實施例也可以包括在本發(fā)明的技術范圍內(nèi)。
1 語音識別單元2 判斷分配單元3 人工判斷單元4 自動判斷單元5 自動校正單元6 字幕顯示單元7 頁面單元演示報告關鍵字DB8 頁面切換事件11 語音識別設備12 判斷分配設備13,13a,13b人工判斷設備15 自動校正設備16 下一候選DB17 頁面單元演示報告關鍵字DB18 作業(yè)隊列19 自動判斷設備41 延遲時間42a,42b,42c 平均作業(yè)處理時間60 人工判斷的窗口屏幕62 匹配過程63 已確認的字符串和未確認的字符串的顯示窗口64 演示者圖像窗口和字幕顯示100 字幕校正系統(tǒng)(在一個檢查員的情況下)200 字幕校正系統(tǒng)(在兩個檢查員的情況下)
權利要求
1.一種用于實時校正演示報告中的語音字幕的字幕校正設備,包括語音識別單元,用于識別所述演示報告中的語音,并用于作為語音識別的結果,輸出候選字符串的一個或多個文本以及對應于相應候選字符串的語音識別的置信因子;判斷分配單元,用于通過使用所述置信因子、作業(yè)處理信息和預先確定的最大允許延遲時間,選擇自動判斷和人工判斷中的一個,以便處理在所述候選字符串之中具有最高置信因子值的第一候選字符串;自動判斷單元,用于響應所述判斷分配單元進行的自動判斷的選擇,自動地判斷是否設置所述第一候選字符串作為確認的字符串;以及人工判斷單元,用于響應所述判斷分配單元進行的人工判斷的選擇,手動判斷是否設置所述第一候選字符串作為確認的字符串。
2.根據(jù)權利要求1所述的字幕校正設備,進一步包括自動校正單元,用于輸出根據(jù)匹配分數(shù)獲得的關鍵字作為校正結果,所述匹配分數(shù)是通過將演示報告的關鍵字列表與沒有被所述人工判斷單元確認的字符串進行比較而獲得的;以及字幕顯示單元,用于顯示所述確認的字符串和所述字符串作為所述校正結果,同時區(qū)別這兩種字符串。
3.根據(jù)權利要求1所述的字幕校正設備,其中,所述作業(yè)處理信息包括當前延遲時間、語音識別單元中未處理的作業(yè)的數(shù)量以及其平均作業(yè)處理時間。
4.根據(jù)權利要求1所述的字幕校正設備,其中,在根據(jù)對應于給定作業(yè)的置信因子獲取的概率密度不大于在最大允許延遲時間內(nèi)處理的作業(yè)的數(shù)量的倒數(shù)的情況下,所述判斷分配單元選擇人工判斷。
5.根據(jù)權利要求1所述的字幕校正設備,其中,所述判斷分配單元根據(jù)所述置信因子和所述置信因子的平均值之間的區(qū)別的程度,選擇自動判斷。
6.根據(jù)權利要求1所述的字幕校正設備,其中,所述人工判斷單元包括語音速度轉換裝置、無聲部分刪除裝置、提供空白的重點再現(xiàn)裝置、通過反復再現(xiàn)的自動提醒裝置以及自動停止裝置中的至少一個。
7.根據(jù)權利要求1所述的字幕校正設備,其中,提供的所述人工判斷單元的數(shù)量和進行人工判斷的判斷次數(shù)一樣多。
8.根據(jù)權利要求2所述的字幕校正設備,其中,所述關鍵字列表是根據(jù)頁面單元演示報告關鍵字DB動態(tài)地生成的。
9.根據(jù)權利要求2所述的字幕校正設備,其中當匹配分數(shù)不小于預先確定的參考值時,所述自動校正單元輸出關鍵字作為所述校正結果,以及當匹配分數(shù)小于預先確定的參考值時,所述自動校正單元輸出第二候選字符串作為所述校正結果。
10.根據(jù)權利要求9所述的字幕校正設備,其中,在根據(jù)預先確定的條件判斷所述第二候選不適合作為校正結果的情況下,所述自動校正單元隨后就其余候選是否適合作為校正結果逐個地對所述候選進行判斷。
11.根據(jù)權利要求10所述的字幕校正設備,其中,在基于條件的判斷中,當所述第二候選和所述其余的候選中的任何一個是預先確定的有差別的表達和引起爭議的表達中的任何一個時,判斷所述候選不適合作為所述校正結果。
12.根據(jù)權利要求2所述的字幕校正設備,其中,所述字幕顯示單元分別按不同字體屬性或不同字母類型顯示所述確認的字符串和所述已校正的字符串。
13.一種用于實時校正演示報告中的語音字幕的方法,包括下列步驟識別所述演示報告中的語音,然后作為語音識別的結果,輸出候選字符串的一個或多個文本以及對應于相應候選字符串的語音識別的置信因子;通過使用所述置信因子、預先確定的最大允許延遲時間、當前延遲時間和所述語音識別步驟中的未處理的作業(yè)的數(shù)量及其平均作業(yè)處理時間,選擇自動判斷和人工判斷中的一個,以便確認在所述候選字符串之中具有最高置信因子值的第一候選字符串;響應所述選擇步驟中的自動判斷的選擇,自動地判斷是否設置所述第一候選字符串作為確認的字符串;以及響應所述選擇步驟中的人工判斷的選擇,手動判斷是否設置所述第一候選字符串作為確認的字符串。
14.根據(jù)權利要求13所述的方法,進一步包括下列步驟根據(jù)匹配分數(shù)輸出關鍵字作為校正結果,所述匹配分數(shù)是通過將演示報告的關鍵字列表與沒有被所述手動判斷步驟確認的字符串進行比較而獲得的;以及顯示所述輸出的確認的字符串和所述字符串作為所述校正結果,同時區(qū)別這兩種字符串。
15.根據(jù)權利要求13所述的方法,其中,在所述選擇步驟中,根據(jù)所述置信因子和所述置信因子的平均值之間的區(qū)別的程度,選擇自動判斷。
全文摘要
公開了用于校正字幕的字幕校正設備和方法。解決了人工為演示報告等等提供實時字幕成本高以及只使用自動語音識別時不能獲得所需要的識別率,因此不能正確轉換的問題。本發(fā)明的設備獲得了語音識別結果的字符串和其置信因子。時間監(jiān)視器對時間進行監(jiān)視,并通過檢查置信因子和時間狀態(tài)判斷是否延遲處理。當不延遲處理時,要求檢查員進行人工判斷,即根據(jù)處理的語音,對語音進行處理并對語音識別結果進行人工判斷。當延遲處理時,通過使用所述置信因子進行自動判斷。當字符串作為人工判斷或自動判斷的結果被判斷為正確時,字符串作為已確認的字符串顯示出來。當判斷字符串不正確時,根據(jù)通過語音識別獲得的下一候選、演示報告的文本和屬性、腳本文本等等,通過匹配執(zhí)行自動校正。自動校正之后的字符串被顯示為未確認的字符串。
文檔編號G10L15/00GK101094330SQ200710088128
公開日2007年12月26日 申請日期2007年3月15日 優(yōu)先權日2006年3月24日
發(fā)明者宮本晃太郎, 荒川健一, 大鐘俊也 申請人:國際商業(yè)機器公司