抄錄語音的制作方法
【專利摘要】一種語音媒體抄錄系統(tǒng),包括被布置為播放被劃定為多個分段的語音的播放設(shè)備。所述系統(tǒng)被編程以為待抄錄的分段提供抄錄員尚未抄錄的分段的部分的自適應(yīng)估計。所述設(shè)備被布置為可選地在已經(jīng)播放整個所述分段之后,播放所述分段的所述部分。此外,一種分段引擎被布置為通過識別語音本身并使用定時信息,來將所述語音媒體劃分成多個分段,而無需使用機器將語音媒體轉(zhuǎn)換成文本或文本表達。
【專利說明】抄錄語音
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種分段(segment)和抄錄(transcribe)視頻、音頻或多媒體文件或 播出節(jié)目的語音(speech)記錄和語音成分的方法,這樣的記錄和成分在本文被統(tǒng)稱為"語 音媒體"。本文所用的"語音"包括說出的聲音和口頭陳述的任何其它形式,其可以被解釋 為能夠以文本表示的話語。
【背景技術(shù)】
[0002] 為了知道"原始"狀態(tài)的音頻和視頻媒體中有什么,人們必須聆聽材料(在視頻情 況下觀看材料),從這個意義上來說,"原始"狀態(tài)的音頻和視頻媒體是不透明的(opaque)。 通過將媒體標(biāo)記為具有標(biāo)題、版權(quán)、作者、關(guān)鍵詞和其它信息的統(tǒng)一體,可以為音頻或視頻 關(guān)聯(lián)附加信息(例如,就像在ID3標(biāo)準(zhǔn)下MP3文件與媒體元數(shù)據(jù)關(guān)聯(lián))。此外,可以為媒體文 件關(guān)聯(lián)包括語音文本信息的定時信息,在本文被統(tǒng)稱為"定時媒體元數(shù)據(jù)",其允許適當(dāng)?shù)?系統(tǒng)在媒體中以正確的時間顯示諸如字幕和副字幕等信息(如果需要,還有其它元數(shù)據(jù))。
[0003] 無論是標(biāo)記整個文件,還是提供關(guān)于媒體中定時事件的信息,所關(guān)聯(lián)的定時媒體 元數(shù)據(jù)都可以嵌入有媒體文件本身(如果有合適的工具、格式和播放器),或者單獨在定時 文本文件(有許多不同的標(biāo)準(zhǔn)格式,如W3C定時文本標(biāo)記語言(TTML,也稱為分發(fā)格式交換 資料DFXP)或同步多媒體(SMIL)標(biāo)準(zhǔn)和專有標(biāo)準(zhǔn))中,或者在數(shù)據(jù)庫中。
[0004] 語音媒體的定時部分(其還可以包括時間偏移、播放速率和向原始媒體的引用) 連同文本和其它元數(shù)據(jù)(其還可以包括更短時間間隔的具體的定時信息)與在本文中被統(tǒng) 稱為"分段"的語音媒體的一部分相關(guān)聯(lián)。
[0005] 媒體文件和相關(guān)聯(lián)的元數(shù)據(jù)也可以被分組為播放列表或頻道,其允許顯示、選擇 和播放一組媒體。如果這樣的播放列表可以與適當(dāng)?shù)亩〞r媒體元數(shù)據(jù)相關(guān)聯(lián),則整個播放 列表可有效地體現(xiàn)定時、文本和其它元數(shù)據(jù),用于應(yīng)用該方法。
[0006]因為通過搜索引擎進行有效的搜索可提供來自廣告商和贊助商的收益機會,所以 能夠通過搜索定位媒體有很重要的價值。從消費者的角度看(消費者是試圖收看或收聽媒 體的任何人),能夠通過對內(nèi)容進行文本搜索找到合適的視頻和音頻內(nèi)容,而不依賴任何標(biāo) 題和整個媒體標(biāo)簽很重要。
[0007] 此外,一旦找到媒體,消費者可以(用合適的播放器)基于定時媒體元數(shù)據(jù)中的文 本搜索,來搜索媒體播放中的特定時間位置,這允許適當(dāng)?shù)牟シ牌髟诟信d趣的合適位置處 開始播放(而不是消費者需要摸索(scrubthrough)播放)。這允許消費者體驗到媒體的 相關(guān)部分,而不用觀看不相關(guān)的部分。
[0008]目前,許多司法管轄區(qū)對廣播媒體有法規(guī)要求,其需要適當(dāng)?shù)脑L問協(xié)助,這導(dǎo)致定 時文本元數(shù)據(jù)例如作為隱藏字幕等可用。
[0009] 在提供到網(wǎng)絡(luò)(例如,BBCiPlayer、Google的YouTube?服務(wù)和支持字幕或副字 幕的其它在線視頻發(fā)布服務(wù))上的視頻和音頻材料的情況下,具有可用的相關(guān)聯(lián)元數(shù)據(jù)的 材料的普及度有限(由于立法定位)。盡管事實是元數(shù)據(jù)的可用性在廣播情形中更為有價 值,這不僅因為元數(shù)據(jù)具有訪問協(xié)助,而且因為其允許媒體能夠容易地被搜索引擎找到,以 及其可以使用戶快速定位媒體中相關(guān)的部分。
[0010] 此外,可能提供有帶有定時媒體元數(shù)據(jù)的豐富多樣的元數(shù)據(jù)(例如相關(guān)聯(lián)的圖 像),其提高了其對于用戶的配合(engagement)和價值,并使得用戶更容易吸收所需的信 息,或者"點擊"到其它相關(guān)地方。另外,可以將當(dāng)前的文本分段元數(shù)據(jù)與相關(guān)廣告背景相 關(guān)聯(lián)。材料的定時關(guān)聯(lián)還有助于教學(xué)環(huán)境。
[0011] 將豐富的元數(shù)據(jù)添加到音頻和視頻材料的主要障礙是用當(dāng)前的制作和發(fā)布系統(tǒng) 這么做所需的復(fù)雜性和工作量。
[0012] 存在協(xié)助制作字幕、副字幕和各種定時文本格式的多種當(dāng)前系統(tǒng)。例如,可以 將字幕和標(biāo)記手動添加到視頻/音頻制作系統(tǒng)的時間線;在視頻的情況下,使用諸如 MicrosoftExpression.1?Encoder、SonyVegas?Pro、Apple?FinalCutPro?或 AdobePremiere???蛇x地,可以使用專用字幕和副字幕系統(tǒng),需要用戶標(biāo)記事件的定時以 及添加諸如抄錄等元數(shù)據(jù)形成定時媒體元數(shù)據(jù),并且這些或者可以被導(dǎo)入媒體制作工具以 創(chuàng)建嵌入的定時媒體信息,或者可以被導(dǎo)入與播放器中的媒體相關(guān)聯(lián)的定時文本文件。此 夕卜,速記(steganography)需要由受過訓(xùn)練的抄錄員可操作的特殊的抄錄終端,并特別適 用于現(xiàn)場加字幕。此外,自動語音識別(ASR)系統(tǒng)能夠制作定時文本,其根據(jù)各種語音模型 來識別并通過生成預(yù)期的詞字來制作。由于ASR系統(tǒng)的不準(zhǔn)確性,一種方法是使用被訓(xùn)練 為個別抄錄員模式的ASR,并使該個別抄錄員重新朗讀音頻/視頻材料中所說的話并將重 新朗讀插入到副字幕中,因為優(yōu)良的識別而得到更高質(zhì)量的結(jié)果。
[0013] 還可以通過使用光學(xué)字符識別技術(shù)來從現(xiàn)有的視頻材料導(dǎo)出定時字幕。當(dāng)然,這 依賴于材料中已經(jīng)嵌入了現(xiàn)有的抄錄稿。
[0014] 與定時媒體元數(shù)據(jù)相關(guān)聯(lián)的語音媒體的普及度很低。這反映了使用當(dāng)前系統(tǒng)的在 時間和/或費用上的挑戰(zhàn)。在自動化的ASR的情況下,所得到的抄錄稿的質(zhì)量不足以用于 許多重要的應(yīng)用,并且重新朗讀的方法還很費時。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明的一個目的是緩解一些或全部這些缺點。
[0016] 本發(fā)明的具體實施例滿足了能夠由無需非常熟練的抄錄員高效地制作高質(zhì)量抄 錄稿和其它元數(shù)據(jù)的需要,并且允許端到端過程以制作并發(fā)布抄錄的結(jié)果。
[0017] 根據(jù)第一方案,本發(fā)明提供了一種語音媒體抄錄系統(tǒng),所述系統(tǒng)包括被布置為播 放被劃定為多個分段的語音的播放設(shè)備,所述系統(tǒng)被編程以為待抄錄的分段提供對抄錄員 尚未抄錄的分段的部分的自適應(yīng)估計,所述設(shè)備被布置為播放所述分段的所述部分。因此, 當(dāng)語音可能超出抄錄員將其全部回憶起來的能力時,產(chǎn)生這樣的播放(playback)??梢栽?可配置的導(dǎo)入時間的基礎(chǔ)上(帶有可選的音量漸響)計算合適的重放位置,并且如果可以, 在詞字(word)的邊界上開始;或者如果該位置接近于開始點,則在分段的起始點開始,并 且如果接近于結(jié)束點,則提供最小程度的重放。此外,可以為抄錄員提供用于使用鍵盤組合 來使該系統(tǒng)從重放位置或分段的起始點重放的裝置。
[0018] 所述播放設(shè)備可以被布置為在播放被估計為尚未抄錄的所述部分之前播放整個 分段。
[0019] 所述自適應(yīng)估計可以在以下中的至少一個的基礎(chǔ)上進行:該分段中可能存在的文 本的數(shù)量,發(fā)言者的語音速度,抄錄員的文本輸入速率,抄錄員的工作記憶,或者抄錄員的 當(dāng)前活動,即是否正在進行抄錄。當(dāng)對分段的分析指示該分段可能不包含語音時,可以從播 放中省略該分段或以高速播放該分段。
[0020] 所述系統(tǒng)可以監(jiān)測抄錄員的文本輸入速率,并以取決于所述文本輸入速率的速度 播放語音。
[0021] 在分段的開頭打字輸入的標(biāo)點符號可以被自動轉(zhuǎn)移到前一個打字輸入的分段。
[0022] 所述系統(tǒng)可以包括用于自動重放所述語音用于審閱和校正抄錄的裝置,和/或用 于允許由審閱者識別被認(rèn)為是錯誤的文本的分段的裝置。
[0023] 根據(jù)第二個方案,本發(fā)明提供一種抄錄語音媒體的方法,包括:提供如上所述的系 統(tǒng),允許抄錄員抄錄所述語音媒體的分段的一部分,重放被估計為抄錄員尚未抄錄的所述 分段的部分,以及隨后確定所述分段已被完全抄錄。
[0024] 根據(jù)第三個方案,本發(fā)明提供一種分段引擎,被布置為通過識別語音本身并使用 定時信息,來將所述語音媒體劃分成多個分段,而無需使用機器將語音媒體轉(zhuǎn)換成文本或 文本表達。
[0025] 所述分段引擎可以被編程為開始一分段,測量經(jīng)過的時間,確定所述分段中詞字 之間的間隙,并且當(dāng)該分段中經(jīng)過的時間為至少1秒,優(yōu)選至少2秒,和/或最多15秒,優(yōu) 選最多10秒時的間隙處結(jié)束該分段。
[0026] 用于分段的定時信息可以基于語音媒體中的線索,所述線索選自由以下線索構(gòu)成 的群組:從自動語音識別系統(tǒng)導(dǎo)出的線索,從語音活動檢測系統(tǒng)導(dǎo)出的線索,以及從對該語 音媒體的音頻或視頻分析得到的線索。
[0027] 在一個實施例中,所述分段引擎被編程為將附加的分段插入兩個分段之間的間 隙,以提供連續(xù)的分段。可替代地或另外地,所述引擎可以被編程為消除兩個分段之間的間 隙,以提供連續(xù)的分段。它可以允許用戶將一個分段分成兩個或更多個分段,并且可以允許 用戶將兩個或更多個連續(xù)分段合并成一個分段。
[0028] 所述分段引擎可以被編程為在沒有來自隨后的分段中的分段的元數(shù)據(jù)不適用于 該隨后的分段的指示的情況下,保存來自所述隨后的分段中的分段的所述元數(shù)據(jù)。
[0029] 根據(jù)第四個方案,本發(fā)明提供一種對語音媒體分段的方法,包括:提供如上所述的 分段引擎,分析定時信息以確定詞字之間的間隙,以及在詞字之間的所述間隙中所選擇的 一些間隙處結(jié)束分段。
[0030] 本發(fā)明的方法可以包括以下步驟:顯示、發(fā)布、或傳輸由該方法制作的抄錄。
【專利附圖】
【附圖說明】
[0031] 現(xiàn)在將參考附圖,僅以示例方式更詳細地描述本發(fā)明的實施例,附圖中:
[0032] 圖1是示出根據(jù)本發(fā)明的系統(tǒng)的方框圖;
[0033] 圖2是更詳細地示出圖1的系統(tǒng)的分段(segmentation)過程的方框圖;
[0034] 圖3是更詳細地示出圖1的系統(tǒng)中的抄錄(transcription)過程的方框圖;以及
[0035] 圖4是示出重放系統(tǒng)參數(shù)的時序圖。
【具體實施方式】
[0036] 圖1給出了根據(jù)本發(fā)明的系統(tǒng)的總覽。該方法的主要步驟是:
[0037]-由其它系統(tǒng)(其可與本發(fā)明的系統(tǒng)進行交互)獲取和制作視頻或音頻媒體;
[0038]-對媒體分段以標(biāo)出合適的語音定時信息(speechtiminginformation);
[0039]-抄錄多個分段以向其有效地添加文本和其它信息;
[0040]-審閱并確認(rèn)抄錄;
[0041]-用用戶提供的參數(shù)以各種形式(包括定時文本文件,且可選地為網(wǎng)頁以及完整 的抄錄稿)自動制作和發(fā)布分段后的信息。
[0042] 本發(fā)明提供一種連貫的端到端的制作和發(fā)布系統(tǒng)。盡管該系統(tǒng)可以主要實現(xiàn)在通 用個人計算機系統(tǒng)中,但所描述的功能、數(shù)據(jù)流(flow)和控制機制可以實現(xiàn)在多個服務(wù)器 和處理器上且功能分布在多個服務(wù)器和處理器上,而且,在任何情況下,這通常為用于將所 得到的定時媒體元數(shù)據(jù)發(fā)布給消費者的機制。
[0043] 獲取和制作
[0044] 在分段之前,制作系統(tǒng)可能需要進行媒體格式轉(zhuǎn)換以為線索生成系統(tǒng)創(chuàng)建合適的 輸入。例如,在媒體為H. 264格式的情況下,其可以被轉(zhuǎn)換成合適的音頻格式的媒體用于輸 入到該線索生成系統(tǒng)。
[0045] 1.分段
[0046] 圖2示出分段過程。本系統(tǒng)提供自動將語音媒體分段為適當(dāng)長度的分段的自動能 力,可期望這些分段保持連貫的語音短語。這與需要手動標(biāo)記分段時間位置的系統(tǒng)不同。此 夕卜,可以提供涵蓋預(yù)計沒有待抄錄的任何語音的時間段的分段。
[0047] L 1對線索的分段
[0048] 用能夠標(biāo)出包括定時信息的語音表達的已知系統(tǒng)開始進行自動分段。這些包括 (但不限于)自動語音識別(ASR)系統(tǒng)和語音活動檢測系統(tǒng)(VAD)。這些系統(tǒng)提供從語音 媒體導(dǎo)出的時間和其它線索,其向分段系統(tǒng)提供信息以及其它分段元數(shù)據(jù)和詳細的分段粒 度(例如,在ASR的情況下為詞字級別)??梢詮囊纛l或視頻媒體的其它特征導(dǎo)出附加線 索,例如,音頻頻譜組成及其變化,或者在視頻的情況下的場景分割事件(視頻合成中的剪 輯(cut)),或者使用人臉識別系統(tǒng)??梢愿鶕?jù)需要使用所有或部分這些線索。
[0049]目前使用ASR系統(tǒng)制作自動字幕,獲得與文本信息的自動制作相耦合的定時信息 (當(dāng)然這可以隨后被編輯)。在本發(fā)明中,系統(tǒng)不依賴于系統(tǒng)的詞字識別,而是使用由ASR 系統(tǒng)提供的定時信息。可以使用識別的其它特征,但不使用來自ASR系統(tǒng)的建議文本,而是 由抄錄員輸入。
[0050] 不依賴ASR詞字制作有三個好處。
[0051] 首先,系統(tǒng)不需要經(jīng)過訓(xùn)練的ASR語音模型,以在有多個發(fā)言者且沒有為他們訓(xùn) 練的語音模型的通常情況下實現(xiàn)準(zhǔn)確性。
[0052] 其次,較差質(zhì)量的音頻和有限數(shù)量的背景噪聲和音樂(例如)的存在不會嚴(yán)重影 響本系統(tǒng)的分段性能(而這極大地降低ASR系統(tǒng)的文本識別的準(zhǔn)確性)。
[0053] 第三,因為本發(fā)明不依賴于任何特定的ASR語音模型,所以它基本上以與語言無 關(guān)的方式工作。某些語言不存在語音模型,因此一個很大的優(yōu)勢是能夠使用一種語言的單 一語音模型并將其應(yīng)用到其它語言。
[0054] 分段系統(tǒng)確實利用VAD或ASR系統(tǒng)制作的詞字和短語定時。但不是簡單地使用來 自這些系統(tǒng)的原始定時,本發(fā)明在以下幾個方面對分段進行調(diào)整。
[0055] L2附加線索
[0056] 還可以從附加線索導(dǎo)出對分段的選擇,從而例如,當(dāng)有一個視頻場景間斷時,如果 合適,該系統(tǒng)可以優(yōu)先考慮在媒體中此時應(yīng)產(chǎn)生分段間斷??蛇x地,如果音頻的頻譜分析表 明語音媒體中可能有不同的發(fā)言者或某些時間可能有變化,則這種信息也可以影響系統(tǒng)的 分段定時選擇(因為期望為不同發(fā)言者創(chuàng)建不同的分段)。
[0057] 此外,線索的其它特性可以提供例如關(guān)于分段調(diào)整和發(fā)言者分配信息的附加信 息。在某些情況下,關(guān)于給定分段的(多個)發(fā)言者的信息是分段元數(shù)據(jù)的有用的部分,并 且可以包括一組信息,包括名稱、演員、圖像鏈接和其它所需的信息。
[0058] L3最小長度
[0059] 分段一般應(yīng)在一定長度范圍內(nèi),以便被正確顯示并具有有含義的短語。過短的分 段(例如在2秒以下)通常不會為字幕提供可理解的短語,但是如果在較短時間段上出現(xiàn) 的語音在該語音之前或之后具有間隙,則其可以是有效發(fā)音(通常是一個感嘆詞)并被該 系統(tǒng)允許(例如,如果有人說"是",其作為邏輯可分辨的分段)。還發(fā)現(xiàn)分段系統(tǒng)將300ms 及以上的語音發(fā)音中的間隙處理為可分辨的分段非常有效。
[0060] 1. 4防怏閃
[0061] 此外,該系統(tǒng)保護字幕和顯示輸出的觀看者不會看到"過快"的轉(zhuǎn)變,這已知會造 成潛在的健康問題(例如,避免媒體中的"閃爍"誘導(dǎo)癲癇的法規(guī)和標(biāo)準(zhǔn))。因為限制包括 在輸出中的分段的最小長度,所以該系統(tǒng)自動地避免這些問題。沒有足夠的后期處理的手 動系統(tǒng)或自動系統(tǒng)則無法做到這點。
[0062] 1. 5最大長度
[0063] 通常如果長度超過10秒(視系統(tǒng)配置而定),則分段也可能過長。分段可能過長, 原因有兩個:首先,將"配合"目標(biāo)顯示(通常包括兩行文本)的顯示長度有限。其次,系統(tǒng) 的目的是提供一種有含義的語義"組塊",這通常實現(xiàn)在較短長度的語音中。當(dāng)超過此閾值 時,該系統(tǒng)能夠自動估計合適的分段分割,并且對于基于ASR的分段,能夠在可能有合適的 分割點的詞字之間的最大合適邊界處進行分段(例如,當(dāng)詞字之間有微小的間隙時)。在這 一自動分段分割不能實現(xiàn)所期望的結(jié)果時,可以如下所述進行手動調(diào)整。
[0064] 在預(yù)期語音媒體的一部分不具有可理解的語音信息的情況下,分段系統(tǒng)可以創(chuàng)建 長于如上所述長度的分段,并相應(yīng)地標(biāo)記這些分段。
[0065] 1. 6連續(xù)分段
[0066] 對于許多應(yīng)用,以及對于抄錄過程,期望調(diào)整定時和/或添加附加分段,以創(chuàng)建跨 度為整個媒體的一組連續(xù)的分段。為了使用某些嵌入式或定時文本格式的系統(tǒng)和相關(guān)聯(lián)的 顯示設(shè)備進行適當(dāng)顯示,可能需要這種連續(xù)的特性。此外,某些定時文本格式不支持分段的 結(jié)束時間,在這種情況下,如果需要,可以插入附加的分段以在適當(dāng)?shù)臅r間改變顯示。連續(xù) 分段(及表明其是否可能包含語音的被適當(dāng)標(biāo)記的分段)對抄錄或?qū)忛啎苡杏谩?br>
[0067] 在從線索導(dǎo)出的分段之間的間隙被配置得很小(一般在1秒左右)的情況下,系 統(tǒng)可以選擇"閉合"兩個相鄰的分段的定時,使得它們變得連續(xù)而不插入短的附加分段。
[0068] I. 7手動詵擇
[0069] 在某些情況下,通過手動選擇一段媒體來為系統(tǒng)導(dǎo)出線索可能是有利的,例如多 軌道編輯器的時間線顯示(無論音頻或視頻),或者由系統(tǒng)或在播放過程中通過用鍵盤手 勢指示開始和停止位置支持的時間線。所選擇的時間間隔可被用作分段系統(tǒng)的另一線索, 注意現(xiàn)有的分段可能需要調(diào)整連續(xù)性和長度。
[0070] 1. 8手動調(diào)整
[0071] 向抄錄員或?qū)忛喺咛峁Ψ侄味〞r的手動調(diào)整,并且這可以用各種不同的機制來 提供。還可以使用手動輸入來改變分段的開始或結(jié)束時間(例如,通過使用向前、向后拖曳 滑塊指示位置的"微調(diào)",選擇時間線位置,或在ASR的情況下,自動改變詞字邊界的定時)。 當(dāng)用戶進行這種改變時,分段系統(tǒng)可以自動地調(diào)整相鄰的分段,使它們保持連續(xù)。
[0072] L9分割和合并
[0073] 除了改變分段開始和結(jié)束時間以外,抄錄員還可能希望將一個分段分割成兩個 (持續(xù)時間上)更短的分段,可以在改變開始或結(jié)束點時間的相同基礎(chǔ)上來完成這一分割 時間的指示。當(dāng)這樣做時,用戶還可以指示現(xiàn)有的分段抄錄稿中的文本分割點的位置,使得 適當(dāng)?shù)奈谋疚挥谒玫降膬蓚€分段的每個分段中。該系統(tǒng)提供將初始分段元數(shù)據(jù)(例如, 發(fā)言者的信息、圖像)復(fù)制到所得到的兩個分段的能力??蛇x地,抄錄員或?qū)忛喺哌€可能希 望合并兩個或更多個所選擇的連續(xù)分段。在這種情況下,單個被合并的分段的開始點是第 一個所選擇的分段的開始點,而結(jié)束點是最后一個所選擇的分段的結(jié)束點。在這種情況下, 所得到的抄錄稿表示待順序合并的各個分段的混合。在其它元數(shù)據(jù)為非文本并且不能以這 種方式直接被合并時,該系統(tǒng)可以提供默認(rèn)的選擇(例如,適用于合并后的分段的發(fā)言者 是在第一個被合并的分段中所定義的發(fā)言者)。
[0074] L10自動繼續(xù)
[0075] 為了避免抄錄員需要連續(xù)地向分段元數(shù)據(jù)提供不變的信息,該系統(tǒng)提供了可配置 的機制,以允許分段之間的"繼續(xù)"。由參數(shù)控制對"繼續(xù)"的使用和將其應(yīng)用到不同格式。 在特定的項沒有接收到抄錄員或?qū)忛喺咻斎氲那闆r下,元數(shù)據(jù)可以被視為是連續(xù)的。在這 種情況下,該系統(tǒng)可以復(fù)制來自第一個有效的先前分段的信息。所以,例如,關(guān)于一組分段 的發(fā)言者的信息可以僅在語音的開始被標(biāo)記一次,并且除非明確地指出,隨后的分段也被 假定為由該發(fā)言者發(fā)言(并且當(dāng)發(fā)布該信息時,由系統(tǒng)自動填充必要的數(shù)據(jù))。
[0076] I. 11 防抖(Anti-Flicker)
[0077] 可以提供分段顯示系統(tǒng),其檢查分段之間的特定的元數(shù)據(jù)是否已經(jīng)改變(注意, 即使字幕或副字幕已經(jīng)改變,但元數(shù)據(jù)的其它項可能未改變)。一些類型的顯示系統(tǒng),如果 向其提供寫入到顯示區(qū)的信息,即使信息是相同的,其也可能顯示視覺分散行為。通過限 制對顯示區(qū)的寫入直到必須改變該區(qū)域,該播放系統(tǒng)可以避免這種情況發(fā)生。這種功能對 于圖像數(shù)據(jù)的顯示尤其重要,并適用于在抄錄和/或?qū)忛喥陂g操作的顯示系統(tǒng)以及媒體產(chǎn) 品。
[0078] L12分段刷新
[0079] 在任何分段調(diào)整的情況下(無論是通過由人所做的改變,還是由于與顯示類型或 格式相關(guān)聯(lián)的選擇),該系統(tǒng)可以執(zhí)行任何已在以上I. 1至1. 12部分描述的任意或全部操 作。
[0080] 2.杪錄
[0081] 圖3示出抄錄過程。一旦高質(zhì)量的分段可用,則系統(tǒng)使用各種控制和自適應(yīng)措施 來控制向抄錄員播放每個分段。
[0082] 出于本說明書目的的考慮,可以使用普通的鍵盤機制或經(jīng)由上述通過"重新朗讀" 機制的語音識別技術(shù)的輸入,或者通過任何其它文本輸入方法來執(zhí)行人的文字輸入。
[0083] 2. 1非語咅處理
[0084] 分段過程可以識別不太可能包含可理解的語音信息的語音媒體部分??梢允沟贸?錄和審閱播放機制或者跳過這樣的分段,或者以更快的速度播放它們,從而節(jié)省時間(當(dāng) 然或者也可以正常播放它們)。實現(xiàn)很簡單,即由分段系統(tǒng)檢查此類標(biāo)記。
[0085] 2. 2系統(tǒng)輔助的杪錄播放和重放
[0086] 盡管現(xiàn)有系統(tǒng)在有高度熟練的抄錄員、可選的額外速記設(shè)備或腳踏板協(xié)助時工作 最佳,但本發(fā)明的抄錄系統(tǒng)可協(xié)助各種人用標(biāo)準(zhǔn)設(shè)備高效地輸入高品質(zhì)的抄錄和字幕。[0087] 這是在對以下的自適應(yīng)估計的基礎(chǔ)上完成的:
[0088] a)在抄錄分段中可能輸入的文本的數(shù)量;
[0089]b)發(fā)言者的朗讀速度;
[0090]c)抄錄員的打字速度;
[0091] d)抄錄員的工作記憶。
[0092] 在a)的情況下,可根據(jù)自然人類語音速率來預(yù)測分段中的文本數(shù)量(無論是以字 符、詞字還是音素計量)。雖然這在各個人之間有變化并且有時根據(jù)條件變化,但是我們已 經(jīng)發(fā)現(xiàn),正常的語音速率出現(xiàn)在可預(yù)測的較窄范圍內(nèi)。隨著抄錄的進行,我們獲得關(guān)于此抄 錄中語音傳輸?shù)膶嶋H速率的進一步信息,因此該系統(tǒng)可以使用一系列自適應(yīng)算法(例如, 指數(shù)平均)從先驗速率適應(yīng)到當(dāng)前的情況。
[0093] a)和b)的結(jié)果是該系統(tǒng)可以以一定的準(zhǔn)確性預(yù)測需要輸入以完成正被抄錄的分 段的文本數(shù)量。
[0094]關(guān)于c),可以由系統(tǒng)來測量抄錄員的打字或輸入速率。這種測量可以從系統(tǒng)設(shè)置 (諸如輸入技能評估、或?qū)y試抄錄的測量)開始。抄錄員輸入速率的進一步細化可以通過 對本次抄錄以及前一次抄錄的實際輸入速率的系統(tǒng)知識(其還可以包括對輸入類別的知 識一類似的抄錄和抄錄難點被分組為自然項,例如,來自特定顧客或風(fēng)格的抄錄)來實現(xiàn)。 這使得能夠適應(yīng)更"難"或較不"難"的媒體。
[0095] 關(guān)于d),同樣,先驗估計一個人的工作記憶可以從通常的但較低的估計開始,然后 在輸入時由系統(tǒng)細化(如同c的情況)。特別是,系統(tǒng)可以檢測尚未到達媒體的結(jié)束點,但 打字已經(jīng)停止,而用戶沒有給出分段結(jié)束點的信號。
[0096] 抄錄輸入一個主要問題是,很多人輸入信息慢于語音。這意味著在分段的播放結(jié) 束的時候用戶只對所需文本的一部分進行打字。
[0097] 分段的存在本身是有用的,因為播放的媒體的數(shù)量被很自然地限制了。通常情況 下,如果沒有分段,則播放將繼續(xù),除非用戶用來自人的一些明確的信令停止它。
[0098] 人類對他們聽到但還沒有抄錄的語音具有有限的"緩沖"或工作記憶空間,并且如 果剩下的抄錄比該空間長,則該分段將結(jié)束而不能完成對該分段的抄錄。在我們的測量中, 對于通常的分段長度(如圖4中情況A所示),即使是相當(dāng)熟練的打字員,這也是通常常見 的情況。
[0099]在通常的抄錄系統(tǒng)中,用三種主要方式處理這個問題。第一種,用戶可以在他們的 心理記憶過載之前手動停止抄錄(或用腳踏板,如果有的話)。第二種,可以播放媒體,然 后手動倒帶并依賴于用戶的輸入重放。第三種,一些系統(tǒng)提供可變速播放,由用戶調(diào)整來適 應(yīng)。
[0100] 在時間和文本分段可用的情況下,如在基于ASR的抄錄的情況下,需要人的編輯 來校正ASR錯誤,并且在手動控制下進行播放。
[0101] 因為有時媒體長時間沒有語音(或沒有可理解的語音),但抄錄員仍然需要聽完 媒體(雖然如果系統(tǒng)支持的話可以以更快的速度這樣做),所以抄錄也是復(fù)雜的。
[0102] 本發(fā)明解決了這些問題。首先,由系統(tǒng)對媒體自動分段,使得向用戶播放的媒體的 數(shù)量被限制在任何給定的分段中,并且通常在邏輯上也是連貫的。在系統(tǒng)控制下播放分段, 在結(jié)束時照這樣自動前進到下一分段。這種自動前進通過已知的鍵盤組合或在重新朗讀的 情況下的口頭代碼進行。
[0103] 圖4示出用于播放與重放分段的系統(tǒng)。因為該系統(tǒng)具有對預(yù)期的輸入量、以及抄 錄員的打字速度和工作記憶的自適應(yīng)知識,所以其能夠?qū)⒎侄蔚奈闯洸糠值臏?zhǔn)確部分重 放給用戶,而不是重復(fù)整個分段。這節(jié)省了抄錄時間并作為抄錄員的首選。換句話說,該系 統(tǒng)"智能地"重放估計尚未抄錄的部分,使得抄錄員可以完成分段輸入。如圖4所示,基于 所估計的當(dāng)前的抄錄位置、當(dāng)前播放位置和抄錄員的工作記憶,系統(tǒng)能夠自動地確定合適 的估計條件以實現(xiàn)重放。如圖所示,如果播放位置超出抄錄員的工作記憶(情況A),則系統(tǒng) 停止播放,將播放位置重置到所估計的當(dāng)前抄錄位置之前的適當(dāng)位置(如下文所述),然后 重新開始播放。然后,如有必要,重復(fù)此過程直到該分段被抄錄。所描述的控制功能可以全 部被設(shè)定在通常的先驗值,并且自適應(yīng)以匹配實際性能。該系統(tǒng)允許與已經(jīng)抄錄的部分的 一定估計程度的重疊,部分地用以估計錯誤,還允許抄錄員的順利導(dǎo)入。系統(tǒng)還根據(jù)輸入繼 續(xù)重放過程,并且在一定條件下(例如重放計數(shù)、分段的持續(xù)時間,或者用戶的不活動一例 如,如果用戶不進行輸入則可以暫?;蛲V梗┛赏V怪胤拧T谥胤诺墓烙嬮_始點(可配置 地且通常在2秒內(nèi))接近該分段的開始點的情況下,系統(tǒng)可以轉(zhuǎn)而重放整個分段。此外,如 果重放位置(可配置地)太接近分段的末尾,則代替地使用播放時間的最小量(可配置)。 除了自動重放外,系統(tǒng)還可基于抄錄員信令(例如擊鍵組合)引起重放發(fā)生,并且如上所述 可以將重放位置設(shè)置到分段的開始處,或者合適的位置處。
[0104]在ASR導(dǎo)出線索的情況下,可以估計重放,使得其在詞字邊界重新開始而不是在 播放的計算出的時間開始,后者更容易導(dǎo)致播放被分開的詞字,并且在音頻音量上突然改 變。在任何情況下,無論選擇VAD或ASR還是其它分段機制,用戶優(yōu)選使用對音頻音量水平 的漸響(fade-in)方法,并且0. 5至Is的漸響適合于該系統(tǒng)。
[0105]2. 3可奪諫度
[0106] 此外,如果需要,該系統(tǒng)可以基于將與用戶的打字能力相匹配的速率的估計,來自 動改變抄錄播放。對于更熟練的用戶,該系統(tǒng)可以自動加速抄錄播放。播放速率的可懂度 限制通常在0. 75到2. 5倍之間的正常語速(雖然更快的速度可能對抄錄員聽覺檢測語音 區(qū)域時有用)。還可以由系統(tǒng)使用鍵盤輸入或以其它方式提供播放速度的手動控制。
[0107] 2. 4啟動和結(jié)束分段播放
[0108] 來自抄錄員或?qū)忛喺叩?、?yīng)該播放一個分段或者對分段的文本輸入完成的指示, 可以通過使用可編程的鍵盤手勢(或者任何其它合適的輸入手勢或命令或菜單項或按鈕) 給出,而不干擾抄錄文本輸入。這適用于抄錄和審閱播放兩者。在鍵盤命令的情況下這些 手勢可以由用戶可配置地選擇。此外,當(dāng)多個分段組合成完整的抄錄稿時,變量可以發(fā)信號 給系統(tǒng)指示分段的結(jié)束點也是一行的結(jié)束點或一段落的結(jié)束點。一旦完成分段,則系統(tǒng)可 以被設(shè)定為自動播放下一個有效分段(從而無需來自抄錄員或?qū)忛喺叩拿鞔_信號)并重復(fù) 該過程。
[0109] 2. 5錯誤處理
[0110] 由該系統(tǒng)以多種方式處理抄錄錯誤:
[0111] 2. 5. 1 拼寫等
[0112]對拼寫錯誤的單詞(word)、大寫和拼寫檢查的自動校正是改進這些錯誤的標(biāo)準(zhǔn)方 法。
[0113] 2. 5. 2智能標(biāo)點
[0114] 此外,在分段之間轉(zhuǎn)移標(biāo)點的方法可以如下實現(xiàn)。假設(shè)有兩個分段,"男人騎上 馬",接著是"然后他前往鎮(zhèn)上"。在輸入第一個分段時,抄錄員不能先驗地對該分段打標(biāo)點, 因為下一分段可能是該句子的延續(xù)(無標(biāo)點),或句子中的一個短語(例如用逗號分隔), 或該句子可能已經(jīng)結(jié)束。當(dāng)抄錄員聽到下一分段"然后他前往鎮(zhèn)上"時,他或她可以確定第 一個分段的正確標(biāo)點是使用分號。如果第二個分段的輸入是";然后他前往鎮(zhèn)上",則系統(tǒng) 將修改分段,將分號的開始轉(zhuǎn)移到第一個分段,從而其將讀為:"男人騎上馬;"并且第二個 分段變?yōu)?然后他前往鎮(zhèn)上"??膳渲玫囊?guī)則確定每種類型的標(biāo)點符號后面跟隨的空間的 量。請注意,該實現(xiàn)需要對語言相關(guān)的規(guī)則敏感,例如西班牙語具有在句子的開頭使用一個 感嘆號的結(jié)構(gòu),并且這些可以被排除在上述自動轉(zhuǎn)移機制之外。由諸如輸入命令代碼等其 它實現(xiàn)方式可以實現(xiàn)允許這樣的無因果關(guān)系的標(biāo)點法的可替代的結(jié)構(gòu)。
[0115] 在分段不由標(biāo)點符號結(jié)束,而在估計語音中跟隨有明顯的可配置間隙,具有不被 估計為語音的約2秒或以上的默認(rèn)間隙,則可選地,該系統(tǒng)可以自動地用句點(句號)符號 對該分段打標(biāo)點。
[0116] 2. 5. 3 宙閱
[0117]用于校正抄錄錯誤的另一種機制在于該系統(tǒng)的審閱功能,其允許抄錄員或其他審 閱者在系統(tǒng)控制下審閱分段(例如,帶有緊跟有或沒有用戶干預(yù)的自動分段),以及對抄錄 稿或元數(shù)據(jù)進行修改的功能,包括播放控制。此外,審閱者可以例如使用合適的鍵盤組合, 用錯誤/注釋指示符和審閱者意見來標(biāo)記該分段。然后,審閱系統(tǒng)可以播放尚未審閱的那 些分段,或標(biāo)記錯誤或意見。
[0118] 2. 6.制作完整的杪錄稿
[0119] 用類似于版面設(shè)計的文字處理器將分段合并成一個完整的抄錄的能力是本發(fā)明 的系統(tǒng)的一個重要的選項,因為其允許同時呈現(xiàn)字幕式抄錄和精美格式的完整抄錄稿。此 夕卜,對各種演示提供版面設(shè)計選項以適應(yīng)不同的應(yīng)用。例如,完整的抄錄輸出可以根據(jù)發(fā)言 者用不同色彩作標(biāo)記;可以包括發(fā)言者的名稱;可以包括時間代碼;并且可以包括注釋,可 選地用不同的字體、用括號等??梢灾谱鞲鞣N流行的輸出格式的完整抄錄稿。
[0120] 2. 7豐富的元數(shù)據(jù)
[0121] 該系統(tǒng)不僅呈現(xiàn)簡單的字幕、副字幕或文本分段,還允許豐富的元數(shù)據(jù)集,適于應(yīng) 用。與任何特定分段的定時相關(guān)聯(lián)的可以是任意數(shù)量的文本、圖像和視頻鏈接。文本可以 被歸于注釋、說明或其它文字信息。
[0122] 2. 8豐富的元數(shù)據(jù)傳輸和顯示
[0123] 在合適的格式定時文本文件的情況下,附加的字段類型及其表示的傳輸可以被編 碼為標(biāo)準(zhǔn)表述,或者在諸如TTML(DFXP)和SMIL等XML格式文件的情況下,借助于命名空間 擴展來添加??梢蕴峁┖线m的播放器以使用這些豐富的擴展并相稱地顯示。
[0124] 2. 9編碼、語言、腳本
[0125] 對文本的編碼也可以被告知,從而例如,可以示出文本編碼(例如UTF,使得可以 存儲包括非西方(non-Western)腳本的各種各樣的腳本);文本表示的含義可被存儲為屬 性(例如,純文本、HTML文本、待打開的URL-其允許任何文字信息的豐富文本顯示)。此 夕卜,表示該文本的語言被編碼,并且這允許任何文本字段設(shè)置有來自原始文本的副字幕或 翻譯(其可以由翻譯人員或自動系統(tǒng)或兩者的組合來完成)。
[0126] 2. 10豐富的f本傳輸與顯示
[0127] 此外,在對分段"文字"輸入及其顯示的編碼的雙重標(biāo)準(zhǔn)(或者如果被標(biāo)準(zhǔn)支持, 則為非雙重)的情況下,該系統(tǒng)可以支持完整的豐富文本和媒體對該文本信息進行編碼。 例如,HTML文檔可以被支持為允許各種格式化文本以及圖像和其它媒體的完全混合,并且 此信息可以被編碼為用于在合適的定時文本文件中傳輸,并且用合適的播放器發(fā)布顯示; 在網(wǎng)頁瀏覽器上顯示技術(shù)的情況下,對于HTML標(biāo)準(zhǔn)的支持自然匹配到瀏覽器的顯示能力。 此外,取決于由觀看者的瀏覽器支持的瀏覽器插件,諸如XAML(可擴展應(yīng)用程序標(biāo)記語言) 等格式可以支持傳輸和顯示。
[0128] 3.與媒體制作系統(tǒng)集成
[0129] 上面描述的組件可以與合適的音頻和視頻制作系統(tǒng)集成。這些通常被稱為用于視 頻系統(tǒng)的非線性編輯(NLE)系統(tǒng),和用于數(shù)字音頻工作站系統(tǒng)的多軌道音頻制作工具。這 些在時間線上的多個軌道上布局所需的源媒體"剪輯",然后呈現(xiàn)(render)到被發(fā)布的視 頻或音頻媒體(例如,如圖4和圖5所示)。流行的系統(tǒng)包括AdobePremiere?、Apple? FinalCutPro?、MicrosoftExpression㊣Encoder、Avid?和SonyVegas?Pro。
[0130] 取決于媒體制作工具的能力,可以用多種方式支持制作系統(tǒng)與該系統(tǒng)之間的交 互;這些例如包括:編輯決定列表(EDL)文件或其它數(shù)據(jù)庫、插件支持和應(yīng)用程序編程接 口、或通過與制作工具直接集成。
[0131] 3. 1映射討稈
[0132] 在合適的情況下,本發(fā)明的系統(tǒng)可以用提供顯著益處的強大方式與此類已知系統(tǒng) 交互。特別地,多軌道時間線包括關(guān)于輸出視頻的定時以及來自源材料的剪輯定時的信息。 當(dāng)交互系統(tǒng)生成施加到該材料的元數(shù)據(jù)信息和分段時,從邏輯上講,其適用于源媒體,并可 以映射到時間線上的剪輯位置,使得其出現(xiàn)在輸出視頻的正確位置。這具有很大的優(yōu)點,即 當(dāng)在時間線中改變剪輯位置時(但不相對于源媒體進行調(diào)整),相關(guān)的定時文本輸出信息 可以由本發(fā)明的系統(tǒng)自動地調(diào)整(并且如果合適,則傳遞到多軌道編輯器)。這意味著,媒 體制作和抄錄制作可以更為同時地進行,并且如果需要改變輸出媒體(例如,作為正常媒 體制作編輯周期的結(jié)果),將不會影響到自動制作相關(guān)抄錄稿的能力。在通過此過程將附加 (新)材料添加到時間線的情況下,則該新材料如果尚未被抄錄當(dāng)然會需要被抄錄。此外, 如果源媒體已經(jīng)被系統(tǒng)抄錄,則它可以被包括在新項目(用于不同的視頻輸出)中,且現(xiàn)有 的抄錄稿將在新的項目中立即可用,而無需另外的再抄錄工作。
[0133] 4.應(yīng)用
[0134] 雖然就在線音頻和視頻材料而言描述了本發(fā)明的方法和系統(tǒng)的應(yīng)用,并且為這些 應(yīng)用提供合適的定時元數(shù)據(jù),但其還可以適用于:
[0135] ?廣播系統(tǒng)和電視
[0136] ?制作傳統(tǒng)的抄錄稿,特別是有關(guān)證據(jù)要求的抄錄稿
[0137] ?一般性地定時/注解會議抄錄稿
[0138] ?教育和教學(xué)應(yīng)用(例如帶有適當(dāng)?shù)亩〞r和可搜索內(nèi)容的講座系列、教程和其它 視頻/音頻演示)。
[0139] 此外,對于所有這些應(yīng)用,基于文本的抄錄和其它元數(shù)據(jù)的可用性使得能夠使用 通用搜索引擎以及用于媒體資產(chǎn)的特定搜索數(shù)據(jù)庫來搜索和定位感興趣的媒體。
[0140] 此外,該文本元數(shù)據(jù)的可用性允許用戶在感興趣的事項的媒體中進行搜索,并為 用戶自動播放該事項(而不必通過手動搜索該媒體)。
[0141] 此外,可以借助于頻道或播放列表來組織媒體。在這些集合中文本元數(shù)據(jù)與媒體 的關(guān)聯(lián)允許搜索以在整個頻道或播放列表的基礎(chǔ)上操作。
[0142] 定時元數(shù)據(jù)的存在還使得能夠顯示在該時間點與媒體相關(guān)聯(lián)的信息。特別是,這 可以包括對所說內(nèi)容的注解和評價、可以參考其它信息并同時顯示該信息的注釋、感興趣 的圖像、完整抄錄稿的高亮顯示的視圖以及基于當(dāng)前的定時和元數(shù)據(jù)動態(tài)顯示其它網(wǎng)頁內(nèi) 容的能力。該后一種能力在在線廣告和"點擊"應(yīng)用的背景下有重要意義(relevant)。
[0143] 所有的文字信息可以被翻譯為替代語言或文字再現(xiàn)。這些可以通過自動翻譯系統(tǒng) 或通過手動輸入來生成。
[0144] 本發(fā)明可以與合適的媒體制作工具結(jié)合使用,其允許靈活地重新使用現(xiàn)有的抄錄 稿、與媒體制作結(jié)合的高效的抄錄制作流程,并且具有改變媒體時間線和保持準(zhǔn)確的抄錄 定時的能力。
【權(quán)利要求】
1. 一種語音媒體抄錄系統(tǒng),包括被布置為播放被劃定為多個分段的語音的播放設(shè)備, 所述系統(tǒng)被編程以為被抄錄的分段提供對抄錄員尚未抄錄的分段的部分的自適應(yīng)估計,所 述設(shè)備被布置為播放所述分段的所述部分。
2. 根據(jù)權(quán)利要求1所述的抄錄系統(tǒng),其中所述播放設(shè)備被布置為在播放被估計為尚未 抄錄的所述部分之前播放整個分段。
3. 根據(jù)權(quán)利要求1或2所述的抄錄系統(tǒng),其中所述自適應(yīng)估計在以下中的至少一個 的基礎(chǔ)上進行:該分段中可能存在的文本的數(shù)量,發(fā)言者的發(fā)言速度,抄錄員的文本輸入速 率,抄錄員的工作記憶以及抄錄員的當(dāng)前活動。
4. 根據(jù)權(quán)利要求1、2或3所述的系統(tǒng),其中當(dāng)對分段的分析指示該分段不包含語音時, 從播放中省略該分段或以高速播放該分段。
5. 根據(jù)前述權(quán)利要求中的任一項所述的系統(tǒng),被布置為監(jiān)測抄錄員的文本輸入速率, 并以取決于所述文本輸入速率的速度來播放所述語音。
6. 根據(jù)前述權(quán)利要求中的任一項所述的系統(tǒng),包括用于將打字輸入的標(biāo)點符號自動轉(zhuǎn) 移到前一個打字輸入的分段的裝置。
7. 根據(jù)前述權(quán)利要求中的任一項所述的系統(tǒng),包括用于自動重放所述語音以審閱和校 正抄錄的裝置。
8. 根據(jù)前述權(quán)利要求中的任一項所述的系統(tǒng),包括用于允許由審閱者識別被認(rèn)為是錯 誤的文本的分段的裝置。
9. 一種抄錄語音媒體的方法,包括:提供根據(jù)前述權(quán)利要求中任一項所述的系統(tǒng),允 許抄錄員抄錄所述語音媒體的分段的一部分,重放被估計為尚未抄錄的所述分段的部分, 以及隨后確定所述分段已被完全抄錄。
10. -種分段引擎,被布置為通過識別語音本身并使用定時信息,來將所述語音媒體劃 分成多個分段,而無需使用機器將語音媒體轉(zhuǎn)換成文本或文本表達。
11. 根據(jù)權(quán)利要求10所述的分段引擎,被編程為開始一分段,測量經(jīng)過的時間,確定所 述分段中詞字之間的間隙,并且在該分段中所述經(jīng)過的時間為至少1秒,優(yōu)選至少2秒時的 間隙處結(jié)束該分段。
12. 根據(jù)權(quán)利要求11所述的分段引擎,其中在經(jīng)過最多15秒,優(yōu)選最多10秒的時間之 后,結(jié)束該分段。
13. 根據(jù)權(quán)利要求10、11或12所述的分段引擎,其中用于分段的定時信息是基于所述 語音媒體中的線索的,所述線索選自由以下線索構(gòu)成的群組:從自動語音識別系統(tǒng)導(dǎo)出的 線索,從語音活動檢測系統(tǒng)導(dǎo)出的線索,以及從對該語音媒體的音頻或視頻分析得到的線 索。
14. 根據(jù)權(quán)利要求10、11、12或13所述的分段引擎,被編程為將附加的分段插入兩個分 段之間的間隙,以提供連續(xù)的分段。
15. 根據(jù)權(quán)利要求10至14中任一項所述的分段引擎,被編程為消除兩個分段之間的間 隙,以提供連續(xù)的分段。
16. 根據(jù)權(quán)利要求10至15中任一項所述的分段引擎,被編程為允許戶將一個分段分成 兩個或更多個分段。
17. 根據(jù)權(quán)利要求10至16中任一項所述的分段引擎,被編程為允許用戶將兩個或更多 個連續(xù)分段合并成一個分段。
18. 根據(jù)權(quán)利要求10至17中任一項所述的分段引擎,被編程為在沒有來自隨后的分段 中的分段的元數(shù)據(jù)不適用于該隨后的分段的指示的情況下,保存來自所述隨后的分段中的 分段的所述元數(shù)據(jù)。
19. 一種對語音媒體分段的方法,包括:提供根據(jù)權(quán)利要求10至18中任一項所述的分 段引擎,分析定時信息以確定詞字之間的間隙,以及在詞字之間的所述間隙中所選擇的一 些間隙處結(jié)束分段。
【文檔編號】G06F17/30GK104246750SQ201380018139
【公開日】2014年12月24日 申請日期:2013年3月26日 優(yōu)先權(quán)日:2012年3月30日
【發(fā)明者】約翰·理查德·貝克 申請人:Jpal有限公司