音頻數(shù)據(jù)的處理的制作方法
【專利說明】
【背景技術(shù)】
[0001]全世界的廣播媒體內(nèi)容量日益增加。例如,越來越多的數(shù)字化廣播變得可用于公用和私用方。這些廣播包括電視和無線電節(jié)目、演講和語音。在某些情況下,經(jīng)常存在以隱藏字幕(closed-capt1n)準確標記這樣的廣播的需要。例如,為了滿足可訪問性需要,隱藏字幕文本需要伴隨廣播,例如與音頻和/或視頻內(nèi)容同時顯示。這在某些管轄范圍中正成為法律要件。在研究和產(chǎn)品開發(fā)團隊中,也期望將文本數(shù)據(jù)與相關(guān)聯(lián)的音頻數(shù)據(jù)對準,使得可以在信息檢索和機器智能應(yīng)用中使用這兩種媒體。
【附圖說明】
[0002]本發(fā)明的各種特征和優(yōu)點根據(jù)以下結(jié)合附圖所采取的【具體實施方式】將是明顯的,所述【具體實施方式】和附圖僅以示例的方式一起說明了本公開的特征,并且其中:
圖1是根據(jù)示例的系統(tǒng)的示意圖;
圖2A是示出了根據(jù)示例的音頻數(shù)據(jù)的至少部分的示意圖;
圖2B是示出了根據(jù)示例的文本數(shù)據(jù)的至少部分的示意圖;
圖3是示出了根據(jù)示例的處理音頻數(shù)據(jù)的方法的流程圖;
圖4A是根據(jù)示例的用于對準音頻和文本數(shù)據(jù)的系統(tǒng)的示意圖;
圖4B是示出了根據(jù)示例的具有附加的定時信息的文本數(shù)據(jù)的至少部分的示意圖;
圖4C是根據(jù)示例的用于對準音頻和文本數(shù)據(jù)的系統(tǒng)的示意圖;
圖5是示出了根據(jù)示例的音頻處理的方法的流程圖;
圖6是示出了根據(jù)示例的確定音頻數(shù)據(jù)的至少部分的關(guān)聯(lián)的方法的流程圖;
圖7是示出了根據(jù)示例的用于處理音頻數(shù)據(jù)的至少部分的系統(tǒng)的示意圖;
圖8是示出了根據(jù)示例的確定音頻數(shù)據(jù)的至少部分的關(guān)聯(lián)的方法的流程圖;以及圖9是根據(jù)示例的計算設(shè)備的示意圖。
【具體實施方式】
[0003]本文描述的某些示例涉及處理音頻數(shù)據(jù)。特別地,它們涉及基于根據(jù)相關(guān)聯(lián)的文本數(shù)據(jù)所生成的語言模型來處理音頻數(shù)據(jù)。該文本數(shù)據(jù)可以是與音頻數(shù)據(jù)相關(guān)聯(lián)的抄本(transcript)。在一個示例中,音頻數(shù)據(jù)被轉(zhuǎn)換為文本等同物,所述文本等同物是來自音頻處理的輸出。在該情況下,音頻處理的進一步的輸出是涉及音頻數(shù)據(jù)內(nèi)的諸如所說的(spoken)詞之類的特定音頻部分的時間位置的定時信息??梢酝ㄟ^將原始文本數(shù)據(jù)與通過音頻處理輸出的文本等同物相比較來將定時信息附加到原始文本數(shù)據(jù)。在另一示例中,從將音頻數(shù)據(jù)轉(zhuǎn)換為文本等同物的過程輸出諸如置信度值之類的概率變量。例如,置信度值可以與在文本等同物中的詞相關(guān)聯(lián)。然后,這些概率變量可以被用于將文本數(shù)據(jù)與音頻數(shù)據(jù)匹配和/或確定用于未標記的音頻數(shù)據(jù)的語言。
[0004]為了更好地理解本文描述的數(shù)個示例,現(xiàn)在將利用用于音頻和文本數(shù)據(jù)的處理的數(shù)個替代技術(shù)進行比較。在某些當前描述的示例的上下文中討論這些替代技術(shù)。
[0005]傳統(tǒng)上,人工地執(zhí)行將廣播媒體與準確的抄本對準的任務(wù)。例如,可以人工地檢查和匹配它們。這經(jīng)常是慢速并且昂貴的過程。也易出現(xiàn)人工誤差。例如,可能需要一個或多個人來物理地聽和/或觀看廣播,并且人工地記錄詞在抄本中出現(xiàn)的時間。
[0006]已經(jīng)做出嘗試以克服人工對準的限制。一種嘗試涉及使用被稱為強制對準(force-alignment)的技術(shù)。該技術(shù)對音頻文件和相關(guān)聯(lián)的抄本文件進行操作。其確定抄本文件中的詞序列和音頻文件中的音頻數(shù)據(jù)之間的最佳匹配。例如,這可以涉及從抄錄文件中的確切的詞序列生成隱式馬爾科夫模型。然后可以例如通過選擇使似然值最大化的匹配來概率地確定隱式馬爾科夫模型和音頻數(shù)據(jù)之間的最可能的匹配。
[0007]雖然強制對準可以提供傳統(tǒng)人工過程上的改善,但其在各種情況下可能不提供準確的對準。例如,該過程可能易受抄本中的不準確的影響。存在于音頻數(shù)據(jù)中但從抄本遺漏的所說的詞和/或存在于抄本中但從音頻數(shù)據(jù)遺漏的書寫的(written)詞可能導(dǎo)致未對準和/或生成匹配的問題。因為強制對準基于抄本文件中的確切的詞序列建立概率網(wǎng)絡(luò),所以遺漏和/或額外的詞可能導(dǎo)致概率網(wǎng)絡(luò)和音頻數(shù)據(jù)之間的不匹配。例如,被省略的上下文周圍的至少數(shù)個詞可能被不準確地時間對準。作為另一示例,該過程可能易受音頻數(shù)據(jù)中的噪聲的影響。例如,當在音頻數(shù)據(jù)中存在音樂和/或音效時,該過程可能經(jīng)受準確度損失。
[0008]克服人工對準的限制的另一嘗試涉及使用語音識別系統(tǒng)。例如,可以通過語音識別系統(tǒng)處理廣播來自動地生成抄本。該技術(shù)可以涉及公知為無約束語音識別的過程。在無約束語音識別中,系統(tǒng)被訓(xùn)練以識別語言的特定詞,例如常用詞典中的詞的集合。然后向系統(tǒng)提交連續(xù)的音頻流,并且做出嘗試以識別音頻流內(nèi)的語言的詞。因為音頻流的內(nèi)容可以包括語言中的任何詞以及不在詞典中的新詞,所以使用術(shù)語“無約束”。當在音頻流中檢測到新詞時,所述新詞可以被添加到詞典。作為識別過程的一部分,語音識別系統(tǒng)可以將已識別的詞與該已識別的詞出現(xiàn)在音頻流內(nèi)的時間段相關(guān)聯(lián)。這樣的系統(tǒng)可以被應(yīng)用于上傳到在線服務(wù)器的視頻文件,其中做出嘗試以抄錄在視頻中所說的任何詞。
[0009]雖然無約束語音識別系統(tǒng)提供潛在靈活的解決方案,但是它們也可以是相對慢速且易出錯的。例如,具有不可預(yù)測、無約束和/或不合作(uncooperative)性質(zhì)的音頻流的語音識別既不足夠快也不準確到廣播媒體的觀眾可接受的程度。
[0010]當與上文的替代技術(shù)進行比較時,本文描述的某些示例可以提供某些優(yōu)點。現(xiàn)在將參考附圖描述數(shù)個示例。
[0011]圖1是示出了用于處理音頻和文本數(shù)據(jù)的系統(tǒng)100的示意圖。該系統(tǒng)取得音頻數(shù)據(jù)110和文本數(shù)據(jù)120作為輸入。音頻數(shù)據(jù)可以包括用于視頻的音軌的至少部分。除其他之外,音頻數(shù)據(jù)尤其可以與諸如電視或無線電節(jié)目之類的廣播媒體或者語音或演講的記錄相關(guān)聯(lián)。文本數(shù)據(jù)120可以包括與音頻數(shù)據(jù)相關(guān)聯(lián)的抄本的至少部分,例如音頻數(shù)據(jù)內(nèi)的多個詞的書寫表示。
[0012]系統(tǒng)100包括第一組件130和第二組件150。第一組件130至少使用文本數(shù)據(jù)120作為輸入來指令語言模型140的生成和/或配置?;谖谋緮?shù)據(jù)120的內(nèi)容來配置語言模型140。例如,如果語言模型140包括書寫語言內(nèi)的模式的統(tǒng)計表示,則語言可以限于存在于文本數(shù)據(jù)120中的語言元素。第二組件150至少基于語言模型140來指令音頻數(shù)據(jù)110的處理。第二組件150輸出處理數(shù)據(jù)160。音頻數(shù)據(jù)110的處理可以包括將音頻數(shù)據(jù)110轉(zhuǎn)換為文本等同物,例如對音頻數(shù)據(jù)110內(nèi)的所說的詞的自動抄錄??梢暂敵鑫谋镜韧镒鳛樘幚頂?shù)據(jù)160。替代地,或者不僅涉及音頻數(shù)據(jù)110的文本等同物的數(shù)據(jù),處理數(shù)據(jù)160還可以包括被生成作為轉(zhuǎn)換的結(jié)果的數(shù)據(jù)。這可以包括來自轉(zhuǎn)換過程的一個或多個度量,諸如針對在音頻數(shù)據(jù)110中檢測到的每個語言元素的概率值。處理數(shù)據(jù)160還可以包括定時信息。該定時信息可以指示所檢測的語言元素出現(xiàn)的音頻數(shù)據(jù)內(nèi)的時間位置。
[0013]圖1的系統(tǒng)100的優(yōu)點是基于由所附文本數(shù)據(jù)120的內(nèi)容約束的語言模型140來執(zhí)行音頻數(shù)據(jù)110的處理。因為假設(shè)文本數(shù)據(jù)120對應(yīng)于音頻數(shù)據(jù)110,所以語言模型140相應(yīng)地偏向音頻數(shù)據(jù)110的處理。這可以與基于一般語言模型的處理相比較,所述一般語言模型表示可能存在于無約束的語音中的很大部分詞?;谝话阏Z言模型的處理更可能對音頻數(shù)據(jù)的部分進行錯誤分類,因為存在候選分類的廣泛得多的集合。比較地,可以利用受約束的語言模型來避免常見的錯誤分類,因為例如替代分類可能不存在于文本數(shù)據(jù)中。
[0014]圖2A和2B提供了音頻數(shù)據(jù)110和文本數(shù)據(jù)120的各自示例。如在圖2A中示出的那樣,在某些實現(xiàn)中,音頻數(shù)據(jù)可以包括由一個或多個麥克風記錄的聲音的數(shù)字表示200。音頻數(shù)據(jù)可以包括在時間段230之上延伸的數(shù)個數(shù)字樣本210,其中每個樣本由p位或p字節(jié)數(shù)據(jù)值220表示。例如,在簡單的情況下,壓縮盤數(shù)字音頻包括16位數(shù)據(jù)值,其中每秒具有44,100個樣本(即44.1 kHz的采樣率)。每個樣本可以表示跟在模數(shù)轉(zhuǎn)換之后的、來自記錄設(shè)備的模擬電壓信號。音頻數(shù)據(jù)可以包括多聲道記錄的一個或多個聲道(例如,針對立體聲記錄,可以存在兩個聲道)。例如可以使用諸如由運動圖像專家組開發(fā)的那些標準之類的已知標準壓縮音頻數(shù)據(jù)。在這些情況下,音頻數(shù)據(jù)的處理可以包括適當?shù)念A(yù)處理操作,除其他之外尤其諸如規(guī)范化、重采樣、量化、聲道選擇和/或解壓縮。
[0015]圖2B示出了文本數(shù)據(jù)120的一個實現(xiàn)。在該情況下,文本數(shù)據(jù)包括