專利名稱:用于對(duì)齊文本的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,具體地,涉及用于對(duì)齊文本的方法及其裝置,用于 自動(dòng)歸檔多媒體資源的方法,以及用于自動(dòng)檢索多媒體資源的方法。
背景技術(shù):
目前,隨著信息技術(shù)的發(fā)展,多媒體資源日益普遍,相應(yīng)的用于存儲(chǔ)多媒體資源的 存儲(chǔ)庫(kù)的規(guī)模越來(lái)越龐大。例如,在新聞中心和電視臺(tái)通常存在數(shù)量龐大的需要查詢和管 理的廣播新聞資源,這些資源通常包括節(jié)目視頻和廣播稿。過(guò)去的節(jié)目視頻往往沒(méi)有集成 用于查詢內(nèi)容的元數(shù)據(jù),不便于查詢和管理。而廣播稿是文字文本,容易查詢其中的內(nèi)容, 提供了查詢節(jié)目視頻的天然接口。如果人工來(lái)查詢和管理這些廣播新聞資源,則費(fèi)時(shí)費(fèi)力, 并且很多時(shí)候不可能實(shí)現(xiàn)。因此,希望能夠自動(dòng)地對(duì)齊節(jié)目視頻和廣播稿。也希望能夠自 動(dòng)地將節(jié)目視頻和廣播稿集成為便于檢索的多媒體資源。希望檢索引擎能夠自動(dòng)根據(jù)廣播 稿檢索要查詢的字或短語(yǔ),從與廣播稿對(duì)齊的音頻文件中回放所查詢的內(nèi)容。又如,目前在開(kāi)會(huì)或演講時(shí),往往會(huì)記錄視頻或者音頻。這些視頻/音頻形式的會(huì) 議記錄可以存放在服務(wù)器上供以后瀏覽。會(huì)議和演講中使用的文稿,例如PPT (PowerPoint) 文稿,提供了用于瀏覽會(huì)議記錄的天然接口。在瀏覽文稿的同時(shí)回放會(huì)議記錄的情況下,需 要很好地同步文稿的文字內(nèi)容和視頻/音頻形式的會(huì)議記錄中的語(yǔ)音內(nèi)容?,F(xiàn)有的方法首先找到對(duì)應(yīng)的視頻/音頻和參考文本對(duì),然后使用語(yǔ)音識(shí)別引擎來(lái) 解碼音頻數(shù)據(jù),獲得語(yǔ)音識(shí)別結(jié)果。使用動(dòng)態(tài)編程算法進(jìn)行特征最大匹配,以便實(shí)現(xiàn)句子級(jí) 別的對(duì)齊。這些方法受到識(shí)別率和參考文本的準(zhǔn)確性的影響,在識(shí)別率低或者參考文本含 錯(cuò)的情況下,對(duì)齊效果差,甚至可能不能輸出對(duì)齊結(jié)果。而且,這些方法不能夠獲得精確的 時(shí)間信息。現(xiàn)有技術(shù)中還存在一些其他方法,使用基于音素的強(qiáng)制對(duì)齊來(lái)對(duì)齊視頻/音頻 中的語(yǔ)音與參考文本。但是這些方法受到句子級(jí)別對(duì)齊的精度的影響,可能不能輸出對(duì) 齊結(jié)果;另一方面,含錯(cuò)的參考文本也限制了對(duì)齊效果。此外,強(qiáng)制對(duì)齊基于音素的聲學(xué) 模型,其計(jì)算量大。關(guān)于強(qiáng)制對(duì)齊的詳細(xì)內(nèi)容可以參見(jiàn)文獻(xiàn)〔Lussier E F. ATutorial on pronunciation modeling for large vocabulary speechrecognition[J]. Lecture Notes in Computer Science,2003, 2705 :38_77.〕。美國(guó)專利申請(qǐng)公開(kāi)US 5649060A1,"Automatic indexing andaligning of audio and text using speech recognition”,公開(kāi)了一種方法,通過(guò)語(yǔ)音識(shí)別器產(chǎn)生語(yǔ)音識(shí)別結(jié) 果,然后通過(guò)識(shí)別結(jié)果與正確文本的對(duì)齊,將時(shí)間信息傳遞給正確的文本,從而實(shí)現(xiàn)音頻的 自動(dòng)編輯和檢索。然而,該方法主要通過(guò)文字的相同來(lái)實(shí)現(xiàn)對(duì)齊,其對(duì)齊效果極大地依賴于 語(yǔ)音識(shí)別效果,而且該方法不能用于對(duì)齊音頻和含錯(cuò)的參考文本。美國(guó)專利申請(qǐng)公開(kāi)US2008294433A1提出了一種文本和語(yǔ)音的對(duì)應(yīng)工具。其中,利 用語(yǔ)音活動(dòng)檢測(cè)得到候選的句子端點(diǎn),通過(guò)強(qiáng)制對(duì)齊的方法得到音頻和句子的最優(yōu)對(duì)應(yīng), 然后再對(duì)齊下一個(gè)句子,以此類(lèi)推得到所有的對(duì)應(yīng)關(guān)系,最終實(shí)現(xiàn)詞級(jí)的對(duì)齊。如前面所述
5的,強(qiáng)制對(duì)齊基于聲學(xué)模型,所需的計(jì)算量大,并且在復(fù)雜語(yǔ)境下的對(duì)齊效果較差。Jan Nouza 等人的論文“Automatic Align between Speech Recordsand Their Text Transcriptions for Audio Archive Indexing andSearching”, INF0S2008, March 27-29,2008 Cairo-Egypt,公開(kāi)了一種方法,首先通過(guò)文本得到與之相關(guān)的語(yǔ)言模型,進(jìn)而 根據(jù)該語(yǔ)言模型得到性能相對(duì)較好的識(shí)別結(jié)果,然后通過(guò)文本對(duì)齊的方法將標(biāo)準(zhǔn)文本分成 小的片段,然后對(duì)于沒(méi)有準(zhǔn)確對(duì)齊的片段采用強(qiáng)制對(duì)齊的方式得到最優(yōu)的對(duì)齊結(jié)果。其中 對(duì)齊效果取決于自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)系統(tǒng)的識(shí)別結(jié)果,并 且強(qiáng)制對(duì)齊所需的計(jì)算量大。對(duì)于象相聲或者脫口秀這類(lèi)節(jié)目,語(yǔ)言非常自由,并且?guī)в泻芏嗫谝?,語(yǔ)言識(shí)別效 果很差。使用基于文字相同來(lái)對(duì)齊的現(xiàn)有方法,可能無(wú)法對(duì)齊節(jié)目和參考文本(例如,相聲 稿或者劇本),甚至不能輸出對(duì)齊結(jié)果。使用強(qiáng)制對(duì)齊的方法,則計(jì)算量可能非常大。因?yàn)?這種情況下很難準(zhǔn)確劃分句子,而越長(zhǎng)的語(yǔ)音段的強(qiáng)制對(duì)齊,計(jì)算量越大。因此,需要一種高效的對(duì)齊視頻/音頻和參考文本的方法,其對(duì)于低準(zhǔn)確性的識(shí) 別結(jié)果和容錯(cuò)的參考文本,都能夠快速地實(shí)現(xiàn)良好的對(duì)齊結(jié)果。
發(fā)明內(nèi)容
考慮到語(yǔ)音識(shí)別過(guò)程中,出現(xiàn)的大量錯(cuò)誤是同音異義字,或者發(fā)音相近的字,本發(fā) 明提出以音素作為基元,通過(guò)音素相似度來(lái)對(duì)齊語(yǔ)音數(shù)據(jù)的識(shí)別文本和參考文本。這樣,可 以減少語(yǔ)音識(shí)別錯(cuò)誤或者參考文本中的錯(cuò)誤對(duì)對(duì)齊效果的影響。本發(fā)明提出的解決方案不 使用強(qiáng)制對(duì)齊。對(duì)于某個(gè)語(yǔ)系,音素相似度可以預(yù)先計(jì)算并且存儲(chǔ),從而在本發(fā)明提出的對(duì) 齊算法中,可以直接利用音素相似度,減少了計(jì)算復(fù)雜度。此外,本發(fā)明還提出了分層次的對(duì)齊方式。首先基于混淆度,將整個(gè)文檔切分成多 個(gè)段落。接著,可選地通過(guò)連續(xù)字串匹配確定錨點(diǎn),再根據(jù)錨點(diǎn)將段落劃分成更小的片段。 然后,以片段為基礎(chǔ),通過(guò)音素相似度來(lái)對(duì)齊語(yǔ)音數(shù)據(jù)的識(shí)別文本和參考文本。從而可以處 理較長(zhǎng)的文檔,進(jìn)一步簡(jiǎn)化對(duì)齊算法和加快對(duì)齊的速度。根據(jù)本發(fā)明的第一方面,提出了一種用于對(duì)齊兩個(gè)文本的方法,包括獲取目標(biāo)文 本和參考文本;以及,基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本。根據(jù)本發(fā)明的第二方面,提出了一種用于對(duì)齊文本的裝置,包括輸入模塊,用于 獲取目標(biāo)文本和參考文本;字對(duì)齊模塊,用于基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文 本和所述參考文本。根據(jù)本發(fā)明的第三方面,提出了一種用于自動(dòng)歸檔多媒體資源的方法,所述方法 包括a.獲取原始多媒體資源和參考文本;b.識(shí)別原始多媒體資源中的語(yǔ)音數(shù)據(jù),生成目 標(biāo)文本;c.基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本;d.基于所 述目標(biāo)文本與所述參考文本的對(duì)齊,在所述語(yǔ)音與所述參考文本之間建立時(shí)間鏈接;以及 e.將所述時(shí)間鏈接加入所述原始多媒體資源,生成新的多媒體資源存檔文件。根據(jù)本發(fā)明的第四方面,提出了一種用于自動(dòng)檢索多媒體資源的方法,其中所述 多媒體資源包括語(yǔ)音數(shù)據(jù)和其參考文本,所述方法包括a.獲取檢索關(guān)鍵字;b.獲取多媒 體資源和參考文本;c.識(shí)別多媒體資源中的語(yǔ)音數(shù)據(jù),生成目標(biāo)文本;d.基于音素相似度, 在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本;e.基于所述目標(biāo)文本與所述參考文本的對(duì)齊,在所述語(yǔ)音與所述參考文本之間建立時(shí)間鏈接;f.在參考文本中檢索并且標(biāo)識(shí)關(guān)鍵 字;以及g.根據(jù)參考文本中檢索到的關(guān)鍵字和所述時(shí)間鏈接,在多媒體資源中標(biāo)識(shí)所述關(guān) 鍵字的出現(xiàn)位置。
通過(guò)結(jié)合附圖參考下面對(duì)本發(fā)明的實(shí)施方式的詳細(xì)描述,本發(fā)明的上述以及其他 特征將更加明顯。在附圖中,圖1示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的對(duì)齊目標(biāo)文本和參考文本的方 法的流程圖;圖2示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式,基于混淆度,在段落級(jí)別對(duì)齊 目標(biāo)文本和參考文本的過(guò)程;圖3示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式,基于音素相似度,在字的級(jí)別 對(duì)齊目標(biāo)文本和參考文本的過(guò)程;圖4a示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的參考文本與目標(biāo)文本中的字的發(fā)音相似 度表;圖4b示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的尋找參考文本與目標(biāo)文本之間的最佳匹 配路徑的DTW算法;圖5a示出了兩個(gè)英語(yǔ)單詞的音素的發(fā)音相似度表;圖5b示出了兩個(gè)英語(yǔ)單詞的最佳音素匹配路徑的DTW算法;圖5c示出了根據(jù)本發(fā)明另一個(gè)實(shí)施方式的參考文本與目標(biāo)文本中的字的發(fā)音相 似度表;圖5d示出了根據(jù)本發(fā)明另一個(gè)實(shí)施方式的尋找參考文本與目標(biāo)文本之間的最佳 匹配路徑的DTW算法;圖6示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)齊文本的裝置的框圖;圖7示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于自動(dòng)歸檔多媒體資源的方 法的流程圖;以及圖8示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于自動(dòng)檢索多媒體資源的方 法的流程圖。在所有的上述附圖中,相同的標(biāo)號(hào)表示具有相同、相似或相應(yīng)的特征或功能。
具體實(shí)施例方式在下文中,將參考附圖通過(guò)實(shí)施方式對(duì)本發(fā)明用于對(duì)齊語(yǔ)音數(shù)據(jù)的方法和裝置進(jìn) 行詳細(xì)的描述。圖1示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的用于對(duì)齊目標(biāo)文本和參考文本 的方法。以下以一個(gè)相聲為例對(duì)本發(fā)明的方法進(jìn)行說(shuō)明。在步驟S102,獲取語(yǔ)音數(shù)據(jù),例如,從服務(wù)器中獲取一段相聲的音頻。在本說(shuō)明書(shū) 中,語(yǔ)音數(shù)據(jù)不僅指狹義的語(yǔ)音數(shù)據(jù),也可以廣義地指包括語(yǔ)音數(shù)據(jù)的任何音頻或者視頻 數(shù)據(jù),諸如其可以是電影、電視節(jié)目、新聞廣播、以及會(huì)議的視頻/音頻記錄等等。語(yǔ)音數(shù)據(jù) 的識(shí)別文本可以是用任何現(xiàn)有技術(shù)識(shí)別語(yǔ)音數(shù)據(jù)生成的識(shí)別文本。此外,本發(fā)明的音頻或者視頻數(shù)據(jù)不限于任何特定的存儲(chǔ)格式。在步驟S104中,對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,將獲得的語(yǔ)音數(shù)據(jù)的識(shí)別文本作為目 標(biāo)文本。例如,通過(guò)對(duì)獲取的相聲音頻進(jìn)行自動(dòng)語(yǔ)音識(shí)別(ASR)生成該相聲的識(shí)別文本。應(yīng)當(dāng)理解,獲取語(yǔ)音數(shù)據(jù)并且對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別的步驟S102和S104對(duì)于本發(fā) 明的方法并不是必須的。當(dāng)前有多種自動(dòng)語(yǔ)音識(shí)別軟件或服務(wù)可以提供語(yǔ)音的識(shí)別文本。 因此,可以直接從自動(dòng)語(yǔ)音識(shí)別軟件或服務(wù)獲得語(yǔ)音的識(shí)別文本,也即直接從服務(wù)器或者 其他設(shè)備獲得目標(biāo)文本。在步驟S106中,從服務(wù)器或者其他設(shè)備獲得與語(yǔ)音數(shù)據(jù)相對(duì)應(yīng)的參考文本,例 如,從服務(wù)器中獲取所述相聲的相聲稿。在本說(shuō)明書(shū)中,參考文本指語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文字 稿,可以是諸如電影的字幕、新聞廣播的文字稿、以及會(huì)議使用的PPT演示稿等等。此外,本 發(fā)明的參考文本不限于任何特定的存儲(chǔ)格式。在本發(fā)明中,可以允許目標(biāo)文本存在較多的識(shí)別錯(cuò)誤。在字誤識(shí)率(Character Error Rate,CER)較高的情況下也能夠得到較好的對(duì)齊效果。例如,在本實(shí)施方式中,相聲 因?yàn)榘ㄝ^多的方言或個(gè)性化的語(yǔ)言習(xí)慣,使用一般的ASR得到的識(shí)別結(jié)果中字誤識(shí)率較 高。但是針對(duì)這種情況,使用本發(fā)明的對(duì)齊方法仍然能夠得到較好的對(duì)齊結(jié)果。另一方面,參考文本也可以是不完整的文稿,或者也允許存在一些錯(cuò)誤,其不會(huì)嚴(yán) 重影響最終的對(duì)齊效果。接著,在步驟S108中,基于混淆度的方法,在段落級(jí)別對(duì)齊目標(biāo)文本和參考文本。 可以通過(guò)任何已知的技術(shù),例如語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD),粗略地 將目標(biāo)文本分成各個(gè)句子。然后基于混淆度的方法,將各個(gè)句子映射到不同的段落,從而將 目標(biāo)文本分成與參考文本中的段落相對(duì)應(yīng)的段落。后面,將參考圖2對(duì)此進(jìn)行更詳細(xì)的說(shuō) 明。應(yīng)該理解,段落對(duì)齊后,以下描述的基于音素相似度的對(duì)齊可以在段落的基礎(chǔ)上 進(jìn)行。這將大大簡(jiǎn)化基于音素相似度的對(duì)齊算法,提高對(duì)齊的速度。根據(jù)本發(fā)明的這種分 層次的方法便于處理較長(zhǎng)的文檔。但是,步驟S108并不是必須的。對(duì)于較短的文本,可以 不進(jìn)行分段,將整個(gè)文本作為一個(gè)段落進(jìn)行處理。步驟S110中,針對(duì)目標(biāo)文本和參考文本進(jìn)行連續(xù)字串匹配,確定錨點(diǎn)(anchor)。 錨點(diǎn)即執(zhí)行連續(xù)字串匹配所獲得的目標(biāo)文本和參考文本中的完全匹配的字串。可以認(rèn)為這 些錨點(diǎn)表示了可靠性很高的準(zhǔn)確對(duì)齊結(jié)果。根據(jù)錨點(diǎn),可以將其前后部分分成不同的片段。 從而,可以在步驟106的執(zhí)行結(jié)果的基礎(chǔ)上,將段落分成不同的片段。以下描述的基于音素 相似度的對(duì)齊可以在比段落長(zhǎng)度更短的片段的基礎(chǔ)上進(jìn)行。這將進(jìn)一步簡(jiǎn)化基于音素相似 度的對(duì)齊算法,提高對(duì)齊的速度。連續(xù)字串匹配可以按照從長(zhǎng)到短的順序執(zhí)行,以便找到完 全匹配的字串。例如可以先尋找匹配10個(gè)字長(zhǎng)的字串,然后依次尋找9個(gè)字長(zhǎng)的字串,8個(gè) 字長(zhǎng)的字串,以此類(lèi)推。將找到的完全匹配的字串作為錨點(diǎn)。根據(jù)錨點(diǎn),將目標(biāo)文本的段落 分成片段,從而針對(duì)每個(gè)片段,執(zhí)行后續(xù)的精確對(duì)齊。應(yīng)該理解,所示出的步驟的順序只是示例性的,并且可以以其他的順序來(lái)執(zhí)行所 示出的步驟。例如,步驟S110也可以在步驟S108之前。當(dāng)步驟S110在步驟S108之前時(shí), 可以針對(duì)目標(biāo)文本和參考文本的全文,執(zhí)行連續(xù)字串匹配。此外,在這種情況下,還有可能 基于錨點(diǎn)來(lái)調(diào)整段落的切分。如果目標(biāo)文本的一個(gè)段落結(jié)尾處的句子中的字串與參考文本
8的下一段的開(kāi)始的句子中的字串完全匹配(即,該文字可以作為錨點(diǎn)),則可以將目標(biāo)文本 中的所述句子映射到下一段,重新劃分段落的邊界。當(dāng)步驟SllO在步驟S108之后時(shí),可以 針對(duì)目標(biāo)文本和參考文本的全文,執(zhí)行連續(xù)字串匹配,也可以針對(duì)每個(gè)段落,分別執(zhí)行連續(xù)
字串匹配。而且,應(yīng)該理解,步驟SllO并不是必須的,查找錨點(diǎn)只是為了進(jìn)一步減小需要對(duì) 齊的文本的長(zhǎng)度,進(jìn)一步提高對(duì)齊的速度和準(zhǔn)確性。在步驟S112中,基于音素相似度,在字的級(jí)別對(duì)齊目標(biāo)文本和參考文本。與現(xiàn)有 技術(shù)中通過(guò)文字的相同來(lái)實(shí)現(xiàn)對(duì)齊的方法不同,在本發(fā)明中,通過(guò)音素的相同或相近來(lái)實(shí) 現(xiàn)目標(biāo)文本和參考文本在字的級(jí)別對(duì)齊。應(yīng)該理解,本發(fā)明可以用于各種語(yǔ)言,因此本發(fā)明 中的術(shù)語(yǔ)“字”不局限于漢語(yǔ)中的漢字,而是意指任何語(yǔ)言的基本單元,例如英語(yǔ)中的單詞。應(yīng)該理解,音素是某一種語(yǔ)言的語(yǔ)音體系中的最小單元。不同的語(yǔ)言或方言具有 不同的音素體系。例如,漢語(yǔ)和英語(yǔ)具有不同的音素體系,東北話和上海話也具有不同的音 素體系。各語(yǔ)言的音素體系中音素的多寡相差甚多,有十幾個(gè)的,也有多到一百多的,但都 是有限的數(shù)目。在各自的語(yǔ)言中,音素與音素之間的相似程度不一樣。為了簡(jiǎn)單起見(jiàn),可以 分為相似和不相似??梢栽趫?zhí)行目標(biāo)文本和參考文本的對(duì)齊時(shí),規(guī)定盡量可以將相同和相 似的音素對(duì)齊,而不對(duì)齊不相似的音素。例如,在漢語(yǔ)拼音中,音素“ ING”和音素“ IN”相似,但是和音素“AO”不相似。在 本發(fā)明的方法中,提出可以基于音素相似度,將相似的音素或具有相似音素的字對(duì)齊。例 如,漢字“英”和“印”發(fā)音相近,然而是不同的字。在語(yǔ)音識(shí)別時(shí),“英”很可能被錯(cuò)誤地識(shí) 別成“印”。在這種情況下,現(xiàn)有技術(shù)的通過(guò)文字相同實(shí)現(xiàn)對(duì)齊的方法不能得到對(duì)齊結(jié)果,因 為“英”和“印”是不同的字。然而,使用本發(fā)明的方法,則可以將“英”和“印”對(duì)齊。以參 考文本“英”和目標(biāo)文本“印”為例,簡(jiǎn)單描述本發(fā)明的一種示例性對(duì)齊方法。首先,將每個(gè) 漢字基于其拼音拆分為兩個(gè)音素,例如聲母部分和韻母部分(對(duì)于含雙韻母的漢字,可以 利用已知的相應(yīng)技巧將其拆分成兩個(gè)部分)。例如,漢字“英”的拼音是“YING”,可以分解為 兩個(gè)音素,“Y”和“ING”。漢字“印”的拼音為是“YIN”,可以分解為兩個(gè)音素,“Y”和“IN”。 然后,比較這兩個(gè)漢字的音素的相似度。如果這兩個(gè)漢字的兩個(gè)音素都分別相同或相似,則 認(rèn)為這兩個(gè)漢字的音素相似,否則,則認(rèn)為這兩個(gè)漢字的音素不相似。在該例子中,它們的 第一個(gè)音素“Y”是相同的。它們的第二個(gè)音素“IN”和“ING”不相同,但是相似。因此,可 以認(rèn)為這兩個(gè)漢字“英”和“印”的音素相似。最后,基于音素相似度,對(duì)齊參考文本和識(shí)別 文本。例如,基于其音素相似,將“英”和“印”對(duì)齊。例如,在英語(yǔ)中,同樣可以基于音素相似度,在詞(word)的級(jí)別對(duì)齊目標(biāo)文本和 參考文本。下面通過(guò)一個(gè)具體的例子來(lái)進(jìn)行說(shuō)明。They drive 00 some of the core computer science and software research areasThey trying to sum up the court computer science and software research area其中,在上的一行是目標(biāo)文本,在下的一行是參考文本??梢钥闯瞿繕?biāo)文本中 有多處錯(cuò)誤,尤其是 “trying to sum up the court” 被識(shí)別成 “drive 00 some of the core"(00表示無(wú)聲或靜音),其中6個(gè)詞中有5個(gè)詞錯(cuò)誤。對(duì)于這種情況,現(xiàn)有技術(shù)的通過(guò)文字相同實(shí)現(xiàn)對(duì)齊的方法不能實(shí)現(xiàn)好的對(duì)齊效果,甚至無(wú)法輸出對(duì)齊結(jié)果。但是使用本發(fā) 明的方法,基于音素相似度,可以如上文示出的那樣,在詞級(jí)實(shí)現(xiàn)對(duì)齊。例如,所示例子中的 單詞“some”和“sum”對(duì)應(yīng)的音素都是〔S □ m〕,三個(gè)音素都相同,因此基于音素相同可以對(duì) 齊單詞“some”和“sum”。又如,所示例子中的單詞“drive”和“trying”對(duì)應(yīng)的音素分別是
權(quán)利要求
1.一種用于對(duì)齊文本的方法,包括以下步驟獲取目標(biāo)文本和參考文本;基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本。
2.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)文本是通過(guò)對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別而 得到的,所述參考文本是語(yǔ)音數(shù)據(jù)的參考文本。
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括步驟基于所述目標(biāo)文本與所述參考文本 的對(duì)齊,在所述語(yǔ)音數(shù)據(jù)與所述參考文本之間建立時(shí)間鏈接。
4.根據(jù)權(quán)利要求1至3中任一所述的方法,其中所述基于音素相似度在字的級(jí)別對(duì)齊 所述目標(biāo)文本和所述參考文本的步驟包括解析出所述目標(biāo)文本對(duì)應(yīng)的音素以及所述參考文本對(duì)應(yīng)的音素;使用動(dòng)態(tài)時(shí)間規(guī)整DTW算法,利用音素相似度計(jì)算路徑懲罰值,并利用所述路徑懲罰 值找到匹配所述目標(biāo)文本與所述參考文本的最佳路徑;以及基于所述最佳路徑,對(duì)齊所述目標(biāo)文本和參考文本。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述路徑懲罰值是路徑的每一步的懲罰值的和, 路徑的每一步的懲罰值按以下計(jì)算針對(duì)相同的字,懲罰值為0;針對(duì)替代錯(cuò)誤,懲罰值對(duì)應(yīng)于兩個(gè)字的發(fā)音相似度,所述發(fā)音相似度基于其對(duì)應(yīng)的音 素相似度;和針對(duì)插入錯(cuò)誤或者刪除錯(cuò)誤,懲罰值是一個(gè)常量。
6.根據(jù)權(quán)利要求1-5中任一所述的方法,其中,所述音素相似度是預(yù)先確定的。
7.根據(jù)權(quán)利要求1-5中任意一項(xiàng)所述的方法,其中所述音素相似度由音素的聲學(xué)模型距離來(lái)度量。
8.根據(jù)權(quán)利要求7所述的方法,其中所述聲學(xué)模型距離包括歐式距離、馬氏距離或者 巴特查里亞距離。
9.根據(jù)權(quán)利要求1-3任一所述的方法,其中在所述基于音素相似度在字的級(jí)別對(duì)齊所 述目標(biāo)文本和所述參考文本的步驟之前進(jìn)一步包括步驟基于混淆度,在段落級(jí)別對(duì)齊所 述目標(biāo)文本與所述參考文本。
10.根據(jù)權(quán)利要求9所述的方法,其中所述基于混淆度在段落級(jí)別對(duì)齊所述目標(biāo)文本 與所述參考文本的步驟包括針對(duì)參考文本的每個(gè)段落,建立語(yǔ)言模型;基于所述語(yǔ)言模型,針對(duì)目標(biāo)文本的每個(gè)句子到每個(gè)段落的可能的映射,計(jì)算混淆度 分?jǐn)?shù);選擇混淆度分?jǐn)?shù)為小的映射結(jié)果,將目標(biāo)文本中的每個(gè)句子映射到不同的段落。
11.根據(jù)權(quán)利要求10所述的方法,其中所述基于混淆度在段落級(jí)別對(duì)齊所述目標(biāo)文本 與所述參考文本的步驟進(jìn)一步包括對(duì)所述選擇的映射結(jié)果進(jìn)行平滑。
12.根據(jù)權(quán)利要求1-11任一所述的方法,其中在所述基于音素相似度在字的級(jí)別對(duì)齊 所述目標(biāo)文本和所述參考文本的步驟之前進(jìn)一步包括步驟針對(duì)所述目標(biāo)文本和所述參考 文本進(jìn)行連續(xù)字串匹配,以確定錨點(diǎn),從而將所述目標(biāo)文本和所述參考文本劃分成更小的片段。
13.一種用于對(duì)齊文本的裝置,包括 輸入模塊,用于獲取目標(biāo)文本和參考文本;字對(duì)齊模塊,用于基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本。
14.根據(jù)權(quán)利要求13所述的裝置,其中所述目標(biāo)文本是通過(guò)對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別 而得到的,所述參考文本是語(yǔ)音數(shù)據(jù)的參考文本。
15.根據(jù)權(quán)利要求14所述的裝置,進(jìn)一步包括鏈接模塊,用于基于所述目標(biāo)文本與所 述參考文本的對(duì)齊,在所述語(yǔ)音數(shù)據(jù)與所述參考文本之間建立時(shí)間鏈接。
16.根據(jù)權(quán)利要求13-15任一所述的裝置,其中所述字對(duì)齊模塊包括解析模塊,用于解析出所述目標(biāo)文本對(duì)應(yīng)的音素以及所述參考文本對(duì)應(yīng)的音素; 動(dòng)態(tài)時(shí)間規(guī)整DTW模塊,其使用DTW算法,利用音素相似度計(jì)算路徑懲罰值,并利用所 述路徑懲罰值找到匹配所述目標(biāo)文本與所述參考文本的最佳路徑;以及 對(duì)齊子模塊,其基于所述最佳路徑,對(duì)齊所述目標(biāo)文本和參考文本。
17.根據(jù)權(quán)利要求16所述的裝置,其中,所述路徑懲罰值是路徑的每一步的懲罰值的 和,路徑的每一步的懲罰值按以下計(jì)算針對(duì)相同的字,懲罰值為0;針對(duì)替代錯(cuò)誤,懲罰值對(duì)應(yīng)于兩個(gè)字的發(fā)音相似度,所述發(fā)音相似度基于其對(duì)應(yīng)的音 素相似度;和針對(duì)插入錯(cuò)誤或者刪除錯(cuò)誤,懲罰值是一個(gè)常量。
18.根據(jù)權(quán)利要求13-17中任一所述的裝置,其中,所述音素相似度是預(yù)先確定的。
19.根據(jù)權(quán)利要求13-17中任一所述的裝置,其中所述音素相似性由音素的聲學(xué)模型距離來(lái)度量。
20.根據(jù)權(quán)利要求19所述的裝置,其中所述距離包括歐式距離、馬氏距離或者巴特查里亞距離。
21.根據(jù)權(quán)利要求13-15任一所述的裝置,進(jìn)一步包括段落對(duì)齊模塊,用于基于混淆 度,在段落級(jí)別對(duì)齊所述目標(biāo)文本與所述參考文本。
22.根據(jù)權(quán)利要求21所述的裝置,其中所述段落對(duì)齊模塊包括語(yǔ)言模型LM模塊,用于針對(duì)參考文本的每個(gè)段落,建立語(yǔ)言模型LM ; 計(jì)算混淆度模塊,用于基于所述語(yǔ)言模型,針對(duì)目標(biāo)文本的每個(gè)句子到每個(gè)段落的可 能的映射,計(jì)算混淆度分?jǐn)?shù);映射模塊,用于選擇混淆度分?jǐn)?shù)為小的映射結(jié)果,將目標(biāo)文本中的每個(gè)句子映射到不 同的段落。
23.根據(jù)權(quán)利要求22所述的裝置,其中段落對(duì)齊模塊進(jìn)一步包括 平滑模塊,用于對(duì)所述選擇的映射結(jié)果進(jìn)行平滑。
24.根據(jù)權(quán)利要求13-23任一所述的裝置,其進(jìn)一步包括定錨模塊,用于針對(duì)所述目 標(biāo)文本和所述參考文本進(jìn)行連續(xù)字串匹配,確定錨點(diǎn),從而將所述目標(biāo)文本和所述參考文 本劃分成更小的片段。
25.一種用于歸檔多媒體資源的方法,所述方法包括 獲取原始多媒體資源和參考文本;識(shí)別原始多媒體資源中的語(yǔ)音數(shù)據(jù),生成目標(biāo)文本; 基于音素相似度,在字的級(jí)別對(duì)齊所述目標(biāo)文本和所述參考文本; 基于所述目標(biāo)文本與所述參考文本的對(duì)齊,在所述語(yǔ)音與所述參考文本之間建立時(shí)間 鏈接;以及將所述時(shí)間鏈接加入所述原始多媒體資源,生成新的多媒體資源存檔文件。
26. 一種用于檢索多媒體資源的方法,其中所述多媒體資源包括語(yǔ)音數(shù)據(jù)和其參考文 本,所述方法包括 獲取檢索關(guān)鍵字;獲取多媒體資源,所述多媒體資源具有參考文本以及通過(guò)識(shí)別多媒體資源中的語(yǔ)音數(shù) 據(jù)而得到的目標(biāo)文本,所述參考文本和所述目標(biāo)文本基于音素相似度,在字的級(jí)別被對(duì)齊, 并且基于所述對(duì)齊,所述參考文本與所述語(yǔ)音數(shù)據(jù)之間被建立時(shí)間鏈接; 在參考文本中檢索并且標(biāo)識(shí)關(guān)鍵字;以及根據(jù)所標(biāo)識(shí)的關(guān)鍵字在所述參考文本中的位置和所述時(shí)間鏈接,在多媒體資源中定位 對(duì)應(yīng)于所述關(guān)鍵字的多媒體資源的部分。
全文摘要
本發(fā)明公開(kāi)了一種用于對(duì)齊文本的方法和裝置。該方法包括獲取目標(biāo)文本和參考文本;以及基于音素相似度,在字的級(jí)別對(duì)齊目標(biāo)文本和參考文本。本發(fā)明還公開(kāi)了應(yīng)用上述方法的用于自動(dòng)歸檔多媒體資源的方法,以及用于自動(dòng)檢索多媒體資源的方法。
文檔編號(hào)G10L15/26GK101996631SQ20091016862
公開(kāi)日2011年3月30日 申請(qǐng)日期2009年8月28日 優(yōu)先權(quán)日2009年8月28日
發(fā)明者雙志偉, 周杰, 張世磊, 施勤, 秦勇 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司