數(shù)據(jù)檔案系統(tǒng)中基于語義單元的自動索引和搜索方法及設(shè)備的制作方法

文檔序號：2834385閱讀：577來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：數(shù)據(jù)檔案系統(tǒng)中基于語義單元的自動索引和搜索方法及設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般地涉及數(shù)據(jù)檔案系統(tǒng)，更具體地涉及這種系統(tǒng)中使用的改進(jìn)型索引和搜索方法及設(shè)備。
幾份專利和專利申請涉及聲頻數(shù)據(jù)的聲頻索引和搜索，例如，1997年7月15日頒發(fā)給Ellozy等的美國專利號5，649，060；1998年8月11日頒發(fā)給Orsolini等的美國專利號5，794，249；以及用序列號09/108，544(代理人文檔號YO998-120)標(biāo)記的題目為“用于自動索引和搜索的聲頻-視頻檔案及方法”于1998年7月1日提交的美國專利申請，它們的公開供本文參考。這些專利和專利申請中采用的方法都利用詞作為索引和搜索的基本單元。在這些方法中，典型地通過詞對聲頻數(shù)據(jù)轉(zhuǎn)錄(通過自動或人工語音識別)、打時間戳記和加索引。
在基于詞的系統(tǒng)中，在能夠開始搜索之前，必須根據(jù)已知的詞準(zhǔn)備一個詞匯表和一個語言模型。這樣，通過定義，總是存在著系統(tǒng)不知道的詞。遺憾的是，只有利用產(chǎn)生良好語言模型計分的詞，即已知的詞，搜索機(jī)制才會工作。
在試圖建立能夠利用系統(tǒng)不知道的條目進(jìn)行搜索的系統(tǒng)中，已經(jīng)提出基于音素的索引方法。這種方法包括生成詞的聲轉(zhuǎn)錄和通過聲的音素對語音段編索引。然而，由于同一詞可以存在不同的音素轉(zhuǎn)換并且音素識別精度可能是低的例如低于詞識別精度，這些基于音素的索引方法不是很有效的。
在運(yùn)行于語音和正文中“詞”單元可能具有雙重含義的語言如中文下或者具有很多詞形的語言如斯拉夫語言下的系統(tǒng)中，這些困難甚至更加明顯。
對于大多數(shù)歐洲語言，在印刷文本中以及在計算機(jī)文本文件中存在詞的邊界。這些邊界是按詞之間的空格呈現(xiàn)的。但是，對于大多數(shù)亞洲語言，包括例如中文、日文、朝鮮文、泰文和越南文，在印刷形式下以及計算機(jī)文本文件中都不存在這樣的詞邊界。從而，不能對這些語言施加基于詞的索引和搜索方法。用于這些語言的基于音素的索引和搜索方法具有和上面提到的相類似的問題。
從而，需要用來索引和搜索聲頻數(shù)據(jù)等的方法和設(shè)備，其使這些以及其它缺點(diǎn)和限制為最小和/或消除這些以及其它缺點(diǎn)和限制，并且還可用于數(shù)量更多的語言。
本發(fā)明采用基于最小語義單元的方法和/設(shè)備對聲頻數(shù)據(jù)等提供改進(jìn)的索引和搜索。請理解“最小語義單元”定義為語言中所知的其有語義含義的小單元，最好是最小單元?？墒褂玫恼Z義單元的例子是音節(jié)或詞素。本發(fā)明的方法可用于現(xiàn)有方法難以適應(yīng)的語言例如亞洲語言中。
應(yīng)理解“詞素”是語言中常見的和有含義的最小語義單元。它可能是詞的一部分或是一個詞，例如在詞“friendliness”中有三個單元即“friend-、“l(fā)i”和“ness”。在西方語言中，自由詞素和約束(bound)詞素是不同的。自由詞素可以是一個可獨(dú)立使用的詞，例如“friend”。而約束詞素本身不能使用，例如“l(fā)i”和“ness”。詞素可以是單個音節(jié)，一組音節(jié)，或附著在一個音節(jié)上的一個輔音，例如“man’s shirt”中的“s”。在大多數(shù)東亞語言中，由于在印刷文本中或在計算機(jī)文件中不存在詞邊界，自由詞素和約束詞素的差別是不明顯的。在這些語言中，和詞相比詞素是語言的更為適當(dāng)?shù)膯卧?br> 另外，應(yīng)理解，“音節(jié)”是一組音素，它由元音或連續(xù)音單獨(dú)或與輔音或數(shù)個輔音組合組成，其代表一個完整的發(fā)音或一個發(fā)音的復(fù)合體，并且還構(gòu)成詞組成的單元。它可看成是和胸搏動以及和發(fā)聲頂點(diǎn)是等同的。若以元音結(jié)束音節(jié)是開音節(jié)，或若以輔音結(jié)束則音節(jié)是閉音節(jié)。在上面的例子，“friend”、“l(fā)i”和“ness”是三個音節(jié)，其中“l(fā)i”是開音節(jié)，而“friend”和“ness”是閉音節(jié)。
在許多亞洲語言中存在稱為詞素的語義單元。例如，在許多東亞語言，例如中文、泰文、越南文，中，除一些例外外，幾乎所有詞素都是單音節(jié)的。這樣，在這些語言中，詞素和音節(jié)的概念是可互換的。
此外，在中文中，每個音節(jié)是由一個稱為漢字的字符表示的。字節(jié)的數(shù)量和漢字的數(shù)量是有限的。在現(xiàn)代標(biāo)準(zhǔn)中文口語即普通話中，不同音節(jié)的總數(shù)量是1，400。在現(xiàn)代標(biāo)準(zhǔn)書面中文中，在中國大陸經(jīng)常使用的字符的數(shù)量是6700個，在臺灣省為13，000個。
從而，在本發(fā)明的廣義上，提供用于聲頻數(shù)據(jù)等的索引和搜索的方法和設(shè)備，它們基于最小語義單元，例如音節(jié)和/或詞素。以這種方式，用于索引和搜索聲頻數(shù)據(jù)等的本發(fā)明方法最小化和/或消除與現(xiàn)有索引和搜索系統(tǒng)(例如基于詞的系統(tǒng))相關(guān)的缺點(diǎn)和限制。此外，本發(fā)明的用于索引和搜索聲頻數(shù)據(jù)等的發(fā)明方法可和更多數(shù)量的語言一起使用。
從而，在本發(fā)明的用于中文的一種示范實(shí)施例中，可設(shè)置一個基于字符或漢字的搜索引擎。在大的文本語料庫上建立的統(tǒng)計語言模型用來執(zhí)行語音識別。用一個字符或一串字符構(gòu)成搜索后信息(要搜索的數(shù)據(jù))。該搜索機(jī)制用文本和目標(biāo)進(jìn)行比較。
在本發(fā)明的用于中文的另一個示范實(shí)施例中，設(shè)置一個基于音素音節(jié)的搜索引擎。從大的文本語料庫通過字到音素音節(jié)的轉(zhuǎn)換建立一個基于音素音節(jié)的統(tǒng)計語言模型。該語言模型的大小要小得多。用一個音素音節(jié)或一串音素音節(jié)構(gòu)成搜索后的信息。
觀察到中文中音節(jié)承載著語義信息，我們按如下一般化基于音節(jié)的聲頻索引。本發(fā)明采用典型地比詞要小并具有唯一聲表達(dá)的語義單元。語義單元允許建立代表語義信息的語言模型并且改進(jìn)基于由語義單元組成的詞匯表的自動語音識別(ASR)的譯碼準(zhǔn)確性。如所提及，這種用于轉(zhuǎn)錄聲頻數(shù)據(jù)、索引和搜索的單元的例子是音節(jié)(例如中文中)或詞素(例如斯拉夫語中)。由于字節(jié)單元是清晰的并且一種語言中可能的音節(jié)的數(shù)量是有限的，這種方法可普遍應(yīng)用于大多數(shù)語言。對于這些語言，把單元音節(jié)作為搜索的基本構(gòu)件是更有效的。該方法還解決上面提到的未知的詞的問題，因?yàn)椴捎迷摲椒ǖ南到y(tǒng)知道所有的可應(yīng)用于其所應(yīng)用的語言中的音節(jié)。
例如，支持本發(fā)明方法的語言可包括但不限于
a)中文。在標(biāo)準(zhǔn)方言(基于北京方言的官話或普通話)，所允許的聲音節(jié)的總數(shù)量小于1800個。講話的平均音節(jié)率是每秒4-5個音節(jié)。
b)朝鮮文。聲音上許可的音節(jié)數(shù)少于2400個。書面系統(tǒng)完全基于聲音節(jié)。講話的平均音節(jié)速率是每秒4-5個音節(jié)。
c)日文。只有105個許可的聲音節(jié)。講話的平均音節(jié)速率是每秒6-7個音節(jié)。
d)越南文。存在3000個不同的音節(jié)。書面系統(tǒng)完全基于聲音節(jié)。講話的平均音節(jié)速率是每秒4-5個音節(jié)。
類似地，具有非常大量的詞形式的語言(例如斯拉夫語中數(shù)百萬個詞形式)具有數(shù)量相對少的詞素(例如俄語中50，000詞素)。對于這些語言，自動語音識別系統(tǒng)回送聲音節(jié)串或詞素串。利用基于聲音節(jié)或者詞素的語言模型這可得到實(shí)現(xiàn)。要搜索的詞首先譯成音節(jié)串。接著對照譯碼聲音節(jié)數(shù)據(jù)庫匹配這些音節(jié)串。
應(yīng)理解本發(fā)明的方法比起基于詞或基于詞標(biāo)記的方法更直接和更快。由于音節(jié)和詞素數(shù)量有限，數(shù)據(jù)壓縮也更加有效。
從與附圖一起閱讀的下述對本發(fā)明的示范實(shí)施例的詳細(xì)說明中本發(fā)明的這些以及其它目的、特性和優(yōu)點(diǎn)將會變得清晰。
圖1是依據(jù)本發(fā)明的一個實(shí)施例的用于通過音節(jié)索引和搜索聲頻記錄的一種設(shè)備的方塊圖。
圖2提供依據(jù)本發(fā)明的一個實(shí)施例的搜索查詢和介質(zhì)的一些例子。
圖3是依據(jù)本發(fā)明的一個實(shí)施例的產(chǎn)生音節(jié)語言模型的方塊圖。
圖4A是依據(jù)本發(fā)明的一個實(shí)施例的基于音節(jié)的聲頻索引方法的流程圖；圖4B是依據(jù)本發(fā)明的一個實(shí)施例的基于音節(jié)的聲頻搜索方法的流程圖；以及圖5是依據(jù)本發(fā)明的一個實(shí)施例的聲頻索引和搜索系統(tǒng)的硬件實(shí)現(xiàn)的方塊圖。
下面在示范性基于音節(jié)的索引和搜索實(shí)現(xiàn)下解釋本發(fā)明。然而，應(yīng)理解，本發(fā)明不受限于這種特定的實(shí)現(xiàn)。相反，本發(fā)明利用語義單元更廣泛地應(yīng)用于對聲頻數(shù)據(jù)的索引和搜索，而音節(jié)僅是語義單元的一個例子。例如，本發(fā)明在任何如下的實(shí)施中發(fā)現(xiàn)有益的應(yīng)用，即其中向用戶提供基于聲頻的數(shù)據(jù)的索引和搜索能力，從而不必?fù)?dān)心在他的查詢向系統(tǒng)輸入不知道的詞。本發(fā)明特別上面提到的例如亞洲語言和斯拉夫語言那樣的語言。但是，本發(fā)明不限定于和任何特定的語言一起使用。
現(xiàn)參照圖1，圖中示出依據(jù)本發(fā)明的一個實(shí)施例的通過音節(jié)對聲頻記錄進(jìn)行索引和搜索的設(shè)備。該設(shè)備100按下述方式運(yùn)行。通過聲記錄器102記錄聲數(shù)據(jù)。在數(shù)據(jù)存儲器104中存儲聲頻數(shù)據(jù)。聲頻數(shù)據(jù)還被音節(jié)語音識別器106處理。在C.J.Chen等的“A ContinuousSpeaker-Independent Putonghua Dictation System”，3rdInternationalConference on Signal Processing Proceeding，pp.821-824中說明一種可由本發(fā)明采用的語音識別器的一個例子，該論文的公開從而作為本文的參考。標(biāo)準(zhǔn)語音識別系統(tǒng)，例如上面引用的Chen等人的文章中說明的系統(tǒng)，可修改成利用基于音節(jié)的語言模型108提供音節(jié)語音識別器的功能，該語言模型108的生成在后面解釋。在給出依據(jù)本發(fā)明的基于音節(jié)的語言模型下以及在這種模型通常要比標(biāo)準(zhǔn)語音識別系統(tǒng)中的基于詞的語言模型簡單的事實(shí)下，一般的業(yè)內(nèi)人士理解如何修改標(biāo)準(zhǔn)的語音識別系統(tǒng)以按利用基于音節(jié)的語言模型108的音節(jié)語音識別器106運(yùn)行。
應(yīng)理解在本發(fā)明的一個實(shí)施例中，音節(jié)可以是基于音素的。音素音節(jié)反映音節(jié)的不同發(fā)音。在中文中，在該國的不同地區(qū)音素音節(jié)不同(盡管文字表達(dá)不和地理位置相關(guān))。在本發(fā)明的另一個實(shí)施例中，音素音節(jié)由反映音素以及語調(diào)信息的“調(diào)素”構(gòu)成，參見上面引用的Chen等的文章。調(diào)素是聲調(diào)語言中的語調(diào)音素。
以類似于標(biāo)準(zhǔn)語音識別系統(tǒng)利用基于詞的語言模型的方式，音節(jié)語音識別器106利用基于音節(jié)的語言模型108產(chǎn)生由音節(jié)串110構(gòu)成的譯碼文本(即，轉(zhuǎn)錄)。如后面解釋那樣在單元112對音節(jié)文本加以時間戳記，并把音節(jié)文本和音節(jié)索引一起存儲到音節(jié)索引存儲單元114中。音節(jié)索引存儲單元114含有和譯碼音節(jié)數(shù)據(jù)相關(guān)的索引，例如時間戳記。如后面的例子中所解釋的那樣，利用這些時間戳記來響應(yīng)搜索查詢以在聲頻數(shù)據(jù)存儲器104中檢索對應(yīng)的聲頻數(shù)據(jù)。
例如，在一種優(yōu)選實(shí)施例中，單元114中存儲的索引包含可在數(shù)據(jù)存儲器104中找到用于某音節(jié)的數(shù)據(jù)的地址?？梢岳斫庠谟陕曈涗浧?02記錄聲頻數(shù)據(jù)期間某些音節(jié)會出現(xiàn)數(shù)次。在單元104中存儲來自記錄器的該數(shù)據(jù)。單元104中的某索引指向單元104中何處存儲特定的音節(jié)。一種簡單的指示何處存儲音節(jié)的方法是指示說出該音節(jié)的時間。從而，索引可和一組說出該音節(jié)的時間相關(guān)。這是通過由單元112對音節(jié)打上時間戳記實(shí)現(xiàn)的。存儲地址上的時間轉(zhuǎn)換允許檢索單元104中存儲和該音節(jié)有關(guān)的數(shù)據(jù)的所有單元。
作為一個簡單例子，假定音節(jié)語音識別器106譯碼的某句子包含一串與聲頻(存儲在單元104中)句子對齊的音節(jié)，這串音節(jié)表示成S1、S2、S3、S4、S1、S4、S1、S2、S7、S8、S7。這些音節(jié)打上的時間戳記是t1-t2、t3-t4、t5-t6、…、tm-tn。假定聲頻句子用聲頻段表示aud1、aud2、aud3、aud4、aud5、aud6、aud7、aud8、aud9、aud10、aud11。從而，單元114中存儲的索引數(shù)據(jù)可以為如下S1aud1，aud5，aud6；S2aud2，aud8；S3aud3；S4aud4，aud6；S7aud9，aud11；S8aud10。這意味著音節(jié)S1存儲在數(shù)據(jù)存儲器104中存儲的該聲頻句子的第一、第五和第六個位置(段)上。從而，為了放和S1對應(yīng)的各段，可轉(zhuǎn)到數(shù)據(jù)存儲器104中由該索引指示的各對應(yīng)單元上。
應(yīng)理解，盡管時間戳記是對譯碼數(shù)據(jù)編索引的一種方便方法，還可采用任何其它可使用的編索引技術(shù)。上面的處理概括地由依據(jù)本發(fā)明的該特定實(shí)施例的數(shù)據(jù)編索引處理構(gòu)成。
音節(jié)索引存儲單元114和基于音節(jié)的搜索部件116連接。該搜索部件可采用任何常規(guī)的搜索方法。音節(jié)搜索部件116通過輸入部件122接收來自用戶124的輸入查詢118。輸入部件例如可以是下述中的一種鍵盤、自動語音識別(ASR)系統(tǒng)、自動手寫識別(AHR)系統(tǒng)等。在提交給搜索部件之前，該音節(jié)查詢可先由查詢處理模塊120處理，如后面解釋那樣。搜索部件116利用音節(jié)查詢118確定數(shù)據(jù)存儲器104中的聲頻段。這可通過使各聲頻段和文本數(shù)據(jù)對齊來實(shí)現(xiàn)。例如，通過時間參數(shù)化聲頻數(shù)據(jù)，再把句中的各音節(jié)匹配到聲頻數(shù)據(jù)中的各時間區(qū)段中。上面對編索引操作給出了一個這樣的例子。聲頻數(shù)據(jù)和文本數(shù)據(jù)對準(zhǔn)的技術(shù)是由識別器106實(shí)現(xiàn)的。當(dāng)該識別器譯碼語音時，它把各文本部分(例如各音節(jié))和對應(yīng)的聲頻數(shù)據(jù)段相聯(lián)起來。
這樣，通過確定索引存儲器114中和查詢中的音節(jié)對應(yīng)的索引，可把用戶查詢中的該音節(jié)和聲頻存儲器104中存儲的一個或多個聲頻段相關(guān)聯(lián)或匹配。即，若用戶查詢包含音節(jié)S1，則根據(jù)上面解釋的索引操作確定聲頻段aud1、aud5、aud6。一旦確定這些聲頻數(shù)據(jù)段，通過回放/輸出部件126把它們向用戶回放。從而部件126可包括一個回放揚(yáng)聲器。用戶查詢118可包含幫助定位該搜索的其它信息。
上面的模式是通過音節(jié)進(jìn)行聲頻索引/搜索的簡化例子。即，取決于應(yīng)用，可實(shí)施其它特性，即，還可根據(jù)與生成該聲頻數(shù)據(jù)的人即說話人的各屬性對聲頻數(shù)據(jù)編索引。這可在索引器和存儲單元128中實(shí)現(xiàn)。也就是說，可從聲頻數(shù)據(jù)中提取和說話人相關(guān)的各屬性例如姓名、性別、年齡，并用于索引和存儲所提供的聲頻數(shù)據(jù)。這些屬性可由人說出(例如，“我的姓名是……”)并由語音識別器譯碼，或者通過常規(guī)說話人識別技術(shù)確定。備擇地，可以用說話人的姓名標(biāo)記聲頻數(shù)據(jù)，以增強(qiáng)該系統(tǒng)的聲頻搜索部分。在用序列號09/294，214(代理人文檔號YO998-398)標(biāo)識的于1999年4月16日歸檔的標(biāo)題為“用于索引和查詢聲頻檔案的系統(tǒng)和方法”的美國專利申請中討論了用說話人姓名標(biāo)記聲頻數(shù)據(jù)，該申請的公開作為本文的參考。
從而，例如，用戶可把某特定音節(jié)查詢限制成檢索會議中的某些發(fā)言人。如上面所述，還可把所存儲的聲頻數(shù)據(jù)和提供有關(guān)說話人的附加信息的說話人的生物統(tǒng)計(例如，用戶的社會狀態(tài)、年齡、性別等)關(guān)聯(lián)起來，如在用序列號09/371，400(代理人文檔號YO999-227)標(biāo)識的于1999年8月10日歸檔的標(biāo)題為“會話數(shù)據(jù)挖掘”的美國專利中所說明的那樣，該申請的公開作為本文的參考。
還可以用提供一些其它信息的標(biāo)志標(biāo)記所存儲的聲頻數(shù)據(jù)。這些信息可包括何時生成該聲頻數(shù)據(jù)。生成它的場所等的信息。該聲頻數(shù)據(jù)還可以和與該聲頻數(shù)據(jù)同時記錄的并存儲在數(shù)據(jù)存儲單元104中的視頻數(shù)據(jù)關(guān)聯(lián)。這允許用戶對他在輸入部件122處輸入的聲頻相關(guān)查視添加視頻相關(guān)查詢。在這種情況下，搜索部件還可實(shí)現(xiàn)視頻圖象識別檢索技術(shù)。
可理解，根據(jù)圖1的設(shè)備100可在索引機(jī)和存儲單元128中實(shí)現(xiàn)這些附加索引特性(例如，說話人生物統(tǒng)計、視頻數(shù)據(jù)等)中的一個或多個。在聲頻數(shù)據(jù)和視頻數(shù)據(jù)都被編索引和存儲的情況下，分層的索引存儲和搜索技術(shù)上面提及的用序列號09/108，544(代理人文檔號YO998-120)標(biāo)識的、于1998年7月1日提交的標(biāo)題為“用于自動索引和搜索的聲頻/視頻檔案及方法”的美國專利申請中所說明的那樣。在該分層的搜索中，音節(jié)變?yōu)榉謱咏鹱炙械囊粚?。如后面解釋的那樣，圖2描述設(shè)備100可實(shí)現(xiàn)的這些附加的索引和搜索特性中的一些。
可以以與上面的解釋不同的各種方式向用戶呈現(xiàn)用戶查詢搜索的結(jié)果。例如，根據(jù)包括著顯示器的回放輸入部件126，用戶可以首先觀看印出的譯碼(音節(jié))輸出數(shù)據(jù)，在觀看整個譯碼輸出后用戶可簡單地通過點(diǎn)擊(利用輸入部件122的一部分的鼠標(biāo))文本輸出的相應(yīng)部分決定他希望回放哪一部分的聲頻數(shù)據(jù)。在另一個實(shí)施例中，用戶還可觀看根據(jù)查詢請求通過搜索部件114找到的和聲頻數(shù)據(jù)相關(guān)的視頻數(shù)據(jù)。
在本發(fā)明的另一個實(shí)施例中，從用戶查詢所指示的音節(jié)開始回放聲頻數(shù)據(jù)，直到用戶停止聲頻的回放(通過輸入部件)或者直到聲頻段的特定持續(xù)時間(如在用戶查詢中規(guī)定)期滿。
而且，用戶查詢可由一組詞而不是一組音素音節(jié)組成。在這種情況下，利用文本-音素音節(jié)變換把詞轉(zhuǎn)換成一串音節(jié)?？砂慈魏纬Ｒ?guī)方式生成這種變換。這種文本-音節(jié)變換可采用一個和每個音節(jié)、一組可能的音素音節(jié)關(guān)聯(lián)的表。可由查詢處理模塊120實(shí)現(xiàn)該變換/表。在搜索模式下，若提供其它數(shù)據(jù)(例如，產(chǎn)生聲頻數(shù)據(jù)的地理位置)可以限制與輸入的文本音節(jié)相關(guān)的音素音節(jié)的數(shù)量。
用戶查詢還可包括相當(dāng)長的文本語料庫而不是幾個詞或音節(jié)。用戶可具有說出的語音正文(例如，若他自己念出某要記錄成聲頻數(shù)據(jù)的正文)。在這種情況下，該文本語料庫可變換成一串(音素)音節(jié)，并可使用搜索部件114中實(shí)現(xiàn)的專用搜索機(jī)制以找到和一長串音節(jié)匹配的聲頻數(shù)據(jù)。在前面提及的美國專利5，649，060中說明這種機(jī)構(gòu)。它允許甚至在ASR質(zhì)量相對低時使聲頻數(shù)據(jù)和大段基準(zhǔn)正文匹配。它利用該大段正文的時間戳記以使基準(zhǔn)原本中的少量部分和所存儲的譯碼輸出的一些部分匹配。
音素音節(jié)編索引使用的方法還可以和其它把詞分割成更小的單元，例如斯拉夫語的詞素，的技術(shù)一起使用。
現(xiàn)參照圖2，其中描述依據(jù)本發(fā)明的搜索查詢和介質(zhì)的例子。用于搜索202的介質(zhì)可包含聲頻數(shù)據(jù)204和視頻數(shù)據(jù)206二者。該介質(zhì)分割成用于編索引的多個單元208。可理解可在查詢處理模塊120中完成這種分割。在框210中描述聲頻單元的例子。這種單元可包括文本部分(例如短語、段落、章節(jié)、詩、故事)、詞、音節(jié)、音素音節(jié)、詞素、字符和其它語義單元(例如，斯拉夫語中的詞根)。視頻數(shù)據(jù)可分割成視頻部分212。這也可在查詢處理模塊120中完成，參見上面引用的用序列號09/108，544(代理人文檔號YO998-120)標(biāo)識的標(biāo)題為“用于自動索引和搜索的聲頻/視頻檔案及方法”的美國專利申請。
搜索部件116(和圖1中的相同)響應(yīng)接收到查詢單元208可使用框214中描述的一個或多個特性以輔助或產(chǎn)生搜索(ⅰ)分層索引(例如指向音節(jié)的音素音節(jié)、指向詞的音節(jié)以及可指向短語的詞)；(ⅱ)用于限制搜索的標(biāo)志(例如，位置，說話人姓名，時間階段等)；(ⅲ)幫助索引聲頻數(shù)據(jù)并把它和文本數(shù)據(jù)對齊的時間戳記；以及(ⅳ)從一串單元(例如音節(jié))訓(xùn)練的語言單元模型，以提高把聲頻數(shù)據(jù)變換成一串單元(例如，音節(jié))的準(zhǔn)確性。
搜索系統(tǒng)116還可使用應(yīng)用到查詢118上的自動邊界標(biāo)記系統(tǒng)。這用于把用戶輸入分割成詞。回想在一些語言中不利用空格把字符分割成詞。這允許通過詞(不僅僅通過音節(jié))進(jìn)行搜索。通過單元126向用戶回放找到的聲頻部分(例如，和一串音節(jié)或一串詞對應(yīng)的聲頻)，從而用戶可決定哪部分聲頻是需要的。
如所述，音節(jié)可指向別的層次中的數(shù)據(jù)(例如如圖2的框214中說明那樣)。例如，聲頻可伴有視頻，從而可和聲頻一起向用戶示出該視頻數(shù)據(jù)(例如，通過單元126)。
可以用逆譜(即表達(dá)聲頻的一種有效壓縮形式)表達(dá)聲頻數(shù)據(jù)?？砂涯孀V轉(zhuǎn)換成可向用戶播出的聲頻數(shù)據(jù)。從逆譜中得到的聲頻數(shù)據(jù)的質(zhì)量可能是相對低的，但可能適用于某些應(yīng)用，例如，只是表達(dá)所存儲短語的內(nèi)容。由于和完整聲頻相比逆頻要求較少的存儲容量，從而搜索和回放可被更快地實(shí)現(xiàn)。逆頻可指向高質(zhì)量的聲頻，若用戶需要高質(zhì)量的輸出可使用該高質(zhì)量的聲頻。在上面引用的用序列號09/108，544(代理人文檔號YO998-120)標(biāo)識的標(biāo)題為“用于自動索引和搜索的聲頻/視頻檔案及方法”的美國專利申請中更詳細(xì)地說明這樣的接口。
在另一個實(shí)施例中，可以用速記版本(即不是譯碼器輸出)表達(dá)文本輸出。速記術(shù)類似于編碼器，然而可由速記員生成文本數(shù)據(jù)并且可比譯碼器輸出更為準(zhǔn)確。若可得到速記員輸出，可通過單元126向用戶124呈現(xiàn)速記員輸出。從而，用戶可指向該速記員輸出中的各個不同的位置，并按聲頻回放所對準(zhǔn)的速記員數(shù)據(jù)。
參照圖3，圖中示出依據(jù)本發(fā)明的一種實(shí)施例的生成音節(jié)語言模型的方法的方塊圖。此為可由圖1的話音識別器106使用的音節(jié)語言模型108。文本語料庫300用于生成許多音節(jié)串302(例如，通過把字符串變換成音節(jié)的表)。音節(jié)串產(chǎn)生音節(jié)計數(shù)304。為了生成音素音節(jié)306的語言模型，必須知道音節(jié)是如何發(fā)音的。由于相同的音節(jié)可以具有不同的發(fā)音，這種數(shù)據(jù)不能直接從大段文本中提取。因此，需要轉(zhuǎn)錄和文本300對應(yīng)的聲頻數(shù)據(jù)308(框310)?？梢允止さ鼗蛘呃冒岩羲匾艄?jié)對齊到說出的音節(jié)串的自動語音識別生成轉(zhuǎn)錄310。作為轉(zhuǎn)錄310的一部分生成的音素音節(jié)312和音節(jié)314接著被用來導(dǎo)出給定某音節(jié)下某音素音節(jié)的概率分布(框316)。利用音節(jié)計數(shù)304以及音素音節(jié)314的條件分布構(gòu)建音素音節(jié)的語言模型。在給出音節(jié)計數(shù)304以及音素音節(jié)的條件分布下，業(yè)內(nèi)人士理解如何構(gòu)建音素音節(jié)的語言模型306。例如，該過程類似于構(gòu)建用于類的語言模型(例如，F(xiàn)rederick Jelinek,“Statistical Methods for Speech Recognition”,TheMIT Press,Cambbridge,1998，該書的公開作為本文的參考)或用于詞素的語言模型(例如，1998年11月10日頒發(fā)的標(biāo)題為“用于屈折型語言的統(tǒng)計語言模型”的美國專利號No.5，835，888，該專利的公開作為本文的參考)。
參照圖4A，其示出依據(jù)本發(fā)明的一種實(shí)施例的基于音節(jié)的聲頻編索引方法的流程圖。在步驟400，記錄要編索引并要存儲的聲頻數(shù)據(jù)。在步驟420，把該聲頻數(shù)據(jù)譯碼成由音節(jié)(或詞素串構(gòu)成的譯本。在步驟404，通過對音節(jié)(或詞素)打上時間戳記對音節(jié)編索引。最后，在步驟406，根據(jù)時間戳記索引存儲各音節(jié)(或各詞素)。
現(xiàn)參照圖4B的依據(jù)本發(fā)明的一種實(shí)施例的基于音節(jié)的聲頻搜索方法的流程圖。應(yīng)理解，圖4B的搜索方法最好和根據(jù)圖4A的編索引方法編索引的數(shù)據(jù)一起使用。在步驟408，用戶輸入查詢以檢索某些部分的已存儲聲數(shù)據(jù)。在步驟410處理該查詢。如上面所解釋，這可能包括利用文本-音素音節(jié)變換把用戶輸入的詞轉(zhuǎn)換成音節(jié)串。用戶也可能直接輸入音節(jié)而不是詞。在步驟412，利用這些音節(jié)從存儲器中檢索所希望的聲頻數(shù)據(jù)段。最后，在步驟414，向用戶回放各聲頻段。
現(xiàn)參照圖5，其中示出用于實(shí)現(xiàn)圖1中所示的設(shè)備100的一個、多個或所有構(gòu)件的示范性硬件體系結(jié)構(gòu)。在該實(shí)施例中，可通過處理器500、存儲器502和I/O部件504實(shí)現(xiàn)設(shè)備100。請理解本文中使用的術(shù)語“處理器”的意圖是包括任何處理部件，例如包括CPU(中央處理機(jī))的部件。例如，該處理器可能是技術(shù)上周知的數(shù)字信號處理器。術(shù)語“處理器”還表示一個或多個獨(dú)立的處理器。本文中使用的術(shù)語“存儲器”的意圖是包括和處理器或CPU關(guān)聯(lián)的存儲器，例如，RAM、ROM、固定存儲器部件(例如硬盤機(jī))、可拆存儲器部件(例如軟盤)、快速存儲器等。另外，本文中使用的術(shù)語“輸入/輸出部件”或“I/O部件”的意圖是一般性地包括用于向處理單元輸入數(shù)據(jù)和其它信號的一個或多個輸入部件，例如拾音器、鍵盤、鼠標(biāo)等，和/或包括用于提供與處理單元相關(guān)的結(jié)果的一個或多個輸出部件，例如顯示器、揚(yáng)聲器等。例如，顯示器或揚(yáng)聲器可向用戶提供系統(tǒng)檢索出的回放信息。相應(yīng)地，可在一個或多個相關(guān)的存儲器部件(例如，ROM、固定或可拆存儲器)中存儲包含著用于實(shí)現(xiàn)本文所說明的本發(fā)明的方法的計算機(jī)軟件，并且當(dāng)準(zhǔn)備好供使用時，可把它部分地或全部地裝入(例如RAM中)并由CPU執(zhí)行。在任何情況下，可以以各種形式的硬件、軟件或它們的組合實(shí)現(xiàn)各圖中示出的各構(gòu)件，例如，一個或多個帶有關(guān)聯(lián)存儲器的數(shù)字信號處理器、專用應(yīng)用集成電路、功能電路、一個或多個適當(dāng)?shù)膸в嘘P(guān)聯(lián)存儲器的編程的通用數(shù)字計算機(jī)等。在給出本文所提供的本發(fā)明的原理下，業(yè)內(nèi)人士能設(shè)想本發(fā)明的各構(gòu)件的其它實(shí)現(xiàn)方式。
雖然本文參照

了本發(fā)明的示范實(shí)施例，應(yīng)理解本發(fā)明不受限于這樣明確的實(shí)施例，在不背離本發(fā)明的范圍或精神下業(yè)內(nèi)人士可進(jìn)行各種其它改變和修改。
權(quán)利要求
1．一種用于處理和某特定語言關(guān)聯(lián)的基于聲頻的數(shù)據(jù)，該方法包括步驟存儲該基于聲頻的數(shù)據(jù)；生成該基于聲頻的數(shù)據(jù)的文本表示，該文本表示以和該基于聲頻的數(shù)據(jù)對應(yīng)的一個或多個語義單元為形式；以及對該一個或多個語義單元編索引并存儲該一個或多個編索引的語義單元，以在響應(yīng)用戶查詢搜索所存儲的基于聲頻的數(shù)據(jù)時使用。
2．權(quán)利要求1的方法，其中語義單元是音節(jié)。
3．權(quán)利要求2的方法，其中音節(jié)是基于音素的音節(jié)。
4．權(quán)利要求1的方法，其中語義單元是詞素。
5．權(quán)利要求1的方法，其中生成步驟包括根據(jù)語音識別系統(tǒng)譯碼該基于聲頻的數(shù)據(jù)。
6．權(quán)利要求5的方法，其中語音識別系統(tǒng)采用基于語義單元的語言模型。
7．權(quán)利要求1的方法，其中編索引步驟包括對該一個或多個語義單元打上時間戳記。
8．權(quán)利要求1的方法，其中搜索步驟包括處理用戶請求以生成一個或多個表示該用戶試圖檢索的信息的語義單元；搜索該一個或多個編過索引的語義單元以找到與用戶查詢相關(guān)聯(lián)的一個或多個語義單元的實(shí)質(zhì)性的匹配；以及利用和用戶查詢關(guān)聯(lián)的一個或多個語義單元匹配的一個或多個編過索引的語義單元，檢索一個或多個基于聲頻的數(shù)據(jù)段。
9．權(quán)利要求8的方法，其中搜索步驟還包括向用戶展示檢索的數(shù)據(jù)。
10．權(quán)利要求1的方法，其中該特定語言是以亞洲為基的語言。
11．權(quán)利要求10的方法，其中該特定語言是中文。
12．權(quán)利要求11的方法，其中語義單元是漢字。
13．權(quán)利要求1的方法，其中該特定語言是以斯拉夫?yàn)榛恼Z言。
14．權(quán)利要求1的方法，其中根據(jù)說話人的屬性對該一個或多個語義單元編索引。
15．權(quán)利要求1的方法，其中至少根據(jù)何時產(chǎn)生該基于聲頻的數(shù)據(jù)和何處產(chǎn)生該基于聲頻的數(shù)據(jù)中之一對該一個或多個語義單元編索引。
16．權(quán)利要求1的方法，還包括存儲和該基于聲頻的數(shù)據(jù)相關(guān)的基于視頻的數(shù)據(jù)，以在響應(yīng)用戶查詢搜索所存儲的基于聲頻的數(shù)據(jù)和基于視頻的數(shù)據(jù)時使用。
17．權(quán)利要求16的方法，其中搜索步驟還包括分層搜索例程。
18．權(quán)利要求1的方法，其中生成步驟包括速記式記錄基于聲頻的數(shù)據(jù)以生成文本表示。
19．一種用于處理和某特定語言相關(guān)的基于聲頻的數(shù)據(jù)的設(shè)備，該設(shè)備包括至少一個處理器，并運(yùn)行成(ⅰ)存儲該基于聲頻的數(shù)據(jù)；(ⅱ)生成該基于聲頻的數(shù)據(jù)的文本表示，該文本表示以和該基于聲頻的數(shù)據(jù)對應(yīng)的一個或多個語義單元為形式；以及(ⅲ)對該一個或多個語義單元編索引并存儲該一個或多個編索引的語義單元，以在響應(yīng)用戶查詢搜索所存儲的基于聲頻的數(shù)據(jù)時使用。
20．一種用于處理與某特定語言相關(guān)的基于聲頻的數(shù)據(jù)的基于聲頻數(shù)據(jù)的索引和檢索系統(tǒng)，該系統(tǒng)包括存儲器，用于存儲基于聲頻的數(shù)據(jù)；一個基于語義單元的語音識別系統(tǒng)，用于生成基于聲頻的數(shù)據(jù)的文本表示，該文本表示以和該基于聲頻的數(shù)據(jù)對應(yīng)的一個或多個語義單元為形式；一個索引和存儲模塊，其運(yùn)行上和基于語義單元的語音識別系統(tǒng)及存儲器連接，用于對該一個或多個語義單元編索引并存儲該一個或多個編索引的語義單元；以及一個搜索引擎，其運(yùn)行上與索引和存儲模塊以及存儲器連接，用于搜索與用戶查詢相關(guān)的一個或多個語義單元相匹配的一個或多個編過索引的語義單元，并且用于根據(jù)該一個或多個編過索引的語義單元檢索被存儲的基于聲頻的數(shù)據(jù)。
全文摘要
用于處理與某特定語言相關(guān)的基于聲頻的數(shù)據(jù)的基于聲頻數(shù)據(jù)的索引和檢索系統(tǒng),包括:(i)存儲器,用于存儲基于聲頻的數(shù)據(jù);(ii)基于語義單元的語音識別系統(tǒng),用于生成基于聲頻的數(shù)據(jù)的文本表示;(iii)索引和存儲模塊,用于對語義單元編索引并存儲該一個或多個編索引的語義單元;以及;(iv)搜索引擎,用于搜索與用戶查詢相關(guān)的語義單元相匹配的編過索引的語義單元,并且用于根據(jù)編過索引的語義單元檢索被存儲的基于聲頻的數(shù)據(jù)。
文檔編號G10L15/00GK1296257SQ0013389
公開日2001年5月23日申請日期2000年11月9日優(yōu)先權(quán)日1999年11月10日
發(fā)明者陳成鈞, 迪米特里·肯奈斯基申請人:國際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載