欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Computerimplementedmethodforindexingandretrievingdocumentsin...的制作方法

文檔序號:6592854閱讀:173來源:國知局
專利名稱:Computer implemented method for indexing and retrieving documents in ...的制作方法
技術領域
本發(fā)明總體上涉及信息檢索,更具體地涉及對數據庫中的文獻進行索引和檢索。
背景技術
檢索與文本查詢有關的文獻的信息檢索系統(tǒng)是很普遍的。文獻通常為字詞的集 合,該字詞的集合直接由該集合中的字詞來索引或通過字詞-計數矢量(通常稱為文獻矢 量)的線性變換來索引。查詢還可以被表示為用于根據索引檢索文獻的字詞的集合,或被 表示為與文獻矢量相比較來識別與查詢最相關的文獻的字詞-計數矢量。向用戶返回的相 關文獻通常被稱為結果集。自動語音識別(ASR)系統(tǒng)的不斷增加的可用性允許從基于文本的信息檢索系統(tǒng) 擴展到說出文獻或查詢的系統(tǒng)。講話式文獻檢索系統(tǒng)可以為廣播新聞節(jié)目的音頻錄音、播客、會議記錄、演講、表 演等編索引。通常,先人工地或使用ASR系統(tǒng)地將講話式文獻轉錄為文本。將文本中所得 到的字詞存儲在數據庫索引中。將查詢與字詞索引相匹配,并向用戶返回文本式抄本或音 頻記錄。講話式查詢系統(tǒng)使用語音來查詢文獻檢索系統(tǒng)。再一次,使用ASR系統(tǒng)將查詢轉 換為字詞的形式并與索引匹配以進行檢索。在上述的全部情況下,索引系統(tǒng)所使用的基本單位為字詞。在純粹的基于文本的 系統(tǒng)中,文獻和查詢都為文本,利用文獻中的字詞對文獻進行索引,并將查詢中的字詞與索 引中的字詞進行匹配。在文獻或查詢?yōu)橹v話形式時,首先將字詞轉換為字詞序列或字詞網 格,再將其用于構造字詞索引或對照字詞索引對查詢進行匹配。基于字詞的索引方案具有基本的限制,當查詢或文獻是講話形式時尤其如此。ASR 系統(tǒng)具有有限的詞匯量。系統(tǒng)可以識別的字詞的詞匯量必需首先被指定。這還意味著只要 將包括了當前識別器的詞匯量中沒有的字詞的文獻加入到索引,就必需更新識別器的詞匯量。在講話式文獻的情況下,由于新的文獻的詞匯量不能完全地被事先獲知,因此會 存在問題。對于講話式查詢,這暗示了只要對文獻索引進行了更新,就必需對用于輸入查詢 的系統(tǒng)進行更新。在許多應用中這是不切實際的要求。即使文獻和查詢都是完全基于文本 的,基于文本的索引也面臨拼錯的問題。查詢中的字詞經常被用戶拼寫為不同于文獻中的 字詞,當該字詞是新詞或很復雜時尤其如此。顯然,當在文獻中拼寫的字詞和在查詢中拼寫 的字詞不匹配時,會對檢索產生不利的影響。文獻檢索系統(tǒng)通常從數據庫中返回被認為是與用戶查詢中的字詞相關的一個或 更多個文獻。術語“文獻”的解釋是很廣義的。例如,對來自網絡的文獻的檢索和對來自個 人計算機的文件的檢索,或者對來自由元數據所描述的歌曲集合中的音樂的檢索都可以被 看作是“文獻”檢索的實例。
很明顯,并不是文獻中的所有信息都適于通過菜單進行遍歷的樹型結構對話。需 要使用通常被稱為“信息檢索”(IR)的、不依賴于文獻中信息的結構的技術來對信息進行檢索。文獻并不總是基于文本的。文獻還可以包括講話式數據(如廣播新聞節(jié)目、討論 會和演講、公共致辭、會議等)的記錄。同樣地、用于從數據庫中檢索文獻的查詢也不需要 一定是文本的。查詢也可以被說出?;谖谋镜臋z索圖1示出了常規(guī)的基于文本的系統(tǒng),文獻101和查詢102都是文本形式。從所有 文獻抽出(見103)的字詞或字詞式樣的集合被用于構建文獻索引104。還可以從查詢中抽 出(見105)字詞或字詞式樣。該索引具有字詞,各字詞指向出現了該字詞的每一文獻,或 者該索引具有針對各文獻的字詞計數矢量。該字詞計數矢量具有各字詞在文獻中出現的次 數。于是可以按照與索引的結構相一致的方式對查詢進行處理,對文獻的結果集合 107進行評分和排序(見106),并返回給用戶。講話式文獻檢索如圖2所示,講話式文獻201包括語音的音頻記錄,如上面所述。對該語音進行識 別(步驟202)。有時需要響應于查詢102對這種文獻編索引并進行檢索。常規(guī)的檢索講話式文獻的方法是使用ASR系統(tǒng)將文獻轉換為字詞序列。接著按照 與文本文獻相同的方式對轉換后的文獻編索引并進行檢索。眾所周知,ASR系統(tǒng)本質上是不準確的。由此識別出的針對任何文獻的字詞可能 包含多個錯誤,該錯誤將會導致響應于查詢而檢索到錯誤的文獻。為了解決該問題,通常以 字詞網格來表示文獻,在對文獻進行解碼時識別器會考慮該字詞網格。另選地,可以采用 η-最好列表(即識別器為文獻生成的前N個識別假定)來表示文獻。接著通過從字詞網 格η-最好列表得到的字詞(或字詞計數矢量)對文獻編索引。其余的索引編排方法和檢 索過程與文本文獻的相同。如圖3所示,一種另選的方法是將講話式文獻轉換為音位的序列或網格302,或者 轉換為字詞的音節(jié)(步驟301)。按照這些網格來完整地表示文獻。然后將查詢中的字詞 與文獻中的序列或網格進行匹配,來識別包含了能夠與查詢中的字詞匹配的序列的候選文 獻。按照講話式查詢的檢索例如在使用小型手持設備時或在開車或操作機器時,在查詢中輸入文本并不總是 方便的。文本輸入可能是不方便地,或者甚至是不可能的。在這樣的情形下,用戶可以說出 他們的查詢。講話式時查詢系統(tǒng)試圖使用講話式查詢中的字詞來檢索文獻。如同講話式文獻檢索的情況那樣,首先由ASR系統(tǒng)將講話式查詢轉換為字詞。再 一次地,可以將文獻轉換為字詞的線性序列或網格。查詢的文本形式的字詞被用于從索引 中檢索文獻,如參見于2005年4月5日向Wolf等人簽發(fā)的美國專利6,877,001, "Method and system for retrievingdocuments with spoken queries,,,以弓I用的方式將其合并于 此。其他系統(tǒng)可以在它們的索引中將文本文獻和講話式文獻進行合并,并允許講話式查詢和基于文本的查詢。在所有的情況下,用于將文獻與查詢相匹配的基本單位為字詞?;谧衷~的匹配的缺陷使用文本查詢對文本文獻的檢索大概是文獻檢索的所有形式中最可靠的。但是, 它有它的限制。在文獻中的將該文獻與其他的文獻相區(qū)別的關鍵詞通常為新的字詞,具有 不常見的拼寫。試圖對這些文獻進行檢索的用戶經常對這些詞條的準確的拼法不確定,并 拼錯字詞。任何基于字詞的檢索機制都不能夠將拼錯的字詞與相應的文獻相匹配。為了解 決這樣的問題,許多基于字詞的系統(tǒng)使用各種拼寫校正機制來警告用戶可能誤拼,但是在 用戶基本上不能確定拼寫的情況下即使是這樣也不夠。必須首先使用ASR系統(tǒng)將講話式文獻轉換為字詞。ASR系統(tǒng)具有有限的詞匯量, 即使是詞匯量非常大。超大詞匯量系統(tǒng)甚至通常在其識別詞匯表中包括最常用的數萬個字 詞,或者在個別情況下,包括數十萬個字詞。這隨即產生了幾個問題。首先,在任一文獻中 的關鍵區(qū)別詞條本質上是不常用的,否則它們并不能將該文獻與其它文獻區(qū)別開。結果,恰 好這些字詞實際上最不可能出現在識別器的詞匯表中,由此不太可能被識別出來。為了解 決該問題,必須在識別之前將文獻中的這些關鍵詞添加到識別器的詞匯表中。此處產生了 一個必然的問題。在新的文獻中,不能夠事先得知要被查找的關鍵詞。其次,ASR系統(tǒng)是事先偏向了的統(tǒng)計機器,使得出現頻率高的字詞比出現頻率低的 字詞更準確地被識別。結果,即使在某一文獻中的關鍵詞實際上已經包含在了 ASR系統(tǒng)的 詞匯表中,該關鍵詞還是很有可能被錯誤識別,由此使得將它們包含在系統(tǒng)的詞匯表中的 理論變得無效。作為補償因素,文獻中的關鍵詞通常在講話式文獻中被重復多次,則識別器 遺漏所有字詞實例的可能性大大低于識別器遺漏某單個的實例的可能性。因此,即使在識 別器的準確度相對較低的情況下,講話式文獻檢索系統(tǒng)也可以合理地運行。即使在講話式文獻被實際上轉錄為網格以減少詞匯表之外的詞條的影響的情況 下,查詢仍然是必須與文獻相匹配的整個字詞,并且還將遭受上述的誤拼的問題。更重要的 是,為了對文獻進行評分,這將需要對查詢中的各字詞與各文獻的整個粒子網格進行匹配, 使整個處理的效率非常低。講話式查詢或許在所有文獻檢索系統(tǒng)中是最不可靠的。通常如上所述地利用ASR 系統(tǒng)將查詢轉換為字詞序列或字詞網格。查詢通常很短。很明顯,單個的誤識別的代價是
非常高的。為了被識別,用戶希望在文獻中找到的字詞必須包含在識別器的詞匯表中。這意 味著在將文獻添加到索引的同時,文獻中的關鍵詞必須首先包含在處理查詢的識別器的詞 匯表中。這對于由遠程客戶端對查詢進行初始處理的系統(tǒng)來說尤其是難以負擔的。對索引 的更新必須迅速地傳遞到旨在使用該索引的各客戶端。這種操作變得非常得費時。即使在搭配有索引的服務器上進行查詢處理,時間限制也是一個問題。用戶需要 迅速地響應查詢。ASR系統(tǒng)操作的速度取決于詞匯量,造成識別詞匯量增加的文獻索引的各 個更新將降低ASR系統(tǒng)的速度并增加檢索的等待時間。ASR系統(tǒng)所使用的存儲器容量也將 隨詞匯量的增加而非線性地增加,限制了可以同時處理的查詢的數量。

發(fā)明內容
常規(guī)的信息檢索機制按照字詞或字詞組合來展現文獻。不管文獻或查詢?yōu)榭谡Z的還是書面的,這都適用。利用字詞組合的索引會造成由拼寫或識別的不確定或錯誤引起的 多個限制。由于自動語音識別(ASR)系統(tǒng)受到進一步的詞匯量的限制,在查詢或文獻為講 話形式并且必須先于索引而進行識別時,這些限制當然更嚴重。本發(fā)明實施方式提供了一種文獻索引和檢索系統(tǒng),該系統(tǒng)以粒子為單位展現文獻 以采用講話式查詢進行檢索。通過適當地選擇粒子,可以避免系統(tǒng)的詞匯量的限制。此外, 該系統(tǒng)可以采用更小的語言模型,在具有比基于字詞的索引系統(tǒng)所需的常規(guī)的基于字詞的 信息檢索系統(tǒng)更小的存儲量和CPU要求的情況下運行。


圖1為使用文本查詢的常規(guī)的文獻檢索系統(tǒng)的框圖;圖2-圖3為使用講話式查詢的常規(guī)的文獻檢索系統(tǒng)的框圖;圖4為根據本發(fā)明的實施方式的語音圖表;圖5為根據本發(fā)明實施方式的粒子圖表的框圖;圖6A為根據本發(fā)明實施方式的文獻粒子化器的框圖;圖6B為根據本發(fā)明實施方式的查詢粒子化器的框圖;以及圖6C為根據本發(fā)明實施方式的基于粒子的信息檢索系統(tǒng)的框圖。
具體實施例方式基于粒子的文獻索引本發(fā)明的實施方式提供了一種基于粒子而不是象現有技術中那樣的基于字詞為 文獻編索引并檢索文獻的方法。粒子本身不是新的,參見Whittaker,Ε. W. D.,Woodland, P. C. "Particle-based language modeling”,語音語言處理國際會議(ICSLP),2000,于2006年8月8日向Logan 等人簽發(fā)的美國專利 7,089,188,‘‘Methodto expand inputs for word or document searching",以及于2007年2月20日向Thong等人簽發(fā)的美國專利7,181,398, "Vocabulary independentspeech recognition system and method using subword units”。但是,這些粒子被用于識別字詞,在文獻檢索過程中字詞被編入索引并被搜索。粒子索引和檢索是基于我們的這樣的觀察,字詞的發(fā)音可以由一個或更多個聲音 單位(如音位(phoneme)和音節(jié))的序列來描述。從而,任何口語發(fā)音都可以基本地被視 為是一系列這樣的聲音單位。字詞僅僅被認為是帶有語義關系的這樣的聲音單位的組合。 但是,講話的聲音單位可以按照與字詞指定的方式不同的任何其它方式順序地成組。這如表1所示。表 1
dh iy./dhiy//bihg//d aa g/The big dogbihg./dhiyb//ihgd//aa g/d aa g/dh//iy b ih//gd//aa g/表1示出了將字詞序列‘‘the big dog” (在第一列)表示為最右邊的4列中的粒 子的不同方式。第二列表示講話中字詞的語音發(fā)音。在該列中的句點將字詞分開。如果我們假設一種講話的特征在于該講話中的整個聲音序列而不是聲音的特定的連續(xù)組合,則表1中的所有的粒子分解都是講話的有效特征?;诹W拥恼故镜哪康膭t在于提出另選的聲音的順序組合,該聲音的順序組合可 以表示推定的和實際的、在文獻集合內出現的聲音序列。我們將這些組合中的每一個組合稱為粒子。例如,在表1的示例中,由斜線(/)括 起來的聲音序列中的每一個,如/dh iy/,/dh iy b/和/dh/,都為粒子。應注意的是,在該 表中的一些粒子實際上跨越了字詞邊界的,這是非常規(guī)的。是否接受這些粒子取決于對為 了展現文獻和查詢中的語言而選擇的粒子的特定集合的設計。粒子盡管可以以如上所述的多種途徑來構建粒子,但并不是所有可能的粒子都可以用 于基于粒子的索引。用于展示查詢和文獻來進行檢索的實際的粒子集合是經過仔細挑選 的。我們對粒子的集合施加了如下必要條件。1.粒子必須展現在任意查詢中出現的所有可能的聲音序列,或者粒子可以由來自 文獻的任何字詞序列的發(fā)音來得到。2.粒子必須使得可識別出任意文獻中的能將該文獻與其他文獻區(qū)別開的關鍵粒子。條件1的必要性是不言而喻的。為了準確地展現任意文獻或查詢,必須能夠以粒 子的方式完全地表示文獻。如果任意句子或講話不能正確地分解為粒子的序列,它就不能 有效地用作索引的關鍵條目或用作查詢中的關鍵詞。但是,在理解了文獻(或查詢)的未展示部分不可用的情況下,我們可以稍微放松 第一條件來規(guī)定“粒子必須表示任意查詢或文獻中的絕大多數聲音序列”,如果粒子數目足 夠小,則不影響系統(tǒng)的總體性能。條件2起因于系統(tǒng)目標為信息檢索的這樣的事實。為了正確地檢索到與查詢有關 的文獻,需要能夠識別出查詢中在相關文獻中的比在其它文獻中更頻繁的模式。在常規(guī)的基于字詞的對文獻和查詢的展示中,查詢中的字詞自身表示用戶希望在 相關文獻中找到的獨特樣式。當以粒子的方式來展示文獻和查詢時,同樣需要查詢中的粒子(或粒子模式)在 相關文獻中比在其它文獻中以更高的頻率存在。例如,在文獻的語言中的音位集合應滿足條件1并可以用于展示任何查詢或文 獻。然而,音位出現的相對頻率在文獻集合中并沒有太大的變化(尤其是在該集合很大時 (如網絡上不計其數的文獻)),并展示語言的語音特征而非具體的文獻特征。例如,在最常 用的語言中的音位數目是很小的,例如約50。結果,從查詢的基于音位的展示中進行檢索的 任何嘗試都有可能返回包含該查詢中的音位、但在語義上并不與該查詢以任何方式相關的 大量文獻。很顯然,很小的音位集合不是很好的針對IR的集合。這樣,基于如下原因,與使 用字詞相比,在檢索系統(tǒng)中使用粒子是有優(yōu)勢的。文本正規(guī)化和拼寫基于字詞的檢索方案嚴格地依賴于在文獻和查詢中字詞的正確拼寫。基于粒子的 索引機制與詞典中的粒子序列相匹配,并可以使用自動的拼寫_到-發(fā)音機制。發(fā)音詞典和 拼寫_到_發(fā)音系統(tǒng)提供了在與實際的字詞的發(fā)音非常相似的(如果不是完全相同的話)字詞的誤拼或不同拼寫實例的發(fā)音(并由此粒子化),因此使得拼寫錯誤或變型的影響被 正規(guī)化掉。詞匯量大小對于既處理講話式文獻又處理講話式查詢的文獻檢索系統(tǒng),必須采用語音識別器 來將講話式音頻轉換為文本格式。對基于字詞的系統(tǒng),字詞級別識別器將音頻信號轉換為 字詞序列或圖表?;谧衷~的識別器的性能嚴格依賴于識別器的詞匯量,即識別器必須能 夠識別的獨特字詞的總數,詞匯量反過來又與文獻集合中獨特字詞的總數有關。隨著文獻 數目的增加,獨特字詞的數目也不可避免的增加,由此識別器的詞匯量也增加。增加的詞匯 量降低了識別器的準確率,由此大大降低了信息檢索的準確率。通?;谧衷~的識別器可 以存儲50,000到100,000個字詞。然而,在基于粒子的系統(tǒng)中,由于識別器目前僅識別粒子,并且粒子的集合的大小 (如50)遠小于字詞級別的詞匯量(如50,000到100,000),因此該問題即使不能完全消除, 也得到了大大的緩解。理想的粒子集合必須是使得粒子的分布對文獻是可以辨別的。詞匯表之外的字詞沒有在識別器的詞匯表中的字詞是不能被識別的,由此不能用于為文獻編索引或 檢索文獻。為了避免該問題,只要將新的文獻添加到了索引中就必須對識別器的詞匯量進 行更新。在每次更新索引時都必須更新信息檢索客戶端的講話式查詢中,這會變?yōu)橛绕淞?人厭煩的問題。對于基于粒子的系統(tǒng),由于新的字詞通??梢员环纸鉃樵谧R別器中存在的 粒子集合,該問題大大減輕。通過一個極端示例(其中,粒子為音位)可以對此進行最好的 例示。任何新的字詞都可以基于其從詞典或拼寫_到_發(fā)音生成器確定的發(fā)音而被表示為 音位的序列。更一般地說,在適當地選擇識別器的粒子集合的情況下,可以以識別器的粒子 集合類似地表示新的字詞。除了上述的要求之外,當文獻或查詢?yōu)橹v話形式時,我們需要額外的條件,這是由 于為了有效的性能,粒子必須由ASR系統(tǒng)容易地進行識別。這就導致了如下的要求3.粒子的集合必須相對地?。?.理想地,粒子應當是在聲學上獨特的以及獨立完整的單位(self-contained unit);以及5.粒子的出現的預見性相對較高。條件3與識別器的速度、準確率和大小有關。較小的粒子集合導致識別器的較小 的識別詞匯量,以及對應的僅需要使用較小的粒子詞匯量的較小的語法和語言模型。使此 平衡的是這樣的事實較小的粒子集合通常包括聲學上更短的、不能有效區(qū)別文獻的粒子。 此外,聲學上更小的單位具有更少的聲學提示(cue)并更加難于識別。例如,粒子數目約為 2000。上述條件4對于粒子的可識別是重要的。為了可識別,粒子不僅必須具有能夠將 它們與其它粒子相區(qū)分的可區(qū)別的聲學結構,并且還必須在相同的粒子的不同實例之間展 示出相對低的可變性。從這個意義上講,字詞是很好的聲學單位,因為它們傾向于具有幾個 聲學提示并且是獨立完整的。其它類似的聲學區(qū)別單位為音節(jié),音節(jié)不僅具有可區(qū)別的聲 學結構而且還這樣發(fā)音以使得在音節(jié)邊緣由協(xié)同發(fā)音引起的變化變低,導致在它們表達上 的變化減少。但是音節(jié)比字詞具有更少的聲學提示。還可以設計其它類似的粒子集合。理想的粒子集合不僅會滿足條件4,還會滿足其它條件。條件5與粒子的語言預測性有關。預測性的一種可能的指標為復雜度 (perplexity)。從統(tǒng)計的觀點來看,基于粒子的語言模型的復雜度實際上比利用相同的訓 練文本構建的基于字詞的語言模型的復雜度要低(例如,至少低十倍)。如同本領域中所周 知的,復雜度是根據觀察到的字詞的歷史從中選擇下一字詞的字詞集合的大小的指標。我 們將復雜度擴展到粒子和基于粒子的語言模型。我們采用該要求是因為語音識別系統(tǒng)的準 確度隨著語音復雜度的增加而降低。構建粒子集合可以人工地或試探性地構建粒子集合。在具有有限數量的音節(jié)的語言(如日語) 中,語言中的所有音節(jié)的集合形成自然粒子集合。在另一種語言(如英語)中,粒子集合構 建起來會更難。在本發(fā)明的一種實施方式中,通過對訓練文獻和同時優(yōu)化的語言模型的分析來試 探性地構建粒子集合。訓練文獻可以包括文本文獻和講話式文獻。盡管沒有具體說明實際 用于構建粒子集合的方法,我們卻描述了一般的指導方針。自動構建粒子集合的一種方法可以使用將前一部分指出的所有要求進行了編碼 的目標函數,這些要求為1.粒子集合大??;2.在展現給定的訓練集合中的所有文獻和查詢過程中的錯誤;3.使用粒子集合的檢索的準確度;4.表示粒子的統(tǒng)計模型的熵(entropy);以及5.可以包括在所述目標函數中的從訓練資料庫中的所有文獻和查詢導出的基于 粒子的語言模型的復雜度??梢酝ㄟ^僅在目標函數中合并這些條件中的一些來得到粒子集合。例如,在目標 函數中嵌入的基于任何熵、復雜度或似然性的標準可以導致基于期望值最大(EM)的有效 的算法?;诹W拥男畔z索(IR)本發(fā)明的主要思路是基于粒子的信息檢索方案與基于字詞的方案相比更有可能 對拼寫、發(fā)音或其它錯誤具有魯棒性。因此,將基于粒子的IR方案應用于所有的場景,即基 于文本的對文本文獻的檢索、基于文本的對講話式文獻的檢索、基于講話式查詢的對文本 或講話式文獻的檢索、以及所有其它這類檢索的結合。在最一般的情況下,文獻可以為講話 式文獻或文本文獻。類似地,可以講出或作為文本來輸入查詢。下面我們簡要地描述如何 處理這些情況中的各情況。文本文獻文本文獻包括字詞序列。首先將文獻中的文本轉換為基于粒子的表示。為此,我 們首先將各字詞(如“semisoft”)轉換為如圖4中所示的表示該字詞的所有可能的發(fā)音的 語音圖表400。在只有一種字詞發(fā)音方式的情況下該圖表還可以是線性的。通過本發(fā)明的定義,粒子可以是音位的短序列或長序列,就如同表1的最右側的 四列所示??梢詫⒆衷~序列的發(fā)音分組為表1中所示的粒子序列。但是,對于任意給定的粒子組合,可以存在多個將發(fā)音分組為粒子序列的途徑。例如,如果我們的粒子組合包括粒子 “/dh iy/”,“/b ihg/”,“/d aa g/”,“/dh iyb/”,和“/ih g/”,則字詞序列 “the big dog” 可以被表示為“/dh iy//b ih g//d aag/”或“/dh iy b//ih g//d aa g/”。可以將這些另 選的分解表示為圖5的文獻粒子圖表500?;诹W拥男畔z索系統(tǒng)圖6A至圖6C示出了根據本發(fā)明實施方式的基于粒子的信息檢索系統(tǒng)的結構。圖 6A示出了文獻粒子化器601。圖6B示出了查詢粒子化器602。圖6C示出了使用粒子為文 獻編索引和檢索文獻。文獻粒子化器文本文獻圖6A示出了本發(fā)明的粒子化器601。文本文獻被轉換為粒子圖表500。首先通過 從發(fā)音詞典或從音位-至-語義圖變換器得到文本中各字詞的發(fā)音來將文本轉換為語音圖 表612。額外的可選的輸入可以包括進行各種限制的規(guī)則,如對跨越了字詞的邊界的粒子的 限制以及在粒子集合不全(即一些字詞序列不能被完全地分解為粒子圖表)的情況下的錯 誤最低限度標準。接著,使用語音圖表生成粒子圖表(613)。本發(fā)明稱該過程為文獻粒子化。文獻粒 子圖表500可以是線性的(即僅單個的粒子序列)或者為圖5所示的網格。與常規(guī)的圖表不同,粒子可以跨越字詞邊界。另選地,可以對文獻中的單個字詞獨 立地進行粒子化。從文獻粒子圖表中抽出文獻關鍵字集合635。該集合可以包括一個或更 多個關鍵字。將該文獻關鍵字存儲在文獻索引650中。該索引可以直接將圖表中選出的粒 子用作關鍵字來引用文獻,或者索引可以使用粒子序列。本發(fā)明將粒子序列稱為n-gram。 另選地,可以使用諸如粒子計數矢量或粒子分布(例如標準化直方圖)來展現文獻。講話式文獻講話式文獻615包含音頻信號,例如語音。與文本文獻類似,也將講話式文獻轉換 為文獻粒子圖表500并隨后將文獻關鍵字加入索引650。作為附加特征,講話式文獻的索引 可以包括指示何時在文獻中出現各種粒子式樣的時間戳?;叵胍幌?,文本是空間的而語音 是隨時間變化的,因此基于時間的索引是恰當的。通過使用語音識別器616將講話式文獻615轉換為粒子圖表。實現轉換的方式可 以有多種。在第一種選擇中,常規(guī)的基于字詞的語音識別系統(tǒng)將音頻信號轉換為序列或字 詞網格617。隨后將字詞網格轉換為針對文本文獻所描述的粒子圖表(613)。另選地,使用基于粒子的語音識別器618直接將講話式文獻615轉換為粒子圖表。 該粒子識別器訪問將粒子映射到它們的發(fā)音的“粒子”詞典619。相應的語法或統(tǒng)計語言模 型指定了各種有效粒子序列和它們的概率。粒子識別器輸出粒子圖表500,并將從粒子圖表 中提取出的關鍵詞集合進行存儲并用于為文獻編索引。在講話式文獻的情況下,還可以得到語音識別器輸出的粒子或字詞的權重。該權 重表示在講話式數據中實際出現假定的字或粒子的置信度,或者詞條(即字詞或粒子)在 文獻中出現的后驗概率。在兩種情況下,這些權重還可以被因數化在用于展現文獻的關鍵 詞中。這樣,粒子、粒子n-gram或粒子直方圖都可以通過這些權重以各種方式進行強化。查詢粒子化器
文本查詢如圖6B所示,文本查詢621也被轉換為如上所述的查詢粒子圖表500。使用發(fā)音 詞典或語義圖-至-音位變換器將文本查詢中的字詞轉換為語音圖表612。然后根據發(fā)音 圖表得到粒子圖表。還可以從粒子圖表得到作為查詢關鍵詞636的粒子、粒子n-gram、粒子 計數矢量或粒子出現直方圖,以從多個文獻中檢索文獻。講話式查詢使用語音識別器616和618中的任意一個將講話式查詢625轉換為查詢粒子圖表 501。與在講話式文獻的情況下一樣,可以通過使用基于字詞的語音識別器首先將查詢轉換 成字詞串或網格,并類似于對文本查詢的處理將字詞圖表進一步轉換為語音圖表來對查詢 進行轉換,或者可以通過使用基于粒子的識別器直接得到粒子圖表來對查詢進行轉換。與 在文本查詢的情況下一樣,可以從粒子圖表得到作為查詢關鍵詞636的粒子、粒子n-gram、 粒子計數矢量或粒子出現直方圖,以使用文獻索引進行文獻檢索。再一次地,可以將從識別 器得到的置信度、后驗概率或其他權重用于在形成關鍵詞之前對查詢中的術語進行加權。基于粒子的文獻索引圖6C示出了基于粒子的IR系統(tǒng)603的整體?;诹W拥奈墨I索引650是存儲文 獻或存儲指向文獻的指針的數據庫。通常,該數據庫是為存儲器(如磁盤、磁帶、RAM和ROM 等)的形式。數據庫可以集中式的或如因特網一樣是廣泛分散式的??梢酝ㄟ^各種機制(如粒子、粒子n-gram、粒子頻率直方圖或粒子概率直方圖)對 數據庫中的文獻編索引。通過從粒子圖表500中提取631粒子或粒子式樣作為文獻關鍵詞 來生成索引。將從查詢中得到的粒子圖表轉換為用于文獻索引650的(一個或更多個)查詢關 鍵詞的集合(632)。粒子-圖表到查詢變換器該模塊將從查詢得到的粒子圖表轉換為可以用于從索引650中索引文獻的關鍵 詞636的集合。關鍵詞可以為圖表自身中的粒子、粒子n-gram、粒子計數矢量或粒子頻率直 方圖??梢詫⑼ㄟ^語音識別器確定出的適當的權重用于強化這些關鍵詞。文獻記分器文獻記分器650確定由查詢636的關鍵詞編入索引的文獻的相關度得分。相關度 得分可以被確定為根據查詢確定的粒子計數矢量或粒子頻率直方圖與根據文獻確定的粒 子計數矢量或粒子頻率直方圖之間的距離(差異)。已知有多種距離指標,如Kullback-Leibler距離、余弦距離。另選地,可以以從查 詢得到的粒子或粒子n-gram與文獻相匹配的總數的形式來確定相關度。按照相關度下降 的順序將結果集合637中的文獻返回給用戶。本發(fā)明的效果本發(fā)明提供了一種檢索信息的新的方法。文獻和查詢既可以是文本也可以是語 音。與現有技術中使用基于字詞的展示不同,本發(fā)明將文獻和查詢分解為比字詞更小的小 單位,我們稱之為粒子。雖然不是必須的,但通常按照發(fā)音來定義這些小的粒子,各粒子表 示聲音的連續(xù)的序列。文獻無論是講話式的或文本的,都被轉換為這些粒子的序列。按照 粒子的形式來編索引。查詢也被轉換為粒子的序列,這些粒子的序列然后用于從索引中檢索文獻。 盡管參照優(yōu)選實施方式的示例描述了本發(fā)明,但應當理解,可以在本發(fā)明的精神 和范圍內作出的許多其它的變型和修改。因此,所附的權利要求的目的在于涵蓋落入本發(fā) 明的真正精神和范圍內的所有這樣的變型和修改。
權利要求
一種計算機執(zhí)行的、對數據庫中的文獻進行索引和檢索的方法,該方法包括如下步驟將文獻集合中的各文獻轉換為文獻粒子圖表,所述文獻粒子圖表包括從粒子集合中選擇的粒子;從相應的粒子圖表中為各文獻提取文獻關鍵詞集合;將各文獻的所述文獻關鍵詞存儲至對存儲所述文獻集合的數據庫的索引中;將查詢轉換為包括查詢粒子集合的查詢粒子圖表,所述查詢粒子圖表包括從所述粒子集合中選擇的粒子;從所述查詢粒子圖表中提取查詢關鍵詞集合;根據所述查詢關鍵詞和存儲在所述索引中的文獻關鍵詞從數據庫中檢索相關文獻;以及向用戶輸出所述相關文獻。
2.根據權利要求1所述的方法,其中所述粒子集合實質性地大于所述文獻的語言中音 位的數目,并且實質性地小于所述語言中字詞的數目。
3.根據權利要求1所述的方法,其中個別粒子跨越字詞邊界。
4.根據權利要求1所述的方法,其中所述文獻和所述查詢?yōu)槲谋咀衷~的形式。
5.根據權利要求1所述的方法,其中所述文獻為文本字詞的形式,所述查詢?yōu)橹v話式 字詞的形式。
6.根據權利要求1所述的方法,其中所述文獻和所述查詢都為講話式字詞的形式。
7.根據權利要求1所述的方法,其中所述文獻為講話式字詞的形式,所述查詢?yōu)槲谋?字詞的形式。
8.根據權利要求1所述的方法,其中所述查詢是被講出的,所述查詢粒子圖表為表示 講出的查詢中的聲音序列的替代的連續(xù)分組的網格。
9.根據權利要求1所述的方法,其中所述粒子集合表示能在任一查詢中出現的所有可 能的聲音序列。
10.根據權利要求1所述的方法,其中所述粒子集合從來自所述文獻的字詞的任何序 列的發(fā)音得到。
11.根據權利要求1所述的方法,其中所述粒子集合識別任意文獻中的將該文獻與其 它文獻區(qū)別開的關鍵詞。
12.根據權利要求1所述的方法,其中通過拼寫-發(fā)音機制將所述文獻粒子圖表和所述 查詢粒子圖表正規(guī)化。
13.根據權利要求1所述的方法,其中所述粒子集合中的粒子是在聲學上獨特的并是 獨立完整的。
14.根據權利要求1所述的方法,其中粒子出現的可預見性必須高。
15.根據權利要求1所述的方法,其中各粒子具有將本粒子和其它粒子相區(qū)分的區(qū)別 性聲學結構,并且相同的粒子的不同實例之間具有相對低的聲學可變性。
16.根據權利要求1所述的方法,其中個別粒子出現的可預見性相對較高。
17.根據權利要求1所述的方法,其中所述粒子集合是人工確定的。
18.根據權利要求1所述的方法,其中所述粒子集合是試探性地確定的。
19.根據權利要求1所述的方法,所述方法還包括如下步驟使用訓練文獻構建粒子集合和同時優(yōu)化的基于粒子的語言模型,其中所述基于粒子的 語言模型的復雜度實質性地低于根據相同的訓練文獻構建的基于字詞的語言模型的復雜度。
20.根據權利要求19所述的方法,其中所述粒子集合對目標函數應用期望值最大,其 中所述目標函數考慮下面的任意組合粒子集合的大??;在展現文獻訓練集合和查詢訓練集合中的所有文獻時的錯誤; 使用粒子集合的檢索的準確度; 表示粒子集合的統(tǒng)計模型的熵;以及 從訓練集合中的文獻和查詢得到的粒子級別的語言模型。
21.根據權利要求1所述的方法,其中首先將各文獻中的各字詞轉換為表示該字詞的 所有可能的發(fā)音的語音圖表,并接著將所述語音圖表轉換為所述文獻粒子集合。
22.根據權利要求1所述的方法,所述方法還包括 對所述相關文獻進行排位。
23.根據權利要求20所述的方法,其中所述基于粒子的語言模型的復雜度至少比基于 字詞的語言模型的復雜度低十倍。
24.一種信息檢索系統(tǒng),該信息檢索系統(tǒng)包括用于將文獻集合中的各文獻轉換為文獻粒子圖表的裝置,所述文獻粒子圖表包括從粒 子集合中選擇的粒子;用于針對各個文獻從相應的粒子圖表中提取文獻關鍵詞集合的裝置;用于將各文獻的所述文獻關鍵詞存儲在對存儲有所述文獻集合的數據庫的索引中的裝置;用于將查詢轉換為包括查詢粒子集合的查詢粒子圖表的裝置,所述查詢圖表包括從所 述粒子集合中選擇的粒子;用于從所述查詢粒子圖表中提取查詢關鍵詞集合的裝置;用于根據所述查詢關鍵詞和存儲在所述索引中的文獻關鍵詞從數據庫中檢索相關文 獻的裝置;以及用于向用戶輸出相關文獻的裝置。
25.一種計算機執(zhí)行的、對數據庫中的文獻進行索引和檢索的方法,該方法包括如下步驟使用基于粒子的語言模型根據訓練文獻構建粒子集合,其中所述基于粒子的語言模型 的復雜度實質性地低于根據相同的訓練文獻構建的基于字詞的語言模型的復雜度;將文獻集合中的各文獻轉換為文獻粒子圖表,所述文獻粒子圖表包括從所述粒子集合 中選擇的粒子;針對各個文獻從相應的粒子圖表中提取文獻關鍵詞集合,以形成對所述文獻的索引;以及由用戶使用查詢粒子圖表形式的查詢和從所述查詢粒子圖表中提取的關鍵詞檢索相 關文獻。
26. 一種信息檢索系統(tǒng),該信息檢索系統(tǒng)包括 用于存儲文獻集合的數據庫;對所述數據庫的索引,其中所述索引中的條目是粒子的形式,其中所述粒子選自使用 基于粒子的語言模型根據訓練文獻構建的粒子集合,并且其中所述基于粒子的語言模型的 復雜度實質性地低于根據相同的訓練文獻構建的基于字詞的語言模型的復雜度;以及 用于由用戶使用所述粒子通過所述索引來訪問所述文獻的裝置。
全文摘要
文檔編號G06F17/30GK101952824SQ20098010576
公開日2011年1月19日 申請日期2009年2月25日 優(yōu)先權日2008年2月25日
發(fā)明者Schmidt-Nielsen Bent, Ramakrishnan Bhiksha, weinberg Garrett, Evandro B Gouvea, Bret A Harsham 申請人:Mitsubishi Electric Corp
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
衡南县| 伊金霍洛旗| 包头市| 平谷区| 新邵县| 策勒县| 宜阳县| 广平县| 金门县| 城固县| 汉沽区| 淮南市| 巴楚县| 安顺市| 诏安县| 奈曼旗| 乐安县| 玛沁县| 江城| 太谷县| 冀州市| 德昌县| 行唐县| 井研县| 皮山县| 龙江县| 岳阳市| 大方县| 浦江县| 志丹县| 湘乡市| 鄢陵县| 东阿县| 建宁县| 辛集市| 阿拉善左旗| 迁西县| 都安| 株洲市| 兰溪市| 昌平区|