專利名稱:用于變換粒子集合的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及信息檢索,并且具體地,涉及使用粒子(particle)之間的最大編輯距離來變換粒子集合。
背景技術(shù):
信息檢索(IR)系統(tǒng)通常包括很大的項目表,這些項目諸如為感興趣的地理點(POI)或者音樂專輯名稱等。該列表通過索引進行訪問。對索引的輸入是由用戶提供的查詢。響應于查詢,IR系統(tǒng)生成與該查詢最佳匹配的結(jié)果列表??梢愿鶕?jù)各種因素對結(jié)果列表進行排序。結(jié)果列表、索引、查詢以及結(jié)果列表通常由單詞表示。輸入列表、查詢以及結(jié)果列表是文本方式或語音方式。
語音查詢是在用戶無法使用鍵盤(例如,在駕駛時)或者用戶接口包括麥克風的情況下使用的。在那些環(huán)境下,使用自動語音識別器(ASR:Automatic Speech Recognizer)將語音轉(zhuǎn)換成單詞。ASR使用兩種基本的數(shù)據(jù)結(jié)構(gòu),單詞的發(fā)音詞典和單詞的語言模型。通常,IR系統(tǒng)按照發(fā)音將單詞表示為音素,例如,將RESTAURANT表示為“R EH S T R AA N T”。音素是指特定語言中的聲音的基本單位。音素可包括重音符號、音節(jié)邊界(syllable boundary)和指示單詞如何發(fā)音的其它記號。語言模型描述了單詞排序的可能性,并且供ASR使用,以強制搜索正確的單詞假設(shè)。語言模型可以是η元(n-gram)語法。如果η元語法是二元語法,則該二元語法列出諸如P (“BELL” I “TAC0”)的可能性,即單詞“BELL”跟隨在單詞“TAC0”之后的可能性。語言模型也可是有限狀態(tài)語法,其中語法中的狀態(tài)表示能夠在各個狀態(tài)出現(xiàn)的單詞,并且狀態(tài)之間的轉(zhuǎn)變表示從一個狀態(tài)到另一個狀態(tài)的可能性?;趩卧~的IR存在兩個主要問題。首先,用于IR的重要單詞通常是罕見的標識符單詞(identifier word)。例如,在項目POI “MJ’S RESTAURANT”中,重要的標識符單詞是“MJ’S”。這些標識符單詞常常是來自其它語言的專有名詞。例如,項目“AASHIANI RESTAURANT”中的單詞“AASHIANI”來自印地語。這些標識符單詞出現(xiàn)的另一種方式是通過組合,如“GREENHOUSE”。修改單詞的詞根也會增加詞匯量的大小。一般而言,罕見但重要的標識符單詞的數(shù)量非常大。另外,重要的標識符單詞常常被念錯,或者語言模型對重要的標識符單詞的表示非常差。針對η元語法的精確統(tǒng)計一般也無法獲得。因此,識別重要的罕見的單詞的可能性很低,并且單詞順序常常不正確。這導致IR系統(tǒng)的查全性(recall performance)差。其次,隨著列表和索引的大小的增大,基于單詞的IR系統(tǒng)的計算負荷也增大,并且系統(tǒng)的性能對于實時檢索來說變得不可接受。
發(fā)明內(nèi)容
本發(fā)明的實施方式提供了一種用于在以粒子表示的信息檢索(IR)數(shù)據(jù)庫中檢索項目的方法。唯一粒子的數(shù)量大大小于唯一單詞的數(shù)量(例如,至少小一個數(shù)量級)。這改善了自動語音識別(ASR)系統(tǒng)的性能,使得識別時間減少多達50%。令人驚訝地是,即使與單詞的數(shù)量相比顯著減少了粒子的數(shù)量并且吞吐量同樣增加時,通過查全率(recall rate)測量的IR系統(tǒng)的性能提高了 2%。本發(fā)明的實施方式基于如下認識針對信息檢索(IR)系統(tǒng)的操作,使用盡可能彼此不同的粒子來表示單詞集合是有利的。例如,具有盡可能彼此不同的粒子在ASR期間允許精確的識別。而且,實施方式基于如下進一步的認識可使用編輯距離來測量粒子之間的差異。本發(fā)明的一個實施方式公開了一種變換輸出粒子集合中的由項目集合中的至少一部分形成的粒子集合的方法,其中所述項目集合表示適于在信息檢索系統(tǒng)中使用的單詞集合。針對所述粒子集合中的各個粒子,該方法生成所述粒子集合中的粒子的部分的組合,并且使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述 粒子集合中的所述粒子。例如,該方法確定所述粒子集合中的各個粒子的MED,將所述粒子集合的所述總的MED確定為各個粒子的MED的總和,然后確定使所述粒子集合的所述總的MED最大化的所述組合。另一個實施方式公開了一種用于生成表示單詞集合的輸出粒子集合的方法,該方法包括如下步驟由所述單詞集合確定粒子集合;生成所述粒子集合中的粒子的部分的組合;使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子;以及針對所述粒子集合中的各個粒子,重復所述生成步驟和所述替代步驟,以生成所述輸出粒子集合,其中該方法的步驟由處理器執(zhí)行。又一個實施方式公開了一種用于變換表示單詞集合的輸出粒子集合中的粒子集合的系統(tǒng),該系統(tǒng)包括變換模塊,其被配置為針對所述粒子集合中的各個粒子確定使所述粒子集合的總的最小編輯距離(MED)最大化的所述粒子的部分的組合;以及處理器,其被配置為使用所述組合的所述部分來替代所述粒子集合中的所述粒子。該實施方式的一個變形包括用于確定所述粒子集合中的各個粒子的MED的單元;用于確定所述粒子集合的所述總的MED的單元;以及用于確定使所述粒子集合的所述總的MED最大化的所述組合的單元。
圖I是根據(jù)本發(fā)明實施方式的信息檢索系統(tǒng)的框圖;圖2A是按照單詞書寫的感興趣項目的索引的表;圖2B是根據(jù)索引的單詞的發(fā)音詞典的表;圖3是根據(jù)本發(fā)明實施方式的從單詞到粒子的映射的示例的表;圖4是根據(jù)本發(fā)明實施方式的、按照粒子書寫的感興趣項目的索引的示例的表;
圖5是粒子的發(fā)音詞典的表;圖6是根據(jù)本發(fā)明實施方式的用于變換輸出粒子集合中的粒子集合的方法;圖7是根據(jù)本發(fā)明實施方式的用粒子的前綴和后綴替代該粒子的方法的框圖;以及圖8是示出粒子的變換的表。 圖9是示出粒子的變換的表。圖10是示出粒子的變換的表。圖11示出粒子的變換的表。
具體實施例方式如圖I所示,本發(fā)明的實施方式提供了一種在信息檢索(IR)系統(tǒng)100中從數(shù)據(jù)庫中檢索項目的方法。如本領(lǐng)域公知的那樣,該方法的步驟在處理器中運行。處理器包括存儲器和I/O接口。IR系統(tǒng)包括由單詞表不的項目列表101。由該基于單詞的列表101,我們生成110由粒子(particle)表示的項目列表102?;趩卧~的列表中的項目與基于粒子的列表中的項目之間的對應關(guān)系可以是一對一,或者當可能存在單詞的另選發(fā)音時,該對應關(guān)系可以
是一對多。粒子在語音識別領(lǐng)域中是公知的。如這里所定義的,“粒子”表示連接的音素序列。一串粒子表示單詞的音素序列,參見Whittaker等人的“Particle-based languagemodelling”,語音和語言處理國際會議(ICSLP),2000。迄今為止,粒子僅在自動語音識別器(ASR)系統(tǒng)中用于識別單詞。相比之下,本發(fā)明使用粒子來執(zhí)行信息檢索(IR)。我們將索引器120應用到列表102,以產(chǎn)生基于粒子的索引121。為了檢索項目,從用戶104獲取基于粒子的查詢103。查詢可以來自文本中的單詞或使用ASR的語音。查詢103用于查找從基于粒子的列表102構(gòu)成的索引121。響應于查詢103的輸出是來自基于單詞的列表101的與基于粒子的列表102中的項目最佳匹配的項目的結(jié)果列表。為了生成基于粒子的列表102,在預處理步驟中,我們維持列表101中的唯一單詞的集合149。我們將基于單詞的集合149轉(zhuǎn)換成唯一粒子的集合151。在我們獲得基于粒子的集合151之后,我們可將列表101中的項目的單詞轉(zhuǎn)化為對應的基于粒子的項目,以生成110基于粒子的列表102。圖2A示出了我們的基于單詞的項目列表101。這些項目是感興趣的地理點,各個ID 201唯一地標識項目202。
圖2B示出了單詞211和對應的音素212。一些單詞可具有另選的發(fā)音,例如“HOUSES”。圖3示出了單詞301和對應的粒子302。如果基于單詞的列表中的項目具有多個發(fā)音,則形成將所有單詞分割成粒子的所有可能分割的笛卡爾積,并且在基于粒子的列表中列舉出來。例如,如果可將AASHIANI分割成如 “AA_SH_IY AA_N_IY” 或如 “AA_SH Y_AE_N_IH” 的粒子并且將 RESTAURANT 分割成如“R_E_S_T_R_AA_N_T”或如“R_E_S_T_ER_R_AA_N_T”的粒子,則在基于粒子的索引中列舉出所有可能的分割AA_SH_IY AA_N_IY R_E_S_T_R_AA_N_T,AA_SH_IY AA_N_IY R_E_S_T_ER_R_AA_N_T,AA_SH Y_AE_N_IH R_E_S_T_R_AA_N_T,以及 AA_SH Y_AE_N_IH R_E_S_T_ER_AA_N_T。圖4示出了基于粒子的列表102的詳細情況,包括各個項目402的唯一 ID 401。圖5示出了可供ASR使用的包括粒子501和對應的音素502的發(fā)音詞典。我們的語言模型包括粒子,例如包括對粒子η元語法的統(tǒng)計的η元語法語言模型。粒子的變換本發(fā)明的實施方式基于如下認識針對信息檢索(IR)系統(tǒng)的操作,使用盡可能彼此不同的粒子來表示單詞的集合是有利的。例如,具有盡可能彼此不同的粒子在ASR期間允許精確的識別。而且,實施方式基于如下進一步的認識可使用編輯距離(editdistance)來測量粒子之間的差異。因此,所述實施方式變換輸出粒子集合中的項目集合660。在本發(fā)明的各種實施方式中,該項目集合表示適于在IR系統(tǒng)中使用的單詞集合。例如,一個實施方式針對單詞集合中的各個單詞,確定將單詞分割成粒子的所有可能的分割,并且根據(jù)從單詞的集合得到的唯一粒子而形成項目集合。在另一個實施方式中,從單詞集合、從單詞集合得到的語音串的集合、從單詞集合得到的粒子集合及它們的組合中的至少一個來選擇項目集合中的項目。圖8示出了粒子的集合的示例。針對集合中的各個粒子,確定最小編輯距離(MED)810。MED是粒子相對于所有其它粒子的最小編輯距離。此外,粒子集合的總的MED 820被確定為各個粒子的MED的和。圖6示出了用于變換輸出粒子集合615中的粒子集合610的方法600。在一個實施方式中,粒子集合由項目集合的至少一部分形成。如本領(lǐng)域公知的那樣,該方法的步驟由 處理器601執(zhí)行。變換模塊602生成630粒子集合中的粒子620的部分的組合635。例如,在一個實施方式中,該組合僅包括兩個部分,即粒子的前綴和后綴。另外,組合635是粒子的所有可能組合。在另選實施方式中,該組合包括多于兩個部分。在粒子集合中,使用組合645的部分來替代650粒子620,該組合645使粒子集合的總的最小編輯距離(MED)最大化640。針對粒子集合中的所有粒子,重復執(zhí)行變換,從而變換輸出粒子集合中的粒子集合。圖7示出了用粒子的前綴和后綴715替代700粒子710的示例。從粒子集合中去除720粒子,并且將組合的一部分(即,前綴和后綴)添加730到粒子集合中。接下來,確定740粒子集合中的各個粒子的MED ;并且對MED求和以確定750粒子集合的總的MED 755。針對粒子的所有組合重復該替代步驟。具體地講,從粒子集合中去除組合的部分并且使用粒子的另一個組合的部分來替代,并且使用該另一個組合的部分來確定MED以及總的MED。最后,將與總的MED的最大值相對應的組合的部分添加到粒子集合中?!獋€實施方式在粒子集合中僅保留唯一粒子。例如,沒有將與粒子集合中的粒子相同的組合的部分添加到集合中。在變換期間,根據(jù)單詞集合對粒子集合及輸出粒子集合進行索引。例如,一個實施方式創(chuàng)建了項目集合與單詞集合之間的索引的索引圖。索引圖跟蹤將單詞分割成粒子的分害I]。在變換期間,索引圖變成了樹狀圖,該樹狀圖對替代粒子的粒子的部分進行索引。圖9至圖11示出了從圖8所示的粒子集合810到粒子“abcd”830的變換的示例。粒子“abed”的所有可能的兩個部分組合是“a”+ “bed”(如圖9所示)、“ab”+ “cd”(如圖10所示)以及“abc”+ “d”(如圖11所示)。針對各個組合,變換模塊確定各個粒子的MED 和整個集合的總的MED值。因為組合“a+bed”的部分使總的MED最大化,所以總的MED的值等于7,該組合的部分替代了粒子“abed”。
權(quán)利要求
1.一種變換輸出粒子集合中的由項目集合的至少一部分形成的粒子集合的方法,其中所述項目集合表示適于在信息檢索系統(tǒng)中使用的單詞集合,針對所述粒子集合中的各個粒子,該方法包括如下步驟 生成所述粒子集合中的粒子的部分的組合;以及 利用使得所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子,以變換所述輸出粒子集合中的所述粒子集合,其中該方法的所述步驟由處理器執(zhí)行。
2.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 確定使得所述粒子集合的所述總的MED最大化的所述組合。
3.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 確定所述粒子集合中的各個粒子的MED, 將所述粒子集合的所述總的MED確定為各個粒子的MED的總和。
4.根據(jù)權(quán)利要求3所述的方法,該方法還包括如下步驟 確定所述粒子集合中的所述粒子與全部其它粒子之間的編輯距離;以及 選擇最小編輯距離作為所述粒子的MED。
5.根據(jù)權(quán)利要求I所述的方法,其中所述替代步驟還包括如下步驟 從所述粒子集合中去除所述粒子; 將所述組合的所述部分添加到所述粒子集合中; 確定所述粒子集合中的各個粒子的MED ;以及 確定所述粒子集合的所述總的MED。
6.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 從所述粒子集合中去除所述組合的所述部分。
7.根據(jù)權(quán)利要求I所述的方法,其中所述替代步驟還包括如下步驟 從所述粒子集合中去除所述粒子; 針對各個組合,確定所述組合的各個部分的MED以及所述粒子集合的所述總的MED,其中所述總的MED包括所述組合的所述部分的MED ;以及 將所述組合的所述部分添加到與所述總的MED的最大值對應的所述粒子集合中。
8.根據(jù)權(quán)利要求I所述的方法,其中所述組合包括所述粒子的前綴和后綴,其中所述生成步驟還包括如下步驟 生成前綴和后綴的全部可能組合。
9.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 針對所述單詞集合中的各個單詞,確定將所述單詞分割成唯一的粒子的全部可能分割;以及 由所述粒子形成所述項目集合。
10.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 根據(jù)所述單詞集合的索引對所述項目集合進行索引,以產(chǎn)生基于粒子的索引。
11.根據(jù)權(quán)利要求10所述的方法,該方法還包括如下步驟 基于所述項目集合對所述輸出粒子集合進行索引。
12.根據(jù)權(quán)利要求9所述的方法,該方法還包括如下步驟從用戶獲取查詢; 使用所述基于粒子的索引來訪問所述項目集合,以確定與所述查詢最為匹配的對應單詞;以及 輸出所述對應單詞作為針對所述用戶的結(jié)果列表。
13.根據(jù)權(quán)利要求I所述的方法,其中從所述單詞集合、從所述單詞集合得到的語音串的集合、從所述單詞集合得到的粒子集合及它們的組合中的至少一個中選擇所述項目集合中的項目。
14.一種生成表示單詞集合的輸出粒子集合的方法,該方法包括如下步驟 由所述單詞集合確定粒子集合; 生成所述粒子集合中的粒子的部分的組合; 使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子;以及 針對所述粒子集合中的各個粒子,重復所述生成步驟和所述替代步驟,以生成所述輸出粒子集合,其中該方法的所述步驟由處理器執(zhí)行。
15.根據(jù)權(quán)利要求14所述的方法,其中所述確定步驟還包括如下步驟 將所述單詞集合中的各個單詞分割成粒子;以及 按照使得所述粒子集合中的所有粒子都唯一的方式將所述粒子選入所述粒子集合。
16.根據(jù)權(quán)利要求14所述的方法,其中所述確定步驟還包括如下步驟 確定所述單詞集合中的各個單詞的語音串;以及 基于所述語音串,形成所述粒子集合。
17.根據(jù)權(quán)利要求14所述的方法,該方法還包括如下步驟 確定所述粒子集合中的各個粒子的MED ;以及 將所述粒子集合的所述總的MED確定為各個粒子的MED的總和。
18.根據(jù)權(quán)利要求14所述的方法,該方法還包括如下步驟 確定所述粒子集合中的所述粒子與所有其它粒子之間的編輯距離;以及 選擇最小編輯距離作為所述粒子的MED。
19.一種變換表示單詞集合的輸出粒子集合中的粒子集合的系統(tǒng),該系統(tǒng)包括 變換模塊,其被配置為針對所述粒子集合中的各個粒子確定使所述粒子集合的總的最小編輯距離(MED)最大化的所述粒子的部分的組合;以及 處理器,其被配置為使用所述組合的所述部分來替代所述粒子集合中的所述粒子。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),該系統(tǒng)還包括 用于確定所述粒子集合中的各個粒子的MED的單元; 用于確定所述粒子集合的所述總的MED的單元;以及 用于確定使得所述粒子集合的所述總的MED最大化的所述組合的單元。
全文摘要
本發(fā)明的實施方式公開了一種變換表示適于在信息檢索系統(tǒng)中使用的單詞集合的輸出粒子集合中的粒子集合的系統(tǒng)和方法。該方法針對所述粒子集合中的各個粒子生成粒子的部分的組合,并且使用使得粒子集合的總的最小編輯距離(MED)最大化的組合的部分來替代粒子集合中的粒子。例如,該方法確定粒子集合中的各個粒子的MED,將粒子集合中的總的MED確定為各個粒子的MED的總和,然后確定使得粒子集合的總的MED最大化的組合。
文檔編號G06F17/30GK102822823SQ20118001619
公開日2012年12月12日 申請日期2011年3月22日 優(yōu)先權(quán)日2010年3月31日
發(fā)明者托尼·伊扎特 申請人:三菱電機株式會社