專利名稱:字符串生成方法、程序和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及一種用于搜索自然語言文本中的字符串的技術(shù),并且具體地涉及一種用于顯示搜索結(jié)果的技術(shù)。
背景技術(shù):
在搜索文本中的字符串時,在命中周圍的上下文字符串提供有用信息。例如,當搜索發(fā)現(xiàn)文檔中的單詞“button”時,可以基于字符串“is clicked”和“is pressed”中的哪個字符串跟隨“button”來校驗文檔中的措詞的一致性。也可以校驗是否給予特定英文專有名詞定冠詞。與命中周圍的上下文字符串有關(guān)的信息在其它搜索(比如搭配(collocation)和人名搜索)中也是重要的。已知一種對搜索項周圍的字 符串排序和顯示的常規(guī)技術(shù)KWIC(上下文中的關(guān)鍵字)。例如,在使用KWIC來搜索“ 夕> ” (button,按鈕)時顯示的所有上下文字符串可以如下
權(quán)利要求
1.一種字符串生成方法,用于通過在計算機上的處理來生成待顯示的字符串,所述方法包括以下步驟 基于關(guān)鍵字搜索文檔以檢索包括n個元素c的上下文字符串C,所述n個元素c包括所述關(guān)鍵字,其中n是大于或者等于I的整數(shù);以及 獲得字符串s的集合,所述字符串s的集合在顯示的字符串的最大數(shù)目少于或者等于K的條件下最大化面積之和,其中K是大于或者等于I的整數(shù),其中所述面積中的每個面積是如下面積,在該面積中,字符串s覆蓋所述上下文字符串C,所述面積由C的以s作為前綴的元素c的數(shù)目與s的長度的乘積來限定。
2.根據(jù)權(quán)利要求1所述的方法,其中獲得s的集合的所述步驟基于動態(tài)編程。
3.根據(jù)權(quán)利要求2所述的方法,其中待搜索的文檔集合被配置為頻率有序后綴樹數(shù)據(jù),并且所述動態(tài)編程是對從所述頻率有序后綴樹的搜索結(jié)果獲得的頻率有序上下文樹數(shù)據(jù)的動態(tài)編程。
4.根據(jù)權(quán)利要求3所述的方法,其中所述動態(tài)編程包括修剪過程,在所述修剪過程中,在對所述頻率有序上下文樹數(shù)據(jù)的進行中的搜索中提供最大值,并且如果上限未達到所述最大值,則放棄所述進行中的搜索。
5.一種字符串生成程序,用于通過在計算機上的處理來生成待顯示的字符串,所述程序使所述計算機執(zhí)行以下步驟 基于關(guān)鍵字搜索文檔以檢索包括n個元素c的上下文字符串C,所述n個元素c包括所述關(guān)鍵字,其中n是大于或者等于I的整數(shù);以及 獲得字符串s的集合,所述字符串s的集合在顯示的字符串的最大數(shù)目少于或者等于K的條件下最大化面積之和,其中K是大于或者等于I的整數(shù),其中所述面積中的每個面積是如下面積,在該面積中,字符串s覆蓋所述上下文字符串C,所述面積由C的以s作為前綴的元素c的數(shù)目與s的長度的乘積來限定。
6.根據(jù)權(quán)利要求5所述的程序,其中獲得s的集合的所述步驟基于動態(tài)編程。
7.根據(jù)權(quán)利要求6所述的程序,其中待搜索的文檔集合被配置為頻率有序后綴樹數(shù)據(jù),并且所述動態(tài)編程是對從所述頻率有序后綴樹的搜索結(jié)果獲得的頻率有序上下文樹數(shù)據(jù)的動態(tài)編程。
8.根據(jù)權(quán)利要求7所述的程序,其中所述動態(tài)編程包括修剪過程,在所述修剪過程中,在對所述頻率有序上下文樹數(shù)據(jù)的進行中的搜索中提供最大值,并且如果上限未達到所述最大值,則放棄所述進行中的搜索。
9.一種字符串生成系統(tǒng),用于通過在計算機上的處理來生成待顯示的字符串,所述系統(tǒng)包括 用于基于關(guān)鍵字搜索文檔以檢索包括n個元素c的上下文字符串C的裝置,所述n個元素c包括所述關(guān)鍵字,其中n是大于或者等于I的整數(shù);以及 用于獲得字符串s的集合的裝置,所述字符串s的集合在顯示的字符串的最大數(shù)目少于或者等于K的條件下最大化面積之和,其中K是大于或者等于I的整數(shù),其中所述面積中的每個面積是如下面積,在該面積中,字符串s覆蓋所述上下文字符串C,所述面積由C的以s作為前綴的元素c的數(shù)目與s的長度的乘積來限定。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中用于獲得s的集合的所述裝置基于動態(tài)編程。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中待搜索的文檔集合被配置為頻率有序后綴樹數(shù)據(jù),并且所述動態(tài)編程是對從所述頻率有序后綴樹的搜索結(jié)果獲得的頻率有序上下文樹數(shù)據(jù)的動態(tài)編程。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述動態(tài)編程包括修剪過程,在所述修剪過程中,在對所述頻率有序上下文樹數(shù)據(jù)的進行中的搜索中提供最大值,并且如果上限未達到所述最大值,則放棄所述進行中的搜索。
全文摘要
提供了一種技術(shù),通過該技術(shù)可以適當?shù)馗爬ú⑶以谟邢薹秶鷥?nèi)顯示用于搜索的結(jié)果的外圍上下文。對于字符串C={c1,...,cn}的所有上下文,字符串s所覆蓋的表面積由以s為前綴的c的數(shù)目和s的長度的乘積來限定。另外,對于所有上下文的集合,在具有最多K個字符且長度小于或等于L的字符串集合中,在未選擇屬于另一字符串的部分字符串的條件下獲得使覆蓋的總表面積最大的字符串集合。根據(jù)本發(fā)明,可通過對從所有上下文的單詞查找樹創(chuàng)建的頻率有序上下文樹的動態(tài)編程來有效解決這一問題。根據(jù)本發(fā)明的另一發(fā)現(xiàn),當利用動態(tài)編程獲得最大表面時,通過估計可通過搜索獲得的表面面積的上限,可以從搜索中修剪大量項,由此可以加速處理。另外,通過創(chuàng)建頻率有序后綴樹,其中按照出現(xiàn)頻率排列用于文本的后綴樹的子節(jié)點,可以加速搜索并且獲得最大表面積。
文檔編號G06F17/30GK103052951SQ20118003765
公開日2013年4月17日 申請日期2011年7月11日 優(yōu)先權(quán)日2010年8月6日
發(fā)明者海野裕也, 坪井祐太 申請人:國際商業(yè)機器公司