專利名稱:檢索式生成裝置、檢索系統(tǒng)、檢索式生成方法
技術領域:
本發(fā)明涉及ー種生成用于檢索文件的檢索條件式(search formula)的技術。
背景技術:
文件檢索主要有兩種方法。第I種方法是輸入將關鍵字(任意的字符串)的有無進行了組合的邏輯式,只將該邏輯式為真的文件作為檢索結果輸出的方法。該方法一般被稱為全文檢索(full text search)。將組合了關鍵字的有無的邏輯式的方式稱為檢索(條件)式。第2種方法是輸入文章,輸出使與該文章類似的文件按類似度順序排序(ランク付け)的檢索結果的方法。該方法一般被稱為概念檢索(similarity search)。由于概念檢索只要以文章形式原樣輸入想要檢索的主題(topic)即可,所以即便不是文件檢索專家的人也能夠容易地使用。由于檢索結果被帶順位地顯示,所以用戶能夠從排序靠前(上位)的重要文件開始優(yōu)先查閱。另ー方面,對于文件為何被靠前排序,難以確認其理由。成為概念檢索中的類似度的重要因素是輸入的文章與檢索結果的文件之間的詞語(単語)分布的重復、作為檢索結果而得到的文件的文件長度等。因此,難以簡潔地表現(xiàn)類似度的依據(jù)。另外,概念檢索的構造成為黑箱(black box),類似度的依據(jù)大多為非公開。如果不知道文件作為檢索結果而得到的依據(jù),則用戶不知曉對該檢索結果查閱到什么程度才是足夠的。另外,也無法確認是否完全檢索了所希望的主題。概念檢索如Web頁的檢索那樣,適合于在靠前少數(shù)的文件中有ー個所希望的文件即可的狀況,但針對在專利文獻、學術論文的檢索中希望對某個主題進行網(wǎng)羅性(exhaustive)調(diào)查的狀況,其效率反而差。另ー方面,全文檢索必須利用由關鍵字的邏輯式(Boolean formula)構成的檢索式來表現(xiàn)想要檢索的主題,需要用于構建檢索式的經(jīng)驗和專業(yè)知識。但是,由于檢索文件的基準是檢索式自身,所以對用戶而言,基準明確且容易理解。如果對被檢索出的文件全部進行調(diào)查,則可以說調(diào)查了全部由檢索式表現(xiàn)的主題的文件。為了減輕概念檢索的課題,提出了幾種方法。在下述專利文獻I中,抽出在通過概念檢索而檢索出的靠前數(shù)十件文件中特征性地出現(xiàn)的詞語,將其與檢索結果一同輸出。通過觀看抽出的特征性詞語的集合,可以理解檢索結果的大致情況。在下述非專利文獻I中,基于文件間的類似度,將檢索結果總結顯示為幾個組。由于通過總結成組,檢索結果中包含的主題被自動地匯集,所以與專利文獻I的方法相比更容易掌握檢索結果的特征。在下述非專利文獻2中,根據(jù)檢索結果生成了成為其依據(jù)的關鍵字的邏輯式。通過該文獻,找到盡可能寬范圍覆蓋檢索結果的關鍵字。在找到的關鍵字的覆蓋范圍不充分的情況下,重新找出覆蓋剩余的文件集合的關鍵字。通過該反復尋找,找出能夠充分覆蓋檢索結果的關鍵字,通過邏輯積(product/conjunction)和邏輯和(sum/dis junction)將這些關鍵字連接,生成檢索式。另外,將生成的檢索式作為樹形結構的圖而提示給用戶。
專利文獻I :日本特開平10-74210號公報非專利又獻 I :“Scatter/Gather :a cluster-based approach to browsinglargedocument collections,,,Cutting, D. , Karger, D. , Pedersen, J. , Tukey, J. pp. 318-329, ACMSIGIR’ 92,199非專利文獻2 検索結果の概要を表すキーワード式生成による質問修正支援’’,松生泰典,是津耕司,小山聡,田中克己,データ工學ワークシヨップ(DEWS2005),lCi9,2005。
通過專利文獻I和非專利文獻I所記載的技術,可以抽出概念檢索的結果中包含的特征性詞語,將其作為概念檢索的依據(jù)進行提示。但是,特征性詞語并不一定準確地表示概念檢索的依據(jù)。通過非專利文獻2所記載的技術,僅將漏檢少的程度作為評價基準來抽出詞語。因此,抽出的詞語有可能大多是概念檢索的結果以外的文件(噪聲noise)中的內(nèi)容。這些詞語作為概念檢索的依據(jù)是不恰當?shù)摹?br>
發(fā)明內(nèi)容
本發(fā)明為了解決上述那樣的課題而提出,其目的在于,提供ー種能夠準確且高效地生成成為概念檢索的依據(jù)的檢索式的技術。本發(fā)明涉及的檢索式生成裝置構筑以通過邏輯和將檢索術語(term)的邏輯積結合而成的積和標準形式(standard sum of products form)來表示的檢索條件式,將再現(xiàn)率(遺漏少的程度,recall)與精度(噪聲少的程度,precision)作為基準,對該檢索條件式進行評價。接著,通過反復地將檢索術語的邏輯積中評價值成為最大的邏輯積以邏輯和來結合,來構建檢索條件式。根據(jù)本發(fā)明涉及的檢索式生成裝置,通過用積和標準形式來表示檢索條件式,能夠防止捜索空間(search space)變得龐大。而且,由于按檢索術語的每個邏輯積搜索評價值為最大的邏輯積,將其以邏輯和結合,所以能夠以邏輯積的每ー項高效地搜索用積和標準形式表示的檢索條件式的捜索空間。并且,由于以再現(xiàn)率和精度為基準,按每個檢索術語的邏輯積評價了檢索條件式,所以能夠按每個邏輯積使檢索條件式最佳化,提高檢索條件式的準確性。
圖I是實施方式I涉及的檢索系統(tǒng)1000的構成圖。圖2是表示檢索式生成裝置10的顯示器104進行畫面顯示的檢索接ロ畫面20的畫面印象例的圖。圖3是表示成為生成檢索式的對象的母集合即文件集合D(301)、與能夠由生成的檢索式L檢索的文件集合H(L) (302)的關系的圖。圖4是概念性地表示檢索式生成部105搜索檢索式L的處理的圖。圖5是對圖4中說明的搜索順序進行說明的流程圖。圖6是表示圖5的步驟S505的詳細處理的流程圖。圖7是說明檢索式生成部105對H(L)進行近似計算的方法的圖。
圖8是檢索服務器12所具備的檢索索引123的構成圖。圖9是表示實施方式3中的檢索索引123的構成例的圖。圖10是說明在對文件集合D的一部分進行了取樣的基礎上求取F值(F-measure)的方法的圖。
圖11是實施方式7中的檢索接ロ畫面20的畫面印象例。圖12是表示自動生成的分類規(guī)則的例子的圖。附圖標記說明10 :檢索式生成裝置,101 CPU, 102 :存儲器,103 :鍵盤及鼠標,104 :顯示器,105 檢索式生成部,106 :顯示控制部,107 :數(shù)據(jù)通信部,11 :網(wǎng)絡,12 :檢索服務器,121 CPU,122 :存儲器,123 :檢索索引,124 :檢索部,125 :數(shù)據(jù)通信部,201 :文本輸入?yún)^(qū)域,202 :文本輸入?yún)^(qū)域,203 :顯示區(qū)域,204 :檢索按鈕,205 :再檢索按鈕,206 :依據(jù)按鈕,207 :全選擇按鈕,208 :全解除按鈕,209 :復選框,1101 :文本輸入?yún)^(qū)域,1102 :檢索按鈕,1103 :文本輸入?yún)^(qū)域,1104 :顯示區(qū)域,1105 :再檢索按鈕,1106 :依據(jù)按鈕,1000 :檢索系統(tǒng)。
具體實施例方式<實施方式1>圖I是本發(fā)明的實施方式I涉及的檢索系統(tǒng)1000的構成圖。檢索系統(tǒng)1000具有檢索式生成裝置10和檢索服務器12。它們通過網(wǎng)絡11連接。檢索式生成裝置10是根據(jù)作為對文件進行檢索的結果而得到的檢索結果,生成用于得到該檢索結果的檢索式的裝置。檢索式生成裝置10具備CPU(Central ProcessingUnit) 101、存儲器102、鍵盤及鼠標103、顯示器104、檢索式生成部105、顯示控制部106、數(shù)據(jù)通信部107。CPUlOl執(zhí)行對檢索式生成裝置10的動作進行控制的處理。而且,執(zhí)行后述的各程序。存儲器102是對CPUlOl所執(zhí)行的程序、為了執(zhí)行程序而必要的數(shù)據(jù)等進行存儲的存儲裝置。鍵盤及鼠標103受理來自用戶的操作輸入,將其輸出給CPU101。顯示器104按照顯示控制部106的指示對檢索結果等進行畫面顯示。數(shù)據(jù)通信部107是通過網(wǎng)絡11進行數(shù)據(jù)通信用的通信接ロ,例如可以使用利用TCP/IP協(xié)議進行通信的LAN (Local AreaNetwork)接ロ等來構成。檢索式生成部105根據(jù)作為對文件進行檢索的結果而得到的檢索結果,生成用于獲得該檢索結果的檢索式。檢索式生成部105根據(jù)需要與檢索服務器12通信,收集為了生成檢索式而必要的數(shù)據(jù)。顯示控制部106使顯示器104對后述的圖2中說明的檢索接ロ畫面20進行畫面顯示。顯示控制部106根據(jù)需要與檢索服務器12通信,收集用于畫面顯示所必要的數(shù)據(jù)。檢索式生成部105與顯示控制部106既可以利用實現(xiàn)這些功能的電路器件等硬件來構成,也可以構成為安裝了同樣功能的程序。在將檢索式生成部105與顯示控制部106作為程序進行安裝的情況下,CPUlOl通過執(zhí)行這些程序,來實現(xiàn)這些功能部的動作。數(shù)據(jù)通信部107相當于本發(fā)明中的“檢索結果取得部”。顯示器104相當于“顯示部,,。檢索服務器12是實施文件檢索并將檢索結果發(fā)送給檢索式生成裝置10的裝置。檢索服務器12具備CPU121、存儲器122、檢索索引123、檢索部124、數(shù)據(jù)通信部125。CPU121執(zhí)行對檢索服務器12的動作進行控制的處理。而且,執(zhí)行后述的各程序。存儲器122是對CPU121所執(zhí)行的程序、為了執(zhí)行程序而必要的數(shù)據(jù)等進行存儲的存儲裝置。檢索索引123是將檢索對象的數(shù)據(jù)調(diào)整(整形)成適合于檢索的數(shù)據(jù)結構(索引)的數(shù)據(jù)。檢索索引123例如可以保存到磁存儲介質等存儲介質中。數(shù)據(jù)通信部125是通過網(wǎng)絡11進行數(shù)據(jù)通信的通信接ロ,例如可以使用利用TCP/IP協(xié)議進行通信的LAN接ロ等來構成。檢索部124從檢索 式生成裝置10接受要求檢索文件的請求(request),利用檢索索引123檢索出與檢索式相符的文件,并將檢索結果發(fā)送給檢索式生成裝置10。檢索部124既可以利用實現(xiàn)其功能的電路器件等硬件構成,也可以構成為安裝了同樣功能的程序。在將檢索部124作為程序安裝的情況下,CPU121通過執(zhí)行該程序,來實施檢索部124的動作。圖2是表示檢索式生成裝置10的顯示器104進行畫面顯示的檢索接ロ畫面20的畫面印象例的圖。檢索接ロ畫面20受理來自用戶的操作輸入,對檢索結果以及檢索式生成部105生成的檢索式進行畫面顯示。以下,對與檢索接ロ畫面20的操作相關的動作順序進行說明。(圖2:動作順序步驟I)用戶向文本輸入?yún)^(qū)域201輸入檢索請求。在實施概念檢索的情況下輸入文章,在實施全文檢索的情況下輸入檢索式。這里,表示了實施概念檢索的例子。作為檢索請求,輸入了“特征為含有1,8_桉葉油素(cineole)作為有效成分的塵螨(ヒヨゥヒダニ)的驅蟲劑?!边@ー文章。(圖2:動作順序步驟2)如果用戶點擊了檢索按鈕204,則顯示控制部106取得文本輸入?yún)^(qū)域201被輸入的字符串,通過數(shù)據(jù)通信部107向檢索服務器12發(fā)送將該字符串作為檢索條件的檢索請求。(圖2:動作順序步驟3)檢索服務器12接受檢索式生成裝置10發(fā)送的檢索請求。檢索部124利用檢索索引123檢索與檢索請求相符的文件。檢索部124取得與檢索相符的文件的識別符、標題等,并作為檢索結果發(fā)送給檢索式生成裝置10。(圖2:動作順序步驟4)顯示控制部106通過數(shù)據(jù)通信部107接受檢索結果,將其以列表形式顯示到顯示區(qū)域203。顯示區(qū)域203對檢索結果中包含的文件的標題等進行顯示。在各標題的旁邊配置有對選擇/非選擇進行切換的復選框209。復選框處于選擇狀態(tài)的文件成為生成檢索式的對象。默認下顯示區(qū)域203中顯示的所有文件都被選擇。如果點擊了全選擇按鈕207,則可以統(tǒng)ー選擇所有文件。如果點擊了全解除按鈕208,則可以統(tǒng)ー選擇解除所有文件。(圖2:動作順序步驟5)如果用戶點擊了依據(jù)按鈕206,則顯示控制部106將被選擇的文件的識別符交給檢索式生成部105。檢索式生成部105利用后述的圖3 圖6中說明的方法,生成能夠準確地檢索出在檢索接ロ畫面20上被選擇的文件的檢索式。(圖2:動作順序步驟6)
顯示控制部106將檢索式生成部105生成的檢索式顯示到文本輸入?yún)^(qū)域202。這里顯示了“劑*驅蟲+害蟲*驅蟲*成分”這ー檢索式。啟示了如果利用該檢索式實施全文檢索,則能夠準確地檢索目前所選擇的文件。用戶可以將實施概念檢索而得到的檢索結果的依據(jù)作為與檢索結果等效的檢索式來進行確認。(圖2:動作順序步驟6 :補充)
在圖2所示的例子的情況下,雖然在原來的概念檢索中向文本輸入?yún)^(qū)域201輸入了“塵螨”這ー術語,但在文本輸入?yún)^(qū)域202所顯示的檢索式中使用了更普遍的“害蟲”這ー關鍵字。即,可以說使用了文本輸入?yún)^(qū)域201被輸入的文章的概念檢索的結果,與使用“害蟲”這ー普通的關鍵字進行了全文檢索的結果等效。用戶通過比較文本輸入?yún)^(qū)域201與202的顯示內(nèi)容,可以確認是否實施了網(wǎng)羅性檢索。并且,如果查閱被選擇的文件的內(nèi)容,則可以完全查遍與包含塵螨的“害蟲”相關的文件。(圖2:動作順序步驟7)用戶還可以在文本輸入?yún)^(qū)域202上修正由檢索式生成部105生成的檢索式。如果在修正了檢索式之后點擊再檢索按鈕205,則顯示控制部106取得文本輸入?yún)^(qū)域202被輸入的檢索式,通過數(shù)據(jù)通信部107向檢索服務器12發(fā)送將該檢索式作為檢索條件的檢索請求。檢索服務器12利用該檢索式實施檢索,顯示控制部106將其檢索結果顯示到顯示區(qū)域203。(圖2:動作順序步驟7 :補充)例如,有可能在目前的檢索結果中還包含與塵螨以外的害蟲相關的文件。如果只想要與塵螨有關的文件,則只要將文本輸入?yún)^(qū)域202中顯示的“害蟲”修正為“塵螨”,使用“劑令驅蟲+塵螨令驅蟲令成分”這ー檢索式實施再度檢索即可。以上,對檢索系統(tǒng)1000的構成進行了說明。接下來,對檢索式生成部105生成檢索式的方法進行說明。圖3是表示了成為生成檢索式的對象的母集合即文件集合D (301)、與可以通過生成的檢索式L來檢索的文件集合H(L) (302)的關系的圖。如果是能夠只不漏掉D地進行檢索的檢索式,則D(301)與H(L) (302) —致,所以優(yōu)選找出滿足這樣的條件的檢索式し但是,由于文件集合D的選擇方法的不同,也有時不存在這樣的檢索式。鑒于此,實際上捜索D與H(L)的交集、即DAH(L) (303)盡可能寬泛那樣的檢索式し在本實施方式I中,使用F值作為用于該搜索的目標函數(shù)值。F 值是再現(xiàn)率 R(recall) (304)與精度 P (precision) (305)的調(diào)和平均(307)。再現(xiàn)率R表示通過檢索式L能夠不漏掉D地進行檢索的程度,相當于檢索結果H(L)中的包含在文件集合D的文件相對文件集合D所占的比例。精度P表示通過檢索式L只檢索D的程度,相當于檢索結果H(L)中的包含在文件集合D的文件相對于檢索結果H(L)所占的比例。如果將式304與式305代入到式307,則F值的式由式308表示。式308的分母為D(301)的面積與H(L) (302)的面積之和,式308的分子為D(301)的面積與H(L) (302)的面積的交集即D Λ H(L) (303)的面積的2倍。當D與H(L)相等吋,F(xiàn)值成為最大值I。當D與H(L)完全不重合吋,F(xiàn)值成為最小值O。另外,在本實施方式I中,采用F值作為評價檢索式L的基準,將再現(xiàn)率R與精度P對等地調(diào)和平均,但也可以進行加權,來重視其中一方。由于按照應用,存在希望犧牲精度與再現(xiàn)率的任意一方而重視另一方的情況,所以在這樣的情況下,只要對任意一方施加比另一方重視的權重即可。另外,在本實施方式I中使用了式308所示的F值作為評價檢索式L的基準,但只要是使用再現(xiàn)率R與精度P的評價式,也可以使用式308以外的評價式。
以上,說明了檢索式生成部105生成檢索式L的原理。檢索式生成部105只要搜索使式308所示的F值為最大的檢索式L即可。但是,如果設為能夠使用任意形式的檢索式,則有可能導致搜索空間變龐大。該課題被稱為搜索問題。在本發(fā)明中,為了解決搜索問題,將檢索式的形式限定為積和標準形式,按構成檢索式的邏輯積的每ー項,通過貪婪算法(greedyalgorithm)搜索D。該搜索法與F值的最大化相適合。詳細內(nèi)容將在后面敘述。積和標準形式是如(a * b * c) + (d -k e) + (f -k g)那樣,由檢索術語的邏輯積(* )構成的項以邏輯和(+)結合的形式。在本發(fā)明中,通過反復處理,逐項生成構成積和標準形式的各邏輯積。在上述例子的情況下,由于邏輯積有三個,所以反復處理執(zhí)行3次。在各反復處理中,捜索能夠以目前被提供的文件集合盡可能寬泛、且噪聲的混入變少的方式進行檢索的邏輯積。這里的目標函數(shù)使用前述的F值。接下來,將通過生成的邏輯積能夠檢索的文件從被提供的文件集合中去掉,對剩余的文件集合反復進行相同的處理。如果剩余的文件集合沒了、或能夠新檢索的文件的數(shù)量為規(guī)定閾值以下,則停止反復處理。圖4是概念性地表示檢索式生成部105搜索檢索式L的處理的圖。檢索式生成部105捜索能夠從文件集合D (301)得到所希望的檢索結果的檢索式し以下,對圖4所示的處理順序進行說明。(圖4:處理順序步驟I)檢索式生成部105生成由檢索術語的ー個邏輯積構成的檢索式LI。檢索式生成部105搜索F值為最大的LI。在檢索式生成部105在搜索LI的過程中,將構成邏輯積的檢索術語以及檢索術語的個數(shù)最佳化。例如,得到LI = a * b * c等結果。檢索式LI覆蓋的文件集合是圖4的H(Ll) (302a)。D與H(Ll)重合的部分D Λ H(Ll)是圖4的斜線區(qū)域303ao(圖4:處理順序步驟2)檢索式生成部105針對從文件集合D除去了 H(Ll)的部分實施與步驟I同樣的處理,生成F值為最大的檢索式L2。檢索式L2由檢索術語的ー個邏輯積構成。這里得到的檢索式L2不限于和步驟I相同。例如,得到L2 = d * e等結果。L2所覆蓋的文件集合是圖4 的 H(L2) (302b)。(圖4:處理順序步驟3)檢索式生成部105對從文件集合D除去了 H (LI)和H (L2)的部分實施與步驟I同樣的處理,生成F值為最大的檢索式L3。檢索式L3由檢索術語的ー個邏輯積構成。這里得到的檢索式L3不限于和步驟I 步驟2相同。例如,得到L3 = f * g等結果。L3所覆蓋的文件集合是圖4的H(L3) (302c)。(圖4:處理順序步驟4)檢索式生成部105將與以上同樣的處理反復進行規(guī)定次數(shù)或者直到文件集合D中無法覆蓋的范圍成為規(guī)定范圍以下。這里,將反復次數(shù)假定為3次。檢索式捜索部105將在各步驟中得到的檢索式通過邏輯和來結合,作為最終的檢索式し這里為L = L1+L2+L3=(a · b · c) + (d * e) + (f 女 g)。(圖4:處理順序步驟4 :補充)圖4的用虛線包圍的部分成為檢索式L能夠覆蓋的文件集合。由于在各步驟I 步驟3中,局部地生成了 F值為最大的邏輯積LI L3,所以將它們結合后的積和標準形式的F值也相應地成為大的值。由于利用反復取得局部最佳解的貪婪算法來生成檢索式L,所以并不一定限于得到大范圍(大域)的最大值,可以避免搜索空間變得龐大。圖5是對圖4中說明的搜索順序進行說明的流程圖。以下,對圖5的各步驟進行說明。(圖5 :步驟 S501)檢索式生成部105取得構成文件集合D的各文件。D的要素d_i是各文件的識別符。檢索式生成部105可以向檢索服務器12詢問文件集合D的各構成要素,也可以由用戶輸入各構成要素。(圖5 :步驟 S502)檢索式生成部105將用于輸出最終檢索式L的邏輯交集設為0,將O以空集合進行初始化。(圖5 :步驟 S503)檢索式生成部105設定用于對是否結束本處理進行判定的剰余文件數(shù)閾值c_mirio對于c_min將在步驟S509中另外說明。c_min的值可以預先保存到存儲器102等中,也可以由用戶輸入。(圖5 :步驟 S504)檢索式生成部105反復進行以下的步驟S505 S508,直到滿足在步驟S509中說明的條件為止。(圖5 :步驟 S505)檢索式生成部105搜索F值為最大的檢索式し檢索式L由檢索術語的ー個邏輯積構成。本步驟與在圖4中說明的步驟I 步驟3中分別搜索LI L3的處理對應。本步驟的詳細內(nèi)容將在圖6中另外說明。(圖5 :步驟 S506)檢索式生成部105作為集合O的構成要素而追加在步驟S505中得到的檢索式し(圖5 :步驟 S507 S508)檢索式生成部105將利用在步驟S505中得到的檢索式L能夠檢索的文件集合設為DL(S507)。檢索式生成部105從文件集合D中將DL減去,作為新的文件集合D (S508)。(圖5:步驟 S5O9)檢索式生成部105在文件集合D為空,或者在步驟S505中新檢索到的文件數(shù)(DL的要素數(shù))比閾值c_min小的情況下,結束步驟S505 S508的反復處理。在任一的條件都不滿足的情況下,返回到步驟S505,反復進行同樣的處理。(圖5:步驟S509 :補充)在本步驟中,當能夠新檢索的文件數(shù)小于c_min時,結束反復搜索。該結束條件為了不生成只能夠檢索極少數(shù)量的文件那樣的特殊邏輯積是必要的。在本實施方式I中,由于利用貪婪算法捜索了檢索式L,所以隨著反復處理不斷進行,能夠新覆蓋的文件數(shù)有減少的趨勢。因此,由于能夠覆蓋的文件數(shù)轉變成増加的可能性少,所以可以在DL的要素數(shù)小于c_min的時刻,立即結束反復搜索。(圖5:步驟S510)檢索式生成部105將生成的檢索式所保存的O輸出給顯示控制部106。例如在最終生成了 L= (a * b * c) + (d * e) + (f * g)這一檢索式的情況下,O = {a*b*c,d*
e, f * g} ο圖6是表示圖5的步驟S505的詳細處理的流程圖。以下,對圖6的各步驟進行說明。(圖6 :步驟 S6Ol)檢索式生成部105取得構成文件集合D的各文件。本步驟中的文件集合D等于在步驟S501以及S508中得到的D。(圖6 :步驟 S6O2)檢索式生成部105收集構成在步驟S505中生成的檢索式的邏輯積的候補的檢索術語(關鍵字),將其作為檢索術語集合T??梢詫內(nèi)的文件中出現(xiàn)的所有術語放入到T中,也可以僅將D內(nèi)權重高的規(guī)定個數(shù)術語放入到T中。(圖6 :步驟S602 :補充I)作為對在本步驟中放入到檢索術語集合T中的術語進行選擇的基準的權重,例如可以使用IDF(Inverse Document Frequency :逆向文件頻率)值等。權重的值可以向檢索服務器12詢問,也可以由檢索式生成部105計算。為了計算權重而需要的數(shù)據(jù)、權重的計算方法可以使用任意的公知方法。(圖6 :步驟 S602 :補充 2)在本實施方式I中,假設使用詞語(詞素(part of speech))作為檢索術語,但除此之外例如也可以使用N元字符(character N-gram)等。(圖6:步驟 S603)檢索式生成部105設定搜索的深度的上限l_max。捜索的深度相當于構成檢索式L中包含的各邏輯積的要素數(shù)。例如,當在步驟S505中最大將3個檢索術語的邏輯積設為捜索范圍的情況下,l_max = 3。該情況下,能夠通過邏輯積將檢索術語結合的最大個數(shù)為3個。(圖6:步驟 S604)檢索式生成部105對用于保持正在捜索的地點的集合B進行初始化,設定搜索開起點。例如作為開起點,將T中包含的全部術語不進行邏輯結合地登記到集合B中。該情況下,例如B= {a,b,C,· · ·}。作為將集合B初始化的其他方法,例如可考慮從F值大的檢索術語僅抽出規(guī)定個數(shù),將其登記到B中。(圖6:步驟 S605)檢索式生成部105將集合B中登記的檢索術語中F值最大的術語設為B_max。以后,每當?shù)玫奖菷值大的檢索術語的邏輯積,便更新B_max。(圖6 :步驟 S6O6 S6O7) 檢索式生成部105對表示搜索的深度的變量i進行初始化(S606)。檢索式生成部105反復進行 以下的步驟S607 S613,直到搜索深度i超過上限l_max。步驟S607 S613是針對搜索深度i的搜索處理。即,在步驟S607 S613中,進行幅度優(yōu)先搜索。(圖6 :步驟 S608 S609)檢索式生成部105對表示集合B的構成要素的索引的變量j進行初始化(S608)。檢索式生成部105反復進行以下的步驟S610 S612,直到到達集合B的最終要素編號m為止(S609)。(圖6:步驟 S610)檢索式生成部105將集合T內(nèi)的ー個檢索術語通過邏輯積與集合B的第j個要素B_j結合。以邏輯積結合的檢索術語選擇F值通過結合增加最多的檢索術語。S卩,在本步驟中,通過爬山算法(hill-climbing algorithm)搜索了檢索術語。(圖6:步驟S610 :補充)在上述說明中,結合了 F值最大的邏輯積,但也可以預備采用F值比最大值小的檢索術語,寬泛地確保搜索范圍。該情況下,隨著搜索的進行,導致保持目前的捜索地點的集合B也變大,也可以使用預先決定集合B的要素數(shù)的上限值,從F值大的開始優(yōu)先向集合B登記等方法。(圖6:步驟 S611)如果在步驟S610中新結合了檢索術語的要素BJ的F值比目前的B_max的F值大,則檢索式生成部105用BJ將Bjnax更新。(圖6:步驟 S612)檢索式生成部105使變量j加I (increment)。如果j沒有到達集合B的最終要素編號m,則返回到步驟S609,重復同樣的處理,如果達到了,則結束步驟S609 S612的反復處理。(圖6:步驟 S613)檢索式生成部105使變量i加I。如果i沒有達到搜索深度上限l_max,則返回到步驟S607,重復同樣的處理,如果達到了,則結束步驟S607 S613的反復處理。(圖6:步驟 S614)檢索式生成部105輸出目前的B_max作為本處理的結果。〈實施方式I:總結〉以上,對本實施方式I涉及的檢索式生成裝置10生成檢索式的方法進行了說明。檢索式生成裝置10可以自動生成與概念檢索的檢索結果等效的檢索式。本實施方式I涉及的檢索式生成裝置10以積和標準形式生成用于獲得所希望的檢索結果的檢索式L。由此,能夠防止搜索最佳的檢索式L時的搜索空間變得龐大。另外,本實施方式I涉及的檢索式生成裝置10通過反復進行對檢索術語的每個邏輯積按規(guī)定的評價式進行評價,將評價值最大的邏輯積以邏輯和結合的步驟,生成可以獲得所希望的檢索結果的檢索式し由此,能夠按邏輯積的每ー項高效地搜索檢索式L的捜索空間。由于該方法按構成檢索式L的邏輯和的每ー項實施最佳化,所以非常適合采用積和標準形式的方法,能夠高效地生成檢索式し另外,本實施方式I涉及的檢索式生成裝置10以再現(xiàn)率R和精度P為基準,按檢索術語的每個邏輯積評價檢索式し由此,能夠按每個邏輯積將檢索式L最佳化,提高檢索式L的準確性?!磳嵤┓绞?>在實施方式I中,說明了使用再現(xiàn)率R和精度P對檢索式L進行評價的方法。由于在求取精度P時,需要取得與檢索式L相符合的文件數(shù)、即符合(hit)件數(shù)Ih(L) |,所以檢索式生成部105可以根據(jù)需要向檢索服務器12詢問Ih(L) I。不過,如果不實際使用檢索式L來嘗試實施檢索,則不知道IH(L) I值的準確值。在實施方式I中,由于在搜索過程中多次評價檢索式L,所以導致檢索服務器12實施檢索時的處理負荷變大。將該課題稱為大范圍符合件數(shù)取得問題。鑒于此,在本發(fā)明的實施方式2中,取代實際實施檢索,而使用構成檢索式L的每個關鍵字的符合件數(shù),對Ih(L) I進行近似。由此,試著降低檢索負荷,來解決大范圍符合件數(shù)取得問題。其中,由于檢索系統(tǒng)1000的構成與實施方式I相同,所以下面以用于解決大范圍符合件數(shù)取得問題的方法為中心進行說明。圖7是說明檢索式生成部105近似計算H(L)的方法的圖。以下對圖7所示的順序按每個式進行說明。(圖7:式701)檢索式生成部105在實施圖6的各步驟中計算出F值的步驟(S605和S610)吋,取得作為取得符合件數(shù)|h(l) I的對象的檢索式し由于檢索式生成部105按構成檢索式L的每個邏輯積求取IH(L) I,所以本步驟中的L稱為檢索術語的邏輯積。這里,假設為L =tl * t2 * · · · * t_k。t」是各檢索術語。(圖7:式702)檢索式生成部105取得成為檢索對象的所有文件數(shù)N。N的值可以向檢索服務器12詢問,也可以由用戶輸入。(圖7:式703)在將通過檢索式(邏輯積)L能夠檢索某個文件的概率定義為P(L)時,能夠用L檢索的文件數(shù)H(L)可以通過P(L) * N推定。(圖7:式704)如果構成檢索式(邏輯積)L的各檢索術語t_l t_k近似成在文件內(nèi)獨立出現(xiàn)的檢索術語,則 P (U ^ P(t_l) * P (t_2) * · · · * P (t_k) O(圖7:式705)P(t_i)是用檢索術語t_i能夠檢索某個文件的概率,能夠以t_i的符合件數(shù)H (t_i)相對于所有文件數(shù)N的比來推定。(圖7:式706)根據(jù)以上的式701 式705,可知求取的H(L)能夠通過使用了每個檢索術語的符合件數(shù)H(t_i)之積的式706近似計算。檢索式生成部105最終能夠使用式706,近似計算H(L)。以上,說明了近似計算|h(l) I的原理。接下來,對用于近似計算|h(l) I的具體安裝方案進行說明。圖8是檢索服務器12所具備的檢索索引123的構成圖。為了檢索式生成部105高速取得各術語t_i中每ー個的符合件數(shù)H(t_i),使用檢索索引123所保持的數(shù)據(jù)是有效的。檢索索引123具有檢索術語t_i (801)、包含有檢索術語t_i的文件的列表(802)。該列表802的長度與使用檢索術語t_i實施檢索時的符合件數(shù)H(t_i)相等。檢索服務器12也可以預先計算并保持(803)。在任意ー種的情況下,檢索式生成部105都能夠通過使用檢索索引123所保持的數(shù)據(jù),來高速取得H(t_i)。S卩,可以高速地近似計算|H(L) I?!磳嵤┓绞?:總結〉綜上所述,本實施方式2涉及的檢索式生成裝置10取得由檢索索引123保持的每個檢索術語t_i的符合件數(shù),利用該值近似計算檢索式L的符合件數(shù)|h(l) I。由此,不需要毎次取得符合件數(shù)Ih(L) I再實施檢索,不僅可以降低檢索負荷,而且能夠使生成檢索式L的處理高速化?!磳嵤┓绞?>在實施方式I中,檢索式生成部105在計算再現(xiàn)率R和精度P時需要求出Idah(L) I。由于Idah(L) I是文件集合D中的與檢索式L符合的文件數(shù),所以如果不實際進行檢索,則無法知曉準確的值。將該課題稱為局部符合件數(shù)取得問題。局部符合件數(shù)|d λ h(l) I與大范圍符合件數(shù)|h(l) I相比,對生成的邏輯積的精度有大幅影響。因此,只要處理時間允許,優(yōu)選實際實施檢索來取得。當在現(xiàn)實的時間內(nèi)無法取得|D AH(L) I時,也可以使用檢索索引123來輔助檢索式生成部105。鑒于此,在本發(fā)明的實施方式3中,對將各文件中包含的檢索術語的列表預先保存到檢索索引123內(nèi)并用其來取得|d λ h(l) I的方法進行說明。圖9是表示本實施方式3中的檢索索引123的構成例的圖。在本實施方式3中,檢索索引123除了圖8中說明的構成之外,還保持圖9所示的數(shù)據(jù)。其他的構成與實施方式I 2相同。檢索索引123針對文件集合D中包含的各文件d_i (901),保持該文件包含的檢索術語的列表(902)。檢索式生成部105在求取局部符合件數(shù)|D Λ H(L) I吋,向檢索服務器12詢問檢索式L中包含的全部檢索術語是否包含在針對文件d_i的檢索術語列表902中。由此,可以高速得到D AH(L) I。在檢索索引123沒有保持圖9所示的數(shù)據(jù)而只保持有圖8所示的數(shù)據(jù)時,需要在對各文件d_i中所包含的檢索術語進行解析的基礎上實施同樣的處理。當然,在集合D中包含的文件數(shù)少、能夠在現(xiàn)實的時間內(nèi)取得|D λ H(L) I的情況下,不必一定預先準備圖9所示的數(shù)據(jù)?!磳嵤┓绞?:總結〉綜上所述,本實施方式3涉及的檢索式生成裝置100利用檢索索引123所保持的、文件d_i(901)中包含的檢索術語的列表(902),求出局部符合件數(shù)|D Λ H(L) I。由此,與在對各文件d i中包含的檢索術語進行了解析的基礎上求出Idah(L)I的情況相比,可以減輕處理負荷、高速地生成檢索式し
〈實施方式4>在本發(fā)明的實施方式4中,對取代實施方式3中說明的高速求出局部符合件數(shù)Id λ h(l) I的方法,而通過使用了取樣的近似方法,推定|d λ h(l) I的步驟進行說明。其他的構成與實施方式3相同。圖10是說明在對文件集合D的一部分進行了取樣的基礎上求出F值的方法的圖。優(yōu)選取樣方法采用隨機取樣。圖10的集合S(3011)是從文件集合D(301)中對一部分取樣而得到的文件集合。由于通過隨機取樣抽出集合S,所以與集合D相關的統(tǒng)計量可以通過對與集合S相關的統(tǒng)計量乘以系數(shù)|d|/|s|來推定。因此,局部符合件數(shù)Idah(L)I可以通過對集合s的局部符合件數(shù)Isah(L)I乘以系數(shù)|d|/|s|來推定。綜上所述,用于計算文件集合D的F值的計算式1001可以通過圖10的計算式1002來近似。檢索式生成部105只要使用計算式1002近似計算F值即可。由于通過使用計算式1002,在文件數(shù)比集合D少的集合S的范圍內(nèi)取得局部符合件數(shù),所以可降低求取F值的處理負荷、能夠更高速地生成檢索式し〈實施方式5>實施方式4中說明的計算式1002也可以用于設定邏輯積L的目標符合件數(shù)X。這里,被預先提供了將構成要素不明的要素數(shù)為X的文件集合D中一部分提取后的集合S,以生成檢索文件集合D的邏輯積L為目的進行設定。假設提供的文件集合S是從要素數(shù)為X的假想文件集合D通過隨機取樣而抽出的集合。該情況下,如果生成只能準確地檢索文件集合D的檢索式L,則結果可以得到符合件數(shù)為X的檢索式し因此,檢索式生成部105只要以帶入了 F值=I、|D| =X、|H(L) I =X的計算式1001成立那樣的檢索式L為目標進行搜索即可。在被提供文件集合S的情況下,只要在對計算式1002的Isl帶入了 S的要素數(shù)的基礎上,搜索該式成立那樣的檢索式L即可。由于這里設定的|d| =X為目標值,所以并不限于檢索式生成部105—定能夠準確地生成符合X件的檢索式L,但如果捜索是網(wǎng)羅式捜索,則認為更能接近目標符合件數(shù)X?!磳嵤┓绞?>在本發(fā)明的實施方式6中,說明對構成文件集合D的文件的權重(檢索分數(shù)(score))進行了考慮的動作例。檢索系統(tǒng)1000的構成與實施方式I 5相同。在概念檢索中,檢索結果一般在基于相對于作為檢索條件而輸入的文章的類似度被排序的狀態(tài)下得到。例如,考慮從概念檢索的結果選擇靠前100件來作為集合D,生成與集合D等效的檢索式L的情況。即便是同樣地能夠檢索99件的檢索式,與無法檢索出檢索排序第I位的文件的檢索式相比,可以說無法檢索出檢索排序第100位的文件的檢索式更準確地表示了集合D。即,即便是覆蓋相同文件數(shù)的檢索式,也優(yōu)選更多地覆蓋靠前文件的檢索式。在本實施方式6中,檢索式生成部105按照能夠生成更多地檢索出檢索排序為靠前的文件的檢索式L的方式,在計算F值時,加上檢索分數(shù)。檢索分數(shù)是用于對檢索結果賦予排序時使用的評價值,分數(shù)值越高,越被賦予靠前排序。檢索式生成部105為了生成如能夠優(yōu)先檢索出檢索分數(shù)高的文件那樣的檢索式し取代計算式304的|D 1 (集合D內(nèi)的文件數(shù))而使用集合D內(nèi)的文件的檢索分數(shù)總和。同樣,取代Id λ h(l) I而使用通過檢索式L而符合的集合D內(nèi)的文件的檢索分數(shù)總和。由此,通過計算式304計算出的再現(xiàn)率R成為將能夠檢索式L覆蓋的文件的檢索分數(shù)的值也考慮在內(nèi)。同樣,檢索式生成部105取代計算式305的|H(L)|而使用在利用檢索式L進行檢索時符合的文件的檢索分數(shù)總和。不過,由于難以取得集合D中不包含的文件的檢索分數(shù),所以將集合D內(nèi)的文件的最小檢索分數(shù)作為這些文件的檢索分數(shù)。對于計算式305的Idah(L)而言,與計算式304同樣。另外,各文件的檢索分數(shù)只要在數(shù)據(jù)通信部107從檢索服務器12取得檢索結果時與其一井取得即可。〈實施方式6:總結〉
綜上所述,本實施方式6涉及的檢索式生成裝置10在評價檢索式L吋,使用將檢索分數(shù)考慮在內(nèi)的評價式。由此,由于能夠得到可優(yōu)先檢索出檢索排序為靠前的文件的檢索式L,所以可生成適合檢索需求的檢索式。〈實施方式7>在本發(fā)明的實施方式7中,說明將檢索結果群集化(clustering),針對各自的群集(cluster)生成檢索式并加以顯示的構成。由于和群集化相關的處理以及畫面顯示以外與實施方式I 6相同,所以下面以不同點為中心進行說明。在本實施方式7中,檢索式生成部105將作為檢索結果而得到的文件集合群集化。群集化是將文件集合分割成部分集合(群集)的處理。各部分集合中匯集了相互類似的文件。檢索式生成部105可以使用任意公知的群集化方法。由于如果通過群集化將檢索結果分割成部分集合,則檢索結果被按相關聯(lián)的每個主題整理,所以檢索結果的預料性變好、易于縮小范圍。另ー方面,難以確認各群集中包含的文件具有什么樣的主題。在如非專利文獻I那樣的現(xiàn)有技術中,將各群集中包含的特征性語句與檢索結果一同顯示,但難以只通過特征性語句充分表示該群集中包含的主題。鑒于此,在本實施方式7中,生成能夠檢索各群集中包含的文件集合的檢索式,將其與群集一并顯示。圖11是本實施方式7中的檢索接ロ畫面20的畫面印象例。以下,對與圖11的檢索接ロ畫面20的操作相關的動作順序進行說明。(圖11:動作順序步驟I)用戶向文本輸入?yún)^(qū)域1101輸入檢索請求。在實施概念檢索的情況下輸入文章,在實施全文檢索的情況下輸入檢索式。這里表示了實施概念檢索的例子。作為檢索請求,輸入了“用于拍攝照片或者用于投影或直視照片的裝置”這ー文章。(圖11:動作順序步驟2 步驟3)如果用戶點擊了檢索按鈕1102,則實施與在圖2的步驟2 步驟3中說明的處理相同的處理。(圖11:動作順序步驟4)顯示控制部106通過數(shù)據(jù)通信部107接受檢索結果。檢索式生成部105將檢索結果中包含的文件集合群集化,分割成部分集合。顯示控制部106按每個群集設置顯示區(qū)域1104,在各顯示區(qū)域1104中顯示群集內(nèi)的文件列表。顯示區(qū)域1104的顯示內(nèi)容與圖2相同。(圖11:動作順序步驟5)
顯示控制部106按每個群集設置依據(jù)按鈕1106。如果用戶點擊了依據(jù)按鈕1106,則顯示控制部106將在顯示區(qū)域1104內(nèi)選擇的文件的識別符交給檢索式生成部105。檢索式生成部105生成能夠檢索群集內(nèi)被選擇的文件集合的檢索式。用戶通過從群集的文件中只選擇必要的文件,能夠按照自己的喜好對群集中包含的文件列表進行修正。(圖11:動作順序步驟6)顯示控制部106按每個群集設置文本輸入?yún)^(qū)域1103。顯示控制部106將檢索式生成部105生成的每個 群集的檢索式顯示到文本輸入?yún)^(qū)域1103。(圖11:動作順序步驟7)用戶也可以直接修正文本輸入?yún)^(qū)域1103中顯示的檢索式。如果用戶點擊了再檢索按鈕1105,則顯示控制部106取得文本輸入?yún)^(qū)域1103被輸入的檢索式,通過數(shù)據(jù)通信部107向檢索服務器12發(fā)送將該檢索式作為檢索條件的檢索請求。檢索服務器12使用該檢索式實施檢索,顯示控制部106將該檢索結果顯示到顯示區(qū)域1104。〈實施方式7:總結〉綜上所述,本實施方式7涉及的檢索式生成裝置10將檢索結果群集化,按每個群集顯示檢索結果。而且,按每個群集生成能夠檢索各群集中包含的文件的檢索式。由此,用戶能夠容易地掌握每個群集的特征。另外,本實施方式7涉及的檢索式生成裝置10可以按每個群集修正檢索式并進行再檢索。由此,用戶能夠按每個群集獲得與實施方式I同樣的效果?!磳嵤┓绞?>在本發(fā)明的實施方式8中,說明使用實施方式I 7中說明的檢索式生成裝置10,生成自動賦予文件分類碼的規(guī)則的方法。文件分類碼(controlled category)是在將文件按各文件內(nèi)容的特征分類的基礎上,對各分類賦予的識別碼。由于各分類中包含的文件大多具有同樣的關鍵字,所以如果能夠按每個分類碼生成恰當?shù)臋z索式,則可以使用相同的檢索式進行檢索的文件屬于相同分類的可能性高。在本實施方式8中,利用該情況,將檢索式用作分類規(guī)則。檢索式生成部105將已被賦予分類碼C的文件集合(正確答案訓練數(shù)據(jù))D作為對象,生成檢索式し接著,判定通過生成的檢索式L能夠檢索未被賦予分類碼的文件d (測試數(shù)據(jù))。如果能夠通過檢索式L檢索出文件d,則可以預測為文件d具有分類碼C。這樣,利用根據(jù)正確答案訓練數(shù)據(jù)生成的檢索式L,能夠對測試數(shù)據(jù)自動賦予分類碼。對文件自動分類的方法有很多,但本實施方式8的優(yōu)點在于能夠自由設定分類規(guī)則(生成的檢索式)的精度(precision)。而且,由于分類規(guī)則是邏輯式自身,所以用戶易于理解。如果必要,則用戶也能夠對自動生成的分類規(guī)則進行修正。由于分類規(guī)則是邏輯式的形式、容易判斷,所以修正也容易。圖12是表示自動生成的分類規(guī)則的例子的圖。在該例子中,將具有國際專利分類A61B3“眼睛的檢查裝置;眼睛的診察裝置”這ー IPC碼的1993年公開的專利公開公報的集合作為正確答案訓練數(shù)據(jù),根據(jù)其自動生成了檢索式。如果使用實施方式I中說明的方法,則生成了“(檢眼)+(檢*者)+(眼科*裝置)+ (光學*拍攝*系統(tǒng))”這ー檢索式??梢詫⒃摍z索式作為分類規(guī)則直接使用,例如對1994年公開的專利公開公報自動賦予分類碼?;蛘?,用戶也可以修正分類規(guī)則。
接下來,對根據(jù)暫時生成的分類規(guī)則,重新構建精度(precision)為某ー值以上的分類規(guī)則的方法進行說明。文件分類中具有精度(precision)和再現(xiàn)率(recall)等評價基準。例如,在圖12所說明的例子中考慮“眼科*裝置”這一分類規(guī)則。再現(xiàn)率是在正確答案數(shù)據(jù)(被分類為A61B3的文件)中,符合“眼科*裝置”的文件的比例。即,表示在“眼科*裝置”下正確答案能夠覆蓋怎樣的程度。精度是正確答案數(shù)據(jù)占符合“眼科女裝置”的所有文件的比例。即,表示“眼科女裝置”是何種程度準確的分 類規(guī)則。如果是精度接近于100%的分類規(guī)則,則符合該分類規(guī)則的文件可以幾乎無誤地被賦予目標分類碼。由于只要對于不符合分類規(guī)則的文件,由用戶通過手動作業(yè)賦予分類碼即可,所以能夠削減與分類碼賦予相關的作業(yè)成本。以下,根據(jù)圖12對生成具有規(guī)定以上精度的分類規(guī)則的步驟進行說明。(圖12:分類規(guī)則生成順序步驟I)檢索式生成部105利用在實施方式I 7中說明的步驟,對構成檢索式L的各邏輯積,計算出訓練數(shù)據(jù)中的精度與再現(xiàn)率。這里,設得到了圖12的上半部分所示的4個邏輯積“檢眼” “檢*者” “眼科*裝置” “光學*拍攝*系統(tǒng)”。(圖12:分類規(guī)則生成順序步驟2)用戶將所希望的精度值輸入給檢索式生成裝置10。這里,指定了精度> O. 8。(圖12:分類規(guī)則生成順序步驟3)檢索式生成部105僅抽出精度為O. 8以上的邏輯積,并以邏輯和加以結合。由此,關于訓練數(shù)據(jù),可以生成具有O. 8以上的精度的檢索式“(檢眼)+(眼科*裝置)”。其中,精度的值使用正確答案訓練數(shù)據(jù)計算。(圖12:分類規(guī)則生成順序步驟4)檢索式生成裝置10將在步驟3中得到的檢索式作為分類規(guī)則提示給用戶。由此,可以指定成為目標的精度,自動生成分類規(guī)則。如果使用將目標精度設為足夠高而生成的分類規(guī)則,則能夠以足夠的精度自動賦予分類碼?!磳嵤┓绞?:總結〉綜上所述,本實施方式8涉及的檢索式生成裝置10生成具有被指定以上的精度的檢索式,將其作為文件分類規(guī)則進行提示。由此,能夠自動地以高精度對文件賦予分類碼。<實施方式9>也可以在以上的實施方式I 8中,將檢索式生成部105配置于檢索服務器12。另外,在如實施方式7那樣將檢索結果群集化的情況下,也可以將實施群集化處理的功能部與檢索式生成部105獨立地重新設置。實施群集化的功能部可以配置于檢索式生成裝置10,也可以配置于檢索服務器12。在檢索服務器12具備群集化功能部的情況下,檢索服務器12將檢索結果群集化,將群集(文件集合)的列表發(fā)送給檢索式生成裝置10。以上,基于實施方式對本發(fā)明者研究的發(fā)明具體進行了說明,但本發(fā)明并不限定于上述實施方式,在不脫離其主g的范圍當然能夠進行各種變更。另外,上述各構成、功能、處理部等可以通過將它們的全部或者一部分例如以集成電路進行設計,由此作為硬件來實現(xiàn),也可以通過處理器執(zhí)行用于實現(xiàn)各自的功能的程序,由此作為軟件來實現(xiàn)。實現(xiàn)各功能的程序、表等信息可以保存到存儲器或硬盤等存儲裝置、IC卡、DVD等存儲介質中。實施例[實施例I]在本發(fā)明的實施例I中,說明針對實施方式I中說明的檢索式的精度進行了評價的結果。為了評價精度,使用某個檢索式L來實際檢索文件,井根據(jù)檢索出的文件集合生成檢索式,確認是否能夠復原原來的檢索式L。其中,在使用了檢索式L的檢索結果超過300件的情況下,對300個文件取樣實施了評價。首先,以將2個檢索術語通過邏輯積或邏輯和結合的單純的檢索式進行了實驗。該情況下,58個檢索式中無法再現(xiàn)的檢索式僅有ー個。 對于由三個以上檢索術語構成的復雜的檢索式,52個檢索式中完全復原的有19個。例如,“(放熱+(熱*傳導)+ (傳*熱))*片村”、“(電纜* (廣播+TV))+CATV”等檢索式完全復原。對于此外的33個檢索式,幾乎在所有的情況下都部分復原成功。例如,針對原來的檢索式L “LED+(發(fā)光* (ニ極管+元件))”,生成了“ LED+發(fā)光”。在部分復原成功的例子中,絕大多數(shù)是如此以邏輯和結合的部分不能完全復原的情況。該主要理由是取樣數(shù)的不足。在先前的例子的情況下,“LED+(發(fā)光* (ニ極管+元件))”的符合件數(shù)超過了 5萬件,但復原所使用的文件只是其中的300件。部分也無法復原的檢索式是符合件數(shù)為數(shù)件以下的檢索式。[實施例2]在本發(fā)明的實施例2中,說明使用圖12中生成的精度為O. 8以上的分類規(guī)則“(檢眼)+(眼科*裝置)”,對1994年(訓練數(shù)據(jù)的下一年)公開的專利公開公報賦予了國際專利分類A61B3的結果。在本實施例2中,以精度94%的高精度賦予了分類碼。但是,由于再現(xiàn)率為59%,所以只對應該賦予分類碼的文件的59%進行了賦予。剰余的41 %的文件通過手動或其他方法進行分類,但與不使用分類規(guī)則的情況相比,用于實施賦予作業(yè)的文件數(shù)減少到一半以下。在想要進ー步提高自動賦予分類碼的精度的情況下,例如只要僅將精度為98%的“檢眼”作為分類規(guī)則而使用即可。另外,也可以根據(jù)自動生成的分類規(guī)則,由人施加修正。
權利要求
1.一種檢索式生成裝置,其特征在于,具備 檢索式生成部,生成檢索條件式,該檢索條件式用于從檢索對象的文件集合中檢索出由I個以上的文件構成的母集合;和 檢索結果取得部,取得使用任意的檢索條件式對上述檢索對象進行檢索后得到的結果,并輸出給上述檢索式生成部; 上述檢索式生成部, 從上述檢索結果取得部取得上述檢索結果,計算出再現(xiàn)率和精度,所述再現(xiàn)率表示在將由I個以上的檢索術語構成的邏輯積作為檢索條件式對上述檢索對象進行了檢索的情況下得到的檢索結果中包含于上述母集合的文件相對于上述母集合所占的比例,所述精度表示上述檢索結果中包含于上述母集合的文件相對于上述檢索結果所占的比例, 通過使用上述再現(xiàn)率和上述精度而構建的評價式,對上述邏輯積進行評價, 通過反復地將基于上述評價式而得到的評價值成為最大的上述邏輯積以邏輯和來結合,生成以積和標準形式表示的上述檢索條件式。
2.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 上述檢索結果取得部在上述檢索式生成部計算上述精度時,根據(jù)上述檢索對象的檢索索引中記錄的每個檢索術語的符合件數(shù),取得上述邏輯積中的各檢索術語的符合件數(shù), 上述檢索式生成部使用上述符合件數(shù)來近似上述精度。
3.根據(jù)權利要求2所述的檢索式生成裝置,其特征在于, 上述檢索式生成部, 使用上述符合件數(shù)相對于上述檢索對象中的所有文件數(shù)的比,推定每個檢索術語的符合概率, 使用推定出的上述符合概率來近似上述精度。
4.根據(jù)權利要求3所述的檢索式生成裝置,其特征在于, 上述檢索式生成部通過使每個檢索術語的推定出的上述符合概率相乘,來推定將上述邏輯積作為檢索條件對上述檢索對象進行了檢索時的符合件數(shù),并使用該符合件數(shù)來近似上述精度。
5.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部在計算上述再現(xiàn)率或者上述精度中的至少一個時,通過查詢在屬于上述母集合的各文件的檢索索引中記錄的、包含在上述各文件內(nèi)的檢索術語的列表,取得上述檢索結果中的包含于上述母集合的文件的數(shù)量。
6.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部, 對從上述母集合取樣后得到的文件集合計算出上述再現(xiàn)率或者上述精度中的至少一個, 通過使用該計算結果和上述取樣的取樣率而構建的評價式,對上述邏輯積進行評價。
7.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 上述檢索結果取得部取得將上述邏輯積作為檢索條件對上述檢索對象進行了檢索的情況下得到的檢索結果中所包含的各文件的權重系數(shù), 上述檢索式生成部使用上述權重系數(shù)計算出上述再現(xiàn)率或者上述精度中的至少一個。
8.根據(jù)權利要求7所述的檢索式生成裝置,其特征在于, 上述檢索式生成部將包含于上述母集合中的文件的權重系數(shù)中最小的權重系數(shù),近似作為不包含于上述母集合中的文件的權重系數(shù)。
9.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 具備對上述檢索結果取得部所取得的檢索結果進行顯示的顯示部, 上述檢索式生成部生成用于獲得上述檢索結果的上述檢索條件式,使該檢索條件式與上述檢索結果一起顯示在上述顯示部上。
10.根據(jù)權利要求9所述的檢索式生成裝置,其特征在于, 上述顯示部具有用于對上述檢索式生成部所生成的上述檢索條件式進行修正的輸入欄, 上述檢索結果取得部使用上述輸入欄中被輸入的修正后的檢索條件式,取得對上述文件進行檢索后得到的結果,并顯示在上述顯示部上。
11.根據(jù)權利要求9所述的檢索式生成裝置,其特征在于, 上述檢索式生成部將上述檢索結果取得部所取得的檢索結果群集化, 上述顯示部按通過上述群集化而得到的每個群集來顯示上述檢索結果。
12.根據(jù)權利要求11所述的檢索式生成裝置,其特征在于, 上述顯示部按通過上述群集化而得到的每個群集具有用于對上述檢索式生成部所生成的上述檢索條件式進行修正的輸入欄, 上述檢索結果取得部使用上述輸入欄中被輸入的修正后的檢索條件式,取得對上述文件進行檢索后得到的結果,并按通過上述群集化而得到的每個群集使上述顯示部顯示該結果。
13.根據(jù)權利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部接受上述精度的指定值作為輸入,生成具有上述指定值以上的上述精度的上述檢索條件式。
14.一種檢索系統(tǒng),其特征在于, 具有權利要求I所述的檢索式生成裝置;和 根據(jù)任意的檢索條件式對上述檢索對象進行檢索的檢索服務器, 上述檢索結果取得部從上述檢索服務器取得使用上述檢索條件式對上述檢索對象進行檢索后得到的結果。
15.—種檢索式生成方法,其特征在于,具有 檢索式生成步驟,生成檢索條件式,該檢索條件式用于從檢索對象的文件集合中檢索出由I個以上的文件構成的母集合;和 檢索結果取得步驟,取得使用任意的檢索條件式對上述檢索對象進行檢索后得到的結果; 在上述檢索式生成步驟中, 通過上述檢索結果取得步驟取得上述檢索結果,計算出再現(xiàn)率和精度,所述再現(xiàn)率表示在將由I個以上的檢索術語構成的邏輯積作為檢索條件式對上述檢索對象進行了檢索的情況下得到的檢索結果中包含于上述母集合的文件相對于上述母集合所占的比例,所述精度表示上述檢索結果中包含于上述母集合的文件相對于上述檢索結果所占的比例,通過使用上述再現(xiàn)率和上述精度而構建的評價式,對上述邏輯積進行評價, 通過反復地將基于上述評價式而得到的評價值成為最大的上述邏輯積以邏輯和來結合,生成以積和標準形式表示的上述檢索條件式。
16.根據(jù)權利要求15所述的檢索式生成方法,其特征在于, 具有接受上述精度的指定值作為輸入的步驟, 在上述檢索式生成步驟中,生成具有上述指定值以上的上述精度的上述檢索條件式。
全文摘要
本發(fā)明涉及檢索式生成裝置、檢索系統(tǒng)、檢索式生成方法,用于提供一種準確且高效地生成成為概念檢索的依據(jù)的檢索式的技術。本發(fā)明涉及的檢索式生成裝置構建以將檢索術語的邏輯積通過邏輯和結合的積和標準形式來表示的檢索條件式,將再現(xiàn)率和精度作為基準,對該檢索條件式進行評價。接著,反復地將檢索術語的邏輯積中評價值為最大的邏輯積以邏輯和結合,由此來構建檢索條件式。
文檔編號G06F17/30GK102622389SQ20111024098
公開日2012年8月1日 申請日期2011年8月22日 優(yōu)先權日2011年1月28日
發(fā)明者巖山真 申請人:株式會社日立制作所