欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢索方法、檢索裝置的制作方法

文檔序號(hào):6367429閱讀:212來源:國(guó)知局
專利名稱:檢索方法、檢索裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及適合于提示與用戶的意圖相符合的檢索結(jié)果的檢索方法、檢索裝置。
背景技術(shù)
伴隨著文檔的電子化的増大,從以前積蓄的大量文檔群中找出希望的文檔的檢索技術(shù)的重要性提高了。電子設(shè)備中的典型的檢索,從檢索對(duì)象的文檔群中找出包含從用戶接受的檢索詞的文檔并向用戶顯示該找出的文檔。這時(shí),在找到大量包含希望的檢索詞的文檔的情況下,在找到的大量文檔之間賦予優(yōu)先順序,從優(yōu)先順序高的文檔開始進(jìn)行顯示??紤]到各種因素來賦予該優(yōu)先順序,使得與用戶的目的相符合的文檔優(yōu)先顯示。例如,在專利文獻(xiàn)1(日本特開2006-106889號(hào)公 報(bào))中公開了以下技術(shù),即在電子詞典中的檢索中,與用戶的水平對(duì)應(yīng)地賦予要顯示的文檔的優(yōu)先順序,取得與用戶的意圖相符合的檢索結(jié)果。在存在多個(gè)包含希望的檢索詞的文檔的情況下,為了能夠盡量?jī)?yōu)先地提示符合用戶的意圖的文檔,要求一種更簡(jiǎn)便地對(duì)各文檔賦予優(yōu)先順序的方法。特別是在電子詞典這樣的比一般的計(jì)算機(jī)小的電子設(shè)備中,由于處理能力、電池性能這樣的可使用資源有限,因此更強(qiáng)烈希望能夠通過盡可能高效的方法對(duì)文檔賦予優(yōu)先度,優(yōu)先地提示符合用戶的意圖的文檔。

發(fā)明內(nèi)容
本發(fā)明用于解決上述那樣的問題,其目的在于提供ー種適合于提示符合用戶的意圖的檢索結(jié)果的檢索方法、檢索裝置。為了達(dá)到上述目的,本發(fā)明的檢索方法具備以下步驟從多個(gè)文檔數(shù)據(jù)中提取出包含多個(gè)檢索字符串的文檔數(shù)據(jù)的提取步驟;在上述提取出的各個(gè)文檔數(shù)據(jù)中取得包含全部上述多個(gè)檢索字符串的字符串的取得步驟;針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在該文檔數(shù)據(jù)中取得的字符串的字符數(shù),設(shè)定輸出優(yōu)先度的設(shè)定步驟;以及與上述設(shè)定的輸出優(yōu)先度對(duì)應(yīng)地輸出上述提取出的文檔數(shù)據(jù)的輸出步驟。根據(jù)本發(fā)明,能夠提供ー種適合于提示符合用戶的意圖的檢索結(jié)果的檢索方法、檢索裝置。


圖I是表示本發(fā)明的實(shí)施方式的檢索裝置的概要結(jié)構(gòu)的圖。圖2是表示本發(fā)明的實(shí)施方式的檢索裝置的物理結(jié)構(gòu)的圖。圖3是表示本發(fā)明的實(shí)施方式的多個(gè)文檔數(shù)據(jù)的結(jié)構(gòu)的圖。圖4是表示本發(fā)明的實(shí)施方式的檢索裝置的處理的流程的流程圖。圖5、圖6是表示在本發(fā)明的實(shí)施方式中從文檔數(shù)據(jù)中取得包含字符串的情況的圖。
圖7是表示在本發(fā)明的實(shí)施方式的檢索裝置中的候補(bǔ)得分設(shè)定處理的流程的流程圖。圖8、圖9是表示在本發(fā)明的實(shí)施方式中對(duì)包含字符串設(shè)定的候補(bǔ)得分的例子的圖。圖10是針對(duì)本發(fā)明的檢索裝置的結(jié)構(gòu)概要表示其他例子的圖。
具體實(shí)施例方式下面,參照

本發(fā)明的實(shí)施方式。另外,以下說明的實(shí)施方式是用于說明的,并不限制本發(fā)明的范圍。因此,只要是本領(lǐng)域的技術(shù)人員,就能夠采用將下述的各結(jié)構(gòu)要素置換為等價(jià)物所得到的實(shí)施方式,這些實(shí)施方式也包含在本發(fā)明的范圍內(nèi)。另外,在以下的說明中,為了容易理解本發(fā)明,適當(dāng)?shù)厥÷圆恢匾墓募夹g(shù)事項(xiàng)的說明。在本實(shí)施方式中,作為實(shí)現(xiàn)檢索裝置的信息處理裝置,設(shè)想具備電子詞典等功能 的小型信息處理裝置來進(jìn)行說明。即,本實(shí)施方式的檢索裝置是從構(gòu)成電子詞典的多個(gè)文檔數(shù)據(jù)中檢索包含希望的檢索詞的文檔數(shù)據(jù)的裝置。這樣的檢索裝置I具有圖I所示那樣的結(jié)構(gòu),具備控制部100、存儲(chǔ)部110、輸入部120、顯示部130。另ー方面,該檢索裝置I在物理上如圖2所示那樣構(gòu)成,具備CPU (中央處理單元)151、R0M(只讀存儲(chǔ)器)152、RAM (隨機(jī)存取存儲(chǔ)器)153、鍵盤154、監(jiān)視器155。以下,參照?qǐng)DI和圖2,說明檢索裝置I的結(jié)構(gòu)要素??刂撇?00控制檢索裝置I全體的動(dòng)作,與各結(jié)構(gòu)要素連接,收發(fā)控制信號(hào)或數(shù)據(jù)。即,控制部100與存儲(chǔ)部110、輸入部120、顯示部130連接,在利用這些各部的功能的同時(shí),執(zhí)行檢索處理。在此,控制部100具備提取部101、取得部102、設(shè)定部103、輸出部104、跨越判定部105、重疊判定部106。所述各部如后面詳細(xì)說明的那樣執(zhí)行以下的處理,即從存儲(chǔ)在存儲(chǔ)部110中的多個(gè)文檔數(shù)據(jù)(文檔數(shù)據(jù)群300)中確定包含希望的檢索詞的文檔數(shù)據(jù),并按照預(yù)定的順序排序來輸出。這樣的控制部100 (提取部101、取得部102、設(shè)定部103、輸出部104、跨越判定部105、重疊判定部106)例如由CPU151構(gòu)成。在此,CPU151通過用于轉(zhuǎn)發(fā)命令、數(shù)據(jù)的傳輸路徑即系統(tǒng)總線,與各結(jié)構(gòu)要素相互連接,依照記錄在R0M152中的控制檢索裝置I全體的動(dòng)作所需的計(jì)算機(jī)程序或各種數(shù)據(jù)而動(dòng)作。另外,CPU151將從R0M152讀出的計(jì)算機(jī)程序或數(shù)據(jù)、進(jìn)行其他處理所需的數(shù)據(jù)暫時(shí)存儲(chǔ)在RAM153中,同時(shí)控制各種動(dòng)作。這樣通過CPU151與R0M152或RAM153協(xié)作,控制部100對(duì)檢索裝置I全體的動(dòng)作進(jìn)行控制。存儲(chǔ)部110例如由在檢索裝置I內(nèi)具備的R0M152那樣的只讀存儲(chǔ)介質(zhì)構(gòu)成,存儲(chǔ)控制部100進(jìn)行檢索處理所需的各種數(shù)據(jù)。具體地說,在此預(yù)先存儲(chǔ)有作為檢索對(duì)象的多個(gè)文檔數(shù)據(jù)(文檔數(shù)據(jù)群300)。在此,預(yù)先存儲(chǔ)在存儲(chǔ)部110中的文檔數(shù)據(jù)群300如圖3所示那樣構(gòu)成。即,文檔數(shù)據(jù)群300由各個(gè)文檔數(shù)據(jù)301a 301c等構(gòu)成,進(jìn)而,文檔數(shù)據(jù)301a 301c等分別由“詞條”和“說明文”構(gòu)成。即,文檔數(shù)據(jù)301a 301c等是構(gòu)成詞典的構(gòu)成單位,“詞條”是作為該詞典的標(biāo)題的I個(gè)詞句,使I個(gè)詞條對(duì)應(yīng)于I個(gè)文檔數(shù)據(jù)301。另外,“詞條”與說明該詞條的“說明文”對(duì)應(yīng),合并它們而構(gòu)成I個(gè)文檔數(shù)據(jù)301。進(jìn)而,存在“詞條”的個(gè)數(shù)的這樣的文檔數(shù)據(jù)301,全體構(gòu)成文檔數(shù)據(jù)群300。輸入部120例如由鍵盤154那樣的輸入裝置構(gòu)成,接受來自用戶的輸入。具體地說,在此接受來自用戶的檢索詞。所接受的檢索詞被提供給控制部100的提取部101,并被用于提取包含該檢索詞的文檔數(shù)據(jù)301的處理中。顯示部130例如由監(jiān)視器155那樣的顯示裝置構(gòu)成,向用戶顯示由控制部100進(jìn)行處理的結(jié)果。具體地說,在此通過按照后述的預(yù)定的輸出優(yōu)先度的順序?qū)脩羲斎氲臋z索詞的文檔數(shù)據(jù)301輸出到監(jiān)視器155,來向該用戶進(jìn)行顯示。由此,用戶能夠取得包含自身所輸入的檢索詞的文檔數(shù)據(jù)301作為輸出結(jié)果,并進(jìn)行各種利用。另外,輸入部120和顯示部130也可以由觸摸面板等將輸入裝置與顯示裝置組合起來的裝置構(gòu)成。在該情況下,由內(nèi)置于觸摸面板中的觸摸傳感器等構(gòu)成的位置輸入裝置 構(gòu)成輸入部120,由液晶顯示器等構(gòu)成的顯示裝置構(gòu)成顯示部130。以上那樣構(gòu)成的檢索裝置I基于控制部100的控制來進(jìn)行檢索處理。具體地說,按照?qǐng)D4的流程圖所示的步驟執(zhí)行處理。以檢索裝置I的輸入部120接受從用戶輸入的檢索詞為契機(jī)而開始本處理。即,由用戶使用鍵盤154輸入希望的檢索詞并指示進(jìn)行檢索的主_,從而開始本處理。在此,檢索裝置I能夠從用戶接受I個(gè)以上的檢索詞,在接受了多個(gè)檢索詞的情況下,能夠進(jìn)行針對(duì)實(shí)施了它們的邏輯積、邏輯和等各種運(yùn)算處理所得的結(jié)果的檢索。其中,在本實(shí)施方式中,在針對(duì)多個(gè)檢索詞的邏輯積進(jìn)行的檢索處理中發(fā)揮特征,因此,以下設(shè)想從用戶接受了多個(gè)檢索詞而進(jìn)行取得了它們的邏輯積的檢索處理的情況來進(jìn)行說明。如果從用戶接受了多個(gè)檢索詞并開始檢索處理,則首先提取部101從多個(gè)文檔數(shù)據(jù)301a 301c等(文檔數(shù)據(jù)群300)中提取出包含全部多個(gè)檢索詞的文檔數(shù)據(jù)301 (步驟S401)。例如,如果假設(shè)用戶輸入了“ A”、“BC”、“DE”(文檔數(shù)據(jù)是日語或中文,A E表示日語或中文的特定字符)這樣的3詞的檢索詞,則提取部101進(jìn)行在文檔數(shù)據(jù)群300內(nèi)包含的字符串的檢索,提取出包含全部該“A”、“BC”、“DE”這3詞的檢索詞的字符串(檢索字符串)的文檔數(shù)據(jù)301。這時(shí)所進(jìn)行的檢索是所謂的全文檢索,對(duì)各文檔數(shù)據(jù)301內(nèi)的詞條和說明文的字符串進(jìn)行。即,如果在文檔數(shù)據(jù)301內(nèi)的詞條或說明文的某ー個(gè)中包含所輸入的檢索詞,則提取出該文檔數(shù)據(jù)301。另外,這時(shí)所進(jìn)行的檢索的詳細(xì)方法,可以基于公知的檢索技術(shù)的任意ー種技術(shù)。即,提取部101例如可以進(jìn)行逐次型的檢索(grep型的檢索),即按順序地掃描多個(gè)文檔數(shù)據(jù)301a 301c等來找出檢索字符串,或者為了提高檢索處理的速度,也可以進(jìn)行預(yù)先準(zhǔn)備了索引文件的索引型(index型)的檢索。另外,在索引型的檢索的情況下,例如可以通過所謂的形態(tài)分析的方法生成索引文件,也可以通過所謂的N元(N-gram)方法(N字符索引法)來生成索引文件。如果這樣提取出包含多個(gè)檢索詞的文檔數(shù)據(jù)301的處理結(jié)束,則接著由取得部102在提取出的文檔數(shù)據(jù)301內(nèi)取得包含全部多個(gè)檢索詞的字符串(步驟S402)。S卩,從文檔數(shù)據(jù)301內(nèi)的構(gòu)成詞條和說明文的字符串中取得包含所輸入的多個(gè)檢索詞的字符串(以下稱為“包含字符串”)。
例如,以以下情況為例進(jìn)行說明,即如上述的例子那樣輸入“A”、“BC”、“DE”這樣的3詞的檢索詞,作為包含該3個(gè)檢索字符串的文檔數(shù)據(jù)301,如圖5那樣提取出了日語或中文的文檔數(shù)據(jù)301b。在本圖中,在文檔數(shù)據(jù)301b內(nèi)的說明文中具有“□ □ □ □ A □ □ □ □ BCO DE [□△□□□□□□□ BC □□□□”( □表示日語或中文的I個(gè)字符)這樣的字符串,在該字符串中分別包含3個(gè)檢索詞中的2個(gè)“A”、2個(gè)“BC”、1個(gè)“DE”。因此,從該字符串中作為包含這些3詞的檢索詞的字符串,能夠取得“A □□□□ BC □ DE ”這樣的包含字符串,而且不只這I個(gè),還能夠取得“ BC □ DE [ロ A”、“DE[ □ A □□□□□□□ BC”這樣的包含字符串,合計(jì)能夠取得3個(gè)包含字符串。在文檔數(shù)據(jù)301b中在其他句子中也包含檢索詞的情況下,能夠進(jìn)一歩取得包含該3詞的包含字符串。使用圖6說明英語的文檔的情況。例如以以下情況為例進(jìn)行說明,即輸入“ rain”、“result”day”這3詞的檢索詞,作為文檔數(shù)據(jù)301提取出了文檔數(shù)據(jù)301b’。在本圖中,
在文檔數(shù)據(jù) 301b’ 內(nèi)的說明文中具有“ If it rained yesterday, the result of today’sgame had changed by the rain. ”這樣的字符串,在該字符串中分別包含3個(gè)檢索詞中的2個(gè)“rain”、l個(gè)“result'2個(gè)“day”。因此,從該字符串中,作為包含這3詞的檢索詞的包含字符串,能夠取得“〈rain>ed yester<day>, the〈result>”這樣的包含字符串,而且不只是這一個(gè),還能夠取得“〈result>of to〈day>’s game had changed by the〈rain>”這樣的包含字符串,合計(jì)能夠取得2個(gè)包含字符串。在步驟S402中,取得部102從這些能夠取得的包含字符串中取得I個(gè),暫時(shí)保存在 RAM153 中。如果取得了包含字符串,則接著設(shè)定部103對(duì)所取得的包含字符串設(shè)定候補(bǔ)得分(步驟S403)。在此,候補(bǔ)得分用于在后述的輸出文檔數(shù)據(jù)的處理中確定進(jìn)行輸出的順序的優(yōu)先度的指標(biāo)(得分),對(duì)ー個(gè)包含字符串設(shè)定I個(gè)值。以下,參照?qǐng)D7的流程圖說明具體的候補(bǔ)得分的設(shè)定處理。如果開始候補(bǔ)得分的設(shè)定處理,則首先設(shè)定部103將包含字符串的字符數(shù)設(shè)定為候補(bǔ)得分(步驟S601)。即,首先設(shè)定部103對(duì)所取得的包含字符串的字符數(shù)進(jìn)行計(jì)數(shù),將其作為候補(bǔ)得分。具體地說明,在如圖8那樣檢索詞是“FG”和“GH”(F、G、H表示日語或中文的特定的字符)這2詞,從文檔數(shù)據(jù)301內(nèi)取得了包含這2詞的“FG □ GH” ( □是日語或中文的I個(gè)字符)這樣的包含字符串700a的情況的例子中,由于該包含字符串700a的字符數(shù)是5個(gè)字符,所以將該“5”的值設(shè)定為該包含字符串700a的候補(bǔ)得分。另ー方面,在從文檔數(shù)據(jù)301內(nèi)取得了“FG □□□□□ GH”這樣的包含字符串700b的情況的例子中,由于該包含字符串700b的字符數(shù)是9個(gè)字符,所以將該“9”的值設(shè)定為該包含字符串700b的候補(bǔ)得分。這樣,包含字符串的字符數(shù)在其所包含的多個(gè)檢索詞處于相互接近的位置時(shí)變小,相反,在所包含的多個(gè)檢索詞處于相互遠(yuǎn)離的位置時(shí)變大。另外,認(rèn)為多個(gè)檢索詞位于相互接近的位置的文檔數(shù)據(jù)301是符合用戶的檢索意圖的文檔數(shù)據(jù)301的情況較多。因此,通過將包含字符串的字符數(shù)作為候補(bǔ)得分,并作為后述的文檔數(shù)據(jù)301的排列順序的指標(biāo),能夠優(yōu)先地輸出符合用戶的檢索意圖的文檔數(shù)據(jù)301。然后,在候補(bǔ)得分設(shè)定處理中,進(jìn)而由跨越判定部105判定包含字符串是否跨越了多個(gè)句子(步驟S602)。在此,句子是指所謂的語句,通常表示用句點(diǎn)、句號(hào)等分割的ー連串的詞匯。文檔數(shù)據(jù)301內(nèi)的說明文通常由I個(gè)以上的句子構(gòu)成。在此,跨越判定部105判定所取得的包含字符串是否跨越了多個(gè)句子,即包含字符串在其間是否包含句點(diǎn)、句號(hào)。具體地用圖8的例子進(jìn)行說明時(shí),在所取得的包含字符串是“FG □ロ?!酢?GH”這樣的包含字符串700c的情況下,由于包含句點(diǎn)“?!保耘卸榭缭搅硕鄠€(gè)句子。在判定為跨越了多個(gè)句子的情況下(步驟S602 :是),設(shè)定部103將預(yù)定的罰分與候補(bǔ)得分相加(步驟S603)。即,將預(yù)定的罰分與在上述步驟S601中被設(shè)定為包含字符串的字符數(shù)的候補(bǔ)得分相加,使候補(bǔ)得分的值増大。在圖8的例子中,跨越了多個(gè)句子的“FG □ロ。OOGH”這樣的包含字符串700c的候補(bǔ)得分,在作為其字符數(shù)的8字符(句點(diǎn)不包含在字符數(shù)中)上,作為句子罰分而加上“20”的值,而被設(shè)定為“28”的值。通過這樣増大候補(bǔ)得分的值,導(dǎo)致后述的文檔數(shù)據(jù)301的輸出優(yōu)先度的指標(biāo)(得分)降低,導(dǎo)致向用戶輸出的順序推后。即,可以認(rèn)為用戶所輸入的多個(gè)檢索詞分散地存在 于不同句子內(nèi)的文檔數(shù)據(jù)301與集中地存在于I個(gè)句子內(nèi)的文檔數(shù)據(jù)301相比,不是用戶希望找到的文檔數(shù)據(jù)301的可能性高,因此降低向用戶輸出的優(yōu)先度。將在此相加的句子罰分的值設(shè)為文檔數(shù)據(jù)群300 (多個(gè)文檔數(shù)據(jù)301a 301c等)中的句子中的最長(zhǎng)的句子的字符數(shù)以上的值。為此,在檢索裝置I的存儲(chǔ)部110中預(yù)先保存文檔數(shù)據(jù)群300中的最長(zhǎng)的句子的字符數(shù),在每次進(jìn)行檢索時(shí)用作句子罰分。由此,多個(gè)檢索詞分散地存在于多個(gè)句子內(nèi)的文檔數(shù)據(jù)301的得分為集中地存在于I個(gè)句子內(nèi)的某個(gè)文檔數(shù)據(jù)301的得分以上,容易輸出更符合用戶的意圖的檢索結(jié)果。然后,處理轉(zhuǎn)移到步驟S604。另ー方面,在步驟S602中沒有判定為跨越多個(gè)句子的情況下(步驟S602 :否),不通過上述那樣的將句子罰分與候補(bǔ)得分相加的處理而轉(zhuǎn)移到步驟S604。然后,在該步驟S604中,重疊判定部106判定在包含字符串內(nèi)檢索詞是否相互重疊(步驟S604)。即,判定從用戶輸入的多個(gè)檢索詞在包含字符串內(nèi)是否共有位于同一位置的字符。在用戶輸入了 3個(gè)以上的檢索詞的情況下,判定其中的任意2個(gè)檢索詞是否相互重疊。具體地用圖8的例子進(jìn)行說明時(shí),在包含字符串內(nèi)檢索詞相互重疊的情況,相當(dāng)于在輸入了“ FG”和“ GH”這2詞的檢索詞時(shí)取得了“ FGH”這樣的包含字符串700d的情況。這是由于該2詞的檢索詞共有包含字符串700d中的“G”這ー相同的字符。這樣,在判定為重疊的情況下(步驟S604 :是),設(shè)定部103將預(yù)定的罰分與候補(bǔ)得分相加(步驟S605)。具體地說,在圖7的例子中,跨越了多個(gè)句子的“FGH”這樣的包含字符串700d的候補(bǔ)得分,在作為其字符數(shù)的3字符上,作為重疊罰分而加上“30”的值,設(shè)定為“33”的值。這樣增加候補(bǔ)得分的值,是因?yàn)橹丿B地具有用戶所輸入的多個(gè)檢索詞的字符串不符合用戶希望的用法的可能性高。因此,在此設(shè)定部103使候補(bǔ)得分的值増大,降低向用戶輸出的優(yōu)先度。在此相加的重疊罰分的值為比上述句子罰分大的值。具體地說,如圖7的例子那樣,相對(duì)于句子罰分的值為“20”,將重疊罰分的值設(shè)為“30”的大值。其理由是因?yàn)檎J(rèn)為用戶所輸入的多個(gè)檢索詞重疊的文檔數(shù)據(jù)301與跨越多個(gè)句子的文檔數(shù)據(jù)301相比,符合用戶的意圖的可能性一般比較低。另ー方面,在步驟S604中沒有判定為在包含字符串內(nèi)檢索詞相互重疊的情況下(步驟S604 :否),不通過上述那樣的將重疊罰分與候補(bǔ)得分相加的處理而結(jié)束本圖的處理。參照?qǐng)D9說明英語的文檔的具體的候補(bǔ)得分的設(shè)定處理。例如在檢索詞是“his”和“story”這2個(gè)詞,從文檔數(shù)據(jù)301內(nèi)取得了包含該2詞的“his □ story”這樣的包含字符串700a’的情況下,由于字符數(shù)是9字符,所以將該“9”的值設(shè)定為候補(bǔ)得分。另ー方面,在從文檔數(shù)據(jù)301內(nèi)取得了“ his □□□□□ story”這 樣的包含字符串700b’的情況下,由于字符數(shù)是12字符,所以將該“12”的值設(shè)定為候補(bǔ)得分。在所取得的包含字符串是“his . □□ story”這樣的包含字符串700c’的情況下,由于包含句點(diǎn)“.”,所以判定為跨越了多個(gè)句子。在判定為跨越了多個(gè)句子的情況下,將預(yù)定的罰分與候補(bǔ)得分相加。在該例子中,作為句子罰分而加上“50”的值,設(shè)定“62”的值。在輸入了“ his”和“story”這2詞的檢索詞的情況下,在取得了“ history”這樣的包含字符串700d’的情況下,在包含字符串內(nèi)檢索詞相互重疊。這是由于該2詞的檢索詞共有包含字符串700d’中的“s”這ー相同字符。這樣,在判定為重疊的情況下,作為重疊罰分而加上“60”的值,設(shè)定“67”的值。如果圖7的候補(bǔ)得分設(shè)定處理結(jié)束,則檢索裝置I的處理返回圖4的流程圖,轉(zhuǎn)移到步驟S404。然后,如果所設(shè)定的候補(bǔ)得分比已經(jīng)設(shè)定的得分小,則設(shè)定部103將該候補(bǔ)得分設(shè)定為文檔數(shù)據(jù)301的得分(步驟S404)。即,在此,在從ー個(gè)文檔數(shù)據(jù)301內(nèi)取得多個(gè)包含字符串的情況下,為了將其中最小的候補(bǔ)得分設(shè)定為該文檔數(shù)據(jù)301的得分,對(duì)新設(shè)定的候補(bǔ)得分的值與已經(jīng)設(shè)定的得分的值進(jìn)行比較,在該候補(bǔ)得分的值比該得分的值小的情況下,將該候補(bǔ)得分的值設(shè)定為該文檔數(shù)據(jù)301的得分。另外,在從文檔數(shù)據(jù)301取得最初的包含字符串,該文檔數(shù)據(jù)301的得分為未設(shè)定的狀態(tài)的情況下,不對(duì)值進(jìn)行比較,而將該最初的包含字符串的候補(bǔ)得分直接設(shè)定為該文檔數(shù)據(jù)301的得分。然后,檢索裝置I的控制部100判定在文檔數(shù)據(jù)301內(nèi)是否有未處理的包含字符串(步驟S405)。如果有未處理的包含字符串(步驟S405 :是),則處理返回到步驟S402。即,取得文檔數(shù)據(jù)301內(nèi)的未處理的包含字符串,對(duì)該包含字符串設(shè)定候補(bǔ)得分,如果所設(shè)定的候補(bǔ)得分比對(duì)該文檔數(shù)據(jù)301已經(jīng)設(shè)定的得分小,則將該候補(bǔ)得分重新設(shè)定為文檔數(shù)據(jù)301的得分。通過對(duì)所提取出的文檔數(shù)據(jù)301內(nèi)的全部包含字符串重復(fù)進(jìn)行這樣的處理,將能夠從該文檔數(shù)據(jù)301取得的包含字符串的候補(bǔ)得分中的最小的候補(bǔ)得分設(shè)定為該文檔數(shù)據(jù)301的得分。然后,如果沒有未處理的包含字符串(步驟S405 :否),則接著,檢索裝置I的控制部100判定多個(gè)文檔數(shù)據(jù)301a 301c等中是否有未處理的文檔數(shù)據(jù)301 (步驟S406)。如果有未處理的文檔數(shù)據(jù)301 (步驟S406 :是),則處理返回到步驟S401。通過對(duì)包含多個(gè)檢索詞的全部文檔數(shù)據(jù)301重復(fù)進(jìn)行這樣的處理來分別設(shè)定得分。然后,如果沒有未處理的文檔數(shù)據(jù)301 (步驟S406 :否),則接著,輸出部104按照得分從小到大的順序?qū)λ崛〕龅奈臋n數(shù)據(jù)301進(jìn)行排序(步驟S407)。S卩,比較對(duì)各文檔數(shù)據(jù)301設(shè)定的得分的值,升序地進(jìn)行排序。然后,輸出部104進(jìn)而對(duì)得分相同的文檔數(shù)據(jù)301進(jìn)行排序(步驟S408)。這時(shí)的排序著眼于被用于設(shè)定得分(候補(bǔ)得分最小)的包含字符串在文檔數(shù)據(jù)301內(nèi)的位置,使相對(duì)于文檔數(shù)據(jù)301的開頭近的文檔數(shù)據(jù)301優(yōu)先地進(jìn)行排序。這是因?yàn)檎J(rèn)為從用 戶輸入的多個(gè)檢索詞的位置在文檔數(shù)據(jù)301內(nèi)位于離開頭近的位置的文檔數(shù)據(jù)301與位于離開頭遠(yuǎn)的位置的文檔數(shù)據(jù)301相比,是用戶所希望的文檔數(shù)據(jù)301的可能性高。然后,輸出部104按順序地輸出這樣排序后的文檔數(shù)據(jù)301 (步驟S409),結(jié)束處理。即,輸出部104將排序后的文檔數(shù)據(jù)301發(fā)送到顯示部130,并顯示在檢索裝置I的監(jiān)視器155上,由此按照排序的順序向用戶輸出。其結(jié)果是用戶能夠從符合自身的檢索意圖的文檔數(shù)據(jù)301中按順序地確認(rèn)檢索結(jié)果并利用。根據(jù)以上那樣的結(jié)構(gòu),本實(shí)施方式的檢索裝置I在向用戶輸出多個(gè)文檔數(shù)據(jù)301a 301c等中的包含多個(gè)檢索詞的文檔數(shù)據(jù)301時(shí),根據(jù)包含該多個(gè)檢索詞的字符串的字符數(shù)等設(shè)定順序,按照該設(shè)定的順序輸出包含多個(gè)檢索詞的文檔數(shù)據(jù)301。由此,本實(shí)施方式的檢索裝置I能夠通過以簡(jiǎn)便的方法設(shè)定優(yōu)先度來提示符合用戶的意圖的檢索結(jié)果。特別在作為比較短的文檔數(shù)據(jù)的集合體,并且在相互的文檔數(shù)據(jù)之間難以對(duì)所包含的檢索詞的個(gè)數(shù)和可靠性進(jìn)行區(qū)分的電子詞典那樣的信息設(shè)備中,或者在處于可使用的CPU性能、電池性能等有限的環(huán)境中的小型的信息設(shè)備中是有效的。另外,上述實(shí)施方式是ー個(gè)例子,本發(fā)明的適用范圍并不限于此。即,能夠進(jìn)行各種應(yīng)用,所有的實(shí)施方式都包含在本發(fā)明的范圍內(nèi)。例如在上述實(shí)施方式中,檢索裝置I將文檔數(shù)據(jù)群300等存儲(chǔ)在R0M152那樣的存儲(chǔ)部110內(nèi)。但是并不限于此,檢索裝置I也可以具備硬盤等大容量存儲(chǔ)裝置、DVD-ROM驅(qū)動(dòng)器,將文檔數(shù)據(jù)群300等存儲(chǔ)在硬盤、DVD-ROM等中?;蛘邫z索裝置I也可以與網(wǎng)絡(luò)連接,而文檔數(shù)據(jù)群300等存在于網(wǎng)絡(luò)上。另外,在上述實(shí)施方式中,在檢索裝置I中,用戶輸入檢索詞的輸入部120、顯示檢索結(jié)果的顯示部130與控制部100、存儲(chǔ)部110存在于同一裝置內(nèi)。但是并不限于此,輸入部120和顯示部130也可以位于檢索裝置I的外部。S卩,例如如圖10所示,檢索裝置I也可以不具備輸入部120和顯示部130,而經(jīng)由網(wǎng)絡(luò)150與具備它們的終端裝置2連接,構(gòu)成在線型的電子詞典那樣的信息設(shè)備。這時(shí),檢索裝置I和終端裝置2通過各自具備的通信部140a、140b經(jīng)由網(wǎng)絡(luò)150相互進(jìn)行數(shù)據(jù)通信。即,在終端裝置2中用戶通過輸入部120輸入的多個(gè)檢索詞被發(fā)送到檢索裝置1,由控制部100執(zhí)行檢索處理。然后,作為檢索結(jié)果的文檔數(shù)據(jù)的信息在與分別設(shè)定的輸出優(yōu)先度對(duì)應(yīng)的基礎(chǔ)上,再次被發(fā)送到終端裝置2,經(jīng)由顯示部130按照輸出優(yōu)先度從高到低的順序向終端裝置2的用戶顯示。通過采用這樣的結(jié)構(gòu),能夠統(tǒng)一地管理檢索裝置I內(nèi)的文檔數(shù)據(jù)群300等而由多個(gè)用戶利用,另外,用戶側(cè)的終端裝置2不需要保存文檔數(shù)據(jù)群300等,因此有能夠抑制數(shù)據(jù)大小的優(yōu)點(diǎn)。另外,在上述實(shí)施方式中,作為檢索裝置I設(shè)想了電子詞典那樣的小型的信息處理裝置進(jìn)行了說明。但是并不限于此,檢索裝置I也可以是商用、家用的普通的計(jì)算機(jī)裝置、便攜電話等其他信息設(shè)備。另外,并不限于電子詞典中的檢索,也可以是檢索各種電子數(shù)據(jù)。例如在普通的計(jì)算機(jī)裝置中,也可以從存儲(chǔ)在硬盤等大容量存儲(chǔ)裝置或DVD-ROM等中的電子文件中檢索包含希望的檢索字符串的電子文件?;蛘咭部梢耘c網(wǎng)絡(luò)連接,檢索存在于網(wǎng)絡(luò)上的網(wǎng)頁。另外,在上述實(shí)施方式中,構(gòu)成文檔數(shù)據(jù)群300的多個(gè)文檔數(shù)據(jù)301由“詞條”和“說明文”構(gòu)成。但是并不限于此,也可以由各種要素構(gòu)成。例如也可以具有用于說明“詞條”的圖、表。或者,在詞典中的檢索以外的普通電子文件等的檢索中,并不限于這樣的“詞條”和“說明文”的構(gòu)成要素,文檔數(shù)據(jù)301也可以以各種形式具有字符串?dāng)?shù)據(jù)。另外,在上述實(shí)施方式中,文檔數(shù)據(jù)301包含ー個(gè)以上的句子,跨越判定部105判定包含字符串是否跨越多個(gè)句子。這時(shí),將句點(diǎn)、句號(hào)作為句子間的分隔符來進(jìn)行說明。但是并不限于此,也可以將頓號(hào)、逗號(hào)、冒號(hào)、分號(hào)等作為句子間的分隔符。即,跨越判定部105也可以判定包含字符串是否跨越了這些頓號(hào)、逗號(hào)等,在跨越的情況下將預(yù)定的句子罰分與該包含字符串的候補(bǔ)得分相加。 另外,進(jìn)而在此時(shí)也可以針對(duì)每個(gè)分隔符的種類將相加的句子罰分的值設(shè)定為不同的值。即,例如可以將在包含句點(diǎn)時(shí)相加的句子罰分設(shè)為比在包含頓號(hào)時(shí)相加的句子罰分大的值。這樣,通過根據(jù)分隔符的種類而調(diào)整相加的句子罰分的值,使得按照更符合用戶的意圖的順序輸出檢索結(jié)果。另外,同樣,在由重疊判定部106判定為在包含字符串內(nèi)多個(gè)檢索詞重疊時(shí)與該包含字符串的候補(bǔ)得分相加的重疊罰分的值也并不限于預(yù)先確定的I個(gè)值。即,例如可以將在2個(gè)檢索詞相互重疊2字符時(shí)相加的重疊罰分設(shè)為比在只重疊I字符時(shí)相加的重疊罰分大的值。或者,也可以將在ー個(gè)檢索詞完全包含另ー個(gè)檢索詞的時(shí)相加的重疊罰分設(shè)為在相互只重疊一部分時(shí)相加的重疊罰分大的值。列舉具體的例子進(jìn)行說明,在用戶輸入了 “about”和“out”這2個(gè)檢索詞的情況下,如果是包含“about”這樣的字符串的包含字符串,則必然包含“out”的字符串。但是,這樣的包含字符串并不包含“out”的單詞,因此可以認(rèn)為符合用戶的意圖的可能性比2個(gè)檢索詞相互只重疊一部分的情況更低。因此,也可以將在一方完全包含另一方時(shí)相加的重疊罰分的值設(shè)為比其他情況更大的值。這樣,通過根據(jù)重疊的程度來調(diào)整相加的重疊罰分的值,能夠按照更符合用戶的意圖的順序輸出檢索結(jié)果。當(dāng)然,能夠提供預(yù)先具備用于實(shí)現(xiàn)本發(fā)明的功能的結(jié)構(gòu)的檢索裝置,通過程序的應(yīng)用,也可以使現(xiàn)有的個(gè)人計(jì)算機(jī)、信息終端設(shè)備等作為本發(fā)明的檢索裝置發(fā)揮功能。即,通過以能夠由控制現(xiàn)有的個(gè)人計(jì)算機(jī)、信息終端設(shè)備等的CPU等執(zhí)行的方式應(yīng)用用于實(shí)現(xiàn)在上述實(shí)施方式中示例的檢索裝置I的各功能結(jié)構(gòu)的檢索程序,能夠作為本發(fā)明的檢索裝置I來發(fā)揮功能。另外,能夠使用檢索裝置I實(shí)施本發(fā)明的檢索方法。 另外,這樣的程序的應(yīng)用方法是任意的,例如除了能夠存儲(chǔ)于⑶-ROM、DVD-ROM、存儲(chǔ)卡等計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)中來應(yīng)用以外,例如還能夠經(jīng)由因特網(wǎng)等通信介質(zhì)來應(yīng)用。以上,說明了本發(fā)明的優(yōu)選的實(shí)施方式,但本發(fā)明并不限于所述特定的實(shí)施方式,本發(fā)明中包含請(qǐng)求專利保護(hù)的范圍所記載的發(fā)明和與之等同的范圍。
權(quán)利要求
1.一種檢索方法,其特征在于,包括以下步驟 從多個(gè)文檔數(shù)據(jù)中提取出包含多個(gè)檢索字符串的文檔數(shù)據(jù)的提取步驟; 在上述提取出的各個(gè)文檔數(shù)據(jù)中,取得包含全部上述多個(gè)檢索字符串的字符串的取得步驟; 針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在該文檔數(shù)據(jù)中取得的字符串的字符數(shù),設(shè)定輸出優(yōu)先度的設(shè)定步驟;以及 與上述設(shè)定的輸出優(yōu)先度對(duì)應(yīng)地輸出上述提取出的文檔數(shù)據(jù)的輸出步驟。
2.根據(jù)權(quán)利要求I所述的檢索方法,其特征在于, 在上述設(shè)定步驟中, 針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在該文檔數(shù)據(jù)中取得的字符串的字符數(shù)中的最小字符數(shù),設(shè)定輸出優(yōu)先度。
3.根據(jù)權(quán)利要求2所述的檢索方法,其特征在于, 上述多個(gè)文檔數(shù)據(jù)的各個(gè)文檔數(shù)據(jù)包含I個(gè)以上的句子, 所述檢索方法還包括判定上述取得的字符串是否跨越了多個(gè)句子的跨越判定步驟,在上述設(shè)定步驟中,針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在被判定為跨越了上述多個(gè)句子的字符串的字符數(shù)上加上預(yù)定的值所得的字符數(shù),設(shè)定輸出優(yōu)先度。
4.根據(jù)權(quán)利要求3所述的檢索方法,其特征在于, 在上述設(shè)定步驟中,將上述預(yù)定的值設(shè)為在上述多個(gè)文檔數(shù)據(jù)的任意一個(gè)文檔數(shù)據(jù)中包含的句子中的字符數(shù)最大的句子的字符數(shù)以上的值。
5.根據(jù)權(quán)利要求2所述的檢索方法,其特征在于, 還包括判定在上述取得的字符串中包含的多個(gè)檢索字符串是否共有位于同一位置的字符的重疊判定步驟, 在上述設(shè)定步驟中,針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在被判定為上述包含的多個(gè)檢索字符串共有位于同一位置的字符的字符串的字符數(shù)上加上預(yù)定的值所得的字符數(shù),設(shè)定輸出優(yōu)先度。
6.根據(jù)權(quán)利要求5所述的檢索方法,其特征在于, 在上述設(shè)定步驟中,將上述預(yù)定的值設(shè)為在上述多個(gè)文檔數(shù)據(jù)的任意一個(gè)文檔數(shù)據(jù)中包含的句子中的字符數(shù)最大的句子的字符數(shù)以上的值。
7.根據(jù)權(quán)利要求2所述的檢索方法,其特征在于, 在上述輸出步驟中,進(jìn)一步使上述設(shè)定的輸出優(yōu)先度相等的文檔數(shù)據(jù)與第二輸出優(yōu)先度對(duì)應(yīng)地輸出上述提取出的文檔數(shù)據(jù),其中,該第二輸出優(yōu)先度基于該文檔數(shù)據(jù)的開頭字符與被用于設(shè)定該文檔數(shù)據(jù)的輸出優(yōu)先度的字符串之間的字符數(shù)。
8.一種檢索裝置,其特征在于,包括 提取單元,其從多個(gè)文檔數(shù)據(jù)中提取出包含多個(gè)檢索字符串的文檔數(shù)據(jù); 取得單元,其在上述提取出的各個(gè)文檔數(shù)據(jù)中取得包含全部上述多個(gè)檢索字符串的字符串; 設(shè)定單元,其針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)該在文檔數(shù)據(jù)中取得的字符串的字符數(shù)設(shè)定輸出優(yōu)先度;以及 輸出單元,其與上述設(shè)定的輸出優(yōu)先度對(duì)應(yīng)地輸出上述提取出的文檔數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的檢索裝置,其特征在于, 上述設(shè)定單元,針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在該文檔數(shù)據(jù)中取得的字符串的字符數(shù)中的最小字符數(shù),設(shè)定輸出優(yōu)先度。
10.根據(jù)權(quán)利要求9所述的檢索裝置,其特征在于, 上述多個(gè)文檔數(shù)據(jù)的各個(gè)文檔數(shù)據(jù)包含I個(gè)以上的句子, 所述檢索裝置還包括跨越判定單元,其判定上述取得的字符串是否跨越了多個(gè)句子, 上述設(shè)定單元,針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在被判定為跨越了上述多個(gè)句子的字符串的字符數(shù)上加上預(yù)定的值所得的字符數(shù),設(shè)定輸出優(yōu)先度。
11.根據(jù)權(quán)利要求10所述的檢索裝置,其特征在于,上述設(shè)定單元,將上述預(yù)定的值設(shè)為在上述多個(gè)文檔數(shù)據(jù)的任意一個(gè)文檔數(shù)據(jù)中包含的句子中的字符數(shù)最大的句子的字符數(shù)以上的值。
12.根據(jù)權(quán)利要求9所述的檢索裝置,其特征在于, 還包括重疊判定單元,其判定在上述取得的字符串中包含的多個(gè)檢索字符串是否共有位于同一位置的字符, 上述設(shè)定單元,針對(duì)上述提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在被判定為上述包含的多個(gè)檢索字符串共有位于同一位置的字符的字符串的字符數(shù)上加上預(yù)定的值所得的字符數(shù),設(shè)定輸出優(yōu)先度。
13.根據(jù)權(quán)利要求12所述的檢索裝置,其特征在于, 上述設(shè)定單元,將上述預(yù)定的值設(shè)為在上述多個(gè)文檔數(shù)據(jù)的任意一個(gè)文檔數(shù)據(jù)中包含的句子中的字符數(shù)最大的句子的字符數(shù)以上的值。
14.根據(jù)權(quán)利要求9所述的檢索裝置,其特征在于, 上述輸出單元,進(jìn)一步使上述設(shè)定的輸出優(yōu)先度相等的文檔數(shù)據(jù)與第二輸出優(yōu)先度對(duì)應(yīng)地輸出上述提取出的文檔數(shù)據(jù),其中,該第二輸出優(yōu)先度基于該文檔數(shù)據(jù)的開頭字符與被用于設(shè)定該文檔數(shù)據(jù)的輸出優(yōu)先度的字符串之間的字符數(shù)。
全文摘要
本發(fā)明提供一種檢索方法和檢索裝置。檢索裝置(1)具備提取部(101),其從多個(gè)文檔數(shù)據(jù)(文檔數(shù)據(jù)群300)中提取出包含多個(gè)檢索字符串的文檔數(shù)據(jù);取得部(102),其在提取出的各個(gè)文檔數(shù)據(jù)中取得包含全部多個(gè)檢索字符串的字符串、即包含字符串;設(shè)定部(103),其對(duì)于提取出的各個(gè)文檔數(shù)據(jù),根據(jù)在該文檔數(shù)據(jù)中取得的包含字符串的字符數(shù)設(shè)定輸出優(yōu)先度;以及輸出部(104),其與所設(shè)定的輸出優(yōu)先度對(duì)應(yīng)地輸出所提取出的文檔數(shù)據(jù)。
文檔編號(hào)G06F17/30GK102737103SQ20121009159
公開日2012年10月17日 申請(qǐng)日期2012年3月30日 優(yōu)先權(quán)日2011年3月30日
發(fā)明者井手博康 申請(qǐng)人:卡西歐計(jì)算機(jī)株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
平江县| 漳浦县| 德令哈市| 灵山县| 宜兰市| 台湾省| 昌邑市| 昌吉市| 竹山县| 博罗县| 北辰区| 甘谷县| 台北县| 凌源市| 阳江市| 肃宁县| 曲松县| 建始县| 乌兰浩特市| 婺源县| 楚雄市| 靖边县| 左权县| 高邑县| 临汾市| 汾阳市| 叙永县| 阿坝县| 大田县| 淮安市| 乌什县| 昌乐县| 建宁县| 胶南市| 长治县| 宽甸| 镇宁| 长丰县| 宜宾市| 连江县| 东明县|