專利名稱:信息搜索裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種進(jìn)行文檔搜索的信息搜索裝置及方法。
技術(shù)背景近年來(lái),由于計(jì)算機(jī)技術(shù)的發(fā)展以及計(jì)算機(jī)中使用的記錄介質(zhì)容量的 增長(zhǎng),已經(jīng)提出了許多用于在記錄介質(zhì)中進(jìn)行搜索的技術(shù)。例如,利用用 戶使用的終端設(shè)備進(jìn)行日常搜索的技術(shù)包括稱為桌面搜索技術(shù)的技術(shù)。通過使用桌面搜索技術(shù),可以從記錄在終端設(shè)備(如個(gè)人計(jì)算機(jī)(PC))內(nèi)的存儲(chǔ)介質(zhì)(如硬盤)上的一組文檔中搜索特定文檔。當(dāng)進(jìn)行文檔搜索時(shí),用 戶不僅能夠指定文檔中所包含的關(guān)鍵字作為搜索條件,而且可以指定諸如文檔的文件格式(例如,e-mail、文字處理器、電子表格、演講稿等等)、文 檔創(chuàng)建日期、文檔更新日期、文檔創(chuàng)建者、文檔作為e-mail消息發(fā)送展收 的日期、以及e-mail消息的發(fā)送者/接收者來(lái)作為搜索條件。通過使用桌面 搜索技術(shù),用戶能夠搜索終端設(shè)備內(nèi)的所需文檔。當(dāng)進(jìn)行桌面搜索時(shí),如果作為要進(jìn)行搜索的搜索目標(biāo)的存儲(chǔ)介質(zhì)中存 儲(chǔ)有大量文檔,則用戶需要指定適當(dāng)?shù)年P(guān)鍵字和/或適當(dāng)?shù)膶傩孕畔⒆鳛樗?索條件。在用戶未能指定適當(dāng)?shù)年P(guān)鍵字和域適當(dāng)?shù)膶傩孕畔⒌那闆r下,將 輸出大量文檔作為搜索結(jié)果。這種情況有時(shí)使得難以找到所需文檔。此外,對(duì)于搜索結(jié)果的輸出,桌面搜索不能使用web搜索所使用的技 術(shù),利用該技術(shù),根據(jù)與其它文檔的鏈接關(guān)系,具有較高可靠性等級(jí)的文 檔以較高排名輸出(例如,搜索引擎所用的網(wǎng)頁(yè)排名(pagemnk)算法)。因此, 在桌面搜索中,用戶所需文檔不一定在搜索結(jié)果中以較高排名輸出。因此, 用戶需要從輸出的搜索結(jié)果中的多個(gè)文檔中査找所需文檔。在這種情況下, 用戶需要花費(fèi)大量時(shí)間瀏覽搜索結(jié)果。為了避免這一問題,用戶需要指定適當(dāng)?shù)年P(guān)鍵字和/或適當(dāng)?shù)膶傩宰鳛?搜索條件。因此,指定搜索條件需要花費(fèi)大量精力和時(shí)間。此外,為了用戶提出并指定適當(dāng)?shù)乃阉鳁l件,用戶需要詳細(xì)知道他/她能夠使用的屬性信 息。因此,在用戶不熟悉搜索的情況下,用戶指定搜索條件甚至花費(fèi)更多 精力和時(shí)間。另外,已經(jīng)提出了一種基于所指定單詞的內(nèi)容來(lái)確定用戶意圖的技術(shù)。 看上去可以通過使用基于所指定單詞的內(nèi)容所確定的用戶意圖來(lái)指定更適當(dāng)?shù)乃阉鳁l件。例如,在JP-A 2006-65754(KOKAI)中公開了基于所指定單 詞的內(nèi)容確定用戶目的的技術(shù)的一個(gè)實(shí)例。根據(jù)JP-A 2006-65754(KOKAI)中所公開的技術(shù),提供了一個(gè)關(guān)于單詞 的詞典。通過使用該詞典,屬性信息被附加到包含在文檔中的每個(gè)單詞上, 該屬性信息代表對(duì)應(yīng)單詞的含義。當(dāng)用戶選擇了多個(gè)單詞中的一個(gè)時(shí),可 以基于附加到該單詞的屬性信息來(lái)分析用戶所指定的單詞的內(nèi)容。但是,JP-A 2006-65754(KOKAI)中所公開的技術(shù)用于分析用戶所采取 的動(dòng)作的目的,而非用于指定用于進(jìn)行文檔搜索的搜索條件。因此,難以 將這一技術(shù)應(yīng)用于指定搜索條件。發(fā)明內(nèi)容根據(jù)本發(fā)明的一個(gè)方面, 一種信息搜索裝置,包括文檔累積單元, 用于累積多個(gè)文檔;字符串累積單元,用于累積多個(gè)第一字符串、多個(gè)第二字符串以及多個(gè)屬性,并將所述多個(gè)第一字符串和所述多個(gè)第二字符串 相互對(duì)應(yīng),其中所述多個(gè)第一字符串包含在所述多個(gè)文檔的任意一個(gè)中并 且用作搜索關(guān)鍵字,所述多個(gè)第二字符串包含在包括所述多個(gè)第一字符串的同一個(gè)文檔中,所述屬性是通過提取所述多個(gè)第二字符串來(lái)獲取的;存 儲(chǔ)單元,用于相互對(duì)應(yīng)地初步存儲(chǔ)所述多個(gè)屬性和指定信息,所述指定信 息是從所述多個(gè)第一字符串和所述文檔的至少一個(gè)中指定的;輸入接收單 元,用于接收第一字符串的輸入;獲取單元,用于從所述輸入接收單元接 收到的作為輸入的所述第一字符串和包含所述第一字符串的文檔的至少一 個(gè)中獲取指定信息;屬性提取單元,用于從條件存儲(chǔ)單元中提取與所述獲 取單元所獲取的所述指定信息相對(duì)應(yīng)的一個(gè)屬性;字符串提取單元,用于 從所述字符串累積單元中提取與所述輸入接收單元接收到的作為輸入的所 述第一字符串相對(duì)應(yīng)的并且所述屬性提取單元提取了屬性的第二字符串;以及搜索單元,用于從所述文檔累積單元中搜索包含所述輸入接收單元接 收到的作為輸入的所述第一字符串和所述字符串提取單元所提取的所述第 二字符串這兩者的一個(gè)文檔。根據(jù)本發(fā)明的另一方面, 一種信息搜索方法,包括在文檔累積單元 中累積多個(gè)文檔;在字符串累積單元中累積多個(gè)第一字符串、多個(gè)第二字 符串以及多個(gè)屬性,并將所述多個(gè)第一字符串和所述多個(gè)第二字符串相互 對(duì)應(yīng),其中所述多個(gè)第一字符串包含在所述多個(gè)文檔的任意一個(gè)中并且用 作搜索關(guān)鍵字,所述多個(gè)第二字符串包含在包括所述多個(gè)第一字符串的同 一個(gè)文檔中,所述屬性是通過提取所述多個(gè)第二字符串來(lái)獲取的;在存儲(chǔ)單元中相互對(duì)應(yīng)地初步存儲(chǔ)所述多個(gè)屬性和指定信息,所述指定信息是從所述多個(gè)第一字符串和所述文檔的至少一個(gè)中指定的;接收第一字符串的 輸入;從在所述接收步驟中作為輸入的所述第一字符串和包含所述第一字 符串的文檔的至少一個(gè)中獲取指定信息;從所述存儲(chǔ)單元中提取與所述獲 取步驟中所獲取的所述指定信息相對(duì)應(yīng)的一個(gè)屬性;從所述字符串累積單 元中提取與所述接收步驟中接收到的作為輸入的所述第一字符串相對(duì)應(yīng)的 并且在所述提取步驟中提取了屬性的第二字符串;以及從所述文檔累積單 元中搜索包含所述接收步驟中接收到的作為輸入的所述第一字符串和所述 字符串提取步驟中所提取的所述第二字符串這兩者的一個(gè)文檔。
圖1是根據(jù)本發(fā)明第一實(shí)施例的桌面搜索裝置的方框圖; 圖2是用于解釋存儲(chǔ)在共現(xiàn)單詞累積單元中的共現(xiàn)關(guān)系保存表的結(jié)構(gòu) 的圖;圖3是用于解釋存儲(chǔ)在條件存儲(chǔ)單元中的通用搜索條件保存表的結(jié)構(gòu) 的圖;圖4是用于解釋語(yǔ)義屬性對(duì)應(yīng)表的結(jié)構(gòu)的圖;圖5是用于解釋歷史保存表的結(jié)構(gòu)的圖;圖6是桌面搜索裝置所執(zhí)行的搜索處理中的過程的流程圖;圖7是用于說明文檔顯示單元所顯示的文檔的實(shí)例的圖;圖8是用于解釋利用指定設(shè)備從文檔顯示單元所顯示的文檔中選擇關(guān)鍵字的情況的圖;圖9是用于說明單詞顯示單元所顯示的單詞的實(shí)例的圖;圖10是用于說明搜索結(jié)果顯示單元所顯示的屬性類型的實(shí)例的圖;圖11是用于說明在搜索單元只檢測(cè)到兩個(gè)文檔的情況下搜索結(jié)果顯示單元顯示文檔名的實(shí)例的圖;圖12是用于說明在從用戶接收到文檔選擇的情況下搜索結(jié)果顯示單元所顯示的文檔的實(shí)例的圖;圖13是用于說明單詞顯示單元所提取的單詞被顯示并被根據(jù)其語(yǔ)義屬性進(jìn)行分類的實(shí)例的圖;圖14是用于說明搜索結(jié)果顯示單元所顯示的屬性類型的實(shí)例的圖;圖15是用于說明搜索結(jié)果顯示單元所顯示的文檔名的實(shí)例的圖;圖16是特征單詞提取單元從文檔中提取特征單詞所執(zhí)行的處理中的過程的流程圖;圖17是桌面搜索裝置生成通用搜索條件所執(zhí)行的處理中的過程的流程圖;圖18是用于說明信息生成單元新生成的通用搜索條件的實(shí)例的圖; 圖19是用于說明用于修正信息生成單元所生成的通用搜索條件的用戶 界面的實(shí)例的圖;圖20是用于說明在用戶執(zhí)行了修正操作后的狀態(tài)下所顯示的用戶界面 的實(shí)例的圖;圖21是用于說明在用戶已選擇了關(guān)鍵字的情況下,呈現(xiàn)基于該關(guān)鍵字 提取的通用搜索標(biāo)準(zhǔn)的名稱的實(shí)例的圖;圖22是用于說明在從用戶接收到對(duì)"搜索提案材料"的方法的選擇的 情況下顯示窗口的實(shí)例的圖;圖23是用于說明為了接收關(guān)鍵字輸入而顯示的窗口的實(shí)例的圖;圖24是用于說明在輸入了關(guān)鍵字后進(jìn)行搜索的情況下,與輸入的關(guān)鍵 字共現(xiàn)的單詞被搜索結(jié)果顯示單元顯示,并被根據(jù)其屬性類型進(jìn)行分類的 實(shí)例的圖;以及圖25是用于說明桌面搜索裝置的硬件配置的圖。
具體實(shí)施方式
此后將參考附圖,詳細(xì)解釋信息搜索裝置和信息搜索方法的示例性實(shí) 施例。在下述示例性實(shí)施例中,信息搜索裝置應(yīng)用于桌面搜索裝置。但是, 信息搜索裝置也可以應(yīng)用于除桌面搜索裝置外的各種其它裝置。如圖1中所示,根據(jù)本發(fā)明第一實(shí)施例的桌面搜索裝置100包括文 檔累積單元101;共現(xiàn)單詞累積單元102;條件存儲(chǔ)單元103;歷史存儲(chǔ)單 元104;語(yǔ)義屬性累積單元105;文檔顯示單元106;輸入接收單元107; 特征單詞提取單元108;語(yǔ)義屬性獲取單元109;條件提取單元110;單詞 提取單元lll;單詞顯示單元112;單詞選擇接收單元113;搜索單元114; 搜索結(jié)果顯示單元115;信息生成單元116;文檔輸入處理單元117;語(yǔ)義 屬性分析單元118;共現(xiàn)單詞注冊(cè)單元119;文檔注冊(cè)單元120;文檔屬性 提取單元121;以及搜索條件注冊(cè)單元122。桌面搜索裝置100是可用來(lái)從諸如文字處理器或web瀏覽器的應(yīng)用程 序所顯示的文檔中接收用戶選擇的關(guān)鍵字并在文檔累積單元101中搜索與所接收的關(guān)鍵字相關(guān)的文檔的裝置。文檔累積單元101中累積有作為要進(jìn)行搜索的搜索目標(biāo)的文檔以及搜 索索引信息。搜索索引信息的實(shí)例包括所累積的文檔中包括的詞素、每 個(gè)文檔的格式、每個(gè)文檔的創(chuàng)建日期以及每個(gè)文檔的創(chuàng)建者。在e-mail消 息作為文檔累積在文檔累積單元101中的情況下,可以使用以下信息作為 搜索索引信息e-mail消息發(fā)送/接收的日期、e-mail消息的發(fā)送者/接收者 以及e-mail消息是否附有數(shù)據(jù)??梢允褂霉淖烂嫠阉骷夹g(shù)來(lái)實(shí)現(xiàn)文檔累積單元IOI。因此,省略對(duì) 其的進(jìn)一步解釋。共現(xiàn)單詞累積單元102中累積有與文檔累積單元101中所累積的文檔 所包含的任意單詞具有共現(xiàn)關(guān)系的單詞,同時(shí)保持共現(xiàn)單詞與共現(xiàn)單詞所 代表的語(yǔ)義屬性相對(duì)應(yīng)。如圖2中所示,共現(xiàn)關(guān)系保存表中存儲(chǔ)有與其共現(xiàn)單詞相對(duì)應(yīng)的單詞, 同時(shí)根據(jù)其語(yǔ)義屬性對(duì)共現(xiàn)單詞進(jìn)行分類,其中每個(gè)共現(xiàn)單詞與所述單詞 中的一個(gè)對(duì)應(yīng)單詞具有共現(xiàn)關(guān)系。當(dāng)搜索文檔時(shí),存儲(chǔ)在共現(xiàn)關(guān)系保存表 中的任意單詞和共現(xiàn)單詞可以作為搜索關(guān)鍵字。此外,共現(xiàn)關(guān)系保存表中存儲(chǔ)的由一個(gè)單詞和與該單詞具有共現(xiàn)關(guān)系 的另一個(gè)單詞組成的每個(gè)組合包含在文檔累積單元101中存儲(chǔ)的同一文檔 中。但是,共現(xiàn)關(guān)系保存表的形式不限于這一實(shí)例。共現(xiàn)關(guān)系保存表可以 具有任意其它格式,只要共現(xiàn)關(guān)系保存表中存儲(chǔ)有出現(xiàn)在同一文檔中的單 詞之間的共現(xiàn)關(guān)系并且使得可以搜索具有共現(xiàn)關(guān)系的單詞。進(jìn)一步地,作 為一種實(shí)現(xiàn)共現(xiàn)關(guān)系保存表的方法,可以使用例如關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)。條件存儲(chǔ)單元103中存儲(chǔ)有通用搜索條件保存表。通用搜索條件保存 表中存儲(chǔ)有根據(jù)用戶所選關(guān)鍵字和包含所選關(guān)鍵字的文檔中的一個(gè)所指定 的指定信息,以及對(duì)應(yīng)于該指定信息的通用搜索條件。通用搜索條件是用 于縮小作為搜索目標(biāo)的文檔的條件,其是通過用戶之前已經(jīng)進(jìn)行的搜索中 所使用的通用搜索標(biāo)準(zhǔn)來(lái)獲得的。通過使用這種通用搜索條件進(jìn)行搜索, 用戶能夠進(jìn)行所需搜索而不需指定復(fù)雜的搜索條件。通用搜索條件是根據(jù) 存儲(chǔ)歷史存儲(chǔ)單元104中的歷史信息生成的,將在其后對(duì)其進(jìn)行解釋。以 下將詳細(xì)解釋生成通用搜索條件的方法。通用搜索條件包括用于從共現(xiàn)關(guān)系保存表中提取作為附加搜索關(guān)鍵字 的單詞的語(yǔ)義屬性,以及用于縮小作為搜索目標(biāo)的文檔的縮小條件。語(yǔ)義 屬性表示通過對(duì)作為搜索關(guān)鍵字的單詞進(jìn)行抽象所獲取的屬性。例如,當(dāng) 作為搜索關(guān)鍵字的單詞是"小野"或"中村"時(shí),語(yǔ)義屬性是"名字"。根據(jù)第一實(shí)施例,作為用于縮小文檔的縮小條件,使用"創(chuàng)建者或發(fā) 送者/接收者"或者"創(chuàng)建或發(fā)送/接收日期"。根據(jù)第一實(shí)施例,指定信息 是從包含關(guān)鍵字的文檔中提取的"關(guān)鍵字語(yǔ)義屬性"或"特征單詞"。還可 以使用除了關(guān)鍵字語(yǔ)義屬性和特征單詞之外的其它信息作為指定信息。如圖3中所示,通用搜索條件保存表中存儲(chǔ)有"關(guān)鍵字語(yǔ)義屬性"、"特 征單詞"、"附加關(guān)鍵字語(yǔ)義屬性"、"搜索過程中縮小處理所用屬性信息"、 "文件格式"、"創(chuàng)建者或發(fā)送者/接收者"、以及"創(chuàng)建或發(fā)送/接收日期", 并保持這些信息相互對(duì)應(yīng)。因?yàn)橥ㄓ盟阉鳁l件保存表具有上述表結(jié)構(gòu),所 以可以根據(jù)從包含關(guān)鍵字語(yǔ)義屬性和關(guān)鍵字的文檔中提取的特征單詞,來(lái) 識(shí)別附加關(guān)鍵字語(yǔ)義屬性和搜索過程中用于縮小文檔所使用的縮小條件。 存儲(chǔ)一個(gè)或多個(gè)以下信息作為"搜索過程中縮小處理所用屬性信息""文件格式"、"創(chuàng)建者或發(fā)送者/接收者"、以及"創(chuàng)建或發(fā)送/接收日期"。換句 話說,通過參考"搜索過程中縮小處理所用屬性信息",可以將以下信息之 一識(shí)別為用作縮小條件的域"文件格式"、"創(chuàng)建者或發(fā)送者/接收者"、以 及"創(chuàng)建或發(fā)送/接收日期"。用于存儲(chǔ)通用搜索條件的方法并不局限于圖3中所示的通用搜索條件 保存表。例如,另一種可接受的安排是將關(guān)鍵字或關(guān)鍵字中包含的部分 字符串存儲(chǔ)為可用于搜索的域。當(dāng)使用與這一實(shí)例中不同的表結(jié)構(gòu)時(shí),條件提取單元110(稍后解釋)提取通用搜索條件所用的方法也應(yīng)當(dāng)根據(jù)表結(jié)構(gòu)進(jìn)行必要調(diào)整。例如,在通用搜索條件保存表中存儲(chǔ)有多個(gè)關(guān)鍵字或包含 在對(duì)應(yīng)關(guān)鍵字中的部分字符串的情況下, 一種可接受的安排是條件提取 單元U0通過仍使用關(guān)鍵字作為搜索關(guān)鍵字來(lái)提取通用搜索條件。語(yǔ)義屬性累積單元105中存儲(chǔ)有用于根據(jù)文檔中包含的單詞來(lái)識(shí)別語(yǔ) 義屬性的語(yǔ)義屬性對(duì)應(yīng)表。如圖4中所示,語(yǔ)義屬性對(duì)應(yīng)表中存儲(chǔ)有用于 確定字符串的"模式"和"語(yǔ)義屬性",并保持其相互對(duì)應(yīng)。例如,在圖4中所示的語(yǔ)義屬性對(duì)應(yīng)表的記錄401中,模式"([a平假名A到N]+)CO., LTD."(注A和N是日語(yǔ)平假名和片假名字母表的第一個(gè)和最后一個(gè)字母) 對(duì)應(yīng)于語(yǔ)義屬性"公司名"。通過參考語(yǔ)義屬性對(duì)應(yīng)表,可以獲取與字符串 對(duì)應(yīng)的語(yǔ)義屬性。此外,在圖4中所示的實(shí)例中,通過使用類似實(shí)用摘錄和報(bào)告語(yǔ)言 (Practical Extraction and Report Language, Perl)中所使用的常規(guī)表達(dá)來(lái)描述 每個(gè)模式。但是,應(yīng)當(dāng)注意,類似"$公司名$"的模式可被與語(yǔ)義屬性(例 如,"公司名")相對(duì)應(yīng)的任意模式所代替,其中該語(yǔ)義屬性對(duì)應(yīng)于兩個(gè)"$" 符號(hào)之間的字符串。稍后將解釋通過使用語(yǔ)義屬性對(duì)應(yīng)表所執(zhí)行的處理。 如此處所述,在語(yǔ)義屬性對(duì)應(yīng)表中預(yù)先指定了可通過語(yǔ)義屬性獲取單元 109(稍后解釋)獲取的語(yǔ)義屬性類型。語(yǔ)義屬性的實(shí)例包括"人名"、"公司 名"、"組織名"、"設(shè)施名"以及"日期"。歷史存儲(chǔ)單元104中存儲(chǔ)有歷史保存表,其示出了直到根據(jù)用戶所選 關(guān)鍵字檢測(cè)到文檔的時(shí)間為止,用戶已選擇過的信息以及縮小檢測(cè)到的文 檔的處理中所用的信息,來(lái)作為歷史。如圖5中所示,歷史保存表中存儲(chǔ)有"關(guān)鍵字"、"關(guān)鍵字語(yǔ)義屬性"、"附加關(guān)鍵字語(yǔ)義屬性"、"所選屬性信息"、"文件格式"、"創(chuàng)建者或發(fā)送 者/接收者"、"創(chuàng)建或發(fā)送/接收日期"、以及"原始文檔中的特征單詞",并 保持這些信息相互對(duì)應(yīng)。稍后將解釋這些域中的每一個(gè)。文檔顯示單元106為用戶顯示任意文檔。文檔顯示單元106用于顯示 文檔的手段可以是桌面搜索裝置100專用的手段?;蛘?,可以使用諸如文 字處理器或web瀏覽器的應(yīng)用程序。特征單詞提取單元108從文檔顯示單元106顯示的文檔中提取形成特 征的字符串(下文中,"特征單詞")。可以使用任何方法作為實(shí)現(xiàn)特征單詞 提取單元108提取特征單詞所執(zhí)行的處理的方法。例如,特征單詞提取單 元108可以使用諸如倒排文檔頻率(Inverted Document Frequency, IDF)的公 知特征量來(lái)提取特征單詞。輸入接收單元107接收用戶從文檔顯示單元106顯示的文檔中選擇的 單詞的輸入作為關(guān)鍵字。 一種可接受的安排是輸入接收單元107接收用 戶使用鍵盤輸入的任意單詞作為關(guān)鍵字。除第一實(shí)施例外,另一種可接受 的安排是輸入接收單元107呈現(xiàn)用于接收關(guān)鍵字輸入的對(duì)話框,以便接 收用戶通過該對(duì)話框輸入的關(guān)鍵字。語(yǔ)義屬性獲取單元109從語(yǔ)義屬性累積單元105中獲取輸入接收單元 107作為輸入接收到的關(guān)鍵字的語(yǔ)義屬性。在作為輸入所接收到的關(guān)鍵字的字符串與圖4中所示的語(yǔ)義屬性對(duì)應(yīng) 表中所存儲(chǔ)的模式標(biāo)準(zhǔn)中的一個(gè)相匹配的情況下,語(yǔ)義屬性獲取單元109 獲取對(duì)應(yīng)于該模式的語(yǔ)義屬性來(lái)作為關(guān)鍵字的語(yǔ)義屬性。獲取語(yǔ)義屬性的 方法不限于上述實(shí)例;可以使用任意其它方法。條件提取單元110通過使用以下各項(xiàng)中的一個(gè)或兩個(gè)作為搜索關(guān)鍵字, 從條件存儲(chǔ)單元103中提取通用搜索條件(a)特征單詞提取單元108提取 的特征單詞以及(b)語(yǔ)義屬性獲取單元109所獲取的關(guān)鍵字的語(yǔ)義屬性。換 句話說,條件提取單元110提取作為附加關(guān)鍵字的單詞的語(yǔ)義屬性以及文 檔搜索過程中所使用的縮小條件,作為通用搜索條件。條件提取單元110所提取的通用搜索條件將用于下述情況中的一種或 兩種(a)當(dāng)單詞提取單元lll(稍后解釋)搜索與關(guān)鍵字共現(xiàn)的單詞時(shí)以及(b) 當(dāng)搜索單元114(稍后解釋)縮小所檢測(cè)到的文檔時(shí)。在條件提取單元no已經(jīng)提取了多個(gè)通用搜索標(biāo)準(zhǔn)的情況下, 一種可接受的安排是向用戶呈現(xiàn)多個(gè)通用搜索標(biāo)準(zhǔn),以便由用戶選擇要使用的 最佳通用搜索條件。另一種可接受的安排是條件提取單元110詢問用戶已提取的通用搜 索條件是否應(yīng)當(dāng)用于文檔搜索等。在這種情況下,當(dāng)用戶同意使用已提取 的通用搜索條件時(shí),該通用搜索條件將用于文檔搜索等。單詞提取單元111根據(jù)關(guān)鍵字和條件提取單元110所提取的通用搜索條 件,從共現(xiàn)單詞累積單元102中提取與該關(guān)鍵字具有共現(xiàn)關(guān)系的單詞。例 如,在條件提取單元110所提取的通用搜索條件中"附加關(guān)鍵字語(yǔ)義屬性"是"設(shè)施名"的情況下,單詞提取單元111從與共現(xiàn)單詞累積單元102內(nèi)的關(guān)鍵字具有共現(xiàn)關(guān)系并與該關(guān)鍵字對(duì)應(yīng)存儲(chǔ)的多個(gè)單詞中提取存儲(chǔ)在域 "設(shè)施名"中的單詞,作為搜索中要使用的單詞。單詞顯示單元112顯示單詞提取單元111所提取的單詞。單詞選擇接收 單元113從用戶接收從單詞顯示單元112顯示的單詞中選擇的、要用于搜 索的單詞。隨后,搜索單元114(稍后解釋)在搜索中使用用戶所選單詞作為 附加關(guān)鍵字。利用這種安排,在單詞提取單元111提取了多個(gè)單詞的情況 下,可以從用戶接收從多個(gè)單詞中選擇的、用于搜索的單詞。搜索單元114在文檔累積單元101中搜索一個(gè)或多個(gè)文檔,所述一個(gè) 或多個(gè)文檔中的每一個(gè)包含輸入到輸入接收單元107的關(guān)鍵字以及單詞選 擇接收單元113接收到的所選擇的附加關(guān)鍵字,并且所述一個(gè)或多個(gè)文檔 中的每一個(gè)滿足已提取的通用搜索條件。例如,在已提取的通用搜索條件 是圖3中所示的通用搜索條件保存表內(nèi)的通用搜索條件,其中在域"所選 屬性信息"中指定參數(shù)"文件格式",并且在域"文件格式"中指定參數(shù)"演 講稿"的情況下,搜索單元114只搜索文件格式是演講稿的文件。在沒有提取到通用搜索條件的情況下,搜索單元114在文檔累積單元 101中搜索包含關(guān)鍵字和附加關(guān)鍵字的一個(gè)或多個(gè)文檔。對(duì)于搜索單元114所執(zhí)行的搜索中找到的文檔組中的每個(gè)文檔,文檔 屬性提取單元121提取文檔的屬性信息。根據(jù)第一實(shí)施例,對(duì)于已提取的 每個(gè)文檔,文檔屬性提取單元121根據(jù)文檔累積單元101中存儲(chǔ)的搜索索 引信息,提取諸如文檔格式、文檔創(chuàng)建日期、文檔創(chuàng)建者、文檔以e-mail消息發(fā)送展收的日期、e-mail消息的發(fā)送者/接收者、e-mail消息是否附加 有文檔之類的文檔屬性信息。只有當(dāng)搜索單元114檢測(cè)到文檔數(shù)量大于預(yù) 定數(shù)量時(shí),文檔屬性提取單元121才提取文檔的屬性信息。當(dāng)檢測(cè)到的文 檔數(shù)量小于預(yù)定數(shù)量時(shí),文檔屬性提取單元121不執(zhí)行屬性提取處理。預(yù) 定數(shù)量可以任意選擇;但是,根據(jù)第一實(shí)施例該預(yù)定數(shù)量是"7"。搜索結(jié)果顯示單元115顯示所檢測(cè)到的作為搜索單元114進(jìn)行的搜索 的結(jié)果的文檔。搜索結(jié)果顯示單元115可以顯示所檢測(cè)到的文檔本身;或 者,搜索結(jié)果顯示單元115可以只顯示所檢測(cè)到的文檔名。在只顯示所檢 測(cè)到的文檔名的情況下,從用戶接收到對(duì)文檔名的選擇后,搜索結(jié)果顯示 單元115顯示所選文檔。搜索條件注冊(cè)單元122在歷史存儲(chǔ)單元104中存儲(chǔ)的歷史保存表中注 冊(cè)示出以下元素的記錄,并保持其相互對(duì)應(yīng)對(duì)從用戶接收到的關(guān)鍵字的 選擇;關(guān)鍵字語(yǔ)義屬性;附加關(guān)鍵字語(yǔ)義屬性;用于縮小搜索目標(biāo)并且由 用戶選擇的條件(例如,文檔的屬性信息、文件格式、創(chuàng)建者、發(fā)送者/接收 者、創(chuàng)建日期、以及發(fā)送/接收日期);以及從文檔中提取的特征單詞。信息生成單元116包括歷史判斷單元123,并執(zhí)行用于生成通用搜索條 件的處理,并且將該通用搜索條件注冊(cè)到條件存儲(chǔ)單元103中。每次將新 記錄注冊(cè)到歷史保存表中時(shí),歷史判斷單元123判斷歷史保存表是否包括 預(yù)定數(shù)量或更大數(shù)量的、包含有與預(yù)定域內(nèi)的新記錄相同的值的記錄。在歷史判斷單元123判斷有預(yù)定數(shù)量記錄或更多記錄的情況下,提取 條件生成單元116概括這些記錄中所存儲(chǔ)的歷史信息并生成通用搜索條件。 提取條件生成單元116將所生成的通用搜索條件注冊(cè)到條件存儲(chǔ)單元103 中。稍后將詳細(xì)解釋這一處理中的過程。文檔輸入處理單元117對(duì)要存儲(chǔ)在桌面搜索裝置100所包括的文檔累 積單元101中的文檔執(zhí)行輸入處理。文檔輸入處理單元117執(zhí)行輸入處理 的文檔可以是諸如文字處理器生成的文檔、e-mail消息、演講稿文檔、電子 表格文檔以及因特網(wǎng)內(nèi)容之類的任意格式。語(yǔ)義屬性分析單元118分析輸入的文檔并提取包含在輸入文檔中的特 征單詞,以便確定語(yǔ)義屬性是什么。用于提取特征單詞的方法和用于分析 語(yǔ)義屬性的方法與上述方法相同。因此,將省略其解釋。語(yǔ)義屬性分析單元118所執(zhí)行的確定處理中使用的語(yǔ)義屬性的類型是預(yù)先確定的。根據(jù)第一實(shí)施例,語(yǔ)義屬性分析單元118通過從以下各項(xiàng)中選擇一個(gè)來(lái)確定語(yǔ)義屬性"人名"、"公司名"、"組織名"、"設(shè)施名"、以及"日期"。共現(xiàn)單詞注冊(cè)單元119根據(jù)特征單詞以及語(yǔ)義屬性分析單元118所分 析的特征單詞的語(yǔ)義屬性,來(lái)分析共現(xiàn)關(guān)系。隨后,共現(xiàn)單詞注冊(cè)單元119將已經(jīng)分析的并且彼此具有共現(xiàn)關(guān)系的特征單詞注冊(cè)到共現(xiàn)單詞累積單元102中,并保持其彼此對(duì)應(yīng)。例如,為了分析共現(xiàn)關(guān)系,可以使用任意方法, 不管其是否公知。文檔注冊(cè)單元120將己輸入的文檔注冊(cè)到文檔累積單元101。當(dāng)注冊(cè)這 些文檔時(shí),文檔注冊(cè)單元120提取每個(gè)輸入文檔中所包括的詞素、每個(gè)輸 入文檔的格式、每個(gè)文檔的創(chuàng)建日期(如果該文檔是e-mail消息,則是發(fā)送/ 接收日期)、每個(gè)文檔的創(chuàng)建者(如果該文檔是e-mail消息,則是發(fā)送者/接 收者),以及e-mail消息是否附加有文檔。然后文檔注冊(cè)單元120將所提取 的信息添加到搜索索引并執(zhí)行更新搜索索引的處理。接下來(lái)將參考圖6解釋圖1中所示的桌面搜索裝置100所執(zhí)行的搜索 處理的過程。首先,文檔顯示單元106向用戶顯示任意文檔(步驟S601)。如圖7中 所示,在處理過程的以下描述中,將解釋所顯示的文檔是日程表信息的實(shí) 例。返回圖6的描述,在下一步中,特征單詞提取單元108從文檔顯示單 元106顯示的文檔中提取特征單詞(步驟S602)。在本實(shí)例的處理過程中, 假設(shè)特征單詞提取單元108從文檔中提取"日程表"、"訪問"和"計(jì)劃" 作為特征單詞。稍后將詳細(xì)解釋特征單詞提取單元108執(zhí)行的處理的過程。接下來(lái),輸入接收單元107接收用戶使用指示設(shè)備等從文檔顯示單元 106顯示的文檔中選擇的關(guān)鍵字(步驟S603)。如圖8中所示,輸入接收單元 107執(zhí)行用于輸入在使用指示設(shè)備所選擇的區(qū)域中所包含的字符串"株式會(huì) 社東西保險(xiǎn)"作為關(guān)鍵字的處理。此后,語(yǔ)義屬性獲取單元109從語(yǔ)義屬性累積單元105中獲取輸入接 收單元107作為輸入所接收到的關(guān)鍵字語(yǔ)義屬性(步驟S604)。例如,在字 符串是"株式會(huì)社東西保險(xiǎn)"的情況下,語(yǔ)義屬性獲取單元109獲取"公司名"作為語(yǔ)義屬性。隨后,條件提取單元110使用特征單詞提取單元108提取的特征單詞 和語(yǔ)義屬性獲取單元109獲取的關(guān)鍵字語(yǔ)義屬性作為搜索關(guān)鍵字,從條件 存儲(chǔ)單元103中提取通用搜索條件(步驟S605)。更具體而言,條件提取單 元110使用關(guān)鍵字語(yǔ)義屬性"公司名"以及三個(gè)特征單詞"日程表"、"訪 問"或"計(jì)劃"中的一個(gè),從條件存儲(chǔ)單元103中的通用搜索條件保存表 中提取通用搜索條件。在本實(shí)例的處理過程中,條件提取單元110使用語(yǔ) 義屬性"公司名"和特征單詞"日程表"作為搜索關(guān)鍵字,從圖3中所示 的通用搜索條件保存表中提取記錄301 。換句話說,在本實(shí)例的處理過程中,因?yàn)檎Z(yǔ)義屬性獲取單元109獲取 的關(guān)鍵字語(yǔ)義屬性"公司名"與記錄301中"關(guān)鍵字語(yǔ)義屬性"域的值相 匹配,并且特征單詞提取單元108提取的特征單詞中的一個(gè),即"日程表" 與記錄301中"特征單詞〃 域的值相匹配,所以條件提取單元110提取通 用搜索條件的記錄301。當(dāng)條件提取單元110將關(guān)鍵字語(yǔ)義屬性和特征單詞與記錄中的值進(jìn)行 比較時(shí),匹配可以是精確匹配或部分匹配。除第一實(shí)施例外,另一種可接 受的安排是條件提取單元110按照關(guān)鍵字語(yǔ)義屬性和特征單詞與記錄中 的值的匹配程度的順序,執(zhí)行對(duì)所提取的通用搜索標(biāo)準(zhǔn)進(jìn)行排名的處理。此后,條件提取單元110判斷是否已經(jīng)提取了通用搜索條件(步驟 S606)。在條件提取單元110已提取了一個(gè)或多個(gè)通用搜索標(biāo)準(zhǔn)的情況下(步驟 S606:是),單詞提取單元111提取具有在已提取的通用搜索標(biāo)準(zhǔn)內(nèi)的"附 加關(guān)鍵字語(yǔ)義屬性"下指示的語(yǔ)義屬性并在共現(xiàn)單詞累積單元102中與該 關(guān)鍵字對(duì)應(yīng)存儲(chǔ)的單詞(步驟S607)。例如,在圖2中所示的共現(xiàn)單詞累積單元102中,與輸入的關(guān)鍵字"株 式會(huì)社東西保險(xiǎn)"對(duì)應(yīng)存儲(chǔ)的單詞如下用于語(yǔ)義屬性"人名"的"小野" 和"中村";用于語(yǔ)義屬性"地名"的"千代田"和"川崎";用于語(yǔ)義屬 性"公司名"的"南北電機(jī)";用于語(yǔ)義屬性"組織名"的"研發(fā)中心"; 用于語(yǔ)義屬性"設(shè)施名"的"東西保險(xiǎn)川崎分部"和"東西總部大廈";以 及用于語(yǔ)義屬性"日期"的"2006年7月20日"和"2006年8月22日"。在本實(shí)例的處理過程中,將從這些單詞中選擇要在文檔搜索中使用的附加 關(guān)鍵字。在使用圖3中所示的記錄301作為通用搜索條件的情況下,因?yàn)?附 加關(guān)鍵字語(yǔ)義屬性"是"設(shè)施名",所以單詞提取單元111從上面列出的那 組單詞中獲取語(yǔ)義屬性是"設(shè)施名"的單詞"東西保險(xiǎn)川崎分部"和"東 西總部大廈"。此后,在單詞提取單元111已提取了多個(gè)單詞的情況下,單詞顯示單 元112顯示所述多個(gè)單詞(步驟S608)。另一方面,在單詞提取單元111只提 取一個(gè)單詞的情況下, 一種可接受的安排是使用所提取的單詞作為附加 關(guān)鍵字,從而省略了步驟S608顯示單詞的處理和步驟S609接收對(duì)單詞的 選擇的處理。如圖9中所示,單詞顯示單元112在窗口 901中呈現(xiàn)單詞提取單元lll 所提取的多個(gè)單詞。如此處所述, 一種可接受的安排是單詞顯示單元112 將所述多個(gè)單詞呈現(xiàn)給用戶,從而提示用戶選擇所述多個(gè)單詞中的一個(gè)。此后,單詞選擇接收單元113接收用戶從單詞顯示單元112顯示的多 個(gè)單詞中選擇的一個(gè)單詞(步驟S609)。在本實(shí)例的處理過程中,假設(shè)用戶 選擇"東西保險(xiǎn)川崎分部"作為附加關(guān)鍵字。搜索單元114根據(jù)關(guān)鍵字、附加關(guān)鍵字以及通用搜索條件在文檔累積 單元101中進(jìn)行搜索(步驟S610)。在使用圖3中所示的記錄301作為通用 搜索條件的情況下,因?yàn)?搜索過程中縮小處理所用屬性信息"是"文件 格式",并且"文件格式"是"演講稿",所以搜索單元114在文檔累積單 元101中搜索包含關(guān)鍵字"株式會(huì)社東西保險(xiǎn)"、附加關(guān)鍵字"東西保險(xiǎn)川 崎分部",并且文件格式是"演講稿"的文檔。用于搜索文檔的方法使用公 知的桌面搜索技術(shù)等來(lái)實(shí)現(xiàn)。因此,將省略其解釋。隨后,在搜索單元114檢測(cè)到"7"個(gè)或更多文檔的情況下(其中"7" 是預(yù)定數(shù)量),文檔屬性提取單元121從每個(gè)所檢測(cè)到的文檔中提取代表該 文檔的屬性信息(步驟S611)。在本實(shí)例的處理過程中,文檔屬性提取單元 121提取文件格式、文件創(chuàng)建日期、文件創(chuàng)建者、文件作為e-mail消息發(fā)送 /接收的日期、e-mail消息的發(fā)送者/接收者作為屬性信息。在所檢測(cè)到的文 檔數(shù)量小于"7"的情況下,文檔屬性提取單元121不執(zhí)行這一提取處理,而搜索結(jié)果顯示單元115只顯示檢測(cè)到的文件的名稱。此后,搜索結(jié)果顯示單元115根據(jù)屬性類型將文檔屬性提取單元121 所提取的屬性信息進(jìn)行分類并顯示這些屬性類型(步驟S612)。如圖10中所 示,搜索結(jié)果顯示單元115為每類屬性顯示多個(gè)值。(例如,在屬性類型是 "創(chuàng)建或發(fā)送日期"的情況下,搜索結(jié)果顯示單元115顯示諸如"少于一 周前"、"少于一月前"以及"一月前或更早"之類的值。)在圖IO所示的實(shí) 例中,因?yàn)槲募袷奖煌ㄓ盟阉鳁l件縮小為演講稿,所以呈現(xiàn)除文件格式 外的屬性信息。另外,在屬性信息己經(jīng)被文檔屬性提取單元121提取的情況下,如果 文檔中一致的屬性信息的匹配率低于預(yù)定級(jí)別,則搜索結(jié)果顯示單元115 不必顯示該屬性信息。此外,如圖10中所示,搜索結(jié)果顯示單元115顯示文件創(chuàng)建日期和 e-mail消息發(fā)送/接收日期,還顯示文件創(chuàng)建者和e-mail消息發(fā)送者/接收者。 此外,圖10中,"創(chuàng)建或發(fā)送/接收日期"呈現(xiàn)為諸如"少于一周前"、"少 于一月前"以及"一月前或更早"的時(shí)間段;但是,可以通過增加諸如"少 于三月前"以及"少于6月前"之類的更多的時(shí)間段來(lái)呈現(xiàn)日期。進(jìn)一步 可選的,可以通過使用特定日期和時(shí)間,例如"2006年7月20日3:32p.m."來(lái)呈現(xiàn)日期。圖10中,假設(shè)用戶已從搜索結(jié)果顯示單元115顯示的屬性信息中選擇 了 "創(chuàng)建或發(fā)送/接收日期"是"少于一月前"的屬性信息。在這種情況下, 搜索結(jié)果顯示單元115進(jìn)一步顯示與用戶所選擇的屬性信息(即,創(chuàng)建或發(fā) 送/接收日期是少于一月前)相匹配的文檔"EMS系統(tǒng)提案.ppt"和"工作 流系統(tǒng)提案.ppt"。從而,用戶能夠進(jìn)一步選擇所述多個(gè)文檔之一,例如"EMS 系統(tǒng)提案.ppt",作為他/她所需的文件。在搜索單元114只檢測(cè)到兩個(gè)文檔的情況下,不必根據(jù)文檔的屬性信 息對(duì)其進(jìn)行分類。因此,如圖ll中所示,搜索結(jié)果顯示單元115只顯示文 檔名,而不顯示屬性信息類型。因此,可以從用戶接收對(duì)要顯示的文檔中 的一個(gè)的選擇。隨后,搜索結(jié)果顯示單元115顯示用戶已經(jīng)選擇并作為選擇接收的文 檔(步驟S613)。如圖12中所示,可以看到,搜索結(jié)果顯示單元115作為搜索結(jié)果所顯示的文檔包含關(guān)鍵字"株式會(huì)社東西保險(xiǎn)"和附加關(guān)鍵字"東 西保險(xiǎn)川崎分部"。另一方面,在條件提取單元110未提取通用搜索條件的情況下(步驟S606:否),單詞提取單元111提取在共現(xiàn)單詞累積單元102內(nèi)對(duì)應(yīng)于關(guān)鍵 字存儲(chǔ)的所有單詞(步驟S614)。作為附加信息,不僅在未提取通用搜索條 件的情況下,而且在用戶已經(jīng)確定他/她不使用已提取的通用搜索條件的情 況下,都將執(zhí)行步驟S614及其后的處理。此后,單詞顯示單元112顯示單詞提取單元111所提取的單詞,并根據(jù) 其語(yǔ)義屬性對(duì)所提取的單詞進(jìn)行分類(步驟S615)。如圖13中所示,單詞顯 示單元112顯示與關(guān)鍵字"株式會(huì)社東西保險(xiǎn)"相對(duì)應(yīng)的單詞,并根據(jù)諸 如"地名"、"設(shè)施名"、"人名"、"組織名"、以及"日期"之類的語(yǔ)義屬性 對(duì)單詞進(jìn)行分類。隨后,單詞選擇接收單元113接收用戶從單詞顯示單元112顯示的多 個(gè)單詞中選擇的語(yǔ)義屬性和單詞(步驟S616)。執(zhí)行上述處理的原因是因?yàn)椋?在未檢測(cè)到通用搜索條件的情況下,不能使用附加關(guān)鍵字或通用搜索條件 來(lái)縮小文檔。通過執(zhí)行上述處理,在顯示了與關(guān)鍵字共現(xiàn)的所有單詞后從 用戶接收單詞選擇,從而可以使用接收到的所選單詞作為附加關(guān)鍵字來(lái)搜 索文檔。因此,可以容易地檢測(cè)到用戶所需文檔。在圖13中所示的實(shí)例中,假設(shè)單詞選擇接收單元113接收到指示己經(jīng) 選擇了語(yǔ)義屬性中的一種"設(shè)施名"以及作為設(shè)施名中的一種列出的"東 西保險(xiǎn)川崎分部"的輸入。所接收到的作為選擇的語(yǔ)義屬性將被存儲(chǔ)在歷 史保存表內(nèi)的"所選屬性信息"域中。搜索單元114根據(jù)關(guān)鍵字和附加關(guān)鍵字在文檔累積單元101中進(jìn)行搜 索(步驟S617)。在本實(shí)例的處理過程中,關(guān)鍵字是"株式會(huì)社東西保險(xiǎn)", 附加關(guān)鍵字是"東西保險(xiǎn)川崎分部"。此后,文檔屬性提取單元121從搜索 單元114檢測(cè)到的文檔中提取屬性信息(步驟S618)。隨后,搜索結(jié)果顯示單元115根據(jù)屬性類型對(duì)文檔屬性提取單元121 所提取的屬性信息進(jìn)行分類,并顯示這些屬性類型和每個(gè)屬性的值(步驟 S619)。如圖14中所示,搜索結(jié)果顯示單元115使用樹形結(jié)構(gòu)顯示每個(gè)屬性 類型的多個(gè)值。在圖14中所示的實(shí)例中,假設(shè)用戶從搜索結(jié)果顯示單元115所顯示的屬性和每個(gè)屬性值中選擇"文件格式"作為屬性并選擇"演講稿" 作為屬性值。當(dāng)用戶選擇一個(gè)屬性時(shí),搜索結(jié)果顯示單元115顯示具有所選屬性的一個(gè)或多個(gè)文檔名(步驟S620)。如圖15中所示,根據(jù)用戶的選擇,多個(gè)文 檔被縮小到文件格式是演講稿的那些文檔。因此,搜索結(jié)果顯示單元115 顯示"EMS系統(tǒng)提案.ppt"和"工作流系統(tǒng)提案.ppt"作為文檔名。此后, 當(dāng)選擇了文檔名中的一個(gè)時(shí),搜索結(jié)果顯示單元115顯示該文檔,如圖12 中所示。隨后,搜索條件注冊(cè)單元22在歷史存儲(chǔ)單元104中存儲(chǔ)用戶所選的 關(guān)鍵字和附加關(guān)鍵字,以及附加關(guān)鍵字語(yǔ)義屬性和為選擇文檔所選的屬性, 并保持其相互對(duì)應(yīng)(步驟S621)。因?yàn)檫@些信息注冊(cè)在歷史存儲(chǔ)單元104中, 所以可以生成通用搜索標(biāo)準(zhǔn)。搜索條件注冊(cè)單元122將上述信息注冊(cè)到歷史存儲(chǔ)單元104中作為歷 史信息。將參考圖5解釋所注冊(cè)的歷史信息。在圖5中所示的歷史保存表 中,輸入到輸入接收單元107的關(guān)鍵字存儲(chǔ)到"關(guān)鍵字"域中。語(yǔ)義屬性 獲取單元109針對(duì)輸入到輸入接收單元107的關(guān)鍵字所獲取的語(yǔ)義屬性值 存儲(chǔ)到"關(guān)鍵字語(yǔ)義屬性"域中。將圖6中用戶所選擇的并在步驟S616接 收的語(yǔ)義屬性等存儲(chǔ)到"所選屬性信息"域中。將圖6中步驟S616用戶所 選的用戶所需文件的屬性信息存儲(chǔ)到"文件格式"、"創(chuàng)建者或發(fā)送者/接收 者"、以及"創(chuàng)建或發(fā)送/接收日期"域中。特征單詞提取單元108從文檔顯 示單元106所顯示的文檔中提取的特征單詞存儲(chǔ)到"原始文檔中的特征單 詞"域中。因?yàn)檫@些信息存儲(chǔ)在對(duì)應(yīng)域中,所以可以生成通用搜索標(biāo)準(zhǔn)。當(dāng)執(zhí)行了上述處理時(shí),呈現(xiàn)用戶所需的文檔。從而,該處理結(jié)束。在 上述處理過程中可以使用通用搜索條件的情況下,減少了桌面搜索裝置100 向用戶呈現(xiàn)的語(yǔ)義屬性的數(shù)量和屬性信息的數(shù)量。從而,可以減少用戶必 須指定搜索條件所造成的負(fù)擔(dān)。此外,在上述處理過程中,在不能使用通用搜索條件的情況下,用戶 需要指定比可以使用通用搜索條件的情況下更多的搜索標(biāo)準(zhǔn)。但是,用戶 能夠在瀏覽桌面搜索裝置100呈現(xiàn)的搜索標(biāo)準(zhǔn)中指定搜索標(biāo)準(zhǔn)。接下來(lái),將參考圖16解釋圖6中所示的特征提取單元108從文檔中提取特征單詞所執(zhí)行的步驟S602的處理。首先,特征單詞提取單元108獲取指示文檔累積單元101中所注冊(cè)的 文檔總數(shù)的數(shù)目N(步驟S1601)。接下來(lái),特征單詞提取單元108對(duì)文檔顯示單元106所顯示的文檔執(zhí) 行詞素學(xué)分析,并提取獨(dú)立單詞(步驟S1602)。此后,特征單詞提取單元108獲取指示文檔累積單元101中所存儲(chǔ)的 文檔中、包含獨(dú)立單詞Ti(第i個(gè)獨(dú)立單詞)的文檔的總數(shù)的數(shù)字DFi(步驟 S1603)。在這種情況下,"i"是表示大于等于"0"并小于所提取的獨(dú)立單 詞的數(shù)量的變量。隨后,對(duì)于第i個(gè)獨(dú)立單詞Ti,特征單詞提取單元108計(jì)算特征量, IDFi-log(N/DFi)(步驟S1604)。此后,特征單詞提取單元108判斷所計(jì)算的值IDFi是否滿足以下不等 式,其中IDFmin表示預(yù)定下限值,IDFmax表示預(yù)定上限值(步驟S1605):IDFmin〈IDFi〈IDFmax在特征單詞提取單元108判斷滿足上述必要條件時(shí)(步驟S1605:是), 提取獨(dú)立單詞Ti作為特征單詞(步驟S1606)。相反,在特征單詞提取單元 108判斷不滿足上述必要條件時(shí)(步驟S1605:否),不對(duì)獨(dú)立單詞Ti執(zhí)行特 定處理。此后,特征單詞提取單元108判斷對(duì)每個(gè)獨(dú)立單詞Ti的處理是否都已 完成(步驟S1607)。在特征單詞提取單元108判斷未完成對(duì)每個(gè)獨(dú)立單詞Ti 的處理時(shí)(步驟S1607:否),特征單詞提取單元108使變量i加1,以便再 次執(zhí)行步驟S1603到步驟S1606的處理。另一方面,在特征單詞提取單元108判斷已完成對(duì)每個(gè)獨(dú)立單詞Ti的 處理時(shí)(步驟S1607:是),所有處理都已完成。接下來(lái),將參考具體實(shí)例解釋特征單詞提取單元108執(zhí)行的處理。假 設(shè)文檔累積單元101中注冊(cè)了 200,000個(gè)文檔。首先,特征單詞提取單元 108在步驟S1601獲取數(shù)量N=200,000。接下來(lái),在步驟S1602,特征單詞提取單元108對(duì)例如圖7中所示的文 檔執(zhí)行詞素學(xué)分析并獲取以下單詞作為獨(dú)立單詞"周"、"日程表"、"8"、 "3"、"周"訪問"、"計(jì)劃"以及"會(huì)議"。接下來(lái),在步驟S1603,特征單詞提取單元108獲取例如文檔數(shù) DFi=600,因?yàn)楠?dú)立單詞"周"包含在文檔累積單元101中注冊(cè)的所有文檔 中的600個(gè)文檔中。在步驟S1604,特征單詞提取單元108通過計(jì)算 log(200000/600)^5.81獲取獨(dú)立單詞"周"的特征量的值IDFi。在步驟S1605,例如,在設(shè)置滿足IDFmin=4.0和IDFmax=5.0的值的 情況下,因?yàn)楠?dú)立單詞"周"的IDFi值是5.81,所以得到不等式 IDFi>IDFmax。因此,特征單詞提取單元108不提取"周"作為特征單詞。同樣的,因?yàn)楠?dú)立單詞"日程表"包含在1500個(gè)文檔中,在步驟S1603, 特征單詞提取單元108得到文檔數(shù)DFi=1500。隨后,在步驟S1604,特征 單詞提取單元108通過計(jì)算log(200000/1500)^4.89獲取獨(dú)立單詞"日程表" 的特征量的值IDFi。在步驟S1605,因?yàn)楠?dú)立單詞"日程表"的IDFi值是4.89,所以得到 不等式IDFmin<IDFi<IDFmax。因此,在步驟S1606,特征單詞提取單元108 提取"日程表"作為特征單詞。在本實(shí)例的處理過程中,IDFmin和IDFmax的每個(gè)值都是常量。但是, 該處理過程不限于每個(gè)值都是常量的這一實(shí)例。例如,另一種可接受的安 排是IDFmin和IDFmax的值根據(jù)文檔累積單元lOl中所注冊(cè)的該組文檔 中所包含的單詞的IDF值來(lái)確定或更新。通過對(duì)每個(gè)獨(dú)立單詞執(zhí)行上述處理過程,特征單詞提取單元108從圖7 中所示的文檔中提取"日程表"、"訪問"和"計(jì)劃"作為特征單詞。下面,將參考圖17解釋桌面搜索裝置100生成通用搜索標(biāo)準(zhǔn)的處理過 程。根據(jù)第一實(shí)施例,搜索條件注冊(cè)單元122每次存儲(chǔ)信息到歷史存儲(chǔ)單 元104中時(shí),生成通用搜索條件。但是,第一實(shí)施例不限于在該時(shí)間生成 通用搜索標(biāo)準(zhǔn)的這一實(shí)例??梢栽谌我馄渌鼤r(shí)間生成通用搜索標(biāo)準(zhǔn)。首先,提取條件生成單元116從歷史存儲(chǔ)單元104中讀取新增加至歷 史存儲(chǔ)單元104的一條歷史信息記錄(步驟S1701)。接下來(lái),提取條件生成單元116從歷史存儲(chǔ)單元104中讀取歷史存儲(chǔ) 單元104中已注冊(cè)的另一條歷史信息記錄(步驟S1702)。此后,歷史判斷單元123判斷已讀取的記錄中"關(guān)鍵字語(yǔ)義屬性"值是否相互匹配。歷史判斷單元123還判斷在已讀取的記錄之間的"原始文 檔中的特征單詞"域中是否有一個(gè)或多個(gè)一致單詞(步驟S1703)。在歷史判斷單元123判斷兩條記錄中的"關(guān)鍵字語(yǔ)義屬性"值不互相 匹配,并且兩個(gè)記錄之間的"原始文檔中的特征單詞"域中沒有一致單詞 的情況下(步驟S1703:否),不執(zhí)行特定處理。另一方面,在歷史判斷單元123判斷兩條記錄中的"關(guān)鍵字語(yǔ)義屬性" 值相互匹配,并且/或兩個(gè)記錄之間的"原始文檔中的特征單詞"域中有一 個(gè)或多個(gè)一致單詞的情況下(步驟S1703:是),提取條件生成單元116生成 新的通用搜索條件(步驟S1704)。當(dāng)生成該通用搜索條件時(shí),該通用搜索條 件中不設(shè)置特定條件。在執(zhí)行下述處理后,在通用搜索條件中設(shè)置標(biāo)準(zhǔn)。提取條件生成單元116判斷兩條歷史信息記錄中的"關(guān)鍵字語(yǔ)義屬性" 值是否相互匹配(步驟S1705)。在提取條件生成單元116判斷兩個(gè)值相互匹 配的情況下(步驟S1705:是),提取條件生成單元116將匹配的語(yǔ)義屬性分 配給通用搜索條件中的"關(guān)鍵字語(yǔ)義屬性"(步驟S1706)。接下來(lái),在提取條件生成單元116判斷兩條歷史信息記錄中的"關(guān)鍵 字語(yǔ)義屬性"值不匹配的情況下(步驟S1705:否),或在分配了匹配的語(yǔ)義 屬性后(步驟S1706),提取條件生成單元116判斷"原始文檔中的特征單詞" 域中是否有一個(gè)或多個(gè)一致單詞(步驟S1707)。在提取條件生成單元116判斷"原始文檔中的特征單詞"域中有一個(gè)或多個(gè)一致單詞的情況下(步驟 S1707:是),提取條件生成單元116將一個(gè)或多個(gè)一致單詞分配給通用搜索 條件中的"原始文檔中的特征單詞"(步驟S1708)。在提取條件生成單元116判斷"原始文檔中的特征單詞"域中沒有一 致單詞的情況下(步驟S1707:否),或在分配了一個(gè)或多個(gè)一致特征單詞后 (步驟S1708),提取條件生成單元116判斷己讀取的兩條歷史信息記錄中的 "附加關(guān)鍵字語(yǔ)義屬性"值是否相互匹配(步驟S1709)。在提取條件生成單 元116判斷"附加關(guān)鍵字語(yǔ)義屬性"值相互匹配的情況下(步驟S1709:是), 提取條件生成單元116將匹配的語(yǔ)義屬性分配給通用搜索條件中的"附加 關(guān)鍵字語(yǔ)義屬性"(步驟S1710)。在提取條件生成單元116判斷"附加關(guān)鍵字語(yǔ)義屬性"值不匹配的情 況下(步驟S1709:否),或在分配了匹配的語(yǔ)義屬性后(步驟S1710),提取25條件生成單元116判斷己讀取的兩條歷史信息記錄中的"搜索過程中縮小處理所用屬性信息"值是否相互匹配(步驟S1711)。在提取條件生成單元116 判斷"搜索過程中縮小處理所用屬性信息"值相互匹配的情況下(步驟 S1711:是),提取條件生成單元116將匹配的"搜索過程中縮小處理所用屬 性信息"分配給通用搜索條件中的"搜索過程中縮小處理所用屬性信息"(步 驟S1712)。另一方面,在提取條件生成單元116判斷"搜索過程中縮小處理所用 屬性信息"值不匹配的情況下(步驟S1711:否),或在分配了匹配的"搜索 過程中縮小處理所用屬性信息"后(步驟S1712),提取條件生成單元116判 斷已讀取的兩條歷史信息記錄中以下一個(gè)或多個(gè)域的屬性信息值是否相互 匹配"文件格式"、"創(chuàng)建者或發(fā)送者/接收者"、以及"創(chuàng)建或發(fā)送/接收曰 期"(步驟S1713)。在提取條件生成單元116判斷一個(gè)或多個(gè)域(即"文件格 式"、"創(chuàng)建者或發(fā)送者/接收者"、以及"創(chuàng)建或發(fā)送準(zhǔn)收日期")的屬性信 息值相互匹配的情況下(步驟S1713:是),提取條件生成單元116將匹配的 屬性信息分配給通用搜索條件中對(duì)應(yīng)的屬性信息(步驟S1714)。隨后,提取條件生成單元116判斷是否已從歷史存儲(chǔ)單元104中讀取 了所有歷史信息記錄(步驟S1715)。在提取條件生成單元116判斷未讀取所 有歷史信息記錄的情況下(步驟S1715:否),提取條件生成單元116再次開 始步驟S1702讀取記錄的處理。利用這種安排,將對(duì)所有歷史信息記錄中 的每一個(gè)執(zhí)行上述處理。當(dāng)提取條件生成單元116判斷已讀取了所有歷史信息記錄時(shí)(步驟 S1715:是),完成所有處理。例如,在提取條件生成單元116判斷在新增至圖5中所示的歷史保存 表中的一條歷史信息記錄(即,記錄501)和預(yù)先存儲(chǔ)在歷史保存表中的另一 條歷史信息記錄(即,記錄502)之間是否可以生成通用搜索條件的情況下, "關(guān)鍵字語(yǔ)義屬性"值相互匹配,并且"原始文檔中的特征單詞"域中有 一個(gè)一致單詞,并且可以生成新的通用搜索條件。如圖18中所示,通過執(zhí)行圖17中所示的處理過程,提取條件生成單 元116能夠生成通用搜索條件,該通用搜索條件中存儲(chǔ)有圖5中所示的記 錄501和記錄502之間的匹配的域信息。在圖17中所示的處理過程中,在新注冊(cè)的搜索歷史記錄與多條歷史信息記錄類似的情況下,提取條件生成單元116生成多個(gè)通用搜索標(biāo)準(zhǔn)。但 是,第一實(shí)施例不限于提取條件生成單元116生成多個(gè)通用搜索標(biāo)準(zhǔn)的這一實(shí)例。例如,另一種可接受的安排是當(dāng)判斷所生成的多個(gè)通用搜索標(biāo)準(zhǔn)彼此類似時(shí),提取條件生成單元116將這些通用搜索標(biāo)準(zhǔn)組合在一起。再一種可接受的安排是在剛生成的通用搜索條件類似于已經(jīng)存儲(chǔ)在條件存儲(chǔ)單元103中的另一個(gè)通用搜索條件的情況下,提取條件生成單元116將這些通用搜索條件組合在一起。用于組合通用搜索標(biāo)準(zhǔn)的方法的一個(gè)實(shí)例是,只有當(dāng)所有三條或多條 搜索歷史記錄中或所有三條或多條通用搜索標(biāo)準(zhǔn)中有多條屬性信息彼此匹 配時(shí),將屬性信息分配給新生成的通用搜索條件的屬性信息。另一個(gè)實(shí)例 是,當(dāng)只有一些搜索歷史記錄中或一些通用搜索標(biāo)準(zhǔn)中,多條屬性信息彼 此匹配時(shí),將多個(gè)互不相同的值分配給通用搜索條件的屬性信息。在這種分配多個(gè)互不相同的值的情況下, 一種可接受的安排是當(dāng)再次使用該通用搜索條件時(shí),桌面搜索裝置100中所包含的單詞選擇接收單元113等詢問用戶應(yīng)當(dāng)使用哪個(gè)值。此后,提取條件生成單元116將以上述方式生成的通用搜索條件注冊(cè) 到條件存儲(chǔ)單元103中。存儲(chǔ)在條件存儲(chǔ)單元103中的通用搜索標(biāo)準(zhǔn)將由 條件提取單元110提取,并在用戶進(jìn)行文檔搜索時(shí)使用。此外,另一種可接受的安排是提取條件生成單元116允許用戶修正所生成的通用搜索條件。如圖19中所示,用戶能夠輸入搜索條件名到"搜 索方法名"框1901。用戶進(jìn)一步執(zhí)行刪除存儲(chǔ)在圖19中所示的"創(chuàng)建或發(fā) 送/接收日期"框1902中的"一月前"的操作。如圖20中所示,在接收到用戶進(jìn)行的修正后,可以看到"搜索方法名" 框2001已修改為"搜索提案材料",并且之前"創(chuàng)建或發(fā)送/接收日期"框 2002中所示的條件已被刪除。在完成修正后,用戶通過按下注冊(cè)按鈕2003 來(lái)向桌面搜索裝置IOO通知修正已完成。因此,提取條件生成單元116將 已修正的通用搜索條件存儲(chǔ)到條件存儲(chǔ)單元113中。此外,如果用戶己按 下刪除按鈕2004,則提取條件生成單元116放棄已修正的通用搜索條件而 不進(jìn)行注冊(cè)。接下來(lái),將解釋為每個(gè)通用搜索標(biāo)準(zhǔn)指定了 "搜索方法名"后執(zhí)行的處理。如圖21中所示,當(dāng)用戶選擇了關(guān)鍵字時(shí),因?yàn)槌尸F(xiàn)了通用搜索標(biāo)準(zhǔn) 名,所以允許用戶識(shí)別通用搜索標(biāo)準(zhǔn)的內(nèi)容。此后,假設(shè)用戶在圖21中所 示的實(shí)例中選擇了搜索方法"搜索提案材料"。如圖22中所示,桌面搜索裝置100根據(jù)對(duì)應(yīng)于搜索方法"搜索提案材 料"的通用搜索條件中所指定的標(biāo)準(zhǔn),呈現(xiàn)共現(xiàn)語(yǔ)義屬性并在搜索過程中 縮小文檔。當(dāng)使用根據(jù)第一實(shí)施例的桌面搜索裝置100時(shí),因?yàn)橥ㄟ^使用通用搜 索條件基于語(yǔ)義屬性而自動(dòng)縮小了附加關(guān)鍵字,所以文檔搜索中所用的搜 索條件不需用戶詳細(xì)指定搜索條件就能被指定。因此,可以提高可用性。本發(fā)明不限于上述示例性實(shí)施例??梢詫?duì)本發(fā)明應(yīng)用如下所述的各種 修改。在上述第一實(shí)施例的描述中,解釋了從文檔中選擇關(guān)鍵字的實(shí)例。但 是,輸入接收單元107不必根據(jù)圖8中所示的第一實(shí)施例的方法來(lái)接收關(guān) 鍵字輸入。下面將解釋在不同窗口中接收到的關(guān)鍵字輸入的修改實(shí)例。如圖23中所示, 一種可接受的安排是在與顯示文檔的窗口不同的窗 口中接收關(guān)鍵字輸入。在這一修改實(shí)例中,用戶需要執(zhí)行將圖23中所示的窗口調(diào)用到屏幕上 的操作??梢允褂萌我夥椒▉?lái)執(zhí)行這一調(diào)用操作。例如,用戶可以按下屏 幕上預(yù)先準(zhǔn)備的特定按鈕或可以按下諸如鼠標(biāo)之類的輸入設(shè)備中提供的特 定按鈕。如圖24中所示,在顯示了與通用搜索條件匹配的單詞后,搜索結(jié)果顯 示單元115在單詞下顯示屬性信息,并根據(jù)其類型對(duì)屬性信息進(jìn)行分類。 如圖24中所示, 一種可接受的安排是以用戶能夠跟蹤樹形結(jié)構(gòu)的方式在 一個(gè)窗口中顯示屬性信息。如圖25中所示,根據(jù)每個(gè)示例性實(shí)施例和修改實(shí)例的桌面搜索裝置100 包括作為硬件配置的以下元件只讀存儲(chǔ)器(ROM)2502,用于存儲(chǔ)桌面搜 索處理程序等;中央處理單元(CPU)2501,用于根據(jù)ROM 2502中存儲(chǔ)的程 序控制桌面搜索裝置100的組成元件;隨機(jī)存取存儲(chǔ)器(RAM)2503,用于 存儲(chǔ)控制桌面搜索裝置IOO所需的各種類型的數(shù)據(jù);顯示設(shè)備2505,用于顯示上述處理的結(jié)果等;通信接口(I/F)2507,用于將桌面搜索裝置100連接 到網(wǎng)絡(luò);諸如硬盤之類的外部存儲(chǔ)設(shè)備2504;輸入設(shè)備2506;以及總線2508, 用于將所述組成元件相互連接??梢韵蜃烂嫠阉餮b置100應(yīng)用具有上述配 置的任何通用計(jì)算機(jī)。
根據(jù)上述每個(gè)示例性實(shí)施例的桌面搜索裝置100所執(zhí)行的桌面搜索處 理程序以可安裝格式或可執(zhí)行格式的文件的形式記錄在計(jì)算機(jī)可讀記錄介 質(zhì)上,如光盤只讀存儲(chǔ)器(CD-ROM)、軟盤(FD)、可記錄光盤(CD-R)或者數(shù) 字多用途盤(DVD)。
在這種情況下,當(dāng)從記錄介質(zhì)中讀取并由桌面搜索裝置100執(zhí)行時(shí), 桌面搜索處理程序被裝載到主存儲(chǔ)設(shè)備中,從而在主存儲(chǔ)設(shè)備內(nèi)生成作為 上述軟件配置的功能元件。
另一種可接受的安排是根據(jù)上述每個(gè)示例性實(shí)施例的桌面搜索裝置 100所執(zhí)行的桌面搜索處理程序存儲(chǔ)在連接到諸如因特網(wǎng)的網(wǎng)絡(luò)的計(jì)算機(jī) 中并通過網(wǎng)絡(luò)下載來(lái)提供。進(jìn)一步地,再一種可接受的安排是根據(jù)上述 每個(gè)示例性實(shí)施例的桌面搜索裝置100所執(zhí)行的桌面搜索處理程序通過諸 如因特網(wǎng)的網(wǎng)絡(luò)來(lái)提供或分發(fā)。
進(jìn)一步地,又一種可接受的安排是根據(jù)上述每個(gè)示例性實(shí)施例的桌 面搜索處理程序預(yù)先合并到ROM等中。
權(quán)利要求
1、一種信息搜索裝置,包括文檔累積單元,用于累積多個(gè)文檔;字符串累積單元,用于累積多個(gè)第一字符串、多個(gè)第二字符串以及多個(gè)屬性,并將所述多個(gè)第一字符串和所述多個(gè)第二字符串相互對(duì)應(yīng),其中所述多個(gè)第一字符串包含在所述多個(gè)文檔的任意一個(gè)中并且用作搜索關(guān)鍵字,所述多個(gè)第二字符串包含在包括所述多個(gè)第一字符串的同一個(gè)文檔中,所述屬性是通過提取所述多個(gè)第二字符串來(lái)獲取的;存儲(chǔ)單元,用于相互對(duì)應(yīng)地初步存儲(chǔ)所述多個(gè)屬性和指定信息,所述指定信息是從所述多個(gè)第一字符串和所述文檔的至少一個(gè)中指定的;輸入接收單元,用于接收第一字符串的輸入;獲取單元,用于從所述輸入接收單元接收到的作為輸入的所述第一字符串和包含所述第一字符串的文檔的至少一個(gè)中獲取指定信息;屬性提取單元,用于從條件存儲(chǔ)單元中提取與所述獲取單元所獲取的所述指定信息相對(duì)應(yīng)的一個(gè)屬性;字符串提取單元,用于從所述字符串累積單元中提取與所述輸入接收單元接收到的作為輸入的所述第一字符串相對(duì)應(yīng)的并且所述屬性提取單元提取了屬性的第二字符串;以及搜索單元,用于從所述文檔累積單元中搜索包含所述輸入接收單元接收到的作為輸入的所述第一字符串和所述字符串提取單元所提取的所述第二字符串這兩者的一個(gè)文檔。
2、 根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括字符串呈現(xiàn)單元,用于向用戶呈現(xiàn)由所述字符串提取單元提取的所述 第二字符串;以及字符串選擇接收單元,用于接收從所述字符串呈現(xiàn)單元呈現(xiàn)的所述第 二字符串中對(duì)用作搜索關(guān)鍵字的一個(gè)第二字符串的選擇,其中所述搜索單元從所述文檔累積單元中搜索包含所述第一字符串和所述 字符串選擇接收單元接收到的作為選擇的所述一個(gè)第二字符串的一個(gè)文檔。
3、 根據(jù)權(quán)利要求1所述的裝置,其中所述存儲(chǔ)單元存儲(chǔ)代表所述第一字符串的屬性的屬性信息作為所述指 定信息,所述獲取單元包括屬性獲取單元,用于從所述多個(gè)第一字符串中獲取 代表所述第一字符串的屬性信息,以及所述屬性提取單元從所述存儲(chǔ)單元中提取與所述屬性獲取單元所獲取 的所述屬性信息相對(duì)應(yīng)的一個(gè)屬性。
4、 根據(jù)權(quán)利要求1所述的裝置,其中所述存儲(chǔ)單元存儲(chǔ)從任意文檔中提取的多個(gè)字符串作為所述指定信息,所述獲取單元包括字符串提取單元,用于從包含所述第一字符串的一 個(gè)文檔中提取第三字符串,以及所述屬性提取單元從所述存儲(chǔ)單元中提取與所提取的字符串相對(duì)應(yīng)的 屬性,其中所提取的字符串與所述字符串提取單元所提取的所述第三字符 串相匹配。
5、 根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括歷史存儲(chǔ)單元,用于相互對(duì)應(yīng)地存儲(chǔ)多個(gè)第一字符串、指定信息以及 多個(gè)屬性,所述多個(gè)第一字符串由用戶選擇作為搜索關(guān)鍵字,所述指定信 息是從所述多個(gè)第一字符串或者包含所述多個(gè)第一字符串的所述多個(gè)文檔 中指定的,并且所述屬性是從用戶選擇作為另一個(gè)搜索關(guān)鍵字的所述第二字符串中獲取的;歷史判斷單元,用于判斷存儲(chǔ)在所述歷史存儲(chǔ)單元中的多個(gè)所述指定 信息是否相互匹配;以及注冊(cè)單元,用于當(dāng)所述歷史判斷單元判斷多個(gè)所述指定信息相互匹配 時(shí),在所述存儲(chǔ)單元中相互對(duì)應(yīng)地注冊(cè)所述指定信息和所述多個(gè)屬性。
6、 根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括 文檔輸入處理單元,用于執(zhí)行輸入所述多個(gè)文檔的處理; 字符串注冊(cè)單元,用于在所述字符串累積單元中相互對(duì)應(yīng)地注冊(cè)要執(zhí)行輸入處理的所述多個(gè)文檔中所包含的所述多個(gè)第一字符串以及所述多個(gè) 文檔中所包含的所述多個(gè)第二字符串;以及文檔注冊(cè)單元,用于在所述文檔累積單元中注冊(cè)要執(zhí)行所述輸入處理 的所述多個(gè)文檔。
7、 根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括搜索結(jié)果顯示單元,用于 顯示所述搜索單元針對(duì)所述多個(gè)文檔的每個(gè)屬性所搜索的文檔。
8、 根據(jù)權(quán)利要求l所述的裝置,其中所述存儲(chǔ)單元進(jìn)一步相互對(duì)應(yīng)地存儲(chǔ)用于縮小所述多個(gè)文檔的縮小條 件,以及所述搜索單元進(jìn)一步搜索滿足所述縮小條件的一個(gè)文檔。
9、 一種信息搜索方法,包括 在文檔累積單元中累積多個(gè)文檔;在字符串累積單元中累積多個(gè)第一字符串、多個(gè)第二字符串以及多個(gè) 屬性,并將所述多個(gè)第一字符串和所述多個(gè)第二字符串相互對(duì)應(yīng),其中所 述多個(gè)第一字符串包含在所述多個(gè)文檔的任意一個(gè)中并且用作搜索關(guān)鍵 字,所述多個(gè)第二字符串包含在包括所述多個(gè)第一字符串的同一個(gè)文檔中, 所述屬性是通過提取所述多個(gè)第二字符串來(lái)獲取的;在存儲(chǔ)單元中相互對(duì)應(yīng)地初步存儲(chǔ)所述多個(gè)屬性和指定信息,所述指 定信息是從所述多個(gè)第一字符串和所述文檔的至少一個(gè)中指定的;接收第一字符串的輸入;從在所述接收步驟中作為輸入的所述第一字符串和包含所述第一字符 串的文檔的至少一個(gè)中獲取指定信息;從所述存儲(chǔ)單元中提取與所述獲取步驟中所獲取的所述指定信息相對(duì) 應(yīng)的一個(gè)屬性;從所述字符串累積單元中提取與所述接收步驟中接收到的作為輸入的 所述第一字符串相對(duì)應(yīng)的并且在所述提取步驟中提取了屬性的第二字符串;以及從所述文檔累積單元中搜索包含所述接收步驟中接收到的作為輸入的 所述第一字符串和所述字符串提取步驟中所提取的所述第二字符串這兩者 的一個(gè)文檔。
10、 根據(jù)權(quán)利要求9所述的方法,進(jìn)一步包含向用戶呈現(xiàn)在所述字符串提取步驟中所提取的所述第二字符串;以及 接收從所述字符串呈現(xiàn)步驟中呈現(xiàn)的所述第二字符串中對(duì)用作搜索關(guān)鍵字的一個(gè)第二字符串的選擇,其中在從所述文檔累積單元的所述搜索步驟中搜索一個(gè)文檔,所述文檔包含所述第一字符串和接收到的作為選擇的所述一個(gè)第二字符串。
11、 根據(jù)權(quán)利要求9所述的方法,其中在所述存儲(chǔ)步驟中,在所述存儲(chǔ)單元中存儲(chǔ)代表所述第一字符串的屬 性的屬性信息,作為所述指定信息,所述獲取步驟包括從所述多個(gè)第一字符串中獲取代表所述第一字符串 的屬性信息的屬性獲取步驟,以及在所述屬性提取步驟中從所述存儲(chǔ)單元中提取與所述屬性獲取步驟中 所獲取的所述屬性信息相對(duì)應(yīng)的一個(gè)屬性。
12、 根據(jù)權(quán)利要求9所述的方法,其中在所述存儲(chǔ)步驟中,在所述存儲(chǔ)單元中存儲(chǔ)從所述多個(gè)文檔的任意一 個(gè)中提取的多個(gè)字符串,作為所述指定信息,所述獲取步驟包括字符串提取步驟,用于從包含所述第一字符串的一 個(gè)文檔中提取第三字符串,以及在所述屬性提取步驟中,從所述存儲(chǔ)單元中提取與所提取的字符串相 對(duì)應(yīng)的屬性,其中所提取的字符串與所提取的第三字符串相匹配。
13、根據(jù)權(quán)利要求9所述的方法,進(jìn)一步包括在歷史存儲(chǔ)單元中相互對(duì)應(yīng)地存儲(chǔ)多個(gè)第一字符串、指定信息以及多 個(gè)屬性,所述多個(gè)第一字符串由用戶選擇作為搜索關(guān)鍵字,所述指定信息 是從所述多個(gè)第一字符串或包含所述多個(gè)第一字符串的所述多個(gè)文檔中指 定的,并且所述多個(gè)屬性是從所述用戶選擇作為另一個(gè)搜索關(guān)鍵字的所述第二字符串中獲取的;在歷史判斷步驟中判斷所述歷史存儲(chǔ)單元中存儲(chǔ)的多個(gè)所述指定信息是否相互匹配;以及當(dāng)判斷多個(gè)所述指定信息相互匹配時(shí),在所述存儲(chǔ)單元中相互對(duì)應(yīng)地 注冊(cè)所述指定信息和所述多個(gè)屬性。
全文摘要
一種信息搜索裝置,在字符串累積單元中與第二字符串相對(duì)應(yīng)地存儲(chǔ)第一字符串,并根據(jù)其屬性對(duì)每個(gè)第二字符串進(jìn)行分類。該信息搜索裝置進(jìn)一步在存儲(chǔ)單元中與指定信息相對(duì)應(yīng)地存儲(chǔ)屬性,其中所述指定信息中的每個(gè)是根據(jù)對(duì)應(yīng)的第一字符串和包含文檔中的至少一個(gè)指定的。該信息搜索裝置根據(jù)第一字符串和包含第一字符串的文檔中的至少一個(gè)獲取指定信息,并從存儲(chǔ)單元提取多個(gè)屬性。然后該信息搜索裝置從字符串累積單元提取一個(gè)第二字符串。
文檔編號(hào)G06F17/30GK101276372SQ200810087489
公開日2008年10月1日 申請(qǐng)日期2008年3月28日 優(yōu)先權(quán)日2007年3月29日
發(fā)明者石谷康人, 鈴木優(yōu) 申請(qǐng)人:株式會(huì)社東芝