專利名稱:文件分類裝置、方法以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文件分類裝置、方法以及程序。
背景技術(shù):
作為對文件進(jìn)行分析的技術(shù)之一,已知有根據(jù)文件中的意圖表現(xiàn)對事物的評判進(jìn)行分析的評判分析。評判分析不是僅判斷單純的事物的好壞,而是按每個(gè)對事物進(jìn)行評價(jià)的觀點(diǎn)來判斷好壞。因此,在以往的評判分析中,除了意圖表現(xiàn)的詞典之外,成為意圖表現(xiàn)的對象的觀點(diǎn)的詞典是必要的。前者即意圖表現(xiàn)的詞典不依賴于特定的領(lǐng)域因而具有通用性,能夠在各種各樣的領(lǐng)域中利用。另一方面,后者即觀點(diǎn)的詞典較強(qiáng)地依賴于特定的領(lǐng)域因而缺乏通用性,必須按領(lǐng)域制作。另一方面,作為將文件集合分類的方法,已知有文件分組。根據(jù)文件分組,能夠根據(jù)各個(gè)文件的內(nèi)容將文件集合分類,所以若能進(jìn)行以成為意圖表現(xiàn)的對象的觀點(diǎn)為基準(zhǔn)的分類,則能夠?qū)崿F(xiàn)不使用觀點(diǎn)的詞典的評判分析。此外,還已知有在文件分組中使用同義詞詞典的技術(shù)。例如有這樣的技術(shù),即選擇同義詞詞典上的某個(gè)層級(jí),使用同一層級(jí)上的收錄語對文件分組進(jìn)行分類、統(tǒng)合。由此,能夠統(tǒng)一文件分組的分類的粒度,還能夠?qū)Ρ环诸惡蟮奈募纸M賦予分類標(biāo)簽,該分類標(biāo)簽作為在分類中使用的同義詞詞典的收錄語。但是,根據(jù)使用同義詞詞典的同一層級(jí)上的收錄語對文件分組進(jìn)行分類、統(tǒng)合的技術(shù),由于同義詞詞典中的收錄語廣泛分布,所以文件分組的數(shù)量增多。此外,分類標(biāo)簽成為屬于同義詞詞典中的下位概念的狹義語。因此,難以將文件的分類結(jié)果容易明白地提示?,F(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)1:日本特開2009 - 251825號(hào)公報(bào)非專利文獻(xiàn)I:Hearst, M.A.: Clustering versus faceted categories forinformation exploration, Communications of the ACM, Volume49Issue4, April2006.
發(fā)明內(nèi)容
發(fā)明的概要本發(fā)明要解決的課題本發(fā)明要解決的課題在于,提供一種能夠?qū)⑽募姆诸惤Y(jié)果容易明白地提示的文件分類裝置、方法以及程序。實(shí)施方式的文件分類裝置具備特征語提取單元、特征語分組單元、文件分類單元、分類標(biāo)簽賦予單元和提示單元。特征語提取單元從文件集合包含的文件提取特征語。特征語分組單元將提取出的上述特征語分組為多個(gè)分組,該多個(gè)分組構(gòu)成具有樹結(jié)構(gòu)的同義詞詞典的局部樹,出現(xiàn)屬于一個(gè)分組的上述特征語的上述文件的數(shù)量、與出現(xiàn)屬于其他分組的上述特征語的上述文件的數(shù)量之差,在預(yù)先規(guī)定的基準(zhǔn)值以下。文件分類單元將上述文件集合包含的上述文件分類為在該文件中出現(xiàn)的上述特征語所屬的分組。分類標(biāo)簽賦予單元對上述多個(gè)分組中的各個(gè)分組賦予分類標(biāo)簽,該分類標(biāo)簽是代表屬于各分組的上述特征語的語句。提示單元將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽對應(yīng)起來進(jìn)行提示。
圖1是表示第I實(shí)施方式的文件分類裝置的框圖。圖2是表示在文件存儲(chǔ)部中存儲(chǔ)的文件集合的一例的圖。圖3 — I是表示在意圖詞典存儲(chǔ)部中存儲(chǔ)的意圖表現(xiàn)的一例的圖。圖3 — 2是表示在意圖詞典存儲(chǔ)部中存儲(chǔ)的意圖表現(xiàn)的一例的圖。圖4是表示在同義詞詞典存儲(chǔ)部中存儲(chǔ)的同義詞詞典的一例的圖。圖5 — I是表示從分類對象的各文件提取的特征語的一例的圖。圖5 — 2是表示從分類對象的各文件提取的特征語的一例的圖。圖6是表示將特征語分組后的結(jié)果的一例的圖。圖7 — I是表示將分類對象的各文件分類的結(jié)果的一例的圖。圖7 — 2是表示將分類對象的各文件分類的結(jié)果的一例的圖。圖8 — I是表示對文件分組賦予的分類標(biāo)簽的一例的圖。圖8 — 2是表示對文件分組賦予的分類標(biāo)簽的一例的圖。圖9 一 I是表示提示單元的信息的提示例的圖。圖9 一 2是表示提示單元的信息的提示例的圖。圖9 一 3是表示提示單元的信息的提示例的圖。圖10是表示特征語提取單元的處理流程的流程圖。圖11是表示特征語分組單元的處理流程的流程圖。圖12是表示文件分類單元的處理流程的流程圖。圖13是表示分類標(biāo)簽賦予單元的處理流程的流程圖。圖14是表示第2實(shí)施方式的文件分類裝置的框圖。圖15是表示在指定文件存儲(chǔ)部中存儲(chǔ)的指定文件的一例的圖。圖16是表示從分類對象的各文件和指定文件提取的特征語的一例的圖。圖17是表不對文件分組賦予的分類標(biāo)簽的一例的圖。圖18 — I是表示提示單元的信息的提示例的圖。圖18 — 2是表示提示單元的信息的提示例的圖。圖19是表示第3實(shí)施方式的文件分類裝置的框圖。圖20是表示在觀點(diǎn)詞典存儲(chǔ)部中存儲(chǔ)的觀點(diǎn)的詞典的一例的圖。圖21是表示從分類對象的各文件提取的特征語的一例的圖。圖22是表示對文件分組賦予的分類標(biāo)簽的一例的圖。圖23 — I是表示提示單元的信息的提示例的圖。圖23 — 2是表示提示單元的信息的提示例的圖。圖23 — 3是表示提示單元的信息的提示例的圖。圖24是表示第4實(shí)施方式的文件分類裝置的框圖。
圖25是表示在文件存儲(chǔ)部中存儲(chǔ)的文件集合的一例的圖。圖26是表示數(shù)據(jù)處理裝置的硬件結(jié)構(gòu)例的說明圖。
具體實(shí)施例方式以下,參照
實(shí)施方式的文件分類裝置、方法以及程序。另外,以下所示的實(shí)施方式是對在評判分析中利用的文件分類裝置的適用例,可適用的文件分類裝置不限于該例,能夠適用于各種形態(tài)的文件分類裝置。<第I實(shí)施方式>圖1是表示第I實(shí)施方式的文件分類裝置的框圖。第I實(shí)施方式的文件分類裝置如圖1所示,具備存儲(chǔ)裝置1、數(shù)據(jù)處理裝置2和輸入輸出裝置3。存儲(chǔ)裝置1、數(shù)據(jù)處理裝置2以及輸入輸出裝置3可互相交換信息地通過有線或無線進(jìn)行連接。另外,存儲(chǔ)裝置1、數(shù)據(jù)處理裝置2以及輸入輸出裝置3也可以通過單一的信息處理裝置來實(shí)現(xiàn)。存儲(chǔ)裝置I具備文件存儲(chǔ)部101、意圖詞典存儲(chǔ)部102和同義詞詞典(thesaurus)存儲(chǔ)部103。文件存儲(chǔ)部101存儲(chǔ)成為分類的對象的文件集合。圖2是表示在文件存儲(chǔ)部101中存儲(chǔ)的文件集合的一例的圖。文件集合所含的文件不限于某特定的形態(tài),例如是用自然語言記述的文件。例如,包含網(wǎng)頁文件、業(yè)務(wù)上制作的文件、專利公報(bào)等文件的文件集合存儲(chǔ)在文件存儲(chǔ)部101中。文件存儲(chǔ)部101可以不僅存儲(chǔ)文件本身而是還將文件ID成組存儲(chǔ)。圖2中,示出了包含從文件ID是Dl的文件到文件ID是DlO的文件的文件集合存儲(chǔ)在文件存儲(chǔ)部101中的例子。文件存儲(chǔ)部101例如能夠使用硬盤、閃存等。意圖詞典存儲(chǔ)部102存儲(chǔ)通常使用的意圖表現(xiàn)。這里,意圖表現(xiàn)是指,對事件的評價(jià)及贊成與否、成功與否等、人帶有感想及意圖而表現(xiàn)的詞語。圖3 — I及圖3 — 2是表示在意圖詞典存儲(chǔ)部102中存儲(chǔ)的意圖表現(xiàn)的一例的圖。意圖詞典存儲(chǔ)部102可以不僅存儲(chǔ)意圖表現(xiàn)本身而是還將意圖表現(xiàn)的種類成組存儲(chǔ)。圖3 — I中,示出了在意圖詞典存儲(chǔ)部102中存儲(chǔ)了“良好”、“好”、“廣”、“差”、“遺憾”、“高”的意圖表現(xiàn)的例子。圖3 — 2中,示出了對于“評價(jià)”是“好評”的意圖表現(xiàn)的種類而言存儲(chǔ)有“良好”、“好”、“廣”的意圖表現(xiàn)、對于“評價(jià)”是“差評”的意圖表現(xiàn)的種類而言存儲(chǔ)有“差”、“遺憾”、“高”的意圖表現(xiàn)的例子。意圖詞典存儲(chǔ)部102例如能夠使用硬盤、閃存等。同義詞詞典存儲(chǔ)部103存儲(chǔ)一個(gè)或多個(gè)同義詞詞典。同義詞詞典是指,根據(jù)語句的上位/下位關(guān)系、部分/整體關(guān)系、同義關(guān)系、近義關(guān)系等將語句分類并建立體系的詞典。同義詞詞典存儲(chǔ)部103存儲(chǔ)的同義詞詞典具有將收錄語作為節(jié)點(diǎn)、將上位節(jié)點(diǎn)和下位節(jié)點(diǎn)用鏈路連結(jié)的樹結(jié)構(gòu)。圖4是表示在同義詞詞典存儲(chǔ)部103中存儲(chǔ)的同義詞詞典的一例的圖。圖4中,示出了將(a)和(b)這兩個(gè)同義詞詞典存儲(chǔ)在同義詞詞典存儲(chǔ)部103中的例子。作為同義詞詞典存儲(chǔ)部103存儲(chǔ)的同義詞詞典,能夠使用現(xiàn)有的同義詞詞典。例如能夠使用EDR概念體系詞典、JST科學(xué)技術(shù)用語同義詞詞典、WordNet等。此外,同義詞詞典存儲(chǔ)部103可以不僅存儲(chǔ)同義詞詞典的收錄語及收錄語間的關(guān)系、而且還將收錄語間的共現(xiàn)頻度、表示共現(xiàn)的尺度的共現(xiàn)度成組存儲(chǔ)。例如,共現(xiàn)度能夠使用點(diǎn)間互信息(Pointwise MutualInformation)。同義詞詞典存儲(chǔ)部103例如能夠使用硬盤、閃存等。數(shù)據(jù)處理裝置2具備特征語提取單元201、特征語分組單元202、文件分類單元203和分類標(biāo)簽賦予單元204。特征語提取單元201從文件存儲(chǔ)部101所存儲(chǔ)的文件集合中包含的分類對象的各文件提取特征語。具體而言,特征語提取單元201首先使用在意圖詞典存儲(chǔ)部102中存儲(chǔ)的意圖表現(xiàn),從文件集合中包含的分類對象的各文件,提取成為意圖表現(xiàn)的對象的語句。接著,特征語提取單元201從所提取的成為意圖表現(xiàn)的對象的語句中,將按照預(yù)先規(guī)定的基準(zhǔn)而選擇的語句提取為特征語。這里,成為意圖表現(xiàn)的對象的語句的提取例如能夠使用詞素解析、含義信息提取、復(fù)合語提取、依存關(guān)系解析(係D受《■解析)等手法。例如,作為復(fù)合語提取的具體手法,能夠使用C 一 value。此外,也可以是,根據(jù)詞素解析、含義信息提取、復(fù)合語提取、依存關(guān)系解析的結(jié)果,選擇某特定的種類。
此外,作為從成為意圖表現(xiàn)的對象的語句中提取特征語的方法,例如能夠使用如下方法,即:將根據(jù)出現(xiàn)頻度而計(jì)算的權(quán)重在規(guī)定值以上的語句提取為特征語。這里的規(guī)定值能夠根據(jù)縮小(絞>9込tr)特征語的數(shù)量等任意選擇。作為基于出現(xiàn)頻度的權(quán)重,例如能夠使用tf -1df0此外,也可以是,根據(jù)文件存儲(chǔ)部101保持的文件集合中包含的文件數(shù)量進(jìn)行如下切換,即:在文件數(shù)量多的情況下使用tf -1df,在文件數(shù)量少的情況下使用tf(Term Frequency:語句的出現(xiàn)頻度)。圖5 — I及圖5 — 2是表示從圖2所示的文件集合中包含的分類對象的各文件提取的特征語的一例的圖。另外,這里,假設(shè)圖2所示的全部文件是分類對象。圖5 — I是使用圖3 — I所示的意圖表現(xiàn)提取的特征語的例子,圖5 — 2是使用圖3 - 2所示的意圖表現(xiàn)提取的特征語的例子。特征語提取單元201提取的特征語例如如圖5 — I及圖5 — 2所示,與表示提取源的文件的文件ID建立關(guān)聯(lián)地保持。此外,特征語提取單元201提取的特征語如圖5 - 2所示,也可以是,除了表示提取源的文件的文件ID之外,還與提取所用的意圖表現(xiàn)及其種類建立關(guān)聯(lián)地保持。圖5 — 2的例子中,使用意圖表現(xiàn)的種類的二層級(jí)(好評、差評)將特征語進(jìn)一步分類。特征語分組單元202將特征語提取單元201提取的特征語用同義詞詞典存儲(chǔ)部103所存儲(chǔ)的同義詞詞典進(jìn)行分組。具體而言,特征語分組單元202將特征語提取單元201提取的特征語分組為多個(gè)特征語分組,該多個(gè)特征語分組中,由各分組構(gòu)成同義詞詞典的局部樹。這里生成的多個(gè)特征語分組,使得出現(xiàn)屬于一個(gè)特征語分組的特征語的文件數(shù)與出現(xiàn)屬于其他特征語分組的特征語的文件數(shù)之差在預(yù)先規(guī)定的基準(zhǔn)值以下。即,在多個(gè)特征語分組間,出現(xiàn)屬于各特征語分組的特征語的文件數(shù)接近于相同數(shù)量。這里,出現(xiàn)屬于各特征語分組的特征語的文件數(shù)之差所允許的基準(zhǔn)值例如能夠根據(jù)相對于文件集合所包含的文件的總數(shù)的比例來規(guī)定。作為特征語分組單元202的分組的方法,例如能夠使用基于同義詞詞典上的距離的層級(jí)型分組的方法。具體而言,能夠使用這樣的方法,即:以使含義相近的特征語屬于一個(gè)特征語分組的方式使同義詞詞典的局部樹從下位的語句向上位的語句成長,若達(dá)到根據(jù)出現(xiàn)屬于一個(gè)特征語分組的特征語的文件數(shù)相對于例如文件集合所含文件的總數(shù)的比例而確定的規(guī)定值,則停止局部樹的成長。此時(shí),構(gòu)成一個(gè)特征語分組的特征語間的同義詞詞典上的距離允許所決定的常數(shù)。此外,在一個(gè)特征語被收錄于多個(gè)同義詞詞典的情況下,可以以跨多個(gè)同義詞詞典的方式使局部樹成長。圖6是表示特征語分組單元202將特征語分組后的結(jié)果的一例的圖。在圖6的例子中,分別生成構(gòu)成從Tl到T4的四個(gè)局部樹的特征語分組。各特征語“預(yù)約”、“服務(wù)”、“接待”、“工作人員”、“從業(yè)員”屬于構(gòu)成局部樹Tl的特征語分組。各特征語“價(jià)值”、“價(jià)錢”、“費(fèi)用”屬于構(gòu)成局部樹T2的特征語分組。各特征語“料理”、“日餐”、“中餐”、“西餐”、“自助餐”、“物品數(shù)”屬于構(gòu)成局部樹T3的特征語分組。各特征語“吸煙”、“禁煙”屬于構(gòu)成局部樹T4的特征語分組。另外,關(guān)于局部樹Tl,由于將(a)的同義詞詞典中的“工作人員”和(b)的同義詞詞典中的“工作人員”視為相同,所以成為跨(a)和(b)的兩個(gè)同義詞詞典的局部樹。特征語分組單元202通過采用如上述那樣地將特征語分組為構(gòu)成同義詞詞典的局部樹的特征語分組這樣的方法,能夠?qū)⑻卣髡Z提取單元201沒能提取為特征語的語句作為屬于特征語分組的特征語來進(jìn)行補(bǔ)充。例如,圖6所示的屬于構(gòu)成局部樹T3的特征語分組的特征語之中,“料理”、“中餐”、“西餐”、“自助餐”是不包含在圖5 — I及圖5 — 2所示的特征語提取單元201的特征語的提取結(jié)果中的語句,但通過以使特征語提取單元201提取為特征語的“日餐”、“物品數(shù)”屬于一個(gè)特征語分組的方式使局部樹成長,能夠?qū)ⅰ傲侠怼?、“中餐”、“西餐”、“自助餐”作為屬于?gòu)成該同義詞詞典的局部樹的特征語分組的特征語進(jìn)行補(bǔ)充。此外,特征語分組單元202通過采用如上述那樣地將特征語分組為構(gòu)成同義詞詞典的局部樹的特征語分組這樣的方法,能夠?qū)⑻卣髡Z提取單元201提取為特征語的語句之中的、沒有收錄為同義詞詞典的收錄語的語句從屬于特征語分組的特征語中排除。例如,圖5 — I及圖5 — 2所示的特征語提取單元201的特征語的提取結(jié)果中,作為特征語而包含語句“座位”、“設(shè)定”、“停車”、“希望”,但能夠?qū)]有被收錄為圖6所示的同義詞詞典的收錄語的這些語句從屬于特征語分組的特征語中排除。如上那樣,特征語分組單元202不僅將特征語提取單元201提取的特征語的集合單純地分組,還具有根據(jù)特征語提取單元201提取的特征語和同義詞詞典的收錄語之間的同義詞詞典上的距離、一邊對特征語的集合進(jìn)行修正一邊分組的功能。特征語分組單元202如上所述那樣對特征語進(jìn)行分組的情況下,關(guān)于屬于一個(gè)特征語分組的特征語和同義詞詞典上的距離大的屬于其他特征語分組的特征語,同義詞詞典的局部樹不成長,單獨(dú)的局部樹無法構(gòu)成滿足上述基準(zhǔn)的特征語分組的情況是存在的。這樣的情況下,特征語分組單元202將無法單獨(dú)構(gòu)成滿足上述基準(zhǔn)的一個(gè)特征語分組的局部樹集中多個(gè)而作為一個(gè)特征語分組。即,該特征語分組成為匯集了含義上遠(yuǎn)離的(在同義詞詞典上離散的)特征語的特征語分組。在圖6所示的例子中,虛線所包圍的局部樹的集合成為一個(gè)特征語分組,例如,圖5 — I及圖5 — 2中例示的特征語之中,各特征語“車站前”、“風(fēng)景”、“氛圍”、“溫度”成為屬于該特征語分組的特征語。另外,在該特征語分組中,特征語提取單元201沒能提取為特征語的語句“印象”、“空調(diào)”也作為特征語來補(bǔ)充。
文件分類單元203將在文件存儲(chǔ)部101中存儲(chǔ)的文件集合所包含的分類對象的各文件根據(jù)特征語分組單元202的特征語分組的結(jié)果進(jìn)行分類,生成文件分組。具體而言,文件分類單元203,將出現(xiàn)屬于一個(gè)特征語分組的特征語的文件分類為一個(gè)文件分組,按通過特征語分組單元202生成的每個(gè)特征語分組生成文件分組。另外,對于不包含通過特征語分組單元202生成的特征語分組所包含的特征語中的任一個(gè)特征語的文件,分類為未分類的分組。圖7 — I及圖7 — 2是表示將圖2所示的文件集合包含的分類對象的各文件進(jìn)行了分類的結(jié)果的一例的圖。另外,這里將圖2所示的全部文件作為分類對象。這些圖7 —I及圖7 — 2是根據(jù)圖6所示的特征語分組單元202的特征語分組的結(jié)果而被分類的文件的分類結(jié)果的例子。文件分類單元203的分類結(jié)果例如如圖7 — I及圖7 — 2所示,按照表示文件分組的每個(gè)文件分組ID,將屬于各文件分組的文件的文件ID作為關(guān)聯(lián)信息來保持。此外,也可以是,按照各文件分組ID,除了文件ID之外還將屬于各分組的特征語作為關(guān)聯(lián)信息來保持。圖7 — I及圖7 — 2中,示出了分類對象的各文件被分類為從文件分組ID為Cl的文件分組到文件分組ID為C5的文件分組的五個(gè)文件分組的例子。文件分組ID為Cl的文件分組對應(yīng)于圖6所示的構(gòu)成同義詞詞典的局部樹Tl的特征語分組。此外,文件分組ID為C2的文件分組對應(yīng)于圖6所示的構(gòu)成同義詞詞典的局部樹T2的特征語分組。此外,文件分組ID為C3的文件分組對應(yīng)于圖6所示的構(gòu)成同義詞詞典的局部樹T3的特征語分組。此夕卜,文件分組ID為C4的文件分組對應(yīng)于圖6所示的構(gòu)成同義詞詞典的局部樹T4的特征語分組。另外,文件分組ID為C5的文件分組對應(yīng)于圖6所示的將虛線所包圍的同義詞詞典的局部樹集中多個(gè)而生成的特征語分組。從圖7 — I及圖7 — 2所示例子可知,還存在一個(gè)文件被分類到多個(gè)文件分組的情況。分類標(biāo)簽賦予單元204對各個(gè)文件分組(即將特征語分組了的分組)賦予分類標(biāo)簽,分類標(biāo)簽是代表屬于各分組的特征語的語句。分類標(biāo)簽例如從屬于各分組的特征語之中選擇一個(gè)或多個(gè)。分類標(biāo)簽的選擇例如能夠采用將出現(xiàn)特征語的文件的范圍作為基準(zhǔn)進(jìn)行選擇的方法、或?qū)⑻卣髡Z在同義詞詞典中的位置作為基準(zhǔn)進(jìn)行選擇的方法等。在將出現(xiàn)特征語的文件的范圍作為基準(zhǔn)的情況下,例如使特征語的出現(xiàn)頻度高者、或出現(xiàn)特征語的文件的數(shù)量多者優(yōu)先來選擇分類標(biāo)簽。此外,在將特征語在同義詞詞典中的位置作為基準(zhǔn)的情況下,例如使上位概念優(yōu)先、或使同義語及不同標(biāo)記多的語句優(yōu)先、或使位于特征語的分布的中心者優(yōu)先來選擇分類標(biāo)簽。另外,在按照與特征語相關(guān)聯(lián)的意圖表現(xiàn)的種類(好評、差評等)將特征語分類的情況下,可以按照每個(gè)意圖表現(xiàn)的種類選擇分類標(biāo)簽。此外,分類標(biāo)簽賦予單元204,對于與將同義詞詞典的局部樹集中多個(gè)而生成的特征語分組相對應(yīng)的文件分組,賦予表示該分組是不構(gòu)成同義詞詞典的一個(gè)局部樹的多個(gè)特征語的集合這一情況的分類標(biāo)簽、即表示屬于該文件分組的文件不是按含義分類的文件這一情況的分類標(biāo)簽。作為該情況的分類標(biāo)簽,例如能使用“其他”、“未分類”。此外,也可以與“其他”、“未分類” 一起,選擇代表性的特征語作為分類標(biāo)簽來賦予。圖8 — I及圖8 一 2是表示由分類標(biāo)簽賦予單元204賦予的分類標(biāo)簽的一例的圖。圖8 — I是對圖7 -1所示的分類結(jié)果的各文件分組賦予的分類標(biāo)簽的例子,圖8 — 2是對圖7 — 2所示的分類結(jié)果的各文件分組賦予的分類標(biāo)簽的例子。
圖8 — I及圖8 — 2的例子中,對文件分組ID是Cl的文件分組賦予“預(yù)約”、“月艮務(wù)”作為分類標(biāo)簽。此外,對文件分組ID是C2的文件分組,賦予“費(fèi)用”、“價(jià)值”作為分類標(biāo)簽。此外,對文件分組ID是C3的文件分組賦予“自助餐”、“料理”作為分類標(biāo)簽。此外,對文件分組ID是C4的文件分組賦予“禁煙”作為分類標(biāo)簽。此外,對文件分組ID是C5的文件分組賦予“其他”、“位置”、“印象”、“空氣調(diào)節(jié)”作為分類標(biāo)簽。輸入輸出裝置3具備分類方法選擇單元301和提示單元302。分類方法選擇單元301受理在文件存儲(chǔ)部101中存儲(chǔ)的文件集合所含文件之中的、分類對象的文件的選擇。分類方法選擇單元301受理用戶的分類對象的文件的選擇,具有用來將選擇了哪個(gè)文件明示地發(fā)送到數(shù)據(jù)處理裝置2的功能,例如具有發(fā)送用的按鈕等。例如,能夠使用這樣的方法,即:若用戶輸入任意的查詢,則將在文件存儲(chǔ)部101中存儲(chǔ)的文件集合所含文件之中的、與所輸入的查詢相對應(yīng)的文件的集合作為分類對象來選擇,將對選擇的文件進(jìn)行明示的信息發(fā)送到數(shù)據(jù)處理裝置2。若該來自分類方法選擇單元301的信息被發(fā)送到數(shù)據(jù)處理裝置2,則數(shù)據(jù)處理裝置2的特征語提取單元201開始進(jìn)行處理。另外,數(shù)據(jù)處理裝置2的特征語提取單元201開始處理的定時(shí)(對文件進(jìn)行分類的定時(shí))不限于從分類方法選擇單元301發(fā)送了信息的時(shí)刻。例如,也可以在新的文件被存儲(chǔ)到文件存儲(chǔ)部101中時(shí),使數(shù)據(jù)處理裝置2的特征語提取單元201開始處理。提示單元302將文件分類單元203的文件的分類結(jié)果作為與分類標(biāo)簽賦予單元204賦予的分類標(biāo)簽建立了對應(yīng)的信息提示給用戶。具體而言,提示單元302例如將附加有分類為文件分組的文件數(shù)的圖符、和對文件分組賦予的分類標(biāo)簽的組合作為顯示信息來生成,使輸入輸出裝置3的顯示器(未圖示)等顯示該顯示信息。此外,也可以是,提示單元302生成將屬于各分組的特征語、與附加有文件數(shù)的圖符和分類標(biāo)簽的組合建立了對應(yīng)的顯示信息,使輸入輸出裝置3的顯示器等顯示該顯示信息。此時(shí),優(yōu)選的是,在特征語按照在該特征語的提取中使用的意圖表現(xiàn)的種類來分類的情況下,以能夠?qū)⑴c附加了文件數(shù)的圖符和分類標(biāo)簽的組合對應(yīng)起來進(jìn)行顯示的特征語,按照意圖表現(xiàn)的種類進(jìn)行區(qū)分的形式來顯示。圖9— I 圖9 — 3是表示提示單元302的信息的提示例的圖。圖9 一 I 圖9 - 3所示的例子是顯示將附加有文件數(shù)的圖符和分類標(biāo)簽的組合、與屬于各分組的特征語建立了對應(yīng)的顯示信息的例子。這些圖9 一 I 圖9 一 3所示的例中,以屬于各分組的特征語能夠按在特征語的提取中使用的意圖表現(xiàn)的種類進(jìn)行區(qū)分的形式來顯示。作為能夠按意圖表現(xiàn)的種類區(qū)分的形式的例子,例如能夠舉出將語句、語句的背景按顏色區(qū)分、使語句為不同字體、將表示意圖表現(xiàn)的種類的圖符一起記載等例子。例如,在圖9 一 I所示的例子中,意圖表現(xiàn)的種類是好評的特征語用通常的字體顯示,意圖表現(xiàn)的種類是差評的特征語用附加了下滑線的斜體顯示。此外,在圖9一2所示的例子中,對意圖表現(xiàn)的種類是好評的特征語附加笑臉的圖符,對意圖表現(xiàn)的種類是差評的特征語附加窘臉的圖符。此外,在圖9 - 3所示的例子中,屬于各分組的特征語按意圖表現(xiàn)的種類分開,對意圖表現(xiàn)的種類是好評的特征語附加笑臉的圖符,對意圖表現(xiàn)的種類是差評的特征語附加窘臉的圖符。如該圖9 - 3所示,還能夠?qū)⒑迷u的評價(jià)和差評的評價(jià)分開提示。接著,參照圖10 圖13的流程圖說明第I實(shí)施方式的文件分類裝置的動(dòng)作。另夕卜,以下,作為初始狀態(tài),假設(shè)如下情況來進(jìn)行說明,即:在文件存儲(chǔ)部101中存儲(chǔ)圖2所示的文件集合、在意圖詞典存儲(chǔ)部102中存儲(chǔ)圖3 - 2所示的意圖表現(xiàn)、在同義詞詞典存儲(chǔ)部103中存儲(chǔ)圖4所示的同義詞詞典、將圖2所示的文件集合包含的全部文件作為分類對象來選擇。圖10是表示特征語提取單元201的處理流程的流程圖。特征語提取單元201首先取得在文件存儲(chǔ)部101中存儲(chǔ)的文件集合(步驟S101)。假設(shè)這里所取得的文件集合是圖2所示的文件集合。接著,特征語提取單元201取得在意圖詞典存儲(chǔ)部102中存儲(chǔ)的意圖表現(xiàn)(步驟S102)。假設(shè)這里所取得的意圖表現(xiàn)是圖3 - 2所示的意圖表現(xiàn)。接著,特征語提取單元201從在步驟SlOl中取得的文件集合所含的各文件,確定與在意圖詞典存儲(chǔ)部102中存儲(chǔ)的意圖表現(xiàn)一致的意圖表現(xiàn),提取成為該意圖表現(xiàn)的對象的語句(步驟S103)。接著,特征語提取單元201從在步驟S103中提取的成為意圖表現(xiàn)的對象的語句之中,將按照預(yù)先規(guī)定的基準(zhǔn)選擇的語句提取為特征語(步驟S104),結(jié)束圖10的流程圖所示的一系列處理。圖11是表示特征語分組單元202的處理流程的流程圖。特征語分組單元202首先取得特征語提取單元201提取的特征語(步驟S201)。假設(shè)這里所取得的特征語是圖5 - 2所示的特征語。接著,特征語分組單元202取得在同義詞詞典存儲(chǔ)部103中存儲(chǔ)的同義詞詞典(步驟S202)。假設(shè)這里所取得的同義詞詞典是圖4所示的同義詞詞典。接著,特征語分組單元202取得在步驟S201中取得的特征語之中的、存在于在步驟S202中取得的同義詞詞典中的特征語(步驟S203)。接著,特征語分組單元202取得在步驟S203中提取的特征語間的同義詞詞典上的距離、和出現(xiàn)特征語的文件數(shù)(步驟S204)。特征語間的同義詞詞典上的距離能夠使用將鄰接的概念間的距離用單位距離表示的概念間的距離。此外,作為特征語間的同義詞詞典上的距離,也可以使用在同義詞詞典存儲(chǔ)部103中存儲(chǔ)的表示概念間的共現(xiàn)頻度、共現(xiàn)的尺度的共現(xiàn)度。接著,特征語分組單元202使用在步驟S204中取得的特征語間的同義詞詞典上的距離、和出現(xiàn)特征語的文件數(shù),將在步驟S203中提取的特征語分組為分別構(gòu)成同義詞詞典的局部樹的多個(gè)特征語分組(步驟S205)。此時(shí),特征語分組單元202使在多個(gè)特征語分組間、出現(xiàn)屬于各分組的特征語的文件數(shù)接近于相同數(shù)量。即,進(jìn)行特征語的分組,使得出現(xiàn)屬于一個(gè)特征語分組的特征語的文件數(shù)、和出現(xiàn)屬于其他特征語分組的特征語的文件數(shù)之差在預(yù)先規(guī)定的基準(zhǔn)值以下。這里,出現(xiàn)特征語的文件數(shù)可以采用出現(xiàn)屬于特征語分組的全部特征語的文件的總數(shù),也可以采用出現(xiàn)屬于特征語分組的特征語之中的特定的特征語的文件數(shù)。此外,也可以將預(yù)先規(guī)定的某特定的數(shù)值用作文件數(shù)。通過該特征語分組單元202進(jìn)行的特征語分組,能夠?qū)⑻卣髡Z提取單元201沒能提取為特征語的語句之中的、作為同義詞詞典的收錄語來收錄的語句作為屬于特征語分組的特征語進(jìn)行補(bǔ)充,能夠?qū)⑻卣髡Z提取單元201提取為特征語的語句之中的、沒有作為同義詞詞典的收錄語來收錄的語句從屬于特征語分組的特征語中排除。圖12是表示文件分類單元203的處理流程的流程圖。
文件分類單元203首先將屬于特征語分組單元202生成的各特征語分組的語句作為特征語取得(步驟S301)。接著,文件分類單元203從在文件存儲(chǔ)部101中存儲(chǔ)的分類對象的文件集合中取得一個(gè)文件(步驟S302)。接著,文件分類單元203判定在步驟S302取得的分類對象的文件中是否存在步驟S301取得的特征語(步驟S303)。并且,文件分類單元203在特征語存在于分類對象的文件中的情況下(步驟S303 是”),將分類對象的文件分類到該特征語所屬的特征語分組(步驟S304)。另一方面,在特征語不存在于分類對象的文件中的情況下(步驟S303 否”),文件分類單元203將分類對象的文件分類到未分類的分組(步驟S305)。接著,文件分類單元203判定是否已將分類對象的文件全部分類(步驟S306)。并且,在剩余有未分類的文件的情況下(步驟S306 否”),文件分類單元203返回步驟S302并重復(fù)以后的處理,在分類對象的全部文件的分類已結(jié)束的情況下(步驟S306 是”),文件分類單元203結(jié)束圖12的流程圖所示的一系列處理。圖13是表示分類標(biāo)簽賦予單元204的處理流程的流程圖。分類標(biāo)簽賦予單元204首先取得作為文件分類單元203的文件分類結(jié)果的文件分組(步驟S401)。接著,分類標(biāo)簽賦予單元204取得與在步驟S401中取得的各個(gè)文件分組相對應(yīng)的同義詞詞典的局部樹(步驟S402)。接著,分類標(biāo)簽賦予單元204利用與各文件分組相對應(yīng)的同義詞詞典的局部樹的結(jié)構(gòu),選擇代表屬于各文件分組的特征語的語句(步驟S403)。另外,也可以是,在屬于各文件分組的特征語按照意圖表現(xiàn)的種類而被分類的情況下,按照意圖表現(xiàn)的種類來選擇代表特征語的語句。接著,分類標(biāo)簽賦予單元204將在步驟S403中選擇的語句作為分類標(biāo)簽賦予各文件分組(步驟S404),結(jié)束圖13的流程圖所示的一系列處理。以上,如舉出具體例子進(jìn)行詳細(xì)說明的那樣,根據(jù)第I實(shí)施方式的文件分類裝置,將從分類對象的文件提取的特征語分組為多個(gè)特征語分組,該多個(gè)特征語分組中,各個(gè)分組構(gòu)成同義詞詞典的局部樹,出現(xiàn)屬于各分組的特征語的文件數(shù)大致相等。并且,將分類對象的文件根據(jù)特征語分組進(jìn)行分類而生成文件分組,并對各文件分組賦予分類標(biāo)簽,將文件的分類結(jié)果與分類標(biāo)簽對應(yīng)起來提示給用戶。因而,能夠有效地抑制所分類的分組的數(shù)量過多、或按照分組而分類的文件數(shù)存在較大偏頗等弊端,能夠?qū)⑽募姆诸惤Y(jié)果容易明白地對用戶提示。此外,根據(jù)第I實(shí)施方式的文件分類裝置,將從成為意圖表現(xiàn)的對象的語句中選擇的語句提取為特征語,利用同義詞詞典將特征語分組,因此能夠不使用強(qiáng)烈依賴于特定領(lǐng)域的觀點(diǎn)的詞典來進(jìn)行評判分析。此外,根據(jù)第I實(shí)施方式的文件分類裝置,將文件的分類結(jié)果與分類標(biāo)簽和特征語對應(yīng)起來提示給用戶,因此能夠?qū)⑽募姆诸惤Y(jié)果更容易明白地對用戶提示。并且,關(guān)于特征語,由于以能夠按意圖表現(xiàn)的種類進(jìn)行區(qū)分的形式進(jìn)行提示,所以能夠?qū)⑽募姆诸惤Y(jié)果進(jìn)一步容易明白地提示。<第2實(shí)施方式>
圖14是表示第2實(shí)施方式的文件分類裝置的框圖。另外,對與第I實(shí)施方式共通的結(jié)構(gòu)附加相同的符號(hào)。第2實(shí)施方式的文件分類裝置如圖14所示,具備存儲(chǔ)裝置la、數(shù)據(jù)處理裝置2a和輸入輸出裝置3a。存儲(chǔ)裝置la、數(shù)據(jù)處理裝置2a以及輸入輸出裝置3a可相互交換信息地通過有線或無線進(jìn)行連接。另外,存儲(chǔ)裝置la、數(shù)據(jù)處理裝置2a以及輸入輸出裝置3a也可以通過單一的信息處理裝置來實(shí)現(xiàn)。存儲(chǔ)裝置Ia除了文件存儲(chǔ)部101、意圖詞典存儲(chǔ)部102以及同義詞詞典存儲(chǔ)部103之外,還具備指定文件存儲(chǔ)部104。指定文件存儲(chǔ)部104存儲(chǔ)分類對象的文件以外的文件,例如包含用來對文件進(jìn)行分類的背景知識(shí)的文件。該指定文件存儲(chǔ)部104存儲(chǔ)的文件是對分類對象的文件進(jìn)行分類時(shí)所指定的文件。以下,將在指定文件存儲(chǔ)部104中存儲(chǔ)的文件稱作指定文件。圖15是表示在指定文件存儲(chǔ)部104中存儲(chǔ)的指定文件的一例的圖。指定文件不限于某特定的形態(tài),例如是用自然語言記述的文件。例如,新聞稿、新聞報(bào)道、技術(shù)文件等作為指定文件存儲(chǔ)在指定文件存儲(chǔ)部104中。指定文件存儲(chǔ)部104可以不僅存儲(chǔ)指定文件本身,而是還將指定文件ID成組存儲(chǔ)。圖15中,示出了指定文件ID為NI的指定文件和指定文件ID為N2的指定文件被存儲(chǔ)在指定文件存儲(chǔ)部104中的例子。指定文件存儲(chǔ)部104例如能夠采用硬盤、閃存等。數(shù)據(jù)處理裝置2a具備特征語提取單元201a、特征語分組單元202a、文件分類單元203a和分類標(biāo)簽賦予單元204a。特征語提取單元201a與第I實(shí)施方式的特征語提取單元201同樣地,將成為意圖表現(xiàn)的對象的語句之中的被選擇的語句提取為特征語。但是,特征語提取單元201a不僅將成為意圖表現(xiàn)的對象的語句之中的被選擇的語句提取為特征語,還將指定文件存儲(chǔ)部104存儲(chǔ)的指定文件中包含的語句提取為特征語。即,特征語提取單元201a將分類對象的文件包含的語句之中的、還包含在指定文件中的語句提取為特征語。圖16是表示從圖2所示的文件集合中包含的分類對象的各文件和圖15所示的指定文件中提取的特征語的一例的圖。另外,這里,假設(shè)圖2所示的全部文件是分類對象。特征語提取單元201a提取出的特征語例如如圖16所示,與表示提取源的文件的文件ID建立關(guān)聯(lián)地保持。此外,也可以是,使作為指定文件中包含的語句而被提取的特征語,與表示是包含在指定文件中的語句這一情況的信息建立關(guān)聯(lián)地保持。在圖16所示的例子中,示出了從文件ID是Dl的文件中提取的特征語之中的“海賊餐廳”以及“禁煙區(qū)”是作為包含在指定文件中的語句而提取的。此外,示出了從文件ID是D3的文件中提取的特征語之中的“海賊餐廳”是作為包含在指定文件中的語句而提取的。此外,示出了從文件ID是D5的文件中提取的特征語之中的“南國自助餐”是作為包含在指定文件中的語句而提取的。此外,示出了從文件ID是D6的文件中提取的特征語之中的“海賊餐廳”是作為包含在指定文件中的語句而提取的。此外,示出了從文件ID是D8的文件中提取的特征語之中的“海賊餐廳”是作為包含在指定文件中的語句而提取的。特征語分組單元202a與第I實(shí)施方式的特征語分組單元202同樣地,將從分類對象的文件提取的特征語分組。但是,特征語分組單元202a對于作為在指定文件中包含的語句而提取的特征語,分組到一個(gè)分組。在圖16所示的例子中,作為在指定文件中包含的語句而提取的特征語“海賊餐廳”、“南國自助餐”分別被分組到一個(gè)分組。另外,即使是作為在指定文件中包含的語句而提取的特征語,也如“禁煙區(qū)”那樣,對于與僅從分類對象的文件提取的特征語一致的特征語,用在第I實(shí)施方式中說明的方法進(jìn)行分組。文件分類單元203a與第I實(shí)施方式的文件分類單元203同樣地,根據(jù)特征語分組單元202a的分組的結(jié)果即特征語分組,對分類對象的文件進(jìn)行分類。但是,當(dāng)在分類對象的文件中出現(xiàn)從指定文件提取的特征語時(shí),文件分類單元203a將該文件分類到從指定文件提取的特征語所屬的分組。在圖16所示的例子中,文件ID是Dl的文件、文件ID是D3的文件、文件ID是D6的文件、文件ID是D8的文件分別被分類到“海賊餐廳”所屬的分組。此外,文件ID是D5的文件被分類到“南國自助餐”所屬的分組。分類標(biāo)簽賦予單元204a與第I實(shí)施方式的分類標(biāo)簽賦予單元204同樣地,對于將文件分類后的分組即文件分組,將代表屬于該分組的特征語的語句作為分類標(biāo)簽來賦予。但是,分類標(biāo)簽賦予單元204a對于從指定文件提取的特征語所屬的分組,將從指定文件提取的特征語本身作為分類標(biāo)簽來賦予。圖17是表示由分類標(biāo)簽賦予單元204a賦予的分類標(biāo)簽的一例的圖。在圖17的例子中,對于作為從指定文件提取的特征語的“海賊餐廳”所屬的分組(文件分組ID是C6的分組),將“海賊餐廳”本身作為分類標(biāo)簽進(jìn)行賦予,對于作為從指定文件提取的特征語的“南國自助餐”所屬的分組(文件分組ID是C7的分組),將“南國自助餐”本身作為分類標(biāo)簽進(jìn)行賦予。輸入輸出裝置3a具備分類方法選擇單元301a和提示單元302a。分類方法選擇單元301a與第I實(shí)施方式的分類方法選擇單元301同樣地,受理分類對象的文件的選擇。但是,分類方法選擇單元301a不僅受理分類對象的文件的選擇,還受理文件的分類所用的指定文件的指定。分類方法選擇單元301a受理用戶進(jìn)行的分類對象的文件的選擇和指定文件的指定,具有用來明示地將選擇了哪個(gè)文件作為分類對象、指定了哪個(gè)指定文件向數(shù)據(jù)處理裝置2a發(fā)送的功能,例如具有發(fā)送用的按鈕等。例如,能夠使用這樣的方法,即:若用戶輸入任意的查詢,則將在文件存儲(chǔ)部101中存儲(chǔ)的文件集合所含的文件之中的、與所輸入的查詢相對應(yīng)的文件的集合作為分類對象來選擇,并且選擇在指定文件存儲(chǔ)部104中存儲(chǔ)的指定文件之中的、與所輸入的查詢相對應(yīng)的指定文件,將對作為分類對象而選擇的文件及指定文件進(jìn)行明示的信息向數(shù)據(jù)處理裝置2a發(fā)送。若該來自分類方法選擇單元301a的信息被發(fā)送到數(shù)據(jù)處理裝置2a,則數(shù)據(jù)處理裝置2a的特征語提取單元201a開始進(jìn)行處理。提示單元302a與第I實(shí)施方式的提示單元302同樣地,將文件分類單元203a的文件的分類結(jié)果,作為與分類標(biāo)簽賦予單元204a賦予的分類標(biāo)簽建立了對應(yīng)的信息提示給用戶。但是,提示單元302a對于從指定文件提取的特征語所屬的分組,以能夠判別該分組是從指定文件提取的特征語所屬的分組這一情況的形式進(jìn)行提示。作為以能夠判別從指定文件提取的特征語所屬的分組的形式提示的例子,例如能夠舉出在分類標(biāo)簽中將規(guī)定的圖符一起記載這樣的例子。圖18 — I及圖18 — 2是表示提示單元302a的信息的提示例的圖。圖18 — I及圖18 — 2所示的例子是顯示將附加有文件數(shù)的圖符和分類標(biāo)簽的組合、與屬于各分組的特征語建立了對應(yīng)的顯示信息的例子。與圖9 一 I所示的第I實(shí)施方式的提示單元302的信息的提示例相比,對于各分類標(biāo)簽“禁煙”、“海賊餐廳”、“南國自助餐”,將表示被賦予這些分類標(biāo)簽的分組是從指定文件提取的特征語所屬的分組這一情況的旗幟的圖符一起記載。此外,在圖18 — 2所示的例子中,更換了分類結(jié)果的排列順序,使得一起記載有旗幟的圖符的分類標(biāo)簽在上位排列。如該圖18 — 2所示的例子那樣,還能以將從指定文件提取的特征語所屬的分組提前的形式對分類結(jié)果的信息進(jìn)行提示。以上,如舉出具體例子進(jìn)行了詳細(xì)說明的那樣,根據(jù)第2實(shí)施方式的文件分類裝置,不僅從分類對象的文件提取特征語,還從指定文件提取特征語,從指定文件提取的特征語分組到一個(gè)分組。并且,對于從指定文件提取的特征語所屬的分組,將從指定文件提取的特征語本身作為分類標(biāo)簽來賦予,以能夠判別被賦予了該分類標(biāo)簽的分組是從指定文件提取的特征語所屬的分組這一情況的形式,對文件的分類結(jié)果進(jìn)行提示。因而,能夠以反映用戶的意圖的形式進(jìn)行文件的分類,并且能夠?qū)⑽募姆诸惤Y(jié)果容易明白地對用戶提示。<第三實(shí)施方式>圖19是表示第3實(shí)施方式的文件分類裝置的框圖。另外,對與第I實(shí)施方式共通的結(jié)構(gòu)附加相同的符號(hào)。第3實(shí)施方式的文件分類裝置如圖19所示,具備存儲(chǔ)裝置lb、數(shù)據(jù)處理裝置2b和輸入輸出裝置3b。存儲(chǔ)裝置lb、數(shù)據(jù)處理裝置2b以及輸入輸出裝置3b可互相交換信息地通過有線或無線進(jìn)行連接。另外,存儲(chǔ)裝置lb、數(shù)據(jù)處理裝置2b以及輸入輸出裝置3b也可以通過單一的信息處理裝置來實(shí)現(xiàn)。存儲(chǔ)裝置Ib除了文件存儲(chǔ)部101、意圖詞典存儲(chǔ)部102以及同義詞詞典存儲(chǔ)部103之外,還具備觀點(diǎn)詞典存儲(chǔ)部105。觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)成為意圖表現(xiàn)的對象的觀點(diǎn)的詞典。觀點(diǎn)的詞典記述用于文件的分類的觀點(diǎn)表現(xiàn)。觀點(diǎn)表現(xiàn)是表示文件分析的視點(diǎn)的表現(xiàn)。圖20是表示在觀點(diǎn)詞典存儲(chǔ)部105中存儲(chǔ)的觀點(diǎn)的詞典的一例的圖。觀點(diǎn)詞典存儲(chǔ)部105可以不僅存儲(chǔ)觀點(diǎn)表現(xiàn)本身,而是存儲(chǔ)將觀點(diǎn)表現(xiàn)的種類作為組的觀點(diǎn)的詞典。圖20中,示出了這樣的例子,即:對于觀點(diǎn)表現(xiàn)的種類“費(fèi)用”,觀點(diǎn)表現(xiàn)“費(fèi)用”、“價(jià)值”、“價(jià)格”作為觀點(diǎn)的詞典存儲(chǔ)在觀點(diǎn)詞典存儲(chǔ)部105中,對于觀點(diǎn)表現(xiàn)的種類“服務(wù)”,觀點(diǎn)表現(xiàn)“服務(wù)”、“從業(yè)員”、“接待”作為觀點(diǎn)的詞典存儲(chǔ)在觀點(diǎn)詞典存儲(chǔ)部105中,對于觀點(diǎn)表現(xiàn)的種類“位置”,觀點(diǎn)表現(xiàn)“位置”、“車站前”、“車站附近”作為觀點(diǎn)的詞典存儲(chǔ)在觀點(diǎn)詞典存儲(chǔ)部105中。觀點(diǎn)詞典存儲(chǔ)部105例如能夠采用硬盤、閃存等。數(shù)據(jù)處理裝置2b具備特征語提取單元201b以代替第I實(shí)施方式的特征語提取單元201,并且具備分類標(biāo)簽賦予單元204b以代替第I實(shí)施方式的分類標(biāo)簽賦予單元204。特征語提取單元201b與第I實(shí)施方式的特征語提取單元201同樣地,將成為意圖表現(xiàn)的對象的語句之中被選擇的語句提取為特征語。但是,特征語提取單元201b將成為意圖表現(xiàn)的對象的語句之中的、觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)作為特征語來優(yōu)先提取。圖21是表示利用圖20所示觀點(diǎn)表現(xiàn)、從圖2所示的文件集合所含的分類對象的各文件提取的特征語的一例的圖。另外,這里假設(shè)圖2所示的全部文件是分類對象,利用圖20所示的全部觀點(diǎn)表現(xiàn)對文件進(jìn)行分類。特征語提取單元201b提取出的特征語例如如圖21所示,與表示提取源的文件的文件ID建立關(guān)聯(lián)地保持。此外,與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語,與觀點(diǎn)表現(xiàn)的種類建立關(guān)聯(lián)地保持。在圖21所示的例子中,示出了從文件ID是Dl的文件提取的特征語之中、種類“服務(wù)”中包含的“接待”是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語。此外,示出了從文件ID是D2的文件提取的特征語之中、種類“服務(wù)”中包含的“從業(yè)員”以及“接待”是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語。此外,示出了從文件ID是D6的文件提取的特征語之中、種類“費(fèi)用”中包含的“費(fèi)用”和種類“位置”中包含的“車站前”是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語。此外,示出了從文件ID是D7的文件和文件ID是D8的文件提取的特征語之中、種類“費(fèi)用”中包含的“費(fèi)用”是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語。分類標(biāo)簽賦予單元204b與第I實(shí)施方式的分類標(biāo)簽賦予單元204同樣地,對于將文件分類后的分組即文件分組,將代表屬于該分組的特征語的語句作為分類標(biāo)簽來賦予。但是,分類標(biāo)簽賦予單元204b對于與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組,將表示該觀點(diǎn)表現(xiàn)的種類的語句作為分類標(biāo)簽優(yōu)先選擇。圖22是表示由分類標(biāo)簽賦予單元204b賦予的分類標(biāo)簽的一例的圖。圖22的例子中,對于觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)“接待”及“從業(yè)員”所屬的分組(文件分組ID是Cl的分組),表示“接待”及“從業(yè)員”的種類的語句“服務(wù)”被作為分類標(biāo)簽來賦予。此外,對于觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)“費(fèi)用”所屬的分組(文件分組ID是C2的分組),表示“費(fèi)用”的種類的語句“費(fèi)用”被作為分類標(biāo)簽來賦予。此外,對于觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)“車站前”所屬的分組(文件分組ID是C5的分組),表示“車站前”的種類的語句“位置”被作為分類標(biāo)簽來賦予。輸入輸出裝置3b具備分類方法選擇單元301b和提示單元302b。分類方法選擇單元301b與第I實(shí)施方式的分類方法選擇單元301同樣地,受理分類對象的文件的選擇。但是,分類方法選擇單元301b不僅受理分類對象的文件的選擇,還受理觀點(diǎn)詞典存儲(chǔ)部105保持的觀點(diǎn)表現(xiàn)的種類之中的、文件的分類所使用的觀點(diǎn)表現(xiàn)的種類的選擇。分類方法選擇單元301b受理用戶進(jìn)行的分類對象的文件的選擇和觀點(diǎn)表現(xiàn)的種類的選擇,具有用來明示地將選擇了哪個(gè)文件作為分類對象、選擇了哪個(gè)種類作為文件的分類所使用的觀點(diǎn)表現(xiàn)的種類向數(shù)據(jù)處理裝置2b發(fā)送的功能,例如具有發(fā)送用的按鈕等。例如,能夠使用這樣的方法,即:若用戶輸入任意的查詢,則將在文件存儲(chǔ)部101中存儲(chǔ)的文件集合所含的文件之中的、與所輸入的查詢相對應(yīng)的文件的集合作為分類對象來選擇,并且選擇觀點(diǎn)詞典存儲(chǔ)部105保持的觀點(diǎn)表現(xiàn)的種類之中的、與所輸入的查詢相對應(yīng)的觀點(diǎn)表現(xiàn)的種類,將對選擇為分類對象的文件及文件的分類所使用的觀點(diǎn)表現(xiàn)的種類進(jìn)行明示的信息向數(shù)據(jù)處理裝置2b發(fā)送。若該來自分類方法選擇單元301b的信息被發(fā)送到數(shù)據(jù)處理裝置2b,則數(shù)據(jù)處理裝置2b的特征語提取單元201b開始進(jìn)行處理。提示單元302b與第I實(shí)施方式的提示單元302同樣地,將文件分類單元203的文件的分類結(jié)果,作為與分類標(biāo)簽賦予單元204b賦予的分類標(biāo)簽建立了對應(yīng)的信息提示給用戶。但是,提示單元302b對于與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組,以能夠判別該分組是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組這一情況的形式進(jìn)行提示。作為以能夠判別與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組的形式進(jìn)行提示的例子,例如能夠舉出在分類標(biāo)簽中將規(guī)定的圖符一起記載這樣的例子。圖23 — I 圖23 — 3是表示提示單元302b的信息的提示例的圖。圖23 — I 圖23 — 3所示的例子,是顯示將附加有文件數(shù)的圖符和分類標(biāo)簽的組合、與屬于各分組的特征語建立了對應(yīng)的顯示信息的例子。與圖9 一 I所示的第I實(shí)施方式的提示單元302的信息的提示例相比,對于各分類標(biāo)簽“予約、服務(wù)”、“費(fèi)用、價(jià)值”、“其他、位置、印象,空氣調(diào)節(jié)”,將表示被賦予了這些分類標(biāo)簽的分組是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組這一情況的眼鏡的圖符一起記載。此外,圖23 — 2所示的例子中,更換了分類結(jié)果的排列順序,使得一起記載有眼鏡的圖符的分類標(biāo)簽在上位排列。如該圖23 - 2所示的例子那樣,還能以將與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組提前的形式,對分類結(jié)果的信息進(jìn)行提示。此外,圖23 — 3所示的例子是僅表示與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組的提示例。在特征語提取單元201b僅提取與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語的情況下,如圖23 — 3所示的例子那樣來提示分類結(jié)果的信息。以上,如舉出具體例子進(jìn)行了詳細(xì)說明的那樣,根據(jù)第3實(shí)施方式的文件分類裝置,將分類對象的文件中包含的成為意圖表現(xiàn)的對象的語句之中的、與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的語句,作為特征語優(yōu)先提取。并且,對于與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組,將表示該觀點(diǎn)表現(xiàn)的種類的語句作為分類標(biāo)簽來賦予,以能夠判別被賦予了該分類標(biāo)簽的分組是與觀點(diǎn)詞典存儲(chǔ)部105存儲(chǔ)的觀點(diǎn)的詞典中包含的觀點(diǎn)表現(xiàn)一致的特征語所屬的分組這一情況的形式,對文件的分類結(jié)果進(jìn)行提示。因而,能夠以反映用戶的意圖的形式進(jìn)行文件的分類,并且能夠?qū)⑽募姆诸惤Y(jié)果容易明白地對用戶進(jìn)行提示。<第4實(shí)施方式>圖24是表示第4實(shí)施方式的文件分類裝置的框圖。另外,對與第I實(shí)施方式共通的結(jié)構(gòu)附加相同的符號(hào)。第4實(shí)施方式的文件分類裝置如圖24所示,具備存儲(chǔ)裝置lc、數(shù)據(jù)處理裝置2和輸入輸出裝置3。數(shù)據(jù)處理裝置2及輸入輸出裝置3與第I實(shí)施方式相同。存儲(chǔ)裝置lc、數(shù)據(jù)處理裝置2以及輸入輸出裝置3可相互交換信息地通過有線或無線進(jìn)行連接。另外,存儲(chǔ)裝置lc、數(shù)據(jù)處理裝置2以及輸入輸出裝置3也可以通過單一的信息處理裝置來實(shí)現(xiàn)。存儲(chǔ)裝置Ic具備文件存儲(chǔ)部IOlc來代替第I實(shí)施方式的文件存儲(chǔ)部101。文件存儲(chǔ)部IOlc將按意圖表現(xiàn)而被分離為文件要素的結(jié)構(gòu)化文件的文件集合作為成為分類的對象的文件集合來存儲(chǔ)。圖25是表示在文件存儲(chǔ)部IOlc中存儲(chǔ)的文件集合的一例的圖。文件集合中包含的結(jié)構(gòu)化文件以將例如網(wǎng)頁文件、業(yè)務(wù)上制作的文件、專利公報(bào)等文件按意圖表現(xiàn)分離為文件要素的形式進(jìn)行存儲(chǔ)。文件存儲(chǔ)部IOlc可以不僅存儲(chǔ)結(jié)構(gòu)化文件本身,而且還將文件ID成組存儲(chǔ)。圖25中,示出了在文件存儲(chǔ)部IOlc中存儲(chǔ)有包含從文件ID是Dl的結(jié)構(gòu)化文件到文件ID是D3的結(jié)構(gòu)化文件的文件集合的例子。文件ID是Dl的結(jié)構(gòu)化文件按每個(gè)意圖表現(xiàn)即“廣”、“不成功”、“好”而具有文件要素。此外,文件ID是D2的結(jié)構(gòu)化文件按每個(gè)意圖表現(xiàn)即“笑臉”、“好”、“美味”、“公道”、“焦急”而具有文件要素。此外,文件ID是D3的結(jié)構(gòu)化文件具有與意圖表現(xiàn)“多”對應(yīng)的文件要素。文件存儲(chǔ)部IOlc例如能夠采用硬盤、閃存等。在第4實(shí)施方式的文件分類裝置中,數(shù)據(jù)處理裝置2的特征語提取單元201與第I實(shí)施方式同樣地,從文件集合所包含的分類對象的各文件提取成為意圖表現(xiàn)的對象的語句,從成為意圖表現(xiàn)的對象的語句中,將按照預(yù)先規(guī)定的基準(zhǔn)而選擇的語句提取為特征語。此時(shí),根據(jù)第4實(shí)施方式,由于分類對象的文件是按意圖表現(xiàn)而被分離為文件要素的結(jié)構(gòu)化文件,所以特征語提取單元201從各文件的文件要素提取特征語即可,處理變得簡便。如上所述,根據(jù)第4實(shí)施方式的文件分類裝置,分類對象的文件作為結(jié)構(gòu)化文件而存儲(chǔ)在文件存儲(chǔ)部IOlc中,因此除了第I實(shí)施方式的效果之外,還能得到簡便地進(jìn)行從分類對象的文件提取特征語的處理、有效地進(jìn)行文件的分類的效果。在以上說明的各實(shí)施方式中,數(shù)據(jù)處理裝置2、2a、2b具備的上述各功能例如能夠通過由數(shù)據(jù)處理裝置2、2a、2b執(zhí)行規(guī)定的程序來實(shí)現(xiàn)。對于這時(shí)的數(shù)據(jù)處理裝置2、2a、2b的硬件結(jié)構(gòu),用圖26進(jìn)行說明。圖26是表示數(shù)據(jù)處理裝置2、2a、2b的硬件結(jié)構(gòu)例的說明圖。數(shù)據(jù)處理裝置2、2a、2b具備CPU (中央處理單元)51等控制裝置、ROM (只讀存儲(chǔ)器)52、RAM (隨機(jī)訪問存儲(chǔ)器)53等存儲(chǔ)裝置、與網(wǎng)絡(luò)連接而進(jìn)行通信的通信I / F54、HDD(硬盤驅(qū)動(dòng)器)、CD (光盤)驅(qū)動(dòng)裝置等外部存儲(chǔ)裝置、顯示器裝置等顯示裝置、鍵盤及鼠標(biāo)等輸入裝置、以及將各部連接的總線61,成為利用通常的計(jì)算機(jī)的硬件結(jié)構(gòu)。具有上述那樣的硬件結(jié)構(gòu)的數(shù)據(jù)處理裝置2、2a、2b執(zhí)行的程序以可安裝的形式或可執(zhí)行的形式的文件而被記錄在⑶一 ROM (只讀光盤)、軟盤(FD)、⑶一 R (可錄光盤)、DVD (數(shù)字多功能光盤)等計(jì)算機(jī)可讀取的記錄介質(zhì)中,作為計(jì)算機(jī)程序產(chǎn)品而被提供。此外,也可以構(gòu)成為,將數(shù)據(jù)處理裝置2、2a、2b執(zhí)行的程序存儲(chǔ)在與因特網(wǎng)等網(wǎng)絡(luò)連接的計(jì)算機(jī)上,通過經(jīng)由網(wǎng)絡(luò)下載而提供。此外,也可以構(gòu)成為,將數(shù)據(jù)處理裝置2、2a、2b執(zhí)行的程序經(jīng)由因特網(wǎng)等網(wǎng)絡(luò)進(jìn)行提供或分發(fā)。此外,也可以構(gòu)成為,將數(shù)據(jù)處理裝置2、2a、2b執(zhí)行的程序預(yù)先安裝在數(shù)據(jù)處理裝置2、2a、2b的R0M52等中來提供。數(shù)據(jù)處理裝置2、2a、2b執(zhí)行的程序成為包含數(shù)據(jù)處理裝置2、2a、2b的各單元(特征語提取單元201 (201a、201b)、特征語分組單元202 (202a)、文件分類單元203 (203a)、分類標(biāo)簽賦予單元204 (204a、204b)等)的模塊結(jié)構(gòu),作為實(shí)際的硬件,例如,CPU51 (處理器)從存儲(chǔ)介質(zhì)讀出程序并執(zhí)行,從而上述各單元被加載到主存儲(chǔ)裝置上,上述各單元在主存儲(chǔ)裝置上被生成。根據(jù)以上所述的至少一個(gè)實(shí)施方式的文件分類裝置,能夠有效地抑制分類后的分組的數(shù)量過多、或按照分組而分類的文件數(shù)存在較大偏頗這樣的弊端,能夠?qū)⑽募姆诸惤Y(jié)果容易明白地對用戶進(jìn)行提示。另外,以上所述的各實(shí)施方式是作為例子而提示的,并不意欲限定發(fā)明的范圍。這些新的實(shí)施方式能夠以其他各種形態(tài)實(shí)施,在不脫離發(fā)明主旨的范圍內(nèi),能夠進(jìn)行各種省略、替換及變更。這些實(shí)施方式及其變形包含在發(fā)明的范圍及主旨中,并包含在權(quán)利要求記載的發(fā)明及其等同范圍內(nèi)。
權(quán)利要求
1.一種文件分類裝置,其特征在于, 具備: 特征語提取單元,從文件集合所包含的文件提取特征語; 特征語分組單元,將提取出的上述特征語分組為多個(gè)分組,該多個(gè)分組構(gòu)成具有樹結(jié)構(gòu)的同義詞詞典的局部樹,出現(xiàn)屬于一個(gè)分組的上述特征語的上述文件的數(shù)量、與出現(xiàn)屬于其他分組的上述特征語的上述文件的數(shù)量之差,在預(yù)先規(guī)定的基準(zhǔn)值以下; 文件分類單元,將上述文件集合所包含的上述文件分類為在該文件中出現(xiàn)的上述特征語所屬的分組; 分類標(biāo)簽賦予單元,對上述多個(gè)分組中的各個(gè)分組賦予分類標(biāo)簽,該分類標(biāo)簽是代表屬于各分組的上述特征語的語句;以及 提示單元,將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽對應(yīng)起來進(jìn)行提示。
2.如權(quán)利要求1記載的文件分類裝置,其特征在于, 上述特征語提取單元從成為意圖表現(xiàn)的對象的語句中,將按照預(yù)先規(guī)定的基準(zhǔn)選擇出的語句作為上述特征語來提取。
3.如權(quán)利要求2記載的文件分類裝置,其特征在于, 上述特征語提取單元從成為意圖表現(xiàn)的對象的語句中,將根據(jù)出現(xiàn)頻度計(jì)算的權(quán)重在規(guī)定值以上的語句作為上述特征語來提取。
4.如權(quán)利要求2記載 的文件分類裝置,其特征在于, 上述提示單元將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽和屬于被分類后的分組的上述特征語對應(yīng)起來進(jìn)行提示。
5.如權(quán)利要求4記載的文件分類裝置,其特征在于, 上述提示單元以能夠?qū)⑴c上述文件的分類結(jié)果對應(yīng)起來提示的上述特征語按照該特征語的提取所用的上述意圖表現(xiàn)的種類進(jìn)行區(qū)分的形式進(jìn)行提示。
6.如權(quán)利要求1記載的文件分類裝置,其特征在于, 上述特征語提取單元還從指定文件提取上述特征語,該指定文件是上述文件集合所包含的上述文件以外的被指定了的文件; 在從上述指定文件提取了上述特征語的情況下,上述特征語分組單元將從一個(gè)上述指定文件提取的上述特征語分組到一個(gè)分組; 當(dāng)上述文件集合所包含的上述文件中出現(xiàn)從上述指定文件提取的上述特征語的情況下,上述文件分類單元將該文件分類到從上述指定文件提取出的上述特征語所屬的分組。
7.如權(quán)利要求2記載的文件分類裝置,其特征在于, 該文件分類裝置還具備觀點(diǎn)詞典存儲(chǔ)單元,該觀點(diǎn)詞典存儲(chǔ)單元對成為意圖表現(xiàn)的對象的觀點(diǎn)的詞典進(jìn)行存儲(chǔ); 上述特征語提取單元將成為意圖表現(xiàn)的對象的語句之中的、上述觀點(diǎn)的詞典中包含的語句作為上述特征語來提取。
8.如權(quán)利要求2記載的文件分類裝置,其特征在于, 上述文件集合所包含的文件是按意圖表現(xiàn)而被分離為文件要素的結(jié)構(gòu)化文件; 上述特征語提取單元從上述文件要素提取上述特征語。
9.如權(quán)利要求1記載的文件分類裝置,其特征在于, 上述特征語分組單元將在上述同義詞詞典中不構(gòu)成一個(gè)局部樹的多個(gè)上述特征語分組為一個(gè)分組; 上述分類標(biāo)簽賦予單元對在上述同義詞詞典中不構(gòu)成一個(gè)局部樹的多個(gè)上述特征語所屬的分組賦予分類標(biāo)簽,該分類標(biāo)簽表示該分組是不構(gòu)成同義詞詞典的一個(gè)局部樹的多個(gè)上述特征語的集合。
10.一種文件分類方法,其特征在于, 具備以下步驟: 從文件集合包含的文件提取特征語的步驟; 將提取出的上述特征語分組為多個(gè)分組的步驟,該多個(gè)分組構(gòu)成具有樹結(jié)構(gòu)的同義詞詞典的局部樹,出現(xiàn)屬于一個(gè)分組的上述特征語的上述文件的數(shù)量、與出現(xiàn)屬于其他分組的上述特征語的上述文件的數(shù)量之差,在預(yù)先規(guī)定的基準(zhǔn)值以下; 將上述文件集合包含的上述文件分類為在該文件中出現(xiàn)的上述特征語所屬的分組的步驟; 對上述多個(gè)分組中的各個(gè)分組賦予分類標(biāo)簽的步驟,該分類標(biāo)簽是代表屬于各分組的上述特征語的語句;以及 將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽對應(yīng)起來進(jìn)行提示的步驟。
11.一種程序,使計(jì)算機(jī)實(shí) 現(xiàn)以下功能: 從文件集合包含的文件提取特征語的功能; 將提取出的上述特征語分組為多個(gè)分組的功能,該多個(gè)分組構(gòu)成具有樹結(jié)構(gòu)的同義詞詞典的局部樹,出現(xiàn)屬于一個(gè)分組的上述特征語的上述文件的數(shù)量、與出現(xiàn)屬于其他分組的上述特征語的上述文件的數(shù)量之差,在預(yù)先規(guī)定的基準(zhǔn)值以下; 將上述文件集合包含的上述文件分類為在該文件中出現(xiàn)的上述特征語所屬的分組的功能; 對上述多個(gè)分組中的各個(gè)分組賦予分類標(biāo)簽的功能,該分類標(biāo)簽是代表屬于各分組的上述特征語的語句;以及 將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽對應(yīng)起來進(jìn)行提示的功能。
全文摘要
特征語提取單元(201)從文件集合包含的文件提取特征語。特征語分組單元(202)將提取出的上述特征語分組為多個(gè)分組,該多個(gè)分組構(gòu)成具有樹結(jié)構(gòu)的同義詞詞典的局部樹,出現(xiàn)屬于一個(gè)分組的上述特征語的上述文件的數(shù)量、與出現(xiàn)屬于其他分組的上述特征語的上述文件的數(shù)量之差,在預(yù)先規(guī)定的基準(zhǔn)值以下。文件分類單元(203),將上述文件集合包含的上述文件分類為在該文件中出現(xiàn)的上述特征語所屬的分組。分類標(biāo)簽賦予單元(204)對上述多個(gè)分組中的各個(gè)分組賦予分類標(biāo)簽,該分類標(biāo)簽是代表屬于各分組的上述特征語的語句。提示單元(302)將上述文件的分類結(jié)果,與對被分類后的分組賦予的上述分類標(biāo)簽對應(yīng)起來進(jìn)行提示。
文檔編號(hào)G06F17/30GK103119596SQ20128000299
公開日2013年5月22日 申請日期2012年6月25日 優(yōu)先權(quán)日2011年9月15日
發(fā)明者稻葉真純, 真鍋俊彥, 國分智晴, 仲野亙 申請人:株式會(huì)社東芝, 東芝解決方案株式會(huì)社