專(zhuān)利名稱:記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì)、文章抽取方法、文章抽取裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文章的抽取方法。
背景技術(shù):
近年來(lái),如下的企業(yè)活動(dòng)逐漸被廣泛認(rèn)識(shí)并固定化對(duì)從因特網(wǎng)、呼叫中心得到的顧客的意見(jiàn)(文本信息)進(jìn)行收集和分析,根據(jù)以分析結(jié)果為基礎(chǔ)的動(dòng)作(action)來(lái)進(jìn)行產(chǎn)品和服務(wù)的改善、新商品開(kāi)發(fā)。其中,“顧客的意見(jiàn)”的分析是假設(shè)和驗(yàn)證的重復(fù),因?yàn)樾枰占鳛榉治瞿繕?biāo)的文本信息和檢查收集的內(nèi)容,所以需要非常多的時(shí)間。另外,如果不是具有深入的商品知識(shí)的人,很難進(jìn)行檢查作業(yè)。根據(jù)上述理由,在多數(shù)企業(yè)中,為了作出分析結(jié)果并向組織普及信息而浪費(fèi)了相當(dāng)多的時(shí)間,成為適時(shí)(timely)動(dòng)作的障礙。顧客的意見(jiàn)的分析作業(yè),分為(1)目標(biāo)文本信息的收集作業(yè)、O)內(nèi)容檢查作業(yè)。從分析加速(speed up)這樣的觀點(diǎn)出發(fā),目標(biāo)文本的高精度收集成為課題。如果能夠高精度地收集目標(biāo)文本,則內(nèi)容檢查的量也會(huì)被最優(yōu)化,進(jìn)而能夠減輕分析人員的負(fù)擔(dān),使分析加速化。為了收集目標(biāo)文本,需要用于抽取目標(biāo)文本的關(guān)鍵詞的組合。圖17是表示用于例如從2008年5月的某個(gè)呼叫中心的咨詢數(shù)據(jù)10,000件(元數(shù)據(jù))中抽取符合“打印不正常”這樣的意思的咨詢作為目標(biāo)文本的處理的概念的圖。通過(guò)對(duì)10,000件的元數(shù)據(jù)指定多個(gè)關(guān)鍵詞,來(lái)抽取包含這些多個(gè)關(guān)鍵詞的數(shù)據(jù)作為目標(biāo)文本。這樣抽取出的目標(biāo)文本,例如被有效地用于制作符合“打印不正?!边@樣的意思的咨詢的每月件數(shù)推移表。在這種情況下,根據(jù)指定的關(guān)鍵詞的不同,抽取內(nèi)容會(huì)發(fā)生較大的變化。即當(dāng)使用不怎么包含在目標(biāo)文本中的關(guān)鍵詞時(shí),抽取精度就會(huì)下降。因此,為了提高目標(biāo)文本的抽取精度,需要具備如何選擇關(guān)鍵詞這樣的知識(shí)。但是,以往收集目標(biāo)文本的關(guān)鍵詞的組合、即分類(lèi)詞典的設(shè)定作業(yè),大大依賴于分析人員的個(gè)人技巧(skill)。與關(guān)鍵詞的決定技術(shù)相關(guān)聯(lián),公開(kāi)了下述專(zhuān)利文獻(xiàn)1 3。在專(zhuān)利文獻(xiàn)1中,公開(kāi)了如下技術(shù)根據(jù)指定文章集合內(nèi)的單詞的出現(xiàn)次數(shù)來(lái)抽取關(guān)鍵詞,針對(duì)全部的組合算出兩個(gè)關(guān)鍵詞之間的搭配度(collocation),根據(jù)該搭配度來(lái)對(duì)關(guān)鍵詞進(jìn)行分組(grouping)。在專(zhuān)利文獻(xiàn)2中,公開(kāi)了如下技術(shù)根據(jù)文章的詞素(morpheme)分析來(lái)抽取關(guān)鍵詞,記述針對(duì)每組表示組特性的關(guān)鍵詞、記述屬性信息中的一個(gè)以上的組合的分類(lèi)規(guī)則。在專(zhuān)利文獻(xiàn)3中,公開(kāi)了如下技術(shù)將單詞的出現(xiàn)順位用作為檢索詞的單詞出現(xiàn)位置信息,根據(jù)兩個(gè)檢索詞的出現(xiàn)順序差來(lái)算出檢索詞間的關(guān)聯(lián)度。
6
專(zhuān)利文獻(xiàn)1 日本特開(kāi)2002-183194號(hào)公報(bào)專(zhuān)利文獻(xiàn)2 日本特開(kāi)2001-060199號(hào)公報(bào)專(zhuān)利文獻(xiàn)3 日本特開(kāi)2002-189754號(hào)公報(bào)
發(fā)明內(nèi)容
但是,在目標(biāo)文本的抽取中依然存在如下問(wèn)題點(diǎn)。例如,在依賴于人工的以往技術(shù)中,具有如下問(wèn)題點(diǎn)當(dāng)咨詢數(shù)據(jù)的件數(shù)變得龐大時(shí),實(shí)質(zhì)上不可能全部通過(guò)目檢來(lái)實(shí)施目標(biāo)文本的抽取。另外,研究了在關(guān)鍵詞檢索中縮小咨詢數(shù)據(jù)的方法,但是具有如下問(wèn)題點(diǎn)實(shí)質(zhì)上不可能由人來(lái)考慮不漏掉抽取目標(biāo)文本的“關(guān)鍵詞”。并且,具有如下問(wèn)題點(diǎn)在思考錯(cuò)誤的情況下即使制作成了抽取用的“關(guān)鍵詞”,當(dāng)目標(biāo)文本是多個(gè)時(shí),各目標(biāo)文本的收集精度也會(huì)產(chǎn)生偏差從而管理非常困難。本發(fā)明的第1方式具有下面的結(jié)構(gòu)。多詞素出現(xiàn)采樣文章存儲(chǔ)部,使文章標(biāo)識(shí)符與由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組的文章中共同出現(xiàn)的多個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中。該采樣文章組是例如由用戶根據(jù)在上次的類(lèi)似文章抽取中抽取出的類(lèi)似文章組來(lái)決定的。多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部,對(duì)由文章標(biāo)識(shí)符識(shí)別的多個(gè)抽取對(duì)象文章組, 按多個(gè)詞素的每個(gè)詞素,來(lái)抽取該多個(gè)詞素共同出現(xiàn)的文章標(biāo)識(shí)符并對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中。件數(shù)類(lèi)似度算出部,按多個(gè)詞素的每個(gè)詞素,來(lái)算出與該多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中的采樣文章組的文章標(biāo)識(shí)符數(shù)、和抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度。抽取部,按照上述已算出的類(lèi)似度從高到底的順序,抽取與多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中的抽取對(duì)象文章組的文章標(biāo)識(shí)符。排除部,從抽取對(duì)象文章組排除與抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的
文章組。目標(biāo)文章決定部重復(fù)多詞素出現(xiàn)抽取對(duì)象文章部、件數(shù)類(lèi)似度算出部、抽取部、以及排除部的各處理,直到由抽取部抽取出的文章標(biāo)識(shí)符數(shù)與上次的由抽取部抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。通過(guò)只準(zhǔn)備目標(biāo)文本的采樣,能夠不關(guān)注關(guān)鍵詞地從未分類(lèi)文本組中抽取目標(biāo)文本。
圖1是第1實(shí)施方式的結(jié)構(gòu)圖。圖2是第2實(shí)施方式的結(jié)構(gòu)圖。圖3是表示動(dòng)作流程圖以及輸入輸出數(shù)據(jù)的圖(其1),所述動(dòng)作流程圖表示第2 實(shí)施方式的結(jié)構(gòu)的詳細(xì)動(dòng)作。圖4是表示動(dòng)作流程圖以及輸入輸出數(shù)據(jù)的圖(其幻,所述動(dòng)作流程圖表示第2 實(shí)施方式的結(jié)構(gòu)的詳細(xì)動(dòng)作。
圖5是表示動(dòng)作流程圖以及輸入輸出數(shù)據(jù)的圖(其幻,所述動(dòng)作流程圖表示第2 實(shí)施方式的結(jié)構(gòu)的詳細(xì)動(dòng)作。圖6是表示抽取數(shù)據(jù)例和元數(shù)據(jù)例的說(shuō)明圖。圖7是表示各處理步驟中的各數(shù)據(jù)的結(jié)構(gòu)例的圖(其1)。圖8是表示各處理步驟中的各數(shù)據(jù)的結(jié)構(gòu)例的圖(其2)。圖9是表示各處理步驟中的各數(shù)據(jù)的結(jié)構(gòu)例的圖(其3)。圖10是詞素分析結(jié)果文件d304的數(shù)據(jù)格式的說(shuō)明圖。圖11是再處理判斷處理的說(shuō)明圖。圖12是再處理動(dòng)作的說(shuō)明圖。圖13是使用出現(xiàn)差而不是件數(shù)差的理由的說(shuō)明圖。圖14是表示分類(lèi)碼文件d307的例子的圖。圖15是分類(lèi)處理的說(shuō)明圖。圖16是表示能夠?qū)崿F(xiàn)各實(shí)施方式的分類(lèi)碼自動(dòng)制作系統(tǒng)的計(jì)算機(jī)的硬件結(jié)構(gòu)的一個(gè)例子的圖。圖17是目標(biāo)文本的收集處理的說(shuō)明圖。
具體實(shí)施例方式下面,參照附圖來(lái)詳細(xì)地說(shuō)明優(yōu)選實(shí)施方式。圖1是第1實(shí)施方式的結(jié)構(gòu)圖。多詞素出現(xiàn)采樣文章存儲(chǔ)部101使文章標(biāo)識(shí)符與由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組18的文章中共同出現(xiàn)的多個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部107中。該采樣文章組108是例如由用戶根據(jù)在上次的類(lèi)似文章抽取中抽取出的類(lèi)似文章組110來(lái)決定的。多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部102,對(duì)由文章標(biāo)識(shí)符識(shí)別的多個(gè)抽取對(duì)象文章組109,按多個(gè)詞素的每個(gè)詞素來(lái)抽取這些多個(gè)詞素共同出現(xiàn)的文章標(biāo)識(shí)符并對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部107中。件數(shù)類(lèi)似度算出部103,按多個(gè)詞素的每個(gè)詞素,來(lái)算出與這些多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部107中的采樣文章組108的文章標(biāo)識(shí)符數(shù)、和抽取對(duì)象文章組109的文章標(biāo)識(shí)符數(shù)之間的類(lèi)似度。抽取部104,按照上述已算出的類(lèi)似度從高到底的順序,抽取與多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部107中的抽取對(duì)象文章組109的文章標(biāo)識(shí)符。排除部105,從抽取對(duì)象文章組109中排除與抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組。類(lèi)似文章決定部106,重復(fù)多詞素出現(xiàn)抽取對(duì)象文章部102、件數(shù)類(lèi)似度算出部 103、抽取部104、以及排除部105的各處理直到由抽取部104抽取出的文章標(biāo)識(shí)符數(shù)與由上次的抽取部104抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組109決定為采樣文章組108的類(lèi)似文章組110。圖2是第2實(shí)施方式的結(jié)構(gòu)圖。詞素分析部201,對(duì)存儲(chǔ)在存儲(chǔ)部210中的分別由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組211以及多個(gè)抽取對(duì)象文章組212進(jìn)行詞素分析。采樣文章組211是例如由用戶根據(jù)在上次的類(lèi)似文章抽取中抽取出的后述類(lèi)似文章組213來(lái)決定的。詞素出現(xiàn)文章存儲(chǔ)部202,以詞素分析結(jié)果為基礎(chǔ),將詞素、該詞素出現(xiàn)的文章標(biāo)識(shí)符與采樣文章組211以及抽取對(duì)象文章組212分別對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中。2詞素出現(xiàn)采樣文章存儲(chǔ)部203,抽取與多個(gè)采樣文章組211的文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中的詞素,使文章標(biāo)識(shí)符共同的兩個(gè)詞素的每個(gè)詞素,與文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中。2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部204,針對(duì)抽取對(duì)象文章組212,按兩個(gè)詞素的每個(gè)詞素,來(lái)從存儲(chǔ)部210抽取與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)的文章標(biāo)識(shí)符,并與兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中。件數(shù)類(lèi)似度算出部205,算出與兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中的采樣文章組211的文章標(biāo)識(shí)符數(shù)、和抽取對(duì)象文章組212的文章標(biāo)識(shí)符數(shù)之間的類(lèi)似度。抽取部206,按照類(lèi)似度從高到底的順序,無(wú)重復(fù)地抽取與兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部210中的抽取對(duì)象文章組212的文章標(biāo)識(shí)符直到抽取出全部的采樣文章組211的文章標(biāo)識(shí)符。無(wú)效化部207,將抽取部206中不存在沒(méi)有重復(fù)的文章標(biāo)識(shí)符的兩個(gè)詞素設(shè)為處
理對(duì)象外。排除部208,從抽取對(duì)象文章組212排除與抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組。類(lèi)似文章決定部209,重復(fù)2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部204、件數(shù)類(lèi)似度算出部205、抽取部206、以及刪除部208的各處理直到由抽取部206抽取出的文章標(biāo)識(shí)符數(shù)與上次的由抽取部206抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組212決定為采樣文章組211的類(lèi)似文章組213。以上,根據(jù)圖1所示的第1實(shí)施方式、圖2所示的第2實(shí)施方式,在多個(gè)采樣文章組和抽取對(duì)象文章組之間,關(guān)于從采樣文章組抽取出的多個(gè)詞素的組,重復(fù)執(zhí)行按照這些出現(xiàn)文章數(shù)相近(類(lèi)似度大)的順序縮小為包含各詞素的組的抽取對(duì)象文章的處理,能夠從抽取對(duì)象文章組高效地抽取與采樣文章組類(lèi)似的目標(biāo)文章。圖3 圖5是表示動(dòng)作流程圖以及輸入輸出數(shù)據(jù)的圖,所述動(dòng)作流程圖表示圖2 所示的第2實(shí)施方式的結(jié)構(gòu)的詳細(xì)動(dòng)作。下面,與圖6 圖15所示的說(shuō)明圖以及數(shù)據(jù)結(jié)構(gòu)圖一起依次說(shuō)明其詳細(xì)動(dòng)作。首先,在圖3的步驟S301,作為初始設(shè)定刪除詞素分析結(jié)果、詞素行列、抽取明細(xì)、 分類(lèi)碼、以及再處理用元數(shù)據(jù)的各文件d303。另外,進(jìn)行下述的變量設(shè)定。變量對(duì)抽取循環(huán)次數(shù)設(shè)定1。變量對(duì)選中(hit)件數(shù)設(shè)定0。變量對(duì)抽取數(shù)據(jù)件數(shù)設(shè)定抽取數(shù)據(jù)文件的明細(xì)數(shù)。變量對(duì)元數(shù)據(jù)件數(shù)設(shè)定元數(shù)據(jù)文件的明細(xì)數(shù)。這里,抽取數(shù)據(jù)文件與圖2或者圖1的采樣文章組211或者108對(duì)應(yīng)。該抽取數(shù)據(jù)文件例如是如圖6的d301所示的文本數(shù)據(jù)文件,例如表示“打印不正常”這樣的分類(lèi)規(guī)則。該抽取數(shù)據(jù)文件是例如由用戶從作為在上次的類(lèi)似文章抽取中決定的類(lèi)似文章組的圖 6所示的元數(shù)據(jù)文件d302抽取并制作而成的。元數(shù)據(jù)文件與圖2或者圖1的抽取對(duì)象文章組212或者109對(duì)應(yīng)。接著,在圖3的步驟S302,對(duì)抽取數(shù)據(jù)文件d301進(jìn)行詞素分析,其處理結(jié)果寫(xiě)入詞素分析結(jié)果文件d304。該處理與圖2的詞素分析部201以及詞素出現(xiàn)文章存儲(chǔ)部202的各處理對(duì)應(yīng)。圖7(a)是假定抽取數(shù)據(jù)件數(shù)(=抽取數(shù)據(jù)文件的明細(xì)數(shù))為10件時(shí)由步驟 S302寫(xiě)入的詞素分析結(jié)果文件d304的數(shù)據(jù)結(jié)構(gòu)例的圖。在“數(shù)據(jù)區(qū)分”的項(xiàng)目中,分別登記抽取數(shù)據(jù)/元數(shù)據(jù)。在步驟S302中,在“數(shù)據(jù)區(qū)分”項(xiàng)目中登記“抽取數(shù)據(jù)”。在“詞素” 項(xiàng)目中,登記經(jīng)過(guò)分析的詞素。在“出現(xiàn)明細(xì)編號(hào)”項(xiàng)目中,從左側(cè)起按照抽取數(shù)據(jù)文件d301 內(nèi)的各明細(xì)編號(hào)(參照?qǐng)D6)的升序,在該明細(xì)編號(hào)的明細(xì)包含“詞素”項(xiàng)目的詞素的情況下登記1,不包含的情況下登記0。即成為圖10的(a)和(b)所示的關(guān)系。接著,在圖3的步驟S303來(lái)判斷抽取循環(huán)次數(shù)是否為1。在抽取循環(huán)次數(shù)為1的情況下,執(zhí)行圖3的步驟S304和S305。在抽取循環(huán)次數(shù)大于1的情況下,執(zhí)行圖3的步驟 S306 和 S307。在圖3的步驟S304中,對(duì)元數(shù)據(jù)文件d302 (參照?qǐng)D6)進(jìn)行詞素分析,其處理結(jié)果寫(xiě)入詞素分析結(jié)果文件d304。該處理與圖2的詞素分析部201以及詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部202的各處理對(duì)應(yīng)。圖7(b)是表示在步驟S304中寫(xiě)入的詞素分析結(jié)果文件d304 的數(shù)據(jù)結(jié)構(gòu)例的圖。在步驟S304中,在“數(shù)據(jù)區(qū)分”項(xiàng)目中登記“元數(shù)據(jù)”。接著在圖3的步驟305中,讀入詞素分析結(jié)果文件d304,根據(jù)“數(shù)據(jù)區(qū)分”項(xiàng)目為 “抽取數(shù)據(jù)”的詞條(entry)來(lái)制作組合了兩個(gè)詞素的詞素行列,其處理結(jié)果寫(xiě)入詞素行列文件d305。該處理與圖2的2詞素出現(xiàn)采樣文章存儲(chǔ)部203或者圖1的多詞素出現(xiàn)采樣文章存儲(chǔ)部101的處理對(duì)應(yīng)。圖7(c)是表示在步驟S305中制作而成的詞素行列文件d305 的數(shù)據(jù)結(jié)構(gòu)例的圖。在“組合編號(hào)”項(xiàng)目中登記識(shí)別各詞素的組合的編號(hào)。在“組合”項(xiàng)目中登記兩個(gè)詞素的組。在“抽取數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目中,登記包含登記在“組合”項(xiàng)目的兩個(gè)詞素的抽取數(shù)據(jù)文件d301中的明細(xì)數(shù)。在“抽取數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”項(xiàng)目中,從左側(cè)起按照抽取數(shù)據(jù)文件d301內(nèi)的各明細(xì)編號(hào)(參照?qǐng)D6)的升序,在該明細(xì)編號(hào)的明細(xì)包含上述兩個(gè)詞素的情況下登記1,在不包含的情況下登記0。上述出現(xiàn)明細(xì)數(shù),能夠作為詞素分析結(jié)果文件d304內(nèi)的“數(shù)據(jù)區(qū)分”項(xiàng)目為“抽取數(shù)據(jù)”的詞條中與上述兩個(gè)詞素對(duì)應(yīng)的兩個(gè)詞條的各“出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的各位(bit)位置的各邏輯與(and)值來(lái)得到。上述出現(xiàn)明細(xì)編號(hào),能夠作為它們的邏輯與值成為1的合計(jì)數(shù)來(lái)得到。在詞素行列文件d305 中,“元數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”、“元數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”、“出現(xiàn)率”的各項(xiàng)目為空欄。關(guān)于這些將后述。在“有效標(biāo)志”項(xiàng)目中登記“無(wú)效”。在“抽取次數(shù)”項(xiàng)目中登記“1”。關(guān)于抽取循環(huán)次數(shù)大于1的情況下執(zhí)行的圖3的步驟S306和S307將后述。接著,在圖3的步驟S308,從詞素行列文件d305讀入“抽取次數(shù)”項(xiàng)目的值等于變量抽取循環(huán)次數(shù)所表示的當(dāng)前的抽取次數(shù)(目前為1)、“有效標(biāo)志”項(xiàng)目的值為“無(wú)效”的詞條組。而且,針對(duì)各詞條的“組合”項(xiàng)目所示的每個(gè)2詞素,從詞素分析結(jié)果文件d304取得元數(shù)據(jù)文件d302中的出現(xiàn)明細(xì)數(shù)和出現(xiàn)明細(xì)編號(hào)。這些出現(xiàn)明細(xì)數(shù)和出現(xiàn)明細(xì)編號(hào),登記在各詞條的“元數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目和“元數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”項(xiàng)目。該處理與圖 2的2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部204或者圖1的多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部102 的處理對(duì)應(yīng)。具體地說(shuō),上述出現(xiàn)明細(xì)數(shù),能夠作為詞素分析結(jié)果文件d304內(nèi)的“數(shù)據(jù)區(qū)分”項(xiàng)目為“元數(shù)據(jù)”的詞條中與上述兩個(gè)詞素對(duì)應(yīng)的兩個(gè)詞條的各“出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的各位位置的各邏輯與值來(lái)得到。上述出現(xiàn)明細(xì)編號(hào),能夠作為它們的邏輯與值成為1的合計(jì)數(shù)來(lái)得到。圖7(e)是表示在步驟S308中更新了的詞素行列文件d305的數(shù)據(jù)結(jié)構(gòu)例的圖。接著,由圖4的步驟S309,從詞素行列文件d305讀入“抽取次數(shù)”項(xiàng)目的值等于變量抽取循環(huán)次數(shù)所表示的當(dāng)前的抽取次數(shù)(目前為1)、“有效標(biāo)志”項(xiàng)目的值為“無(wú)效”
的詞條組。而且,針對(duì)每個(gè)詞條,按照下式計(jì)算出現(xiàn)率,其結(jié)果登記在各詞條的“出現(xiàn)率”項(xiàng)目。出現(xiàn)率=“抽取數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目值+ “元數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目值該處理與圖2或者圖1的件數(shù)類(lèi)似度算出部205或者103的處理對(duì)應(yīng)。圖8 (f) 是表示在步驟S308中更新的詞素行列文件d305的數(shù)據(jù)結(jié)構(gòu)例的圖。該出現(xiàn)率越小,意味著抽取數(shù)據(jù)以外的數(shù)據(jù)越多,相反地該出現(xiàn)率越大,意味著抽取數(shù)據(jù)以外的數(shù)據(jù)越少。換句話說(shuō),意味著出現(xiàn)率越小,該2詞素在元數(shù)據(jù)中越是普遍的組合,不是抽取數(shù)據(jù)特有的組合,相反地出現(xiàn)率越大,該2詞素在元數(shù)據(jù)中越是稀有的組合,是抽取數(shù)據(jù)特有的組合。與元數(shù)據(jù)中普遍出現(xiàn)(包含)的2詞素相比,只在接近抽取數(shù)據(jù)的數(shù)量的元數(shù)據(jù)中出現(xiàn)的2詞素這一方,更能夠高效地縮小類(lèi)似于抽取數(shù)據(jù)的數(shù)據(jù)。該抽取數(shù)據(jù)特有的詞素的組合,不限于如人們能夠預(yù)想那樣的組合。另外,在以抽取數(shù)據(jù)中的出現(xiàn)頻率為基礎(chǔ)機(jī)械地抽取出的組合中,如上述那樣,在該組合是元數(shù)據(jù)中也普遍出現(xiàn)的組合的情況下,無(wú)法高效地縮小類(lèi)似于抽取數(shù)據(jù)的數(shù)據(jù)。通過(guò)查看出現(xiàn)(包含)2詞素組合的抽取數(shù)據(jù)以及元數(shù)據(jù)各個(gè)的數(shù)量的類(lèi)似度(出現(xiàn)率的大小),能夠判斷該組合是否為抽取數(shù)據(jù)特有的組合。接著,在圖4的步驟S310,讀入詞素行列文件d305,讀入“抽取次數(shù)”項(xiàng)目的值等于變量抽取循環(huán)次數(shù)所表示的當(dāng)前的抽取次數(shù)(目前為1)、“有效標(biāo)志”項(xiàng)目的值為“無(wú)效” 的詞條組。而且,這些詞條按照出現(xiàn)率的降序重新排列。圖8(g)是表示在步驟S310中重新排列的詞素行列文件d305的數(shù)據(jù)結(jié)構(gòu)例的圖。接著,在圖4的步驟S311,讀入詞素行列文件d305,按照“出現(xiàn)率”項(xiàng)目的值大的順序取出“抽取次數(shù)”項(xiàng)目的值等于變量抽取循環(huán)次數(shù)所表示的當(dāng)前的抽取次數(shù)(目前為 1)、“有效標(biāo)志”項(xiàng)目的值為“無(wú)效”的詞條,作為從步驟S311到S314為止的循環(huán)處理,對(duì)取出的詞條依次執(zhí)行步驟S312和S313的各處理。即在圖4的步驟S312中,判斷變量抽取數(shù)據(jù)件數(shù)和變量選中件數(shù)是否一致。當(dāng)在步驟S312中判斷為選中件數(shù)沒(méi)有達(dá)到抽取數(shù)據(jù)件數(shù)時(shí),執(zhí)行步驟S313和S314。當(dāng)在步驟S312中判斷為選中件數(shù)達(dá)到了抽取數(shù)據(jù)件數(shù)時(shí),執(zhí)行步驟S315。在步驟S313中,從由步驟S311取出的詞條取得“組合”項(xiàng)目、“抽取數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目、“抽取數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的各值,這些寫(xiě)入抽取明細(xì)文件d306。圖 8(h)是表示在步驟S313中登記的抽取明細(xì)文件d306的數(shù)據(jù)結(jié)構(gòu)例的圖。在這種情況下, 在“出現(xiàn)率”項(xiàng)目的值為最大的詞條的處理中,“出現(xiàn)明細(xì)數(shù)”項(xiàng)目的值設(shè)定為變量選中件數(shù)。在除此之外的詞條的處理中,在針對(duì)“出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的每個(gè)位位置,比該詞條更早登記的抽取明細(xì)文件d306中的全部詞條的“出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的該位位置全部為0的情況下、即只在是本次剛出現(xiàn)的明細(xì)的情況下,對(duì)變量選中件數(shù)加1。另外,在取出的組合的出現(xiàn)明細(xì)編號(hào)全部登記在比該詞條更早登記的抽取明細(xì)文件d306中的全部詞條的“出
11現(xiàn)明細(xì)編號(hào)”項(xiàng)目的情況下,該詞條不登記在抽取明細(xì)文件d306。在圖4的步驟S314中,對(duì)由步驟S311取出的下一詞條,循環(huán)到步驟S312。以上,從步驟S310到S314為止的一系列處理與圖2或者圖1的抽取部206的處
理對(duì)應(yīng)。在上述抽取處理之后,在圖4的步驟S315中,讀入抽取明細(xì)文件d306,取出“組合” 項(xiàng)目的各2詞素組。而且,在詞素行列文件d305中,檢索“組合”項(xiàng)目的值與上述2詞素組一致、“抽取次數(shù)”項(xiàng)目的值與變量抽取循環(huán)次數(shù)的值一致的詞條,該詞條的“有效標(biāo)志”的值更新為“有效”。該處理與圖2的無(wú)效化部207的處理對(duì)應(yīng)。圖8(i)是表示由步驟S315 更新的詞素行列文件d305的數(shù)據(jù)結(jié)構(gòu)例的圖。接著在圖4的步驟S316中,從詞素行列文件d305檢索“抽取次數(shù)”項(xiàng)目的值與變量抽取循環(huán)次數(shù)一致、“有效標(biāo)志”項(xiàng)目的值為“有效”的詞條,登記在該詞條的“組合”項(xiàng)目的2詞素組,與任意的分類(lèi)碼名以及當(dāng)前的抽取循環(huán)次數(shù)一起,寫(xiě)入分類(lèi)碼文件d307。圖 9(j)是表示由步驟S316寫(xiě)入的分類(lèi)碼文件d307的結(jié)構(gòu)例的圖。在圖5的步驟S317中,從詞素行列文件d305檢索“抽取次數(shù)”項(xiàng)目的值與變量 抽取循環(huán)次數(shù)一致、“有效標(biāo)志”項(xiàng)目的值為“有效”的詞條組,取得登記在檢索出的各詞條的“元數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”項(xiàng)目的各出現(xiàn)明細(xì)編號(hào)。而且,根據(jù)這些出現(xiàn)明細(xì)編號(hào),讀入元數(shù)據(jù)文件d302中的各明細(xì),寫(xiě)入再處理用元數(shù)據(jù)文件d308。而且,對(duì)數(shù)組變量再處理用元數(shù)據(jù)件數(shù)[N]設(shè)定登記在再處理用元數(shù)據(jù)文件d308中的明細(xì)數(shù)。對(duì)N設(shè)定變量抽取循環(huán)次數(shù)的值。即能夠?qū)?shù)組變量再處理用元數(shù)據(jù)件數(shù)[N],登記每個(gè)抽取循環(huán)次數(shù)的再處理用元數(shù)據(jù)件數(shù)。以上的步驟S317的處理與圖2或者圖1的排除部208或者105的處理對(duì)應(yīng)。在圖5的步驟S318中,對(duì)變量抽取循環(huán)次數(shù)加+1。另外,對(duì)變量選中件數(shù)設(shè)定 0。并且,在詞素行列文件d305中,清除各詞條的“元數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”、“元數(shù)據(jù)/出現(xiàn)明細(xì)編號(hào)”、“出現(xiàn)率”的各項(xiàng)目值,對(duì)“有效標(biāo)志”項(xiàng)目設(shè)定“無(wú)效”,對(duì)“抽取次數(shù)”設(shè)定增加的變量抽取循環(huán)次數(shù)的值。圖9(k)是表示在第1次的抽取循環(huán)結(jié)束時(shí)刻由步驟S318來(lái)更新的詞素行列文件d305的數(shù)據(jù)結(jié)構(gòu)例的圖。在圖5的步驟S319中,在變量抽取循環(huán)次數(shù)的值為2的情況下,判斷再處理,返回到圖3的步驟S303的處理。在變量抽取循環(huán)次數(shù)的值大于2的情況下,檢查下面的條件來(lái)判斷是否進(jìn)行再處理。1)算出本次的再處理用元數(shù)據(jù)件數(shù)+上次的再處理用元數(shù)據(jù)件數(shù)?!偬幚碛迷獢?shù)據(jù)件數(shù)[N] +再處理用元數(shù)據(jù)件數(shù)[N-1]2)在由上述1)算出的值為閾值以上的情況下,不進(jìn)行再處理,判斷結(jié)束。3)在由上述1)算出的值小于閾值的情況下,判斷再處理?!撝祵?. 8設(shè)為初始值,設(shè)為能夠變更的值。通過(guò)步驟S317,針對(duì)作為有效包含抽取數(shù)據(jù)文件d301的詞素的數(shù)據(jù)而得到的再處理用元數(shù)據(jù)文件d308,相對(duì)于在上次得到的再處理用元數(shù)據(jù)文件d308(第1次時(shí)為元數(shù)據(jù)文件d302),件數(shù)比小于一定比率的情況,是抽取件數(shù)比上次削減相當(dāng)多的情況。另一方面,在上述件數(shù)比成為一定比率以上的情況,是抽取件數(shù)相對(duì)于上次沒(méi)怎么變化的情況。而且,在前者的情況下,認(rèn)為如圖12所示,使用該再處理用元數(shù)據(jù)文件d308來(lái)再次進(jìn)行文章組的縮小處理時(shí),得到更有效地只包含抽取數(shù)據(jù)文件d301的詞素的數(shù)據(jù)。例如是圖11(b) 的比成為0. 6的情況。相反地,在后者的情況下,認(rèn)為該再處理用元數(shù)據(jù)文件d308收斂在幾乎最優(yōu)的狀態(tài)。例如是圖11 (a)、或者(b)的比成為0.83的情況。此外,即使初次是出現(xiàn)率小的2詞素,元數(shù)據(jù)也隨著重復(fù)而逐漸縮小,能夠引起出現(xiàn)率變得比初次出現(xiàn)率大的2詞素的出現(xiàn)率還大的情況。例如,考慮(1)在10件的抽取數(shù)據(jù)全部、100件的元數(shù)據(jù)全部中出現(xiàn)的2詞素的情況、⑵在10件的抽取數(shù)據(jù)內(nèi)的3件、100件的元數(shù)據(jù)內(nèi)的20件中出現(xiàn)的2詞素的情況。A)元數(shù)據(jù)為100件的情況(1)的2詞素的出現(xiàn)率=10 + 100 = 0. 1(2)的2詞素的出現(xiàn)率=3 + 20 = 0. 15B)元數(shù)據(jù)縮小為出現(xiàn)O)的詞素的組合的20件的狀態(tài)的情況(1)的2詞素的出現(xiàn)率=10 + 20 = 0. 5(2)的2詞素的出現(xiàn)率=3 + 20 = 0. 15上述的例子是表示隨著元數(shù)據(jù)被縮小,元數(shù)據(jù)中普遍的2詞素的組合的出現(xiàn)率變大的狀況的典型例子。在如上述(1)那樣、抽取數(shù)據(jù)中較多地出現(xiàn)的2詞素是元數(shù)據(jù)中也較多地出現(xiàn)的詞素的情況下,可知即使使用該2詞素來(lái)抽取元數(shù)據(jù)全部件數(shù),也無(wú)法縮小為包含抽取數(shù)據(jù)特有的詞素的20件。另一方面,多數(shù)數(shù)據(jù)中出現(xiàn)的詞素能夠認(rèn)為是人們?nèi)菀滓庾R(shí)到的詞素。通過(guò)重復(fù)元數(shù)據(jù)的縮小,人們無(wú)需意識(shí)用于縮小過(guò)程中的抽取數(shù)據(jù)特有的詞素,而是能夠?qū)⑷藗內(nèi)菀滓庾R(shí)到的詞素的組合視作縮小的元數(shù)據(jù)的抽取條件。以上的步驟S318和S319的處理與圖2或者圖1的類(lèi)似文章決定部209或者106 的處理對(duì)應(yīng)。如以上那樣,在圖5的步驟S319中判斷進(jìn)行再處理的情況下,返回到圖3的步驟 S303,該判斷成為“否”,執(zhí)行步驟S306和S307。在圖3的步驟S306中,刪除詞素分析結(jié)果文件d304的“數(shù)據(jù)區(qū)分”項(xiàng)目成為“元數(shù)據(jù)”的全部記錄。在圖3的步驟S307中,對(duì)再處理用元數(shù)據(jù)文件d308進(jìn)行詞素分析,其處理結(jié)果寫(xiě)入詞素分析結(jié)果文件d304。該處理與圖2的詞素分析部201以及詞素出現(xiàn)文章存儲(chǔ)部202 的各處理對(duì)應(yīng)。這里的處理除了代替元數(shù)據(jù)文件d302而使用再處理用元數(shù)據(jù)文件d308之外,與圖3的步驟S304的處理相同。圖7(d)是表示在步驟S307中寫(xiě)入的詞素分析結(jié)果文件d304的數(shù)據(jù)結(jié)構(gòu)例的圖。在步驟S307中,在“數(shù)據(jù)區(qū)分”項(xiàng)目中登記“元數(shù)據(jù)”。這以后,與抽取次數(shù)為第1次的情況相同,執(zhí)行圖3的步驟S308以后的處理,進(jìn)行基于從抽取數(shù)據(jù)文件d301抽取出的2詞素組的縮小處理。重復(fù)了以上處理的結(jié)果,當(dāng)在圖5的步驟S319中判斷結(jié)束時(shí),該時(shí)刻得到的再處理用元數(shù)據(jù)文件d308的內(nèi)容決定為圖2或者圖1的類(lèi)似文章組213或者110 (目標(biāo)文本)。還考慮如下情況在以上說(shuō)明的實(shí)施方式中的圖4的步驟S309中,利用“抽取數(shù)據(jù) /出現(xiàn)明細(xì)數(shù)”項(xiàng)目值和“元數(shù)據(jù)/出現(xiàn)明細(xì)數(shù)”項(xiàng)目值的件數(shù)差來(lái)代替出現(xiàn)率。然而,根據(jù)實(shí)際數(shù)據(jù)的驗(yàn)證結(jié)果,得到了使用出現(xiàn)率的分類(lèi)精度好的結(jié)果。作為該理由,舉出如下。
(1)當(dāng)由件數(shù)差來(lái)決定分類(lèi)碼時(shí),存在無(wú)法由上位來(lái)選出很好地選中抽取數(shù)據(jù)、且不怎么選中元數(shù)據(jù)的組合的問(wèn)題。(2)無(wú)法由上位來(lái)選出=成為由分類(lèi)碼保持的組合數(shù)增加,因此直接導(dǎo)致精度下降。例如,在圖13所示的例子的情況下,在“左”、“偏移”這樣的2詞素的組合時(shí),出現(xiàn)率最大且件數(shù)差最小,成為抽取數(shù)據(jù)和元數(shù)據(jù)都是最近的結(jié)果,但是在“打印”、“偏移”這樣的2詞素的組合時(shí),出現(xiàn)率大,成為抽取數(shù)據(jù)和元數(shù)據(jù)與第2次接近的結(jié)果,但是件數(shù)差成為大的值,導(dǎo)致成為抽取數(shù)據(jù)和元數(shù)據(jù)不接近的結(jié)果。在實(shí)際數(shù)據(jù)的驗(yàn)證中,出現(xiàn)率一方表示正值。因而,在步驟S309中,最好使用出現(xiàn)率而不是件數(shù)差。在通過(guò)圖4的步驟S316得到的分類(lèi)碼文件d307中,例如圖14所示,能夠按照抽取次數(shù)來(lái)登記最優(yōu)的2詞素的組合。在這樣分層次地管理的分類(lèi)碼應(yīng)用于同種信息源的分類(lèi)的情況下,能夠進(jìn)行如圖15所示那樣的處理。即首先,從分類(lèi)碼文件d307取出抽取次數(shù)為第1次的分類(lèi)碼,對(duì)同種信息源執(zhí)行使用該抽取次數(shù)為第1次的分類(lèi)碼的縮小處理。接著,從分類(lèi)碼文件d307取出抽取次數(shù)為第2次的分類(lèi)碼,對(duì)上述第1次的抽取結(jié)果,執(zhí)行使用抽取次數(shù)為第2次的分類(lèi)碼的縮小處理。如果抽取次數(shù)全部都是3次,則從分類(lèi)碼文件 d307取出抽取次數(shù)為第3次的分類(lèi)碼,對(duì)上述第2次的抽取結(jié)果,還執(zhí)行使用抽取次數(shù)為第 3次的分類(lèi)碼的縮小處理。而且,該第3次的抽取結(jié)果輸出為最終的分類(lèi)結(jié)果,對(duì)此進(jìn)行人工的檢查。如此地得到的分類(lèi)結(jié)果被替換為抽取數(shù)據(jù),并與元數(shù)據(jù)進(jìn)行比較來(lái)再制作分類(lèi)碼,由此能夠簡(jiǎn)單地提高分類(lèi)精度。圖16是表示能夠?qū)崿F(xiàn)以上說(shuō)明的各實(shí)施方式的分類(lèi)碼自動(dòng)制作系統(tǒng)的計(jì)算機(jī)的硬件結(jié)構(gòu)的一個(gè)例子的圖。圖16所示的計(jì)算機(jī)具有如下結(jié)構(gòu)具有CPU 1601、存儲(chǔ)器1602、輸入裝置1603、 輸出裝置1604、外部存儲(chǔ)裝置1605、插入可移動(dòng)記錄介質(zhì)1609的可移動(dòng)記錄介質(zhì)驅(qū)動(dòng)裝置 1606、以及網(wǎng)路連接裝置1607,這些通過(guò)總線1608相互連接。同圖所示的結(jié)構(gòu)是能夠?qū)崿F(xiàn)上述系統(tǒng)的計(jì)算機(jī)的一個(gè)例子,這種計(jì)算機(jī)不限于該機(jī)構(gòu)。CPU 1601進(jìn)行該計(jì)算機(jī)整體的控制。存儲(chǔ)器1602是在數(shù)據(jù)更新等時(shí)臨時(shí)保存存儲(chǔ)在外部存儲(chǔ)裝置1605(或者可移動(dòng)記錄介質(zhì)1609)中的程序或者數(shù)據(jù)的RAM等存儲(chǔ)器。 CPU 1601通過(guò)將程序讀出到存儲(chǔ)器1602進(jìn)行執(zhí)行,進(jìn)行整體的控制。輸入裝置1603例如由鍵盤(pán)、鼠標(biāo)等以及它們的接口控制裝置構(gòu)成。輸入裝置1603 檢測(cè)用戶的鍵盤(pán)、鼠標(biāo)等的輸入操作,將其檢測(cè)結(jié)果通知CPU 1601。輸出裝置1604由顯示裝置、打印裝置等以及它們的接口控制裝置構(gòu)成。輸出裝置 1604,將通過(guò)CPU 1601的控制送來(lái)的數(shù)據(jù)輸出到顯示裝置、打印裝置。外部存儲(chǔ)裝置1605例如是硬盤(pán)存儲(chǔ)裝置。主要用于各種數(shù)據(jù)、程序的保存??梢苿?dòng)記錄介質(zhì)驅(qū)動(dòng)裝置1606是收納光盤(pán)、SDRAM、小型閃爍(compact flash) (注冊(cè)商標(biāo))等可移動(dòng)記錄介質(zhì)1609的裝置,具有輔助外部存儲(chǔ)裝置1605的作用。網(wǎng)絡(luò)連接裝置1607是例如用于連接LAN(局域網(wǎng)絡(luò))或者WAN(廣域網(wǎng)絡(luò))的通信線路的裝置。各實(shí)施方式的系統(tǒng)是通過(guò)由CPU 1601執(zhí)行搭載了圖1或者圖2所示的各模塊的功能、或者與圖3 圖5所示的動(dòng)作流程圖的處理對(duì)應(yīng)的功能的程序來(lái)實(shí)現(xiàn)的。該程序既可以記錄在外部存儲(chǔ)裝置1605、可移動(dòng)記錄介質(zhì)1609來(lái)發(fā)布,或者也可以使得能夠通過(guò)網(wǎng)絡(luò)連接裝置1607從網(wǎng)絡(luò)取得。另外,在各處理中使用的數(shù)據(jù),是例如從外部存儲(chǔ)裝置1605 讀出到存儲(chǔ)器1602來(lái)進(jìn)行處理。在圖2以及圖3之后說(shuō)明的實(shí)施方式中,說(shuō)明了通過(guò)2詞素的組來(lái)進(jìn)行文章的縮小的例子,但是如圖1所示那樣通過(guò)多詞素的組來(lái)進(jìn)行文章的縮小的情況下也能夠以同樣的思路來(lái)實(shí)施。附圖標(biāo)記說(shuō)明101多詞素出現(xiàn)采樣文章存儲(chǔ)部,102多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部,103件數(shù)類(lèi)似度算出部,104,206抽取部,105,208排除部,106,209類(lèi)似文章決定部,107,210存儲(chǔ)部,108,211采樣文章組,109,212抽取對(duì)象文章組,110,213類(lèi)似文章組,201詞素分析部, 202詞素出現(xiàn)文章存儲(chǔ)部,203 2詞素出現(xiàn)采樣文章存儲(chǔ)部,204 2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部,205件數(shù)類(lèi)似度算出部,207無(wú)效化部,1601CPU, 1602存儲(chǔ)器,1603輸入裝置,1604 輸出裝置,1605外部存儲(chǔ)裝置,1606可移動(dòng)記錄介質(zhì)驅(qū)動(dòng)裝置,1607網(wǎng)絡(luò)連接裝置,1608總線,d301抽取數(shù)據(jù)文件,d302元數(shù)據(jù)文件,d303各文件,d304詞素分析結(jié)果文件,d305詞素行列文件,d306抽取明細(xì)文件,d307分類(lèi)碼文件,d308再處理用元數(shù)據(jù)文件。
1權(quán)利要求
1.一種記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì),其特征在于,所述文章抽取程序使計(jì)算機(jī)執(zhí)行如下處理多詞素出現(xiàn)采樣文章存儲(chǔ)處理,使所述文章標(biāo)識(shí)符與由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組的文章中共同出現(xiàn)的多個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)處理,對(duì)由文章標(biāo)識(shí)符識(shí)別的多個(gè)抽取對(duì)象文章組,按所述多個(gè)詞素的每個(gè)詞素來(lái)抽取該多個(gè)詞素共同出現(xiàn)的文章標(biāo)識(shí)符并對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出處理,按所述多個(gè)詞素的每個(gè)詞素,來(lái)算出與該多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取處理,按照所述類(lèi)似度從高到底的順序,抽取與所述多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符;排除處理,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定處理,重復(fù)所述多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)處理、所述件數(shù)類(lèi)似度算出處理、所述抽取處理、以及所述刪除處理的各處理直到由所述抽取處理抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取處理抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
2.根據(jù)權(quán)利要求1所述的記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì),其特征在于, 所述抽取處理按照所述類(lèi)似度從高到底的順序,抽取與所述多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符直到抽取出全部的所述采樣文章組的文章標(biāo)識(shí)符為止。
3.根據(jù)權(quán)利要求1所述的記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì),其特征在于, 所述抽取處理按照類(lèi)似度從高到底的順序,無(wú)重復(fù)地依次抽取與所述多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符,直到抽取出全部的所述采樣文章組的文章標(biāo)識(shí)符為止,還包含無(wú)效化處理,所述無(wú)效化處理將所述抽取處理中不存在沒(méi)有重復(fù)的文章標(biāo)識(shí)符的所述多個(gè)詞素設(shè)為處理對(duì)象外。
4.一種記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì),其特征在于,所述文章抽取程序使計(jì)算機(jī)執(zhí)行如下處理詞素分析處理,對(duì)存儲(chǔ)在存儲(chǔ)部中的分別由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組以及多個(gè)抽取對(duì)象文章組進(jìn)行詞素分析;詞素出現(xiàn)文章存儲(chǔ)處理,以所述詞素分析結(jié)果為基礎(chǔ),將詞素、該詞素出現(xiàn)的文章標(biāo)識(shí)符與所述采樣文章組以及抽取對(duì)象文章組分別對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;2詞素出現(xiàn)采樣文章存儲(chǔ)處理,抽取與所述多個(gè)采樣文章組的文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的詞素,使所述文章標(biāo)識(shí)符與所述文章標(biāo)識(shí)符共同的兩個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)處理,對(duì)所述抽取對(duì)象文章組,按所述兩個(gè)詞素的每個(gè)詞素,從所述存儲(chǔ)部抽取與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)的文章標(biāo)識(shí)符,并與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出處理,算出與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取處理,按照所述類(lèi)似度從高到底的順序,無(wú)重復(fù)地抽取與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符,直到抽取出全部的所述采樣文章組的文章標(biāo)識(shí)符為止;無(wú)效化處理,將所述抽取處理中不存在沒(méi)有重復(fù)的文章標(biāo)識(shí)符的所述兩個(gè)詞素設(shè)為處理對(duì)象外。排除處理,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定處理,重復(fù)所述2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)處理、所述件數(shù)類(lèi)似度算出處理、所述抽取處理、以及所述刪除處理的各處理,直到由所述抽取處理抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取處理抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
5.根據(jù)權(quán)利要求1所述的記錄文章抽取程序的計(jì)算機(jī)可讀取記錄介質(zhì),其特征在于,所述采樣文章組是由用戶根據(jù)在上次的類(lèi)似文章抽取中抽取出的類(lèi)似文章組來(lái)決定的。
6.一種文章抽取方法,其特征在于,包括多詞素出現(xiàn)采樣文章存儲(chǔ)步驟,使所述文章標(biāo)識(shí)符與由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組的文章中共同出現(xiàn)的多個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)步驟,對(duì)由文章標(biāo)識(shí)符識(shí)別的多個(gè)抽取對(duì)象文章組,按所述多個(gè)詞素的每個(gè)詞素,來(lái)抽取該多個(gè)詞素共同出現(xiàn)的文章標(biāo)識(shí)符并對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出步驟,按所述多個(gè)詞素的每個(gè)詞素,來(lái)算出與該多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取步驟,按照所述類(lèi)似度從高到底的順序,抽取與所述多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符;排除步驟,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定步驟,重復(fù)所述多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)步驟、所述件數(shù)類(lèi)似度算出步驟、所述抽取步驟、以及所述刪除步驟的各處理直到由所述抽取步驟抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取步驟抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
7 一種文章抽取裝置,其特征在于,包括多詞素出現(xiàn)采樣文章存儲(chǔ)部,使所述文章標(biāo)識(shí)符與由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組的文章中共同出現(xiàn)的多個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部,對(duì)由文章標(biāo)識(shí)符識(shí)別的多個(gè)抽取對(duì)象文章組,按所述多個(gè)詞素的每個(gè)詞素,來(lái)抽取該多個(gè)詞素共同出現(xiàn)的文章標(biāo)識(shí)符并對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出部,按所述多個(gè)詞素的每個(gè)詞素,來(lái)算出與該多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取部,按照所述類(lèi)似度從高到底的順序,抽取與所述多個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符;排除部,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定部,重復(fù)所述多詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部、所述件數(shù)類(lèi)似度算出部、 所述抽取部、以及所述刪除部的各處理直到由所述抽取部抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取部抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
8.一種文章抽取方法,其特征在于,包括詞素分析步驟,對(duì)存儲(chǔ)在存儲(chǔ)部中的分別由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組以及多個(gè)抽取對(duì)象文章組進(jìn)行詞素分析;詞素出現(xiàn)文章存儲(chǔ)步驟,以所述詞素分析結(jié)果為基礎(chǔ),將詞素、該詞素出現(xiàn)的文章標(biāo)識(shí)符與所述采樣文章組以及抽取對(duì)象文章組分別對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;2詞素出現(xiàn)采樣文章存儲(chǔ)步驟,抽取與所述多個(gè)采樣文章組的文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的詞素,使所述文章標(biāo)識(shí)符與所述文章標(biāo)識(shí)符共同的兩個(gè)詞素的每個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)步驟,對(duì)所述抽取對(duì)象文章組,按所述兩個(gè)詞素的每個(gè)詞素,從所述存儲(chǔ)部抽取與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)的文章標(biāo)識(shí)符,并與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出步驟,算出與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取步驟,按照所述類(lèi)似度從高到底的順序,無(wú)重復(fù)地抽取與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符,直到抽取出全部的所述采樣文章組的文章標(biāo)識(shí)符為止;無(wú)效化步驟,將所述抽取步驟中不存在沒(méi)有重復(fù)的文章標(biāo)識(shí)符的所述兩個(gè)詞素設(shè)為處理對(duì)象外。排除步驟,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定步驟,重復(fù)所述2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)步驟、所述件數(shù)類(lèi)似度算出步驟、所述抽取步驟、以及所述刪除步驟的各處理,直到由所述抽取步驟抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取步驟抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
9.一種文章抽取裝置,其特征在于,包括詞素分析部,對(duì)存儲(chǔ)在存儲(chǔ)部中的分別由文章標(biāo)識(shí)符識(shí)別的多個(gè)采樣文章組以及多個(gè)抽取對(duì)象文章組進(jìn)行詞素分析;詞素出現(xiàn)文章存儲(chǔ)部,以所述詞素分析結(jié)果為基礎(chǔ),將詞素、該詞素出現(xiàn)的文章標(biāo)識(shí)符與所述采樣文章組以及抽取對(duì)象文章組分別對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;2詞素出現(xiàn)采樣文章存儲(chǔ)部,抽取與所述多個(gè)采樣文章組的文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的詞素,使所述文章標(biāo)識(shí)符共同的兩個(gè)詞素的每個(gè)詞素,與所述文章標(biāo)識(shí)符對(duì)應(yīng)地存儲(chǔ)在存儲(chǔ)部中;2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部,對(duì)所述抽取對(duì)象文章組,按所述兩個(gè)詞素的每個(gè)詞素,從所述存儲(chǔ)部抽取與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)的文章標(biāo)識(shí)符,并與該兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中;件數(shù)類(lèi)似度算出部,算出與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述采樣文章組的文章標(biāo)識(shí)符數(shù)、和所述抽取對(duì)象文章組的文章標(biāo)識(shí)符數(shù)的類(lèi)似度;抽取部,按照所述類(lèi)似度從高到底的順序,無(wú)重復(fù)地抽取與所述兩個(gè)詞素對(duì)應(yīng)地存儲(chǔ)在所述存儲(chǔ)部中的所述抽取對(duì)象文章組的文章標(biāo)識(shí)符,直到抽取出全部的所述采樣文章組的文章標(biāo)識(shí)符為止;無(wú)效化部,將所述抽取部中不存在沒(méi)有重復(fù)的文章標(biāo)識(shí)符的所述兩個(gè)詞素設(shè)為處理對(duì)象外。排除部,從所述抽取對(duì)象文章組排除與所述抽取出的文章標(biāo)識(shí)符以外的文章標(biāo)識(shí)符對(duì)應(yīng)的文章組;以及目標(biāo)文章決定部,重復(fù)所述2詞素出現(xiàn)抽取對(duì)象文章存儲(chǔ)部、所述件數(shù)類(lèi)似度算出部、 所述抽取部、以及所述刪除部的各處理,直到由所述抽取部抽取出的文章標(biāo)識(shí)符數(shù)與上次的由所述抽取部抽取出的文章標(biāo)識(shí)符數(shù)變成預(yù)先規(guī)定的差為止,將由剩余的文章標(biāo)識(shí)符識(shí)別的抽取對(duì)象文章組決定為目標(biāo)文章組。
全文摘要
本發(fā)明涉及一種類(lèi)似文章的抽取方法,能夠自動(dòng)制作可根據(jù)分析人員以特定的信息源為基礎(chǔ)采樣得到的目標(biāo)文本來(lái)高精度地進(jìn)行文本收集(分類(lèi))的關(guān)鍵詞的組合即分類(lèi)規(guī)則。在多個(gè)采樣文章組(211)和抽取對(duì)象文章組(212)之間,關(guān)于從采樣文章組(211)抽取出的多個(gè)詞素組,在(103)~(105)中按照這些出現(xiàn)文章數(shù)接近的(類(lèi)似度大)順序來(lái)縮小抽取對(duì)象文章組使得只包含各詞素,該處理在(106)的控制下被重復(fù)執(zhí)行,從抽取對(duì)象文章組(212)高效地抽取與采樣文章組(211)類(lèi)似的文章。
文檔編號(hào)G06F17/30GK102165443SQ20098013792
公開(kāi)日2011年8月24日 申請(qǐng)日期2009年10月2日 優(yōu)先權(quán)日2008年10月3日
發(fā)明者中浜章文 申請(qǐng)人:富士通株式會(huì)社