專利名稱:相關(guān)詞抽取設(shè)備和方法以及記錄相關(guān)詞抽取程序的媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種相關(guān)詞抽取設(shè)備,一種相關(guān)詞抽取方法,和記錄相關(guān)詞抽取程序的計(jì)算機(jī)可讀記錄媒體;它們都適用于從大容量存儲資料數(shù)據(jù)中抽取相關(guān)詞。
目前從資料數(shù)據(jù)中抽取相關(guān)詞的最常用的作法是人工抽取和形成一個由這樣抽取的詞構(gòu)成的表,或者可利用人工制備的主題詞表去制備一個相關(guān)詞表。
業(yè)已提出一些準(zhǔn)備相關(guān)詞表的技術(shù)(稍后將描述),作為通過使用計(jì)算機(jī)自動地抽取相關(guān)詞而不需要人工抽取操作的方法。
其中一種技術(shù)涉及根據(jù)兩個相關(guān)詞的出現(xiàn)頻率,即資料數(shù)據(jù)中彼此在一起出現(xiàn)的兩個詞的頻率,制備一個相關(guān)詞表。把其中兩個詞被判定為彼此在一起出現(xiàn)的范圍設(shè)置成各種值,例如不超出幾個字的范圍,不超出幾十個字的范圍,不超出一分鐘的持續(xù)時間,或不超一個段落的范圍。
除了簡單地聚合那些彼此在一起出現(xiàn)的兩個詞的頻率和確定那些具有并發(fā)頻率的詞為相關(guān)詞的技術(shù)以外,還使用下述的技術(shù)。
具體地說,在一種已提出的技術(shù)中,事先確定一組關(guān)鍵字(或一組詞),并且聚合每個隨其它詞出現(xiàn)的關(guān)鍵字的頻率。通過這種聚合操作,制備一個相關(guān)詞表。
在已提出的另一種技術(shù)中,使一個用于制備相關(guān)詞表的資料(或一個書寫項(xiàng)目)經(jīng)受詞法分析,以確定每個詞的詞類。然后,從資料中去除功能詞,或者只聚合那些隨其它詞一起出現(xiàn)的每個實(shí)義詞的頻率。通過這種聚合操作,制備一個相關(guān)詞表。
在已提出的又一種技術(shù)中,根據(jù)隨資料中一個指定詞一起出現(xiàn)的諸詞的頻率,在相關(guān)詞表制備過程中去除那些具有隨指定詞一起出現(xiàn)的高頻的詞,和那些具有隨指定詞一起出現(xiàn)的低頻的詞,借此制備一個相關(guān)詞表。
在已提出的另一種技術(shù)中,通過句法分析確定那些有特殊關(guān)系的詞,并且聚合那些這樣確定的互相在一起出現(xiàn)的詞的頻率。通過聚合操作,制備一個相關(guān)詞表。
在現(xiàn)行的格式中,除了用互相一起出現(xiàn)的兩個詞的頻率作為確定這些詞是否互相相關(guān)的準(zhǔn)則的技術(shù)之外,已提出另外一種使用一個叫作互感信息的值的技術(shù)(此后被稱作“技術(shù)A”)。
在此,互感信息(或傳遞信息)代表,在由于確定出現(xiàn)事件“X”而傳送的信息,與在另一事件“Y”已出現(xiàn)的條件下由于確定出現(xiàn)事件“X”而傳送的條件信息之間的差異。在數(shù)學(xué)上,互感信息代表一對事件Xi,Yi,在此Xi標(biāo)志一個輸入信息,且Yi標(biāo)志一個輸出信息。若令P(Xi,Yi)為出現(xiàn)事件Xi和Yi的聯(lián)合概率;P(Xi|Yi)為在事件Yi已出現(xiàn)的條件下出現(xiàn)事件Xi的概率;P(Yi|Xi)為在事件Xi已出現(xiàn)的條件下出現(xiàn)事件Yi的概率;P(Xi)為出現(xiàn)事件Xi的概率;且P(Yi)為出現(xiàn)事件Yi的概率;則可用下述方程1給出涉及這對事件Xi,Yi的互感信息(或傳遞信息)T(Xi|Yi)。T(xi|yi)=log1p(xi)-log1p(xi|yi)=logp(xi|yi)p(xi)=logp(xi,yi)p(xi)p(yi)=logp(yi|xi)p(yi)=T(yi|xi)]]>…………(E q.1)還可以想象到,通過方程1所定義的表達(dá)式計(jì)算互感信息T(Xi|Yi),能夠從互感信息計(jì)算一個指定詞Xi和一個相應(yīng)詞Yi的相關(guān)程度,并且從計(jì)算所得的值,能夠制備一個相關(guān)詞表。
人工制備相關(guān)詞表是麻煩的,并且增加制備成本。此外,為了使相關(guān)詞表涉及新詞,要求這種人工抽取技術(shù),每當(dāng)出現(xiàn)新詞時,都制備新的相關(guān)詞表。
甚至那種利用計(jì)算機(jī)的且事先確定關(guān)鍵詞的方法,也需要事先確定關(guān)鍵詞。
那種刪除功能詞或只抽取實(shí)義詞的方法需要通過使用一種詞法分析之類的技術(shù),去收集關(guān)于每個詞的詞類信息。
那種消去高和低出現(xiàn)頻率的相關(guān)詞的方法,在識別一個其出現(xiàn)頻率高于調(diào)查水平或低于某個其它水平的詞時,由于詞被消去而遇到困難。
那種需要語法分析的技術(shù)會帶來一定程度的麻煩,因?yàn)樾枰髡Z法分析工作。
在需要詞法分析或語法分析的技術(shù)中,還要求分析具有充分的性能;而且為了保證充分的性能,必須不斷更新詞典或語法數(shù)據(jù)庫。
對于利用關(guān)于方程1所示互感信息T(Xi|Yi)的表達(dá)式制備相關(guān)詞表的技術(shù)A,不一定需要它在事先確定一些根據(jù)相關(guān)詞檢索操作的項(xiàng)目,或者通過詞法分析處理一個資料。然而,因?yàn)榧夹g(shù)A依賴于諸詞出現(xiàn)的順序,故只依靠諸詞出現(xiàn)的順序來制備一個相關(guān)詞表,從而造成一個問題用戶在理解從互感信息制備的相關(guān)詞表時遇到相當(dāng)大的困難。
本發(fā)明旨在解決上述問題,本發(fā)明之目的在于提供一種相關(guān)詞抽取設(shè)備,一種相關(guān)詞抽取方法,和一種記錄相關(guān)詞抽取程序的計(jì)算機(jī)可讀記錄媒體,它們都使用戶可以通過使用互感信息,容易地和精確地抽取相關(guān)詞,而不需要詞法分析或語法分析。
一種用于解決上述問題的相關(guān)詞抽取設(shè)備包括一個前置和后置詞抽取部分,它在正文數(shù)據(jù)中抽取一個在指定詞前面出現(xiàn)的前置詞或者一個在指定詞后面出現(xiàn)的后置詞;一個頻率計(jì)算部分,它能夠計(jì)算正文數(shù)據(jù)中指定詞的出現(xiàn)頻率,正文數(shù)據(jù)中前置或后置詞的出現(xiàn)頻率,和由前置和后置詞抽取部分在正文數(shù)據(jù)中抽取的前置和后置詞的出現(xiàn)頻率;一個出現(xiàn)概率計(jì)算部分,它能夠根據(jù)關(guān)于正文數(shù)據(jù)中指定詞出現(xiàn)頻率的信息和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,計(jì)算前置和后置詞的出現(xiàn)概率以及指定詞的出現(xiàn)概率,這兩種信息都是從頻率計(jì)算部分接收的;一個并發(fā)概率計(jì)算部分,它根據(jù)從頻率計(jì)算部分接收的關(guān)于由前置和后置詞抽取部分抽取的前置詞的出現(xiàn)頻率的信息,和根據(jù)從頻率計(jì)算部分接收的關(guān)于由前置和后置詞抽取部分抽取的后置詞的出現(xiàn)頻率的信息,計(jì)算隨指定詞一起出現(xiàn)的前置詞的頻率和隨指定詞一起出現(xiàn)的后置詞的概率;一個組合次序相關(guān)度計(jì)算部分,它根據(jù)從出現(xiàn)概率計(jì)算部分接收的指定詞的出現(xiàn)概率、前置詞的出現(xiàn)概率和后置詞的出現(xiàn)概率,和根據(jù)從并發(fā)概率計(jì)算部分接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞概率的信息,計(jì)算前置詞和指定詞的組合的次序相關(guān)度以及后置詞和指定詞的組合的次序相關(guān)度;一個組合次序無關(guān)度計(jì)算部分,它根據(jù)從組合次序相關(guān)度計(jì)算部分接收的關(guān)于組合度的信息,計(jì)算前置詞和指定詞的組合的次序無關(guān)度以及后置詞和指定詞的組合的次序無關(guān)度;和一個詞組抽取部分,它根據(jù)由組合次序無關(guān)度計(jì)算部分計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組涉及指定詞的詞。
因此,根據(jù)本發(fā)明的相關(guān)詞抽取設(shè)備,由于詞組抽取部分使用由組合次序無關(guān)度計(jì)算部分計(jì)算的信息,而具有能夠在不需要詞法分析或語法分析的情況下,準(zhǔn)確地抽取用戶容易理解的相關(guān)詞的優(yōu)點(diǎn)。
一種用于解決上述問題的相關(guān)詞抽取方法包括一個關(guān)鍵字指定步驟,用于指定一個借以從正文數(shù)據(jù)中抽取諸相關(guān)詞的關(guān)鍵字;一個前置和后置詞抽取步驟,用于抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞和一個在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞;一個并發(fā)概率計(jì)算步驟,用于計(jì)算那些隨關(guān)鍵字指定步驟所指定詞一起出現(xiàn)的,前置和后置詞抽取步驟所抽取的前置和后置詞的概率;一個出現(xiàn)概率計(jì)算步驟,用于計(jì)算關(guān)鍵字指定步驟所指定的詞的出現(xiàn)概率,和前置和后置詞抽取步驟所抽取的前置和后置詞的出現(xiàn)概率;一個組合次序相關(guān)度計(jì)算步驟,用于根據(jù)在出現(xiàn)概率計(jì)算步驟計(jì)算的關(guān)于指定詞出現(xiàn)概率的信息、關(guān)于前置詞出現(xiàn)概率的信息和關(guān)于后置詞出現(xiàn)概率的信息,和根據(jù)在并發(fā)概率計(jì)算步驟計(jì)算的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率信息,計(jì)算一個前置詞和指定詞的組合次序相關(guān)度和一個后置詞和指定詞的組合次序相關(guān)度;一個組合次序無關(guān)度計(jì)算步驟,用于根據(jù)在組合次序相關(guān)度計(jì)算步驟計(jì)算的關(guān)于組合度的信息,計(jì)算一個前置詞和指定詞的組合次序無關(guān)度和一個后置詞和指定詞的組合次序無關(guān)度;和一個詞組抽取步驟,用于根據(jù)在組合次序無關(guān)度計(jì)算步驟計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組與指定詞有關(guān)的詞。
因此,根據(jù)本發(fā)明的相關(guān)詞抽取方法,由于執(zhí)行關(guān)鍵字指定步驟、前置和后置詞抽取步驟、并發(fā)概率計(jì)算步驟、出現(xiàn)概率計(jì)算步驟、組合次序相關(guān)度計(jì)算步驟、組合次序無關(guān)度計(jì)算步驟、和詞組抽取步驟,以及由于把在組合次序無關(guān)度計(jì)算步驟計(jì)算的信息用于在詞組抽取步驟中進(jìn)行處理,而具有在不需要詞法分析或語法分析情況下準(zhǔn)確地抽取那些用戶容易理解的相關(guān)詞的優(yōu)點(diǎn)。
一種記錄相關(guān)詞抽取程序的計(jì)算機(jī)可讀記錄媒體,用于根據(jù)本發(fā)明解決上述的問題,它為了從正文數(shù)據(jù)中抽取一組與某一詞相關(guān)的詞,包括要由計(jì)算機(jī)執(zhí)行的下述功能一種關(guān)鍵字指定功能,旨在指定一個用來從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字;一種前置和后置詞抽取功能,旨在抽取在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞和在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞;一種并發(fā)概率計(jì)算功能,旨在計(jì)算前置和后置詞的概率,這些詞是借助前置和后置詞抽取功能抽取的,并且和借助關(guān)鍵字指定功能指定的詞一起出現(xiàn)的;一種出現(xiàn)概率計(jì)算功能,旨在計(jì)算那種借助關(guān)鍵字指定功能指定的詞的出現(xiàn)概率和那些借助前置和后置詞抽取功能抽取的前置和后置詞的出現(xiàn)概率;一種組合次序相關(guān)度計(jì)算功能,旨在根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的關(guān)于指定詞出現(xiàn)概率的信息、關(guān)于前置詞出現(xiàn)概率的信息和關(guān)于后置詞出現(xiàn)概率的信息,和根據(jù)借助并發(fā)概率計(jì)算功能計(jì)算的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,計(jì)算一個前置詞和指定詞的組合次序相關(guān)度和一個后置詞和指定詞的組合次序相關(guān)度;一種組合次序無關(guān)度計(jì)算功能,旨在根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的關(guān)于組合度的信息,計(jì)算前置詞和指定詞的組合次序無關(guān)度和后置詞和指定詞的組合次序無關(guān)度;和一種詞組抽取功能,旨在根據(jù)借助組合次序無關(guān)度計(jì)算功能計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組涉及指定詞的詞。
因此,根據(jù)本發(fā)明的在其上具有所記錄相關(guān)詞抽取程序的計(jì)算可讀記錄媒體,由于計(jì)算機(jī)執(zhí)行關(guān)鍵字指定功能、前置和后置詞抽取功能、并發(fā)概率計(jì)算功能、出現(xiàn)概率計(jì)算功能、組合次序相關(guān)度計(jì)算功能、組合次序無關(guān)度計(jì)算功能和詞組抽取功能,而在不需要詞法分析或語法分析的情況下具有準(zhǔn)確地抽取那些用戶容易理解的相關(guān)詞的優(yōu)點(diǎn)。
圖1是一個示意圖,說明一個在其上安裝有一個根據(jù)本發(fā)明一個實(shí)施例的相關(guān)詞抽取設(shè)備的系統(tǒng);圖2是一個框圖,說明在其上安裝有一個根據(jù)本發(fā)明一個實(shí)施例的相關(guān)詞抽取設(shè)備的系統(tǒng)的主要部件;圖3是一個框圖,說明在其上裝有一個根據(jù)本發(fā)明一個實(shí)施例的相關(guān)詞抽取設(shè)備的系統(tǒng)的主要部件;圖4是一個示意圖,說明一個根據(jù)本發(fā)明一個實(shí)施例的正文數(shù)據(jù)集;圖5是一個示意圖,說明根據(jù)本發(fā)明一個實(shí)施例的逐個詞或逐個詞素地分段的一個正文數(shù)據(jù)集;圖6(a)和6(b)是示意圖,說明根據(jù)本發(fā)明一個實(shí)施例的由前置和后置詞抽取部件抽取的詞的一個實(shí)例;圖7和8是圖表,說明根據(jù)本發(fā)明一個實(shí)施例的由頻率計(jì)算部件計(jì)算的出現(xiàn)頻率信息的一個實(shí)例;圖9和10是圖表,說明根據(jù)本發(fā)明一個實(shí)施例的由組合次序相關(guān)度計(jì)算部件計(jì)算的組合度信息的一個實(shí)例;圖11是圖表,說明根據(jù)本發(fā)明一個實(shí)施例的由組合次序無關(guān)度計(jì)算部件計(jì)算的組合度信息的一個實(shí)例;圖12是一個流程圖,根據(jù)本發(fā)明一個實(shí)施例說明在計(jì)算機(jī)中一個CPU執(zhí)行相關(guān)詞抽取程序時所需處理操作流程;圖13是一個流程圖,根據(jù)本發(fā)明一個實(shí)施例描述在計(jì)算機(jī)中一個執(zhí)行并發(fā)概率計(jì)算功能的CPU執(zhí)行相關(guān)詞抽取程序時的處理流程;圖14是一個流程圖,根據(jù)本發(fā)明一個實(shí)施例描述在計(jì)算機(jī)中一個用作前置和后置部件的CPU執(zhí)行相關(guān)詞抽取程序時的處理流程;圖15是一個流程圖,根據(jù)本發(fā)明一個實(shí)施例描述在計(jì)算機(jī)中一個用作頻率計(jì)算部件的CPU執(zhí)行相關(guān)詞抽取程序時的處理流程;圖16是一個框圖,根據(jù)本發(fā)明實(shí)施例的一個第一修改例說明一個其中裝有相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī);圖17根據(jù)涉及“汽車”一詞的本發(fā)明實(shí)施例的第一修正例,說明一個由詞組抽取部件抽取的詞的表;圖18根據(jù)涉及“車”一詞的本發(fā)明實(shí)施例的第一修改例,說明一個由詞組抽取部件抽取的詞的表;圖19根據(jù)涉及“飛機(jī)”一詞的本發(fā)明實(shí)施例的第一修改例,說明一個由詞組抽取部件抽取的詞的表;圖20根據(jù)本發(fā)明實(shí)施例的第一修改例,說明由相似度計(jì)算部件計(jì)算的一個在詞“汽車”與詞“車”之間的相似度,和一個在詞“汽車”與詞“飛機(jī)”之間的相似度;圖21是一個框圖,根據(jù)本發(fā)明實(shí)施例的一個第二修正例說明一個其中裝有相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī);圖22根據(jù)涉及“埃及”一詞的本發(fā)明實(shí)施例的第二修正例,說明一個由詞組抽取部件抽取的詞的表;圖23根據(jù)涉及“總統(tǒng)”一詞的本發(fā)明實(shí)施例的第二修正例,說明一個由詞組抽取部件抽取的詞的表;圖24根據(jù)涉及“埃及”和“總統(tǒng)”兩詞的本發(fā)明實(shí)施例的第二修正例,說明一個由詞組抽取部件抽取的詞的表;圖25是一個框圖,根據(jù)本發(fā)明實(shí)施例的一個第三修正例,說明一個其中裝有相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī);圖26根據(jù)涉及“北朝鮮”一詞的本發(fā)明實(shí)施例的第三修正例,說明一個由詞組抽取部件抽取的詞的表;圖27根據(jù)涉及“朝鮮民主主義人民共和國”一詞的本發(fā)明實(shí)施例的第三修正例,說明一個由詞組抽取部件抽取的詞的表;圖28根據(jù)涉及“北朝鮮”和“朝鮮民主主義人民共和國”二詞的本發(fā)明實(shí)施例的第三修正例,說明一個由詞組抽取部件抽取的詞的表;圖29是一個框圖,根據(jù)本發(fā)明的另一個實(shí)施例,說明一個其中裝有相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī);和圖30是一個流程圖,根據(jù)本發(fā)明的又一個實(shí)施例,描述在計(jì)算機(jī)中一個用作頻率計(jì)算部件的CPU執(zhí)行相關(guān)詞抽取程序時的處理流程。
參照這些圖,描述本發(fā)明的優(yōu)選實(shí)施例。
(1)一個優(yōu)選實(shí)施例的描述
(a)硬件配置的說明圖1描述一個系統(tǒng)配置,用來實(shí)現(xiàn)一個根據(jù)本發(fā)明一個實(shí)施例的相關(guān)詞抽取設(shè)備。如圖1所示,系統(tǒng)1包括一個裝有一個CPU或一些所需存儲部件的主要部件1a,一個顯示器1b,和一個鍵盤1c。
主要部件1a從一個其上有所記錄相關(guān)詞抽取程序的媒體1f,例如CD-ROM、光盤(下面簡寫成“MO”)、軟盤(下文簡寫成“FD”)、或類似媒體,把一個相關(guān)詞抽取程序裝入一個硬盤(未示出)或類似盤。在執(zhí)行相關(guān)詞抽取程序時,相關(guān)詞抽取程序就被擴(kuò)展到存儲器(未示出)中,并且CPU(未示出)根據(jù)這個程序去控制那些連接于主要部件1a的電子設(shè)備,例如顯示器1b和鍵盤1c。
圖2是一個框圖,根據(jù)本發(fā)明說明通用計(jì)算機(jī)系統(tǒng)的主要元件,用此系統(tǒng)實(shí)現(xiàn)相關(guān)詞抽取設(shè)備,并且在此系統(tǒng)中裝有相關(guān)詞抽取程序。這個通用計(jì)算機(jī)系統(tǒng)(下面可把它簡稱為“通用計(jì)算機(jī)”或“計(jì)算機(jī)”)1包括用作主要部件的一個CPU11,一個存儲器12,一個硬盤13,一個輸入設(shè)備14和一個輸出設(shè)備15。
硬盤13保持相關(guān)詞抽取程序,它通過一個CD-ROM驅(qū)動器1d或一個FD驅(qū)動器1e而記錄于記錄媒體上。
輸入設(shè)備14用于把數(shù)據(jù)或程序之類的信息輸入到CPU11中。輸入設(shè)備14相當(dāng)于鍵盤1c,鼠標(biāo)器(未示出),CD-ROM驅(qū)動器1d,或FD驅(qū)動器1e。
輸出設(shè)備15把從CPU11輸出的圖象顯示信息或檢索信息輸出到計(jì)算機(jī)的外面。顯示器1b相當(dāng)于輸出設(shè)備15。
(b)實(shí)施例的描述圖3示出根據(jù)本發(fā)明實(shí)施例的相關(guān)詞抽取設(shè)備的框圖。如圖3所示,相關(guān)詞抽取設(shè)備1包括一個前置和后置詞抽取部件(前置和后置詞抽取裝置)21,一個頻率計(jì)算部件22,一個并發(fā)概率計(jì)算部件24,一個出現(xiàn)概率計(jì)算部件23,一個詞組合次序相關(guān)度計(jì)算部件25,一個詞組合次序無關(guān)度計(jì)算部件26,一個詞組抽取部件27,一個詞分隔部件28,和一個存儲部件(未示出)。
前置和后置詞抽取部件21抽取一個正文數(shù)據(jù)中出現(xiàn)的在指定詞前面或后面的詞。指定詞是正文數(shù)據(jù)中一個關(guān)鍵字,根據(jù)這個指定詞從文件信息中抽取一個相關(guān)詞。
為了便于說明,令正文數(shù)據(jù)中出現(xiàn)的詞集為W;正文數(shù)據(jù)中包含的詞的總數(shù)為N;正文數(shù)據(jù)中出現(xiàn)的各個詞為ωi(ωi∈W,1≤i≤W);和正文數(shù)據(jù)中出現(xiàn)的詞型總數(shù)為“W”。
在下文中,有時可把一個出現(xiàn)于關(guān)鍵字前面的詞(或者簡稱為“前置詞”)寫成ωfi,并且有時可把一個出現(xiàn)于關(guān)鍵字后面的詞(或者簡稱為“后置詞”)寫成ωbi。
頻率計(jì)算部件(頻率計(jì)算裝置)22能夠計(jì)算正文數(shù)據(jù)中指定詞(下文叫作“關(guān)鍵字”)的出現(xiàn)頻率,正文數(shù)據(jù)中前置或后置詞的出現(xiàn)頻率,和正文數(shù)據(jù)中由前置和后置詞抽取部件21抽取的前置和后置詞的出現(xiàn)頻率。此中所用詞語“頻率”是一個用于表示給定數(shù)量的正文信息中包含的關(guān)鍵字的數(shù)目的示量。例如,如果在一個包含1000個字的英文正文中包含M(M是一個自然數(shù))個英文詞X,則數(shù)值M是一個表示整個正文中出現(xiàn)的詞X的次數(shù)的示量。由系統(tǒng)保持者或者根據(jù)設(shè)計(jì)者準(zhǔn)備的設(shè)計(jì),確定在其內(nèi)計(jì)算詞出現(xiàn)頻率的范圍。
用一個關(guān)系式,例如由方程2表示的關(guān)系式,表示正文數(shù)據(jù)中出現(xiàn)的詞ωi的頻率f(ωi)Σi=1wf(ωi)=N----(2)]]>根據(jù)從頻率計(jì)算部件22接收的關(guān)于指定詞出現(xiàn)頻率的信息和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,出現(xiàn)概率計(jì)算部件(出現(xiàn)概率計(jì)算裝置)23能夠計(jì)算前置和后置詞的出現(xiàn)概率以及指定詞的出現(xiàn)概率。
用一個關(guān)系式,例如方程(3)所表示的關(guān)系式,表示正文數(shù)據(jù)中詞ωi的出現(xiàn)概率P(ωi)。P(ωi)=f(ωi)N----(3)]]>
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件21抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取部件21抽取的后置詞的出現(xiàn)頻率的信息,并發(fā)概率計(jì)算部件(并發(fā)概率計(jì)算裝置)24計(jì)算隨指定詞一起出現(xiàn)的前置詞的概率和隨指定詞一起出現(xiàn)的后置詞的概率(在下文中把這樣一種概率簡稱為“并發(fā)概率”)。
用P(ωi,ωj)表示正文數(shù)據(jù)中按ij排序的詞ωi和ωj的出現(xiàn)概率。
為了計(jì)算并發(fā)概率,可計(jì)算由前置和后置詞抽取部件21抽取的各個前置詞和后置詞的出現(xiàn)頻率。如果關(guān)于所抽取前置詞的出現(xiàn)頻率的信息是f(ωfi)=f(ωi,ωk)和關(guān)于所抽取后置詞的出現(xiàn)頻率的信息是f(ωbi)=f(ωi,ωk),則前置詞的并發(fā)概率可被定義為P(ωi,ωk)=f(ωi,ωk)/N,且后置詞的并發(fā)概率可被定義為P(ωi,ωk)=f(ωi,ωk)/N。
在這個實(shí)施例中,作為一個實(shí)例,按照詞表中包含的前置詞抽取的詞的出現(xiàn)頻率是f(ωfi),換句話說,f(ωi,ωk)表示正文數(shù)據(jù)中按此次序出現(xiàn)的詞ωi,ωk的頻率。
根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞出現(xiàn)概率的信息、關(guān)于前置詞的出現(xiàn)概率信息和關(guān)于后置詞的出現(xiàn)概率信息,以及根據(jù)從并發(fā)概率計(jì)算部件24接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,組合次序相關(guān)度計(jì)算部件(組合次序相關(guān)度裝置)25計(jì)算一個前置詞和指定詞組合次序相關(guān)度和一個后置詞和指定詞組合次序相關(guān)度。
由下述的方程(4)定義一個詞的組合次序相關(guān)度,還把詞ωi和詞ωi的出現(xiàn)比率定義為A(ωi,ωj)=logP(ωi,ωj)P(ωi)P(ωj)=Aij----(4)]]>P(ωi,ωj)表示在一個語言資料庫(大量數(shù)據(jù))中出現(xiàn)的詞ωi和詞ωj的概率。詞ωi和ωj的組合次序相關(guān)度,即A(ωi,ωj),??珊唽懗伞癆ij”。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的關(guān)于組合度的信息,組合次序無關(guān)度計(jì)算部件(組合次序無關(guān)度計(jì)算裝置)26計(jì)算一個前置詞和指定詞組合次序無關(guān)度和一個后置詞和指定詞組合次序無關(guān)度。
詞ωi和詞ωj的組合度,即r(ωi,ωj),由下述方程(5)定義。r(ωi,ωj)=Aij2+Aji2----(5)]]>根據(jù)組合次序無關(guān)度計(jì)算部件26所計(jì)算的組合度信息,詞組抽取部件(詞組抽取裝置)27從正文數(shù)據(jù)中抽取一組涉及指定詞的詞。詞組抽取部件27在減少高頻排序時抽取那些高度有序的相關(guān)詞。
詞分隔部件(詞分隔裝置)28逐個詞或逐個詞或逐個詞素地分隔正文數(shù)據(jù)。存儲部件(未示出)存儲至少一個涉及指定詞的計(jì)算結(jié)果或抽取結(jié)果。
存儲部件存儲由頻率計(jì)算部件22計(jì)算的頻率信息,由前置和后置詞抽取部件21抽取的相關(guān)詞信息,由并發(fā)概率計(jì)算部件24計(jì)算的關(guān)于并發(fā)概率的信息,由出現(xiàn)概率計(jì)算部件23計(jì)算的出現(xiàn)頻率信息,由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息,和由詞分隔部件28分隔成詞或詞素的關(guān)于正文數(shù)據(jù)的信息。
現(xiàn)在把上述部件、CPU11、主存儲器12、硬盤13、和其它元件互相結(jié)合起來加以說明。
用作詞分隔部件28的CPU11逐個詞或逐個詞素地分隔正文數(shù)據(jù)中所含資料信息。
雖然在本實(shí)施例中,正文數(shù)據(jù)存儲于一個媒體,例如FD、CD-ROM、或硬盤13中,但正文數(shù)據(jù)也可以從一個掃描儀1g中讀出。在此,圖1還示出一種情況借助掃描儀1g從書中抽取的資料作為正文數(shù)據(jù)而存儲于一個FD1h中,并且FD1h用于相關(guān)詞抽取設(shè)備1。雖然下面的描述基于正文數(shù)據(jù)存儲于硬盤13中的假設(shè),但甚至在正文數(shù)據(jù)存儲于一個象FD或CD-ROM之類媒體中的情況下,也一樣。
在進(jìn)行正文數(shù)據(jù)詞法分析時,CPU11使關(guān)于正文數(shù)據(jù)的資料信息脫離檔案而進(jìn)入存儲器12中,從而逐個詞或逐個詞素地分隔資料信息。關(guān)于已經(jīng)通過詞法分析而逐個詞或逐個詞素地分隔的正文數(shù)據(jù)的資料信息,被存入一個存儲部件中,即,硬盤13或存儲器12中。
例如,用作詞分隔部件28的CPU11分隔具有例如圖4所示內(nèi)容的正文數(shù)據(jù),這是按照圖5所示逐個詞或逐個詞素地分隔的。根據(jù)具有例如圖4所示報(bào)紙文章的內(nèi)容的正文數(shù)據(jù),提供說明。在圖4和5中,按照羅馬字母拼法來拼寫日文句子。
在通過用戶的鍵盤1c的操作收到關(guān)于一個關(guān)鍵字ωk(下文常把它叫作“ωk”)的信息時,用作前置和后置詞抽取部件21的CPU11抽取在關(guān)鍵字ωk前面出現(xiàn)的詞ωfi或在關(guān)鍵字ωk后面出現(xiàn)的詞ωbi。
在抽取出現(xiàn)于關(guān)鍵字ωk前面的詞ωfi和出現(xiàn)于關(guān)鍵字ωk后面的詞ωbi時,CPU11使硬盤13中所存儲的資料信息(或正文數(shù)據(jù))脫離檔案而進(jìn)入存儲器12中,從而抽取前置詞ωfi和后置詞ωbi。把這樣抽取的結(jié)果存入存儲器12或硬盤13中。
圖6(a)和6(b)示出關(guān)于所抽取詞ωfi和ωbi的信息,這些詞出現(xiàn)于選自正文數(shù)據(jù)的關(guān)鍵字ωk“日光”的前面和后面,該正文數(shù)據(jù)具有逐個詞或逐個詞素地分隔的資料信息,例如圖5所示的信息。圖6(a)示出關(guān)于出現(xiàn)于關(guān)鍵字ωk“日光”前面的諸詞的信息,且圖6(b)示出關(guān)于出現(xiàn)于關(guān)鍵字ωk“日光”后面的諸詞的信息。用日文字符所寫的關(guān)鍵字ωk被表達(dá)成按羅馬字母拼法寫出的“NIKKO”。在下文中,在日文字符的后面用括號寫出其相應(yīng)的羅馬字母拼寫。在圖4、5、6(a)、6(b)、7、8、9、10、11、17、18、19、20、22、23、24、26、27、28中,日文詞皆按其相應(yīng)的羅馬字母拼法示出。
用作前置和后置詞抽取部件21的CPU11把所抽取的詞或詞素,例如圖6(a)和6(b)所示的詞或詞素,存入一個形成于存儲器12中的表中。
用作頻率計(jì)算部件22的CPU11計(jì)算一個出現(xiàn)于正文數(shù)據(jù)中的關(guān)鍵字的頻率f(ωk),一個出現(xiàn)于關(guān)于正文數(shù)據(jù)的資料信息中的前置或后置詞的頻率f(ωi),一個由前置和后置詞抽取部件抽取的前置詞的出現(xiàn)頻率f(ωfi),和一個由相同部件抽取的后置詞的出現(xiàn)頻率f(ωbi)。例如,用作頻率計(jì)算部件22的CPU11根據(jù)那些按照前置詞抽取的、例如圖6(a)所示的、和出現(xiàn)于詞表中的詞的數(shù)目,計(jì)算前置詞ωfi的出現(xiàn)頻率f(ωfi)。
用作頻率計(jì)算部件22的CPU11通過把例如圖6(a)和6(b)中所示的那些數(shù)據(jù)項(xiàng)編排入存儲器12中形成的表中,計(jì)算諸詞的出現(xiàn)頻率。
圖7示出一個正文數(shù)據(jù)中出現(xiàn)的諸詞的頻率的實(shí)例,該數(shù)據(jù)具有被分隔成詞或詞素,例如圖5所示的詞或詞素的資料信息。
圖8示出正文數(shù)據(jù)中出現(xiàn)的全部詞的頻率,該數(shù)據(jù)具有例如圖5所示的被分隔成詞或詞素的資料信息。根據(jù)例如圖8所示的頻率的值,從和所表達(dá)的炊具一詞一起出現(xiàn)的諸詞的比率來考慮,那些不直接涉及相關(guān)詞的字,例如后置虛詞或標(biāo)點(diǎn)符號,象“NO”、“HA”或“(標(biāo)點(diǎn)符號)”之類,是以高頻率出現(xiàn)的。
CPU11這樣控制存儲器12或硬盤13,以致于可保持計(jì)算過的關(guān)于頻率f(ωk)、f(ωfi)、f(ωbi)和f(ωi)的數(shù)據(jù)。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于指定詞的出現(xiàn)頻率的信息f(ωk)和關(guān)于正文數(shù)據(jù)中前置和后置詞的出現(xiàn)頻率的信息f(ωi),用作出現(xiàn)概率計(jì)算部件23的CPU11能夠計(jì)算前置詞的出現(xiàn)概率,后置詞的出現(xiàn)概率和關(guān)鍵字的出現(xiàn)概率。
在計(jì)算詞的出現(xiàn)概率時,CPU11利用頻率計(jì)算部件22計(jì)算的數(shù)據(jù)。更準(zhǔn)確地說,CPU11和存儲器共同處理相應(yīng)于該數(shù)據(jù)的信息。
在存儲器12或硬盤13中,CPU11保存這樣計(jì)算的關(guān)于出現(xiàn)概率的信息。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件抽取的前置和后置詞的出現(xiàn)頻率的信息,用作并發(fā)概率計(jì)算部件24的CPU11計(jì)算隨關(guān)鍵字ωk一起出現(xiàn)的前置詞的概率,即P(ωi,ωk),和隨相同關(guān)鍵字一起出現(xiàn)的后置詞的概率,即P(ωk,ωi)。
根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞出現(xiàn)概率P(ωk)的信息和關(guān)于前置和后置詞出現(xiàn)概率P(ωi)的信息,和從并發(fā)概率計(jì)算部件24接收的并發(fā)概率P(ωi,ωk)和并發(fā)概率P(ωk,ωi),用作組合次序相關(guān)度計(jì)算部件25的CPU11計(jì)算在關(guān)鍵字ωk前面的詞的組合次序相關(guān)度,即A(ωi,ωk)和在該關(guān)鍵字后面的詞的組合次序相關(guān)度,即A(ωk,ωi)。
在計(jì)算組合次序相關(guān)度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi)時,CPU11從硬盤13或存儲器12中讀出計(jì)算要用的信息項(xiàng)P(ωi),P(k),P(ωi,ωk)和P(ωk,ωi)。
在硬盤13或存儲器12中,CPU11存儲這樣計(jì)算的組合次序相關(guān)度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi)。
圖9是一個表,說明關(guān)鍵字“日光(NIKKO)”和在該關(guān)鍵字前面出現(xiàn)的諸詞ωfi的組合度,即A(ωi,ωk)。圖10是一個表,說明關(guān)鍵字“日光(NIKKO)”和在該關(guān)鍵字后面出現(xiàn)的諸詞的組合度,即A(ωk,ωi)。如圖9和圖10所示,例如圖9和10所示的關(guān)于詞和關(guān)鍵字的組合度的信息,是如此存于存儲器12的表中的,以致于詞與值相關(guān)。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的組合次序相關(guān)度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi),用作組合次序無關(guān)度計(jì)算部件26的CPU11計(jì)算一個前置和后置詞與關(guān)鍵字ωk的組合次序無關(guān)度,即r(ωi,ωk)。
CPU11通過從存儲器12或硬盤13中讀出那些要用于計(jì)算的信息項(xiàng)A(ωi,ωk)和A(ωk,ωi),計(jì)算組合度信息r(ωi,ωk)。
圖11示出由CPU11根據(jù)圖9和10所示數(shù)據(jù)計(jì)算的組合度信息r(ωi,ωk),該CPU11用作組合次序無關(guān)度計(jì)算部件26。
CPU11把圖11所示的組合度信息r(ωi,ωk)如此存入存儲器12的表中,以致于詞與值相關(guān)。
用作詞抽取部件27的CPU11,根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息r(ωi,ωk),抽取一組涉及關(guān)鍵字ωk的詞。
在從正文數(shù)據(jù)中抽取一組涉及關(guān)鍵字ωk的詞時,CPU11利用由組合次序無關(guān)度計(jì)算部件26計(jì)算的結(jié)果。
例如,在抽取一組具有高出現(xiàn)度的詞時,CPU11參照表示組合度的值,按數(shù)值的降序輸出諸詞;通過使用由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息r(ωi,ωk)來確定諸值。
更準(zhǔn)確地說,CPU11輸出組合次序無關(guān)度信息項(xiàng)中的前5項(xiàng),例如圖11所示的那些項(xiàng)。由CPU11輸出的詞數(shù)目可由設(shè)計(jì)者或維護(hù)者確定。下面的說明基于假設(shè)用作詞組抽取部件27的CPU11從組合次序無關(guān)度信息項(xiàng)r(ωi,ωk)中,抽取和以降序輸出前面10個詞或詞素。
用作詞組抽取部件27的CPU11還能如此控制存儲器12或類似媒體,以致于可保持一組所抽取的詞。下面的說明還基于假設(shè)在存儲器12或類似媒體中保持一個所抽取詞表。
在收到一個用于從系統(tǒng)用戶中查找一組涉及“日光(NIKKO)”一詞的詞的信號時,CPU11確定在存儲器12表中是否存有關(guān)于所抽取詞的表。如果上述信息存在,則能通過使用上述信息而輸出一個相關(guān)詞表。
此外,CPU11能夠進(jìn)行控制操作,以便在顯示屏上顯示一組所抽取詞或打印它們。
用作存儲部件的存儲器12或硬盤13存儲各種計(jì)算結(jié)果,例如P(ωk)、P(ωi,ωk)、和r(ωi,ωk),或抽取結(jié)果,例如出現(xiàn)頻率信息項(xiàng)f(ωk)和f(ωi)。在某些情況下,一個存儲數(shù)據(jù)的設(shè)備,例如存儲器12或硬盤13,可以看成是一個“存儲設(shè)備”。
在上述配置的情況下,根據(jù)本發(fā)明實(shí)施例在其中裝有相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1變成工作狀態(tài),因?yàn)橐褟囊粋€象CD-ROM之類的計(jì)算機(jī)可讀記錄媒體把相關(guān)詞抽取程序裝到計(jì)算機(jī)的主部件1a中。
相關(guān)詞抽取程序用于從正文數(shù)據(jù)中抽取一組涉及關(guān)鍵字ωk的詞,并且包括一系列適合計(jì)算機(jī)1執(zhí)行下述功能的編號命令指定一個關(guān)鍵字的功能(可在下文簡寫成“關(guān)鍵字指定功能”);計(jì)算指定詞的出現(xiàn)頻率和在指定詞前面或后面出現(xiàn)的詞的頻率的功能(可在下文中簡寫成“頻率計(jì)算功能”);抽取在指定詞前面和后面出現(xiàn)的諸詞的功能(可在下文中簡寫成“前置和后置詞抽取功能”);計(jì)算隨指定詞一起出現(xiàn)的前置和后置詞的概率的功能(可在下文中簡寫成“并發(fā)概率計(jì)算功能”);計(jì)算前置和后置詞出現(xiàn)概率和指定詞出現(xiàn)概率的功能(可在下文中簡寫成“出現(xiàn)概率計(jì)算功能”);計(jì)算前置和后置詞和指定詞組合次序相關(guān)度的功能(可在下文中簡寫成“詞組合次序相關(guān)度計(jì)算功能”);計(jì)算前置和后置詞和指定詞的組合次序無關(guān)度的功能(可在下文中簡寫成“組合次序無關(guān)度計(jì)算功能”);抽取一組相關(guān)詞的功能(可在下文中簡寫成“詞組抽取功能”);和分隔詞的功能(可在下文中簡寫成“詞分隔功能”)。
關(guān)鍵字指定功能使計(jì)算機(jī)1指定一個關(guān)鍵字,用于從正文數(shù)據(jù)中抽取相關(guān)詞。詞分隔功能使計(jì)算機(jī)1逐個詞或逐個詞素地分隔正文數(shù)據(jù)中所含的資料信息。前置和后置詞抽取功能使計(jì)算機(jī)1抽取正文數(shù)據(jù)中出現(xiàn)于關(guān)鍵字ωk前面的詞ωfi和出現(xiàn)于關(guān)鍵字ωk后面的詞ωbi。頻率計(jì)算功能使計(jì)算機(jī)1計(jì)算出現(xiàn)頻率f(ωi)和f(ωk)。
出現(xiàn)概率計(jì)算功能使計(jì)算機(jī)1計(jì)算關(guān)鍵字ωk的出現(xiàn)概率,即P(ωk),和借助前置和后置詞抽取功能抽取的前置詞ωfi和后置詞ωbi的出現(xiàn)概率,即P(ωfi)和P(ωbi)。并發(fā)概率計(jì)算功能使計(jì)算機(jī)1計(jì)算隨指定詞一起出現(xiàn)的借助前置和后置詞抽取功能抽取的前置詞ωfi的概率,即P(ωfi,ωk);和隨指定詞一起出現(xiàn)的借助前置和后置詞抽取功能抽取的后置詞ωbi的概率,即P(ωk,ωbi)。詞組合次序相關(guān)度計(jì)算功能使計(jì)算機(jī)1根據(jù)借助并發(fā)概率計(jì)算功能計(jì)算的并發(fā)概率P(ωi,ωk)和并發(fā)概率P(ωk,ωi),和根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的出現(xiàn)概率信息項(xiàng)P(ωk),P(ωfi)和P(ωbi),計(jì)算前置詞ωfi和指定字ωk的組合次序相關(guān)度,即A(ωfi,ωk);和后置詞ωbi和關(guān)鍵字ωk的組合次序相關(guān)度,即A(ωk,ωbi)。
組合次序無關(guān)度計(jì)算功能使計(jì)算機(jī)1根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息項(xiàng)A(ωfi,ωk)和A(ωk,ωbi),計(jì)算前置詞ωfi和后置詞ωbi與關(guān)鍵字的出現(xiàn)次序無關(guān)度,即r(ωi,ωk)。
詞組抽取功能使計(jì)算機(jī)1根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息r(ωi,ωk),從正文數(shù)據(jù)中抽取和輸出一組涉及關(guān)鍵字ωk的詞。
下面根據(jù)圖12至15提供的流程圖,結(jié)合CPU11的操作和上述的功能,描述特定操作過程。
圖12是一個流程圖,說明根據(jù)本實(shí)施例在通用計(jì)算機(jī)1中由CPU11執(zhí)行相關(guān)詞抽取程序時所需的處理操作流程。如圖12所示,進(jìn)行關(guān)鍵字指定功能的CPU11執(zhí)行一個脫離檔案而進(jìn)入存儲器12中的相關(guān)詞抽取程序,從而指定一個用于查找相關(guān)詞的詞(即關(guān)鍵字ωk)(步驟S1)。
由于計(jì)算機(jī)1的用戶在指定關(guān)鍵字時操作鍵盤1c,故CPU11接收一個涉及關(guān)鍵字ωk的信息信號,從而確定關(guān)鍵字ωk。例如,在從圖5所示數(shù)據(jù)之類的具有分隔成詞或詞素內(nèi)容的正文數(shù)據(jù)中,由用戶抽取與“日光(NIKKO)”一詞相關(guān)的諸詞的情況下,當(dāng)系統(tǒng)的用戶通過操作鍵盤1c把關(guān)于“日光(NIKKO)”一詞的信息發(fā)送到CPU11時,CPU11就把關(guān)鍵字指定為“日光(NIKKO)”一詞。簡單地說,作為一個關(guān)鍵字指定步驟,CPU11指定一個用于抽取相關(guān)詞的關(guān)鍵字。
在CPU11已經(jīng)事先抽取與詞“日光(NIKKO)”相關(guān)的諸詞的情況下,因?yàn)殛P(guān)于相關(guān)詞的數(shù)據(jù)業(yè)已存入存儲設(shè)備中,故CPU11確定關(guān)于與詞“日光(NIKKO)”相關(guān)的諸詞的數(shù)據(jù)是否存儲在存儲設(shè)備中(步驟S2)。
更準(zhǔn)確地說,為了對關(guān)于涉及詞“日光(NIKKO)”的詞的數(shù)據(jù)是否是在存儲器12或硬盤13中作出判定,即查找該詞的相關(guān)詞,CPU11通過使存儲器12的表中所存儲數(shù)據(jù)脫離檔案,進(jìn)行數(shù)據(jù)處理,借此對是否存在相應(yīng)的數(shù)據(jù)作出判定。
在關(guān)于與詞“日光(NIKKO)”相關(guān)的詞的數(shù)據(jù)存儲在存儲設(shè)備中的情況下,CPU11就輸出這些相關(guān)詞(步驟S9)。
CPU11按降序組合度r(ωi,ωk)輸出諸詞。例如,CPU11能夠向顯示器1b發(fā)送一個圖象顯示信號,以便在顯示器1b上顯示一個相關(guān)詞表或者控制一個打印機(jī)去打印一個相關(guān)詞表(步驟S9)。
CPU11輸出那些與組合次序無關(guān)度相關(guān)的詞,例如圖11所示的情況,這是前面描述過的。
相反,如果在存儲設(shè)備中沒有存儲關(guān)于與關(guān)鍵字ωk相關(guān)的詞的數(shù)據(jù),則CPU11確定在存儲設(shè)備中是否存儲隨詞“日光(NIKKO)”一起出現(xiàn)的詞的出現(xiàn)率(即,組合度信息A(ωi,ωk))(步驟S3)。
如果隨詞“日光(NIKKO)”一起出現(xiàn)的詞的出現(xiàn)率沒有存儲在存儲設(shè)備中,則CPU11從那個用作并發(fā)概率計(jì)算部件24的CPU11中,接收一個隨關(guān)鍵字一起出現(xiàn)的諸詞的表,以及隨關(guān)鍵字一起出現(xiàn)的各個詞的概率,即P(ωfi,ωk)和P(ωk,ωbi)(步驟S4)。根據(jù)隨關(guān)鍵字一起出現(xiàn)的諸詞的表,CPU11從出現(xiàn)概率計(jì)算部件23中接收各個詞的出現(xiàn)概率,即P(ωfi)和P(ωbi)(步驟S5)。
根據(jù)隨指定詞一起出現(xiàn)的諸詞的表,執(zhí)行詞組合次序相關(guān)度計(jì)算功能的CPU11計(jì)算伴隨指定詞的各詞的出現(xiàn)率(即,組合度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi)(步驟S6)。
因此,CPU11計(jì)算組合度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi),例如圖9和10所示的信息項(xiàng);并且控制存儲器12,以便通過下述方式在其表中保存計(jì)算結(jié)果組合度與一個詞或詞素相關(guān)。
換句話說,CPU11在一個詞組合次序相關(guān)度計(jì)算步驟中,根據(jù)并發(fā)概率信息和出現(xiàn)概率信息,計(jì)算前置詞和指定詞的組合次序相關(guān)度以及后置詞和指定詞的組合次序相關(guān)度。
執(zhí)行詞組合次序無關(guān)度計(jì)算功能的CPU11,根據(jù)隨關(guān)鍵字一起出現(xiàn)的諸詞的表和根據(jù)關(guān)于各個信息項(xiàng)的組合度信息項(xiàng)A(ωi,ωk),和A(ωk,ωi),計(jì)算組合度,即r(ωi,ωk)(步驟S7)。
甚至在存儲設(shè)備中沒有存儲關(guān)于與詞“日光(NIKKO)”相關(guān)的諸詞的數(shù)據(jù)的情況下,執(zhí)行詞組合次序相關(guān)度計(jì)算功能的CPU11,也根據(jù)組合度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi),例如圖10和11所示的信息項(xiàng),計(jì)算組合度r(ωi,ωk),例如圖11所示的情況。
換句話說,在詞組合次序相關(guān)度計(jì)算步驟中,CPU11根據(jù)在組合次序相關(guān)度計(jì)算步驟中計(jì)算的組合度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi),計(jì)算隨關(guān)鍵字出現(xiàn)的前置和后置詞的次序無關(guān)度。
執(zhí)行詞組抽取功能的CPU11,根據(jù)組合度r(ωi,ωk),選擇和輸出相關(guān)詞(步驟S8)。在此,CPU11輸出組合次序無關(guān)度r(ωi,ωk)中的前面10個詞或詞素,例如圖11所示的情況。
換句話說,在詞組抽取步驟中,CPU11根據(jù)在詞組合次序無關(guān)度計(jì)算步驟中計(jì)算的組合度,從正文數(shù)據(jù)中抽取一個與關(guān)鍵字相關(guān)的詞組,并且輸出這樣抽取的詞。
圖13示出一個流程圖,描述在執(zhí)行并發(fā)概率計(jì)算功能的CPU11執(zhí)行一個程序時的處理流程。如圖13所示,在計(jì)算詞“日光(NIKKO)”的并發(fā)概率P(ωi,ωk)和P(ωk,ωi)時,執(zhí)行并發(fā)概率計(jì)算功能的CPU11初始地確定,要查找的并發(fā)概率P(ωi,ωk)和P(ωk,ωi)是否存儲在存儲設(shè)備中(步驟S10)。
在存儲設(shè)備中存有并發(fā)概率P(ωi,ωk)和P(ωk,ωi)的情況下,執(zhí)行并發(fā)概率計(jì)算功能的CPU11以下述方式輸出并發(fā)概率P(ωi,ωk)和P(ωk,ωi)以及涉及這些概率的詞的表執(zhí)行詞組合次序相關(guān)度計(jì)算功能的CPU11能夠計(jì)算這些概率(步驟S11)。
執(zhí)行并發(fā)概率計(jì)算功能的CPU11,使用在計(jì)算組合度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi)時(步驟S6),從執(zhí)行并發(fā)概率計(jì)算功能(步驟S11)的CPU11輸出的并發(fā)概率P(ωi,ωk)和P(ωk,ωi)。
與此對比,在存儲設(shè)備中沒有存儲(或不存在)并發(fā)概率P(ωi,ωk)和P(ωk,ωi)的情況下,執(zhí)行并發(fā)概率計(jì)算功能的CPU11從前置和后置詞抽取部件21中,接收關(guān)于隨詞“日光(NIKKO)”一起出現(xiàn)的前置和后置詞ωfi和ωbi的表的數(shù)據(jù),例如圖6所示的數(shù)據(jù),和接收關(guān)于關(guān)鍵字和前置與后置詞出現(xiàn)頻率f(ωk)、f(ωfi)和f(ωbi)的數(shù)據(jù)(步驟S12)。
根據(jù)關(guān)于由前置和后置詞抽取部件21作為相關(guān)詞抽取的前置和后置詞ωfi和ωbi的出現(xiàn)頻率信息項(xiàng)f(ωfi)和f(ωbi),CPU11計(jì)算和輸出并發(fā)概率P(ωi,ωk)和P(ωk,ωi)(步驟S13和S4)。
換句話說,在一個并發(fā)概率計(jì)算功能步驟,CPU11計(jì)算伴隨關(guān)鍵字指定步驟中所指定關(guān)鍵字一起出現(xiàn)的前置和后置詞的概率。
執(zhí)行詞組合次序相關(guān)度計(jì)算功能的CPU11,使用在計(jì)算組合次序相關(guān)度信息項(xiàng)A(ωi,ωk)和A(ωk,ωi)(步驟S6)時,從執(zhí)行并發(fā)概率計(jì)算功能(步驟S13)的CPU11輸出的并發(fā)概率P(ωi,ωk)和P(ωk,ωi)。
圖14是一個流程圖,說明當(dāng)用作前置和后置詞抽取部件21的CPU11執(zhí)行相關(guān)詞抽取程序時的處理流程。如圖14所示,用作前置和后置詞抽取部件21的CPU11從正文數(shù)據(jù)中抽取在詞“日光(NIKKO)”的前面和后面出現(xiàn)的詞ωfi和ωbi,例如圖6(a)和6(b)所示的詞(步驟S20)。
換句話說,在前置和后置詞抽取步驟中,CPU11抽取一個在正文數(shù)據(jù)中關(guān)鍵字前面出現(xiàn)的詞和一個在相同正文數(shù)據(jù)中關(guān)鍵字后面出現(xiàn)的詞。
CPU11從頻率計(jì)算部件22中,接收關(guān)于從正文數(shù)據(jù)中作為相關(guān)詞而抽取的前置和后置詞ωfi和ωbi的出現(xiàn)頻率信息項(xiàng)f(ωfi)和f(ωbi)(步驟S21)。然后CPU11輸出在關(guān)鍵字ωk前面和后面出現(xiàn)的詞的表,例如圖6(a)和6(b)所示的情況,和輸出從頻率計(jì)算部件22接收的出現(xiàn)頻率信息項(xiàng)f(ωfi)和f(ωbi)(步驟S22)。
執(zhí)行并發(fā)概率計(jì)算功能的CPU11,根據(jù)從頻率計(jì)算部件22輸出(在步驟S22中)的詞ωfi和ωbi的表和出現(xiàn)頻率信息項(xiàng)f(ωfi)和f(ωbi),計(jì)算并發(fā)概率P(ωi,ωk)和P(ωk,ωi)(步驟S13)。
圖15是一個流程圖,說明當(dāng)用作頻率計(jì)算部件22的CPU11執(zhí)行相關(guān)詞抽取程序時的處理流程。如圖15所示,執(zhí)行頻率計(jì)算功能的CPU11確定,是否從出現(xiàn)概率計(jì)算部件23輸出所接收的指令(步驟S30)。如果從出現(xiàn)概率計(jì)算部件23接收指令,則CPU11確定在存儲設(shè)備中是否存儲關(guān)于關(guān)鍵字ωk的出現(xiàn)頻率信息項(xiàng)f(ωk)(步驟S31)。
如果關(guān)鍵字ωk沒有存儲到存儲設(shè)備中,則執(zhí)行頻率計(jì)算功能的CPU11接收被逐個詞或逐個詞素地分隔的信息(步驟S32),并且計(jì)算正文數(shù)據(jù)中出現(xiàn)的關(guān)鍵字ωk的頻率(或者正文數(shù)據(jù)中出現(xiàn)關(guān)鍵字的次數(shù))(步驟S33),然后輸出計(jì)算的結(jié)果(步驟S34)。
執(zhí)行詞分隔功能的CPU11按照圖5所示的方式逐個詞或逐個詞素地分隔那種例如圖4所示的其內(nèi)容未分隔成詞或詞素的正文數(shù)據(jù)。換句話說,在詞分隔步驟中,CPU11先逐個詞或逐個詞素地分隔正文數(shù)據(jù),然后在前置和后置詞抽取步驟中抽取前置和后置詞。
雖然未在圖15中示出,但執(zhí)行詞分隔功能的CPU11還計(jì)算那些在正文數(shù)據(jù)中出現(xiàn)前置和后置詞ωfi和ωbi的次數(shù),由執(zhí)行前置和后置詞抽取功能的CPU11抽取這些詞。
換句話說,在出現(xiàn)概率計(jì)算步驟中,CPU11計(jì)算在關(guān)鍵字指定步驟中指定的關(guān)鍵字的出現(xiàn)概率,以及在前置和后置詞抽取步驟中抽取的前置詞的出現(xiàn)概率和在同一步驟中抽取的后置詞的出現(xiàn)概率。
在出現(xiàn)概率的計(jì)算中,CPU11根據(jù)出現(xiàn)頻率信息項(xiàng)f(ωk)和f(ωi),計(jì)算出現(xiàn)概率P(ωk)和P(ωi)。
如果沒有從出現(xiàn)概率計(jì)算部件23接收指令,則用作頻率計(jì)算部件22的CPU11確定,是否從前置和后置詞抽取部件21接收指令(步驟S35)。
如果從前置和后置詞抽取部件21收到指令,則用作頻率計(jì)算部件22的CPU11接收數(shù)據(jù)-這些數(shù)據(jù)由執(zhí)行詞分隔功能的CPU11分隔成詞,借此分隔那些從前置和后置詞抽取部件21接收的正文數(shù)據(jù)-和計(jì)數(shù)在正文數(shù)據(jù)中包含的詞的頻率(步驟S36)。把已經(jīng)被分隔的詞的頻率輸出到出現(xiàn)概率計(jì)算部件23(步驟S37)。
如果用作頻率計(jì)算部件22的CPU11確定,還沒有從前置和后置詞抽取部件21收到指令,則指令信號按錯誤處理。
用作出現(xiàn)概率計(jì)算部件23的CPU11的處理流程(未示出)描述如下。更準(zhǔn)確地說,由于執(zhí)行相關(guān)詞抽取程序的結(jié)果,CPU11確定,關(guān)于要查找的出現(xiàn)概率P(ωi)的信息是否存儲在存儲設(shè)備中。如果該信息沒有存儲在存儲設(shè)備中,則CPU從頻率計(jì)算部件22中,接收關(guān)于詞出現(xiàn)頻率的信息項(xiàng)f(ωfi)和f(ωbi),并且計(jì)算出現(xiàn)概率P(ωk)和P(ωbi)。輸出計(jì)算結(jié)果P(ωbi)和P(ωk)。
相反,如果在存儲設(shè)備中存有要查找的出現(xiàn)概率P(ωi),例如P(ωbi)和P(ωk),則用作出現(xiàn)概率計(jì)算部件23的CPU11把該出現(xiàn)概率輸出到并發(fā)概率計(jì)算部件24中。
換句話說,通過執(zhí)行關(guān)鍵字指定步驟、前置和后置詞抽取步驟、并發(fā)概率計(jì)算步驟、出現(xiàn)概率計(jì)算步驟、組合次序相關(guān)度計(jì)算步驟、組合次序無關(guān)度計(jì)算步驟、詞組抽取步驟和詞分隔步驟,通用計(jì)算機(jī)1從正文數(shù)據(jù)中抽取相關(guān)詞。
如上所述,在根據(jù)本發(fā)明實(shí)施例的用作相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1中,CPU11計(jì)算出前置詞和關(guān)鍵字的組合次序相關(guān)度A(ωi,ωk)的平方和后置詞和關(guān)鍵字的組合次序相關(guān)度A(ωk,ωi)的平方之和,并且算出和值的平方根。通過這樣得出的平方根值,計(jì)算機(jī)能夠以很準(zhǔn)確的方式抽取那些用戶容易理解的相關(guān)詞。
此外,在根據(jù)本發(fā)明實(shí)施例的用作相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1中,因?yàn)橥ㄓ糜?jì)算機(jī)包括詞分隔部件28,故該計(jì)算機(jī)能夠?qū)σ粋€雖然在詞組抽取步驟中已分隔成詞或詞素但尚未逐個詞分隔的正文(例如用日文或中文寫成的資料)進(jìn)行處理。因此,即使正文未事先提供關(guān)于詞類的信息,也能容易地從日文或類似文寫成的資料中抽取相關(guān)詞。
此外,在根據(jù)本發(fā)明實(shí)施例的用作相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1中,因?yàn)橥ㄓ糜?jì)算機(jī)1裝備有硬盤13之類的存儲設(shè)備,故在存儲設(shè)備中存有通過頻率計(jì)算部件22、組合次序相關(guān)度計(jì)算部件25或類似部件執(zhí)行的處理而計(jì)算的信息。因此,能提高涉及相關(guān)詞抽取的處理速度,并且能夠制備一個相關(guān)詞表,而不依賴于詞出現(xiàn)的順序。
另外,在根據(jù)本發(fā)明實(shí)施例的用作相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1中,甚至在計(jì)算機(jī)1執(zhí)行關(guān)鍵字指定功能、前置和后置詞抽取功能、并發(fā)概率計(jì)算功能、出現(xiàn)概率計(jì)算功能、組合次序相關(guān)度計(jì)算功能、組合次序無關(guān)度計(jì)算功能、詞組抽取功能、和詞分隔功能的情況下,CPU11計(jì)算前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方與后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和,并且計(jì)算該和值的平方根。通過使用這樣得到的平方根,該計(jì)算機(jī)能夠以很準(zhǔn)確的方式抽取那些用戶容易理解的相關(guān)詞。
另外,在根據(jù)本發(fā)明實(shí)施例的用作相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1中,甚至當(dāng)計(jì)算機(jī)1按照相關(guān)詞抽取程序執(zhí)行詞分隔功能時,該計(jì)算機(jī)也能夠?qū)σ粋€雖然已被分隔成詞或詞素但尚未逐個詞地分隔的正文(例如用日文或中文寫成的資料)進(jìn)行處理。因此,即使未事先提供關(guān)于詞類的信息,也能夠容易地從甚至一個用日文或類似文寫成的資料中抽取相關(guān)詞。
(b1)實(shí)施例的第一修正例的描述圖16是一個框圖,根據(jù)本發(fā)明實(shí)施例的第一修正例說明一個其中裝有一個相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1。如圖16所示,計(jì)算機(jī)1x包括一個頻率計(jì)算部件22,一個前置和后置詞抽取部件21,一個并發(fā)概率計(jì)算部件24,一個出現(xiàn)概率計(jì)算部件23,一個組合次序相關(guān)度計(jì)算部件25,一個組合次序無關(guān)度計(jì)算部件27,一個詞分隔部件(未示出),一個存儲部件(未示出),和一個相似度計(jì)算部件29。
計(jì)算機(jī)1x具有與上述的圖1和2所示計(jì)算機(jī)1相同的硬件結(jié)構(gòu)。
因?yàn)橹T元件都被賦予和實(shí)施例說明部件(b)的元件相同的標(biāo)號,且以相同的方式操作,故在此省略其說明。
相似度計(jì)算部件(相似度計(jì)算裝置)29,通過利用與各個詞相關(guān)的由詞組抽取部件27抽取的諸組詞,計(jì)算在至少兩個詞或關(guān)鍵字之間的相似度。
下面的說明基于假設(shè)計(jì)算兩個詞之間的相似度。然而,相同的假設(shè)也適用于計(jì)算在三個詞以上的諸詞之間的相似度。
前置和后置詞抽取部件21抽取一個在正文數(shù)據(jù)中出現(xiàn)于指定詞前面的前置詞或一個在正文數(shù)據(jù)出現(xiàn)于指定詞后面的后置詞。根據(jù)從頻率計(jì)算部件22中接收的關(guān)于在正文數(shù)據(jù)中指定詞出現(xiàn)頻率的信息和關(guān)于在正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,出現(xiàn)概率計(jì)算部件23能夠計(jì)算前置詞的出現(xiàn)概率和后置詞的出現(xiàn)概率以及指定詞的出現(xiàn)概率。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件21抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取部件21抽取的后置詞的出現(xiàn)頻率的信息,并發(fā)概率計(jì)算部件24計(jì)算隨指定詞出現(xiàn)的前置和后置詞的概率。根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞的出現(xiàn)概率的信息、關(guān)于前置詞出現(xiàn)概率信息和關(guān)于后置詞出現(xiàn)概率信息,以及根據(jù)從并發(fā)概率計(jì)算部件24接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,組合次序相關(guān)度部件25計(jì)算前置和后置詞和指定詞的出現(xiàn)次序相關(guān)度。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的關(guān)于組合度的信息,組合次序無關(guān)度計(jì)算部件26計(jì)算隨指定詞出現(xiàn)的前置和后置詞的次序無關(guān)度。
根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息,詞組抽取部件27從正文數(shù)據(jù)中抽取一組與指定詞相關(guān)的詞。存儲部件(未示出)存儲涉及指定詞的至少一個計(jì)算結(jié)果或抽取結(jié)果。詞分隔部件(未示出)逐個詞或逐個詞組地分隔正文數(shù)據(jù)。
現(xiàn)在互相結(jié)合地說明上述部件,CPU11,主存儲器12,硬盤13和其它元件。
用作相似度計(jì)算部件29的CPU11,通過利用由詞組抽取部件27抽取的涉及各個關(guān)鍵字的諸組詞,計(jì)算兩個關(guān)鍵字之間的相似度。
在此,下面的說明基于假設(shè)用作相似度計(jì)算部件29的CPU11能夠在三個詞“汽車(JIDOSHA)”、“車(KURUMA)”和“飛機(jī)(KOKUKI)”之間,計(jì)算和確定其相似度。
如對部件(b)所述,使CPU11作成得可用作頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞組抽取部件27,和詞分隔部件。存儲器12和硬盤13被形成得可用作存儲部件。
圖17至19示出一些相關(guān)詞表,這些詞是根據(jù)組合次序無關(guān)度r(ωi,ωk)由詞組抽取部件27從正文數(shù)據(jù)中抽取的。圖17示出涉及詞“汽車(JIDOSHA)”的詞的表,圖18示出涉及詞“車(KURUMA)”的詞的表,和圖19示出涉及詞“飛機(jī)(KOKUKI)”的詞的表。
用作相似度計(jì)算部件29的CPU11,通過使用例如圖17至19所示的相關(guān)詞表,計(jì)算在詞“汽車(JIDOSHA)”、“車(KURUMA)”與“飛機(jī)(KOKUKI)”之間的相似度。
更準(zhǔn)確地說,用作相似度計(jì)算部件29的CPU11以圖17至19所示的那種方式計(jì)算諸相關(guān)詞的標(biāo)量積之和。
例如,在計(jì)算詞“汽車(JIDOSHA)”與“車(KURUMA)”之間相似度時,用作相似度計(jì)算部件29的CPU11,在一個圖17所示的涉及詞“汽車(JIDOSHA)”的詞表中的詞“MOSS(MOSU)”與一個圖18所示的涉及詞“車(KURUMA)”的詞表中的詞“框架(HASHIGO)”之間,計(jì)算其標(biāo)量積。
具體地說,用作相似度計(jì)算部件29的CPU11把每個相關(guān)詞定義為一個具有組合度信息項(xiàng)r(ωi,ωk)量值的向量,并且計(jì)算諸相關(guān)詞的標(biāo)量積之和。一個表示標(biāo)量積之和的數(shù)值標(biāo)志一個諸詞之間的相似度。
在計(jì)算相關(guān)詞的標(biāo)量積時,CPU11把諸向量定義為指向相同的方向(θ=0°)。相反,在計(jì)算不同相關(guān)詞的標(biāo)量積時,CPU11把諸向量定義為以直角(θ=90°)取向。因?yàn)樵谏婕霸~“汽車(JIDOSHA)”的詞表中的詞“MOSS(MOSU)”和在涉及詞“車(KURUMA)”的詞表中的詞“框架(HASHIGO)”是彼此不同的,故CPU11把這些詞的標(biāo)量積算作零。
因此,用作相似度計(jì)算部件29的CPU11,通過使用一個在圖17所示的涉及詞“汽車(JIDOSHA)”的詞表與圖18所示的涉及詞“車(KURUMA)”的詞表之間共用的詞的組合度,計(jì)算在詞“汽車(JIDOSHA)”與詞“車(KURUMA)”之間的相似度。例如,CPU11使用一個在這兩個表之間共用的相關(guān)詞“BMW(BIEMUDABRYU)”的出現(xiàn)度,即“12.4”的組合度和“12.0”的組合度,計(jì)算這兩個出現(xiàn)度之積,即“148.8”的標(biāo)量積。根據(jù)148.8的標(biāo)量積和另一個在兩個詞之間共用的相關(guān)詞的出現(xiàn)度的標(biāo)量積之和,計(jì)算上述兩個詞之間的相似度。
圖20示出在詞“汽車(JIDOSHA)”與詞“車(KURUMA)”之間的相似度,和在詞“汽車(JIDOSHA)”與詞“飛機(jī)(KOKUKI)”之間的相似度。如圖20所示,在詞“汽車(JIDOSHA)”與詞“車(KURUMA)”之間的相似度是2839.4,在詞“汽車(JIDOSHA)”與詞“飛機(jī)(KOKUKI)”之間的相似度814.4。從這些值可知,詞“汽車(JIDOSHA)”不是與詞“飛機(jī)(KOKUK8I)”相似,而是與詞“車(KURUMA)”相似。
在上述的結(jié)構(gòu)情況下,由于把相關(guān)詞抽取程序從計(jì)算機(jī)可讀記錄媒體,例如一個CD-ROM,裝入計(jì)算機(jī)的主部件1a中,故根據(jù)本發(fā)明實(shí)施例第一修正例的通用計(jì)算機(jī)1x變成可操作的。
相關(guān)詞抽取程序用于使通用計(jì)算機(jī)1x從正文數(shù)據(jù)中抽取一組與關(guān)鍵字相關(guān)的詞,并且包括一個適合于計(jì)算機(jī)1x執(zhí)行下列功能的編號命令序列關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,詞組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,詞分隔功能,和計(jì)算相似度的功能(可在下文中簡寫成“相似度計(jì)算功能”)。
相似度計(jì)算功能,通過利用借助詞組抽取功能抽取的涉及兩個詞的諸組詞,計(jì)算在這兩個詞或關(guān)鍵字之間的相似度。
關(guān)鍵字指定功能使計(jì)算機(jī)1x指定一個用于從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字。詞分隔功能使計(jì)算機(jī)1x逐個詞或逐個詞素地分隔正文數(shù)據(jù)中包含的資料信息。前置和后置詞抽取功能使計(jì)算機(jī)1x抽取在正文數(shù)據(jù)中關(guān)鍵字ωk前面出現(xiàn)的詞ωfi或在正文數(shù)據(jù)中關(guān)鍵字ωk后而出現(xiàn)的詞ωbi。頻率計(jì)算功能使計(jì)算機(jī)1x計(jì)算出現(xiàn)頻率f(ωi)和f(ωk)。
出現(xiàn)概率計(jì)算功能使計(jì)算機(jī)1x計(jì)算關(guān)鍵字ωk的出現(xiàn)概率,即P(ωk);和借助前置和后置詞抽取功能抽取的前置詞ωfi和后置詞ωbi的出現(xiàn)概率,即P(ωfi)和P(ωbi)。并發(fā)概率計(jì)算功能使計(jì)算機(jī)1x計(jì)算借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的前置詞ωfi的出現(xiàn)概率,即P(ωfi,ωk);和借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的后置詞ωbi的出現(xiàn)概率,即P(ωk,ωbi)。詞組合次序相關(guān)度計(jì)算功能使計(jì)算機(jī)1x,根據(jù)并發(fā)概率P(ωi,ωk),和根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的并發(fā)概率P(ωk,ωi)和借助出現(xiàn)概率計(jì)算功能計(jì)算的出現(xiàn)概率信息項(xiàng)P(ωk)、P(ωfi)和P(ωbi),計(jì)算前置詞ωfi和關(guān)鍵字ωk的組合次序相關(guān)度,即A(ωfi,ωk),和后置詞ωωbi和關(guān)鍵字ωk的組合次序相關(guān)度,即A(ωk,ωbi)。
組合次序無關(guān)度計(jì)算功能使計(jì)算機(jī)1x,根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息項(xiàng)A(ωfi,ωk)和A(ωk,ωbi),計(jì)算隨關(guān)鍵字出現(xiàn)的前置和后置詞的次序無關(guān)度,即r(ωi,ωk)。
詞組抽取功能使計(jì)算機(jī)1x,根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息r(ωi,ωk),從正文數(shù)據(jù)中抽取和輸出一組與關(guān)鍵字ωk相關(guān)的詞。
下面結(jié)合CPU11的操作和上述的功能,描述特定操作過程。執(zhí)行相似度計(jì)算功能的CPU11,根據(jù)關(guān)于借助組合次序無關(guān)度計(jì)算功能計(jì)算的詞“汽車(JIDOSHA)”、“車(KURUMA)”和“飛機(jī)(KOKUKI)”的組合度r(ωi,ωk),計(jì)算相似度,例如圖17至19所示的情況。
更準(zhǔn)確地說,執(zhí)行相似度計(jì)算功能的CPU11,以圖17至19所示的這種方式,計(jì)算諸相關(guān)詞的標(biāo)量積之和。
具體地說,用作相似度計(jì)算部件29的CPU11把每個相關(guān)詞定義為一個具有組合度信息項(xiàng)r(ωi,ωk)量值的向量,并且計(jì)算諸相關(guān)詞的標(biāo)量積之和。一個表示標(biāo)量積之和的數(shù)值標(biāo)志一個在諸詞之間的相似度。
在計(jì)算相關(guān)詞的標(biāo)量積時,CPU11把諸向量定義為在相同的方向取向(θ=0°)。與此對照,在計(jì)算諸不同相關(guān)詞的標(biāo)量積時,CPU11把諸向量定義為以直角取向(θ=90°)。例如,在涉及詞“汽車(JIDOSHA)”的詞表中的詞“MOSS(MOSU)”和在涉及“車(KURUMA)”的詞表中的詞“框架(ladder)”是彼此不同的,故CPU11把這些詞的標(biāo)量積計(jì)算成零。
因此,執(zhí)行相似度計(jì)算功能的CPU11,通過使用一個在圖17中所示的涉及詞“汽車(JIDOSHA)”的詞表與圖18中所示的涉及詞“車(KURUMA)”的詞表之間共用的詞的組合度,計(jì)算在詞“汽車(JIDOSHA)”與詞“車(KURUMA)”之間的相似度。例如,CPU使用一個在這些表之間共用的相關(guān)詞“BMW(BIEMUDABRYU)”的出現(xiàn)度即“12.4”的組合度和“12.0”的組合度;并且計(jì)算這樣兩個出現(xiàn)度的積即“148.8”的標(biāo)量積。根據(jù)一個148.8的標(biāo)量積與另一個在這兩個詞之間共用的相關(guān)詞的出現(xiàn)度的標(biāo)量積之和,計(jì)算上述兩個詞之間的相似度。如圖20所示,在“汽車(JIDOSHA)”與“車(KORUMA)”之間的相似度是2839.4,且在“汽車(JIDOSHA)”與“飛機(jī)(KOKUKI)”之間的相似度是814.4。
換句話說,在用于計(jì)算諸詞之間相似度的步驟(可在下文中簡寫成“相似度計(jì)算步驟”)中,在已對在詞組抽取步驟中指定為相應(yīng)三個詞“汽車(JIDOSHA)”、“車(KURUMA)”和“飛機(jī)(KOKUKI)”的相關(guān)詞組進(jìn)行抽取以后,CPU11計(jì)算在兩個詞“汽車(JIDOSHA)”和“車(KURUMA)”之間的相似度,以及在涉及詞“汽車(JIDOSHA)”和詞“飛機(jī)(KOKUKI)”的諸詞組之中的“汽車(JIDOSHA)”與“飛機(jī)(KOKUKI)”之間的相似度。
CPU11按照下述功能執(zhí)行象圖12至15所示的那些操作關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,和詞分隔功能。
換句話說,通用計(jì)算機(jī)1x通過執(zhí)行下述步驟從正文數(shù)據(jù)中抽取相關(guān)詞關(guān)鍵字指定步驟,前置和后置詞抽取步驟,并發(fā)概率計(jì)算步驟,出現(xiàn)概率計(jì)算步驟,組合次序相關(guān)度計(jì)算步驟,組合次無關(guān)度計(jì)算步驟,詞組抽取步驟,詞分隔步驟,和相似度計(jì)算步驟。
如上所述,在其中裝有根據(jù)本發(fā)明實(shí)施例第一修改例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1x中,CPU11除了抽取用于部件(b)的上述相關(guān)詞之外,還能夠根據(jù)前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方和后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和的平方根,在不利用主題詞表或其它知識基礎(chǔ)的情況下,確定詞“汽車(JIDOSHA)”是類似于詞“車(KURUMA)”,而不是類似于詞“飛機(jī)(KOKUKI)”。此外,CPU還能夠計(jì)算一個在新用的諸詞之間的相似度(相似度計(jì)算步驟)。
(b2)實(shí)施例的第二修正例的描述圖21是一個框圖,說明一個其中裝有根據(jù)本發(fā)明實(shí)施例第二修正例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1y。如圖21所示,計(jì)算機(jī)1y包括頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞組抽取部件27,詞分隔部件(未示出),存儲部件(未示出),和相關(guān)詞組抽取部件30。
計(jì)算機(jī)1y具有同前面所述圖1和2所示計(jì)算機(jī)1相同的硬件結(jié)構(gòu)。
因?yàn)橹T元件被賦予同實(shí)施例說明部件(b)中所用元件相同的標(biāo)號,并且以相同的方式操作,故在此省略其說明。
相關(guān)詞組抽取部件(相關(guān)詞組抽取裝置)30,通過使用一些由詞組抽取部件27抽取的涉及至少兩個相應(yīng)詞的詞組,抽取一組涉及全部至少兩個詞的詞。
下面的說明基于假設(shè)相關(guān)詞組抽取部件30抽取一組涉及兩個詞的詞。然而,相同的假設(shè)也適用于抽取涉及三個詞或三個以上詞的一組詞。
前置和后置詞抽取部件21抽取正文數(shù)據(jù)中一個在指定詞前面出現(xiàn)的前置詞,或一個在指定詞后面出現(xiàn)的后置詞。根據(jù)從頻率計(jì)算部件22接收的關(guān)于指定詞出現(xiàn)頻率的信息,和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,出現(xiàn)概率計(jì)算部件23能夠計(jì)算前置詞的出現(xiàn)概率、后置詞的出現(xiàn)概率以及指定詞的出現(xiàn)概率。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件21抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取部件21抽取的后置詞的出現(xiàn)頻率的信息,并發(fā)概率計(jì)算部件24計(jì)算一些隨指定詞一起出現(xiàn)的前置和后置詞的概率。根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞出現(xiàn)概率的信息、關(guān)于前置詞出現(xiàn)概率的信息和關(guān)于后置詞出現(xiàn)概率的信息,以及根據(jù)從并發(fā)概率計(jì)算部件24接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,組合次序相關(guān)度部件25計(jì)算隨指定詞出現(xiàn)的前置和后置詞的次序相關(guān)度。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的關(guān)于組合度的信息,組合次序無關(guān)度計(jì)算部件26計(jì)算隨指定詞出現(xiàn)的前置和后置詞次序無關(guān)度。
根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息,詞組抽取部件27從正文數(shù)據(jù)中抽取一組與指定詞相關(guān)的詞。存儲部件(未示出)存儲至少一個與指定詞相關(guān)的計(jì)算結(jié)果或抽取結(jié)果。詞分隔部件(未示出)逐個詞或逐個詞素地分隔正文數(shù)據(jù)。
現(xiàn)在互相結(jié)合地說明上述部件,CPU11,主存儲器12,硬盤13,和其它元件。
用作相關(guān)詞組抽取部件30的CPU11,通過使用一些由詞組抽取部件27抽取的涉及至少兩個相應(yīng)詞的諸組詞,抽取一個涉及全部至少兩個詞的諸組詞。
在此,下面的說明基于假設(shè)用作相關(guān)詞組抽取部件30的CPU11抽取一組涉及詞“埃及(EJIPUTO)”和詞“總統(tǒng)(DAITORYO)”的詞。
如對部件(b)所述,如此形成CPU11,以致于可用作頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞組抽取部件27,和詞分隔部件。如此形成存儲器12和硬盤13,以致于可用作一個存儲部件。
圖22和23示出相關(guān)詞表,它們是由詞組抽取部件27根據(jù)組合次序無關(guān)度r(ωi,ωk)從正文數(shù)據(jù)中抽取的。圖22示出一個與詞“埃及(EJIPUTO)”相關(guān)的詞的表,且圖23示出一個與詞“總統(tǒng)(DAITORYO)”相關(guān)的詞的表。
用作相關(guān)詞組抽取部件30的CPU11,通過使用例如圖22和23所示的涉及相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞表,抽取一個涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞的組。
更準(zhǔn)確地說,用作相關(guān)詞組抽取部件30的CPU11,通過從例如圖22和23所示的涉及相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞表中抽取一個共用詞或詞素,抽取一組涉及兩個詞“埃及(DJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞。
圖24示出一個涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞表。在涉及圖22所示的詞“埃及(EJIPUTO)”的詞表與涉及圖23所示的詞“總統(tǒng)(DAITORYO)”的詞表之間共用的一個詞,例如一個相關(guān)詞“孟巴拉克(MUBARAKU)”,被抽?。徊⑶乙粋€涉及如此抽取的詞的詞表被制備。
在上述結(jié)構(gòu)的情況下,由于把相關(guān)詞抽取程序從CD-ROM之類的計(jì)算機(jī)可讀記錄媒體中裝到計(jì)算機(jī)1y的主部件1a中,故根據(jù)本發(fā)明實(shí)施例的通用計(jì)算機(jī)1y變成可操作的。
相關(guān)詞抽取程序用于使通用計(jì)算機(jī)1y從正文數(shù)據(jù)中抽取一組涉及關(guān)鍵字的詞,并且包括一個適合于計(jì)算機(jī)1y執(zhí)行下述功能的編號命令序列關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,詞組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,詞分隔功能,和相關(guān)詞組抽取功能。
相關(guān)詞組抽取功能使計(jì)算機(jī)1y,通過使用一些由詞組抽取部件27抽取的涉及兩個相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的諸組詞,抽取一組涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞。
關(guān)鍵字指定功能使計(jì)算機(jī)1y指定一個用于從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字。詞分隔功能使計(jì)算機(jī)1y逐個詞或逐個詞素地分隔正文數(shù)據(jù)中包含的資料信息。前置和后置詞抽取功能使計(jì)算機(jī)1y抽取在正文數(shù)據(jù)中關(guān)鍵字ωk前面出現(xiàn)的詞ωfi,或者在正文數(shù)據(jù)中關(guān)鍵字ωk后面出現(xiàn)的詞ωbi。頻率計(jì)算功能使計(jì)算機(jī)1y計(jì)算出現(xiàn)頻率f(ωi)和f(ωk)。
出現(xiàn)概率計(jì)算功能使計(jì)算機(jī)1y計(jì)算關(guān)鍵字ωk的出現(xiàn)概率,即P(ωk),和借助前置和后置詞抽取功能抽取的前置詞ωfi和后置詞ωbi的出現(xiàn)概率,即P(ωfi)和P(ωbi)。并發(fā)概率計(jì)算功能使計(jì)算機(jī)1y計(jì)算,借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的前置詞ωfi的出現(xiàn)概率,即P(ωfi,ωk),和借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的后置詞ωbi的出現(xiàn)概率,即P(ωk,ωbi)。詞組合次序相關(guān)度計(jì)算功能使計(jì)算機(jī)1y,根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的并發(fā)概率P(ωi,ωk)和并發(fā)概率P(ωk,ωi)和根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的出現(xiàn)概率信息項(xiàng)P(ωk)、P(ωfi)和P(ωbi),計(jì)算前置詞ωfi和關(guān)鍵字ωk組合次序相關(guān)度,即A(ωfi,ωk),和后置詞ωbi和關(guān)鍵字ωk組合次序相關(guān)度,即A(ωk,ωbi)。
組合次序無關(guān)度計(jì)算功能使計(jì)算機(jī)1y,根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息項(xiàng)A(ωfi,ωk)和A(ωk,ωbi),計(jì)算隨一個關(guān)鍵字出現(xiàn)的前置和后置詞的次序無關(guān)度,即r(ωi,ωk)。
詞組抽取功能使計(jì)算機(jī)1y,根據(jù)借助組合次序無關(guān)度計(jì)算功能計(jì)算的組合度信息r(ωi,ωk),從正文數(shù)據(jù)中抽取和輸出一組與關(guān)鍵字ωk相關(guān)的詞。
下面結(jié)合CPU11的操作和上述的功能,描述特定操作過程。執(zhí)行相關(guān)詞組抽取功能的CPU11,通過使用涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的例如圖22和23所示的詞表,抽取一組涉及這兩個相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞。
更準(zhǔn)確地說,用作相關(guān)詞組抽取部件30的CPU11,通過從例如圖22和23所示的涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞表中抽取一個公用詞或詞表,抽取一組涉及這兩個相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞,例如其中有一組相關(guān)詞“孟巴拉克(MUBARAKU)”的詞,從而制備一個例如圖24所示的涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞組表。
在一個相關(guān)詞組抽取步驟中,CPU11從一些已在詞組抽取步驟中抽取的涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞組中,抽取一個涉及這兩個相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞組。
CPU11按照下述的功能進(jìn)行例如圖12至15所示的操作關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,和詞分隔功能。
換句話說,通用計(jì)算機(jī)1y通過執(zhí)行下述步驟從正文數(shù)據(jù)中抽取諸相關(guān)詞關(guān)鍵字指定步驟,前置和后置詞抽取步驟,并發(fā)概率計(jì)算步驟,出現(xiàn)概率計(jì)算步驟,組合次序相關(guān)度計(jì)算步驟,組合次序無關(guān)度計(jì)算步驟,詞組抽取步驟,詞分隔步驟,和相關(guān)詞組抽取步驟。
如上所述,在其中裝有根據(jù)本發(fā)明實(shí)施例第二修正例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1y中,CPU11除了抽取上面對部件(b)所敘述的相關(guān)詞以外,還能夠根據(jù)前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方和后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和的平方根,制備一些涉及兩個相應(yīng)詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞組表。此外,有可能在不看資料的具體內(nèi)容的情況下,得到關(guān)于埃及總統(tǒng)的信息,以及尋找一些同時涉及兩個詞“埃及(EJIPUTO)”和“總統(tǒng)(DAITORYO)”的詞。此外,它變成更容易獲得一種在兩個詞“埃及(EJIPUTO)”與“總統(tǒng)(DAITORYO)”之間的關(guān)系,以及它們的附帶信息。
(b3)實(shí)施例的第三修正例的描述圖25是一個框圖,說明一個其中裝有根據(jù)本發(fā)明實(shí)施例第三修正例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1z。如圖25所示,根據(jù)本發(fā)明實(shí)施例第三修正例的計(jì)算機(jī)1z包括頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞組抽取部件27,詞分隔部件(未示出),存儲部件(未示出),和同義詞字典部件31。
計(jì)算機(jī)1z具有同上述圖1和2所示計(jì)算機(jī)1相同的硬件結(jié)構(gòu)。
因?yàn)橹T元件被賦予同實(shí)施例說明部件(b)所用相同的標(biāo)號,和以相同的方式操作,故在此省略其說明。
同義詞字典部件(同義詞字典裝置)31確定一個用關(guān)鍵字ωk同義地確定的詞ωks(可在下文中用符號ωks指定一個同義詞)。
雖然下面針對用關(guān)鍵字同義地確定一個其它詞的情況進(jìn)行說明,但該說明也同樣適用于用關(guān)鍵字同義地確定兩個或多個詞的情況。下面還對下述情況進(jìn)行說明通過用組合次序相關(guān)度計(jì)算部件25計(jì)算隨關(guān)鍵字ωk出現(xiàn)的詞的組合度,即A(ωi,ωk)和A(ωk,ωi),和隨關(guān)鍵字ωk出現(xiàn)的同義詞的組合度,即A(ωks,ωi)和A(ωi,ωks),詞組抽取部件27制備一個涉及關(guān)鍵字ωk的詞的表和一個涉及與關(guān)鍵字ωk同義的詞ωks的詞的表。
前置和后置詞抽取部件21抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞和一個在正文數(shù)據(jù)中同一指定詞后面出現(xiàn)的后置詞。根據(jù)從頻率計(jì)算部件22接收的關(guān)于正文數(shù)據(jù)中指定詞出現(xiàn)頻率的信息和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,出現(xiàn)概率計(jì)算部件23能夠計(jì)算前置詞出現(xiàn)概率、后置詞出現(xiàn)概率和指定詞出現(xiàn)概率。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件21抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取部件21抽取的后置詞的出現(xiàn)頻率的信息,并發(fā)概率計(jì)算部件24計(jì)算隨指定詞一起出現(xiàn)的前置和后置詞的概率。根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞的出現(xiàn)概率、前置詞的出現(xiàn)概率和后置詞的出現(xiàn)概率的信息,和從并發(fā)概率計(jì)算部件24接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率和隨指定詞一起出現(xiàn)的后置詞的概率的信息,組合次序相關(guān)度部件25計(jì)算一些隨指定詞出現(xiàn)的前置和后置詞的次序相關(guān)度。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的關(guān)于組合度的信息,組合次序無關(guān)度計(jì)算部件26計(jì)算隨指定詞出現(xiàn)的前置和后置詞的次序無關(guān)度。
根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息,詞組抽取部件(未示出)從正文數(shù)據(jù)中抽取一組與指定詞相關(guān)的詞。存儲部件(未示出)存儲至少一個涉及指定詞的計(jì)算結(jié)果或抽取結(jié)果。詞分隔部件(未示出)逐個詞或逐個詞素地分隔正文數(shù)據(jù)。
上述的各個部件能夠按照和它們處理指定詞(或關(guān)鍵字)相同的方式,處理和指定詞(或關(guān)鍵字ωk)同義的詞。例如,組合次序相關(guān)度計(jì)算部件25計(jì)算隨關(guān)鍵字ωk出現(xiàn)的同義詞的組合度,即A(ωks,ωi)和A(ωi,ωks)。頻率計(jì)算部件22計(jì)算同義詞ωks的出現(xiàn)頻率,即f(ωks)。前置和后置詞抽取部件21從正文數(shù)據(jù)中,抽取一個在同義詞ωks前面出現(xiàn)的詞和一個在同一同義詞后面出現(xiàn)的詞。詞組抽取部件27根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息r(ωi,ωks),從正文數(shù)據(jù)中抽取一些與同義詞ωks相關(guān)的詞。
現(xiàn)在互相結(jié)合地說明上述諸部件,CPU11,主存儲器12,硬盤13,和其它元件。
用作同義詞字典部件31的CPU11確定一個與關(guān)鍵字ωk同義的詞ωks。在確定一個與關(guān)鍵字ωk同義的詞ωks時,CPU11參照在一個存儲設(shè)備,例如硬盤13中,或一個記錄媒體,例如FD中存儲的同義詞字典數(shù)據(jù),檢測一個詞。
在此,下面的說明基于假設(shè)用作同義詞字典部件31的CPU11確定一個與關(guān)鍵字“北朝鮮(KITACHOSEN)”同義的詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”。
如對部件(b)所述,如此形成CPU11,以致它可用作頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞組抽取部件27,和詞分隔部件。如此形成存儲器12和硬盤13,以致可用作存儲部件。
圖26和27示出一些相關(guān)詞表,它們是詞組抽取部件27根據(jù)組合次序無關(guān)度r(ωi,ωk)從正文數(shù)據(jù)中抽取的。圖26示出一個與詞“北朝鮮(KITACHOSEN)”相關(guān)的詞表,和圖27示出一個與詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”相關(guān)的詞表。
根據(jù)圖26所示的與詞“北朝鮮(KITACHOSEN)”相關(guān)的詞表和圖27所示的與詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”相關(guān)的詞表,用作詞組抽取部件27的CPU11按照組合次序無關(guān)度計(jì)算部件26的計(jì)算,抽取一些具有高相關(guān)度的詞,借此輸出一個例如圖28所示的與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的詞表。
更準(zhǔn)確地說,如果一個詞不在與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的詞表中,而含在與同義詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHOGI-JINMIN-KYOWA-KOKU)”相關(guān)的詞表中,則用作詞組抽取部件27的CPU11通過使用圖26和27所示的相關(guān)詞表信息項(xiàng),輸出一些在同義詞的相關(guān)詞表中包含的相關(guān)詞,用作與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的詞。例如,因?yàn)樵~“國旗(KOKKI)”在圖26所示相關(guān)詞表中沒有高的排序,而在圖27所示相關(guān)詞表中有高的排序,所以用作詞組抽取部件27的CPU11就輸出詞“國旗(KOKKI)”,用作與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的詞。
在上述結(jié)構(gòu)的情況下,其中裝有根據(jù)本發(fā)明實(shí)施例第三修正例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1z變成可操作的,因?yàn)橐褟囊粋€CD-ROM之類的計(jì)算機(jī)可讀記錄媒體中把相關(guān)詞抽取程序裝入到計(jì)算機(jī)1z的主部件1a中。
相關(guān)詞抽取程序用于使通用計(jì)算機(jī)1z從正文數(shù)據(jù)中抽取一個與關(guān)鍵字相關(guān)的詞組,并且包括一個適合于計(jì)算機(jī)1z執(zhí)行下列功能的編號命令序列關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,詞組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,詞分隔功能,相關(guān)詞組抽取功能,和同義詞字典功能。
同義詞字典功能使計(jì)算機(jī)1z確定一個與關(guān)鍵字“北朝鮮(KITACHOSEN)”同義的詞。
關(guān)鍵字指定功能使計(jì)算機(jī)1z指定一個用來從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字。詞分隔功能使計(jì)算機(jī)1z逐個詞或逐個詞素地分隔正文數(shù)據(jù)中所含的資料信息。前置和后置詞抽取功能使計(jì)算機(jī)1z抽取在正文數(shù)據(jù)中關(guān)鍵字ωk前面出現(xiàn)的詞ωfi,和在正文數(shù)據(jù)中關(guān)鍵字后面出現(xiàn)的詞ωbi。頻率計(jì)算功能使計(jì)算機(jī)1z計(jì)算出現(xiàn)頻率f(ωi)和f(ωk)。
出現(xiàn)概率計(jì)算功能使計(jì)算機(jī)1z計(jì)算關(guān)鍵字ωk的出現(xiàn)概率,即P(ωk),和借助前置和后置詞抽取功能抽取的前置詞ωfi和后置詞ωbi的出現(xiàn)概率,即P(ωfi)和P(ωbi)。并發(fā)概率計(jì)算功能使計(jì)算機(jī)1z計(jì)算借助前置和后置調(diào)整抽取功能抽取的隨指定詞一起出現(xiàn)的前置詞ωfi的出現(xiàn)概率,即P(ωfi,ωk),和借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的后置詞ωbi的出現(xiàn)概率,即P(ωk,ωbi)。詞組合次序相關(guān)度計(jì)算功能使計(jì)算機(jī)1z,根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的并發(fā)概率P(ωi,ωk)和并發(fā)概率P(ωk,ωi),和根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的出現(xiàn)概率信息項(xiàng)P(ωk)、P(ωfi)和P(ωbi),計(jì)算前置詞ωfi和關(guān)鍵字ωk的組合次序相關(guān)度,即A(ωfi,ωk),和后置詞ωbi和關(guān)鍵字ωk的組合次序相關(guān)度,即A(ωk,ωbi)。
組合次序無關(guān)度計(jì)算功能使計(jì)算機(jī)1z,根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息項(xiàng)A(ωfi,ωk)和A(ωk,ωbi),計(jì)算隨關(guān)鍵字出現(xiàn)的前置和后置詞的次序無關(guān)度,即r(ωi,ωk)。
詞組抽取功能使計(jì)算機(jī)1z,根據(jù)借助組合次序無關(guān)度計(jì)算功能計(jì)算的組合度信息r(ωi,ωk),從正文數(shù)據(jù)中抽取和輸出一組與關(guān)鍵字ωk相關(guān)的詞。
下面結(jié)合CPU11的操作和上述的功能,描述特定的操作過程。執(zhí)行同義詞字典功能的CPU11,從圖26和27所示的涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的詞表中,和從涉及同義詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的詞表中,按照組合次序無關(guān)度計(jì)算部件26的計(jì)算,抽取一些具有高的相關(guān)度的詞,借此輸出一個例如圖28所示的涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的詞表。
更準(zhǔn)確地說,如果一個詞不在涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的詞表中,而在涉及同義詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的詞表中,則執(zhí)行詞組抽取功能的CPU11通過使用圖26和27所示的相關(guān)詞表信息項(xiàng),輸出一些在同義詞的相關(guān)詞表中包含的相關(guān)詞,用作與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的詞。
例如,因?yàn)樵~“國旗(KOKKI)”在圖26所示的相關(guān)詞表中不呈現(xiàn)高的排序,而在圖27所示的相關(guān)詞表中呈現(xiàn)高的排序,所以執(zhí)行詞組抽取功能的CPU11就輸出詞“國旗(KOKKI)”,用作與關(guān)鍵字“北朝鮮(KITACHOSEN)”相關(guān)的一個詞,如圖28所示。
換句話說,在關(guān)鍵字指定步驟中,CPU11判定詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”是與關(guān)鍵字“北朝鮮(KITACHOSEN)”同義的。在詞組抽取步驟中,CPU用一組詞的形式輸出涉及同義詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的詞,和涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的詞。
對于涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的諸詞和涉及同義詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的諸詞,CPU11按照下述功能而執(zhí)行例如圖12至15所示的操作關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,和詞分隔功能。
換句話說,通用計(jì)算機(jī)1z通過執(zhí)行下述步驟而從正文數(shù)據(jù)中抽取相關(guān)詞關(guān)鍵字指定步驟,前置和后置詞抽取步驟,并發(fā)概率計(jì)算步驟,出現(xiàn)概率計(jì)算步驟,組合次序相關(guān)度計(jì)算步驟,組合次序無關(guān)度計(jì)算步驟和詞組抽取步驟,詞分隔步驟,并且輸出一組涉及同義詞的詞,和一組涉及一組詞中關(guān)鍵字的詞。
如上所述,在其中裝有根據(jù)本發(fā)明實(shí)施例第三修正例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1z中,CPU11除了抽取在上文針對部件(b)敘述的相關(guān)詞之外,還能夠根據(jù)前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方與后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和的平方根,制備一個涉及詞“北朝鮮(KITACHOSEN)”的詞表和一個涉及詞“朝鮮民主主義人民共和國(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的詞表,并且制備一個把涉及關(guān)鍵字“北朝鮮(KITACHOSEN)”的諸詞分組的詞表。對一些在表示上能夠書寫和在自動抽取相關(guān)詞上發(fā)生問題的同義詞,也能夠進(jìn)行處理。
(c)其它(c1)另一個實(shí)施例的描述圖29是一個框圖,說明一個其中裝有一個根據(jù)本發(fā)明另一個實(shí)施例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1-1。如圖29所示,計(jì)算機(jī)1-1包括前置和后置詞抽取部件21,頻率計(jì)算部件22,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,詞抽取部件27,和存儲部件(未示出)。
計(jì)算機(jī)1-1具有和上述的圖1和2所示計(jì)算機(jī)1相同的硬件結(jié)構(gòu)。
在此,其中裝有一個根據(jù)本發(fā)明另一個實(shí)施例的相關(guān)詞抽取設(shè)備的計(jì)算機(jī)1-1,同根據(jù)對部件(b)所敘述實(shí)施例的通用計(jì)算機(jī)1之區(qū)別在于,計(jì)算機(jī)1-1沒有安裝一個詞分隔部件。
前置和后置詞抽取部件21抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞,和一個在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞。根據(jù)從頻率計(jì)算部件22接收的關(guān)于正文數(shù)據(jù)中指定詞出現(xiàn)頻率的信息,和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,出現(xiàn)概率計(jì)算部件23能夠計(jì)算前置詞出現(xiàn)概率、后置詞出現(xiàn)概率和指定詞出現(xiàn)概率。
根據(jù)從頻率計(jì)算部件22接收的關(guān)于由前置和后置詞抽取部件21抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取部件21抽取的后置詞的出現(xiàn)頻率的信息,并發(fā)概率計(jì)算部件24計(jì)算同指定詞在一起出現(xiàn)的前置和后置詞的概率。根據(jù)從出現(xiàn)概率計(jì)算部件23接收的關(guān)于指定詞出現(xiàn)概率的信息,關(guān)于前置詞出現(xiàn)概率的信息和關(guān)于后置詞出現(xiàn)概率的信息,和根據(jù)從并發(fā)概率計(jì)算部件24接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞概率的信息,和關(guān)于隨指定詞一起出現(xiàn)的后置詞概率的信息,組合次序相關(guān)度計(jì)算部件25計(jì)算隨指定詞出現(xiàn)的前置和后置詞的次序相關(guān)度。
根據(jù)從組合次序相關(guān)度計(jì)算部件25接收的關(guān)于組合度的信息,組合次序無關(guān)度計(jì)算部件26計(jì)算隨指定詞出現(xiàn)的前置和后置詞的次序無關(guān)度。
根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息,詞組抽取部件27從正文數(shù)據(jù)中抽取一組同指定詞相關(guān)的詞。存儲部件(未示出)存儲同一個指定詞相關(guān)的至少一個計(jì)算結(jié)果或抽取結(jié)果。
現(xiàn)在互相結(jié)合地說明上述各部件,CPU11,主存儲器12,硬盤13和其它元件。CPU11包括頻率計(jì)算部件22,前置和后置詞抽取部件21,并發(fā)概率計(jì)算部件24,出現(xiàn)概率計(jì)算部件23,組合次序相關(guān)度計(jì)算部件25,組合次序無關(guān)度計(jì)算部件26,和詞組抽取部件27。存儲器12和硬盤13被組成得用作存儲部件。
在上述結(jié)構(gòu)的情況下,其中裝有根據(jù)本發(fā)明另一實(shí)施例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1-1變成可操作的,因?yàn)橐寻严嚓P(guān)詞抽取程序從一個象CD-ROM之類的計(jì)算機(jī)可讀記錄媒體裝到計(jì)算機(jī)主部件1a中。
相關(guān)詞抽取程序用于使通用計(jì)算機(jī)1-1從正文數(shù)據(jù)中抽取一組同關(guān)鍵字相關(guān)的詞,并且包括一個適合于計(jì)算機(jī)1-1執(zhí)行下述功能的編號命令序列關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,詞組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,詞組抽取功能,和相似度計(jì)算功能。
關(guān)鍵字指定功能使計(jì)算機(jī)1-1指定一個用于從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字。前置和后置詞抽取功能使計(jì)算機(jī)1-1抽取一個在正文數(shù)據(jù)中關(guān)鍵字ωk前面出現(xiàn)的前置詞ωfi,和一個在正文數(shù)據(jù)中關(guān)鍵字ωk后面出現(xiàn)的后置詞ωbi。頻率計(jì)算功能使計(jì)算機(jī)1-1計(jì)算出現(xiàn)頻率f(ωi)和f(ωk)。
出現(xiàn)概率計(jì)算功能使計(jì)算機(jī)1-1計(jì)算關(guān)鍵字ωk的出現(xiàn)概率,即P(ωk),和借助前置和后置詞抽取功能抽取的前置詞ωfi和后置詞ωbi的出現(xiàn)概率P(ωfi)和P(ωbi)。并發(fā)概率計(jì)算功能使計(jì)算機(jī)1-1計(jì)算一種借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的前置詞ωfi的出現(xiàn)概率,即P(ωfi,ωk);和一種借助前置和后置詞抽取功能抽取的隨指定詞一起出現(xiàn)的后置詞ωbi的出現(xiàn)概率,即P(ωk,ωbi)。詞組合次序相關(guān)度計(jì)算功能使計(jì)算機(jī)1-1,根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的并發(fā)概率P(ωi,ωk)和并發(fā)概率P(ωk,ωi),和根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的出現(xiàn)概率信息項(xiàng)P(ωk)、P(ωfi)和P(ωbi),計(jì)算一個前置詞ωfi和關(guān)鍵字ωk組合次序相關(guān)度,即A(ωfi,ωk),和一個后置詞ωbi和關(guān)鍵字ωk組合次序相關(guān)度,即A(ωk,ωbi)。
組合次序無關(guān)度計(jì)算功能使計(jì)算機(jī)1-1,根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的組合度信息項(xiàng)A(ωfi,ωk)和A(ωk,ωbi),計(jì)算隨關(guān)鍵字出現(xiàn)的前置和后置詞的次序無關(guān)度。
詞組抽取功能使計(jì)算機(jī)1-1,根據(jù)借助組合次序無關(guān)度計(jì)算功能計(jì)算的組合度信息r(ωi,ωk),從正文數(shù)據(jù)中抽取一組同關(guān)鍵字ωk相關(guān)的詞,并輸出它。
CPU11按照下述的功能進(jìn)行例如在圖12至14和圖30中所示的操作關(guān)鍵字指定功能,頻率計(jì)算功能,前置和后置詞抽取功能,并發(fā)概率計(jì)算功能,出現(xiàn)概率計(jì)算功能,組合次序相關(guān)度計(jì)算功能,組合次序無關(guān)度計(jì)算功能,和詞組抽取功能。
圖30是一個流程圖,說明在用作頻率計(jì)算部件22的CPU11執(zhí)行相關(guān)詞抽取程序時所需的處理操作流程。如圖30所示,執(zhí)行頻率計(jì)算功能的CPU11確定,是否一個所接收的信號是一個來自出現(xiàn)概率計(jì)算部件23的指令(步驟S40)。如果該信號是一個來自出現(xiàn)概率計(jì)算部件23的指令,則CPU對存儲設(shè)備中是否存有關(guān)于關(guān)鍵字ωk的出現(xiàn)頻率f(ωk),作出判定(步驟S41)。
如果在存儲設(shè)備中沒有存儲出現(xiàn)頻率信息f(ωk),則執(zhí)行頻率計(jì)算功能的CPU11計(jì)算正文數(shù)據(jù)中關(guān)鍵字ωk的出現(xiàn)頻率(或次數(shù))(步驟S42),并且輸出這樣的計(jì)算結(jié)果(步驟S43)。
雖然在圖30中未示出,但執(zhí)行頻率計(jì)算功能的CPU11還對由執(zhí)行前置和后置詞抽取功能的CPU11抽取的前置和后置詞ωfi和ωbi的出現(xiàn)頻率(或次數(shù)),進(jìn)行計(jì)算。
在此,執(zhí)行頻率計(jì)算功能的CPU11,根據(jù)出現(xiàn)頻率信息項(xiàng)f(ωk)和f(ωi),計(jì)算出現(xiàn)概率信息項(xiàng)P(ωk)和P(ωi)。
可是,如果所接收的信號不是一個來自出現(xiàn)概率計(jì)算部件23的指令,則用作頻率計(jì)算部件22的CPU11確定,是否該信號是一個來自前置和后置詞抽取部件21的指令(步驟S44)。
如果該信號是一個來自前置和后置詞抽取部件21的指令,用作頻率計(jì)算部件22的CPU11,對從前置和后置詞抽取部件21接收的在正文數(shù)據(jù)中包含的詞的出現(xiàn)頻率,進(jìn)行計(jì)數(shù)(步驟S45)。把詞的全部出現(xiàn)頻率都輸出到出現(xiàn)概率計(jì)算部件23中(步驟S46)。
如果用作頻率計(jì)算部件22的CPU11確定,所接收的不是一個來自前置和后置詞抽取部件21的指令,則該信號按差錯處理。
用作出現(xiàn)概率計(jì)算部件23的CPU11的處理流程(未示出)如下。更準(zhǔn)確地說,由于執(zhí)行相關(guān)詞抽取程序的結(jié)果,CPU確定在存儲設(shè)備中是否存儲關(guān)于要查找的出現(xiàn)概率P(ωi)的信息。如果該信息沒有存儲在存儲設(shè)備中,則CPU從頻率計(jì)算部件22中接收關(guān)于詞出現(xiàn)頻率的信息項(xiàng)f(ωfi)、f(ωbi)和f(ωk),并且計(jì)算出現(xiàn)概率P(ωbi)和P(ωk)。輸出其計(jì)算結(jié)果P(ωbi)和P(ωk)。相反,如果在存儲設(shè)備中存有要查找的出現(xiàn)概率P(ωi),例如P(ωbi)和P(ωk),則用作出現(xiàn)概率計(jì)算部件23的CPU11把出現(xiàn)概率輸出到并發(fā)概率計(jì)算部件24。
換句話說,通用計(jì)算機(jī)1通過執(zhí)行下述的步驟而從正文數(shù)據(jù)中抽取相關(guān)詞關(guān)鍵字指定步驟,前置和后置詞抽取步驟,并發(fā)概率計(jì)算步驟,出現(xiàn)概率計(jì)算步驟,組合次序相關(guān)度計(jì)算步驟,組合次序無關(guān)度計(jì)算步驟,和詞組抽取步驟。
如上所述,在用作根據(jù)本發(fā)明另一個實(shí)施例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1-1中,CPU11計(jì)算前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方和后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和,并且計(jì)算該和值的平方根。通過使用如此得到的平方根,該計(jì)算機(jī)能夠?qū)τ糜⑽?、德文、法文等寫出的和被分隔成詞類的資料信息,以很準(zhǔn)確的方式抽取那些用戶容易理解的詞。
此外,在用作根據(jù)本發(fā)明另一個實(shí)施例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1-1中,因?yàn)橥ㄓ糜?jì)算機(jī)1-1裝有例如硬盤13之類的存儲設(shè)備,故在存儲設(shè)備中存有通過處理而計(jì)算的信息項(xiàng);由頻率計(jì)算部件22、組合次序相關(guān)度計(jì)算部件25或類似部件執(zhí)行這種處理。因此,能夠提高涉及相關(guān)詞抽取的處理速度,還能夠在不依靠詞出現(xiàn)序列的情況下制備一個相關(guān)詞表。
此外,在用作根據(jù)本發(fā)明另一個實(shí)施例的相關(guān)詞抽取設(shè)備的通用計(jì)算機(jī)1-1中,即使計(jì)算機(jī)1在執(zhí)行關(guān)鍵字指定功能、前置和后置詞抽取功能、并發(fā)概率計(jì)算功能、出現(xiàn)概率計(jì)算功能、組合次序相關(guān)度計(jì)算功能、組合次序無關(guān)度計(jì)算功能、詞組抽取功能、和詞分隔功能,CPU11也能夠計(jì)算前置詞和關(guān)鍵字組合次序相關(guān)度A(ωi,ωk)的平方和后置詞和關(guān)鍵字組合次序相關(guān)度A(ωk,ωi)的平方之和,并且計(jì)算該和值之平方根。通過使用如此得到的平方根,該計(jì)算機(jī)能夠?qū)τ糜⑽摹⒌挛?、法文等寫出的分隔詞形式的資料信息,以很準(zhǔn)確的方式抽取那些用戶容易了解的相關(guān)詞。
(c2)另一種硬件結(jié)構(gòu)的描述雖然在(b)到(c1)中給出的上述說明基于假設(shè)以通用計(jì)算機(jī)1、1x、1y、1z和1-1之類的單獨(dú)部件的形式構(gòu)成相關(guān)詞抽取設(shè)備,但也能夠通過兩個或多個系統(tǒng)從大量的資料數(shù)據(jù)中抽取相關(guān)詞。
例如,一個關(guān)鍵字可從一個由用戶通信終端提供的通用或非通用計(jì)算機(jī)中,通過通信網(wǎng)絡(luò)(例如互連網(wǎng)絡(luò)、個人計(jì)算機(jī)通信網(wǎng)絡(luò)、或類似網(wǎng)絡(luò)),傳送到一個大型主計(jì)算機(jī)中。主計(jì)算機(jī)從數(shù)據(jù)庫之類的海量存儲資料數(shù)據(jù)中抽取相關(guān)詞,并且把這樣抽取的相關(guān)詞發(fā)送到那種已經(jīng)通過通信網(wǎng)絡(luò)發(fā)送關(guān)鍵字的通用或非通用計(jì)算機(jī)中,結(jié)果是在操作和效果上都相同于部件(b)至(c1)。
雖然對部件(b3)所作的說明已經(jīng)描述情況組合次序相關(guān)度計(jì)算部件25利用同義詞字典部件31,但是甚至在頻率計(jì)算部件22或前置和后置詞抽取部件21查閱同義詞字典部件31時,也能夠用和部件(b3)情況相同的方式按一個組的形式輸出諸相關(guān)詞。換句話說,除了同義詞字典部件31之外,通過使用一個主題詞表或一個并行翻譯字典,也能夠?qū)崿F(xiàn)類似的操作或效果。
雖然相似度計(jì)算部件29、相關(guān)詞組抽取部件30或類似部件,根據(jù)由詞組抽取部件27抽取的相關(guān)詞的一個表,計(jì)算涉及兩個以上詞的詞相似度或詞表;但是相似度計(jì)算部件29、相關(guān)詞組抽取部件30或類似部件,也可根據(jù)由組合次序無關(guān)度計(jì)算部件26計(jì)算的組合度信息r(ωi,ωk),計(jì)算涉及兩個以上詞的詞相似度或詞表。甚至在上述情況下,也能夠用類似于上述方式的方式確定諸新詞之間的相似度。此外,參考涉及兩個詞的諸詞,更容易獲取兩個詞之間的關(guān)系及其伴隨信息。
除了上述的實(shí)施例和修正例以外,還能夠在其中根據(jù)方程(5)計(jì)算組合次序無關(guān)度r(ωi,ωk)而抽取相關(guān)詞的本發(fā)明的范圍內(nèi),實(shí)施各種其它的修正例。
(d)相關(guān)詞組合次序相關(guān)度計(jì)算部件對照部件(b)至(c2),如果詞組抽取部件27根據(jù)由組合次序相關(guān)度計(jì)算部件25計(jì)算的組合度信息A(ωi,ωk)或A(ωk,ωi),從正文數(shù)據(jù)中抽取相關(guān)詞,則相關(guān)詞抽取設(shè)備能夠制備一個涉及一個關(guān)鍵字的詞的表,而這個關(guān)鍵字取決于其中呈現(xiàn)相關(guān)詞的序列。
甚至在上述情況下,相關(guān)詞抽取設(shè)備的各個部件也可用相同于部件(b)至(c2)中所述的方式進(jìn)行操作。
權(quán)利要求
1.一種相關(guān)詞抽取設(shè)備,包括前置和后置詞抽取裝置(21),用于抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞,和一個在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞;頻率計(jì)算裝置(22),用于計(jì)算在正文數(shù)據(jù)中的指定詞的出現(xiàn)頻率,在正文數(shù)據(jù)中的前置詞或后置詞的出現(xiàn)頻率,和在正文數(shù)據(jù)中由前置和后置詞抽取裝置(21)抽取的前置詞和后置詞的出現(xiàn)頻率;出現(xiàn)概率計(jì)算裝置(23),用于根據(jù)從頻率計(jì)算裝置(22)接收的關(guān)于正文數(shù)據(jù)中指定詞出現(xiàn)頻率的信息,和關(guān)于正文數(shù)據(jù)中前置和后置詞出現(xiàn)頻率的信息,計(jì)算前置和后置詞出現(xiàn)概率以及指定詞出現(xiàn)概率;并發(fā)概率計(jì)算裝置(24),用于根據(jù)從頻率計(jì)算裝置(22)接收的關(guān)于由前置和后置詞抽取裝置(21)抽取的前置詞的出現(xiàn)頻率的信息,和關(guān)于由前置和后置詞抽取裝置抽取的后置詞的出現(xiàn)頻率的信息,計(jì)算隨指定詞一起出現(xiàn)的前置詞的概率和隨指定詞一起出現(xiàn)的后置詞的概率;組合次序相關(guān)度計(jì)算裝置(25),用于根據(jù)從出現(xiàn)概率計(jì)算裝置(23)接收的關(guān)于指定詞出現(xiàn)概率、前置詞出現(xiàn)概率和后置詞出現(xiàn)概率的信息,和根據(jù)從并發(fā)概率計(jì)算裝置(24)接收的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率和隨指定詞一起出現(xiàn)的后置詞的概率的信息,計(jì)算前置詞和指定詞組合次序相關(guān)度與后置詞和指定詞組合次序相關(guān)度;組合次序無關(guān)度計(jì)算裝置(26),用于根據(jù)從組合次序相關(guān)度計(jì)算裝置(25)接收的關(guān)于組合度的信息,計(jì)算前置詞和指定詞組合次序無關(guān)度與后置詞和指定詞組合次序無關(guān)度;和詞組抽取裝置(27),用于根據(jù)由組合次序無關(guān)度計(jì)算裝置(26)計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組和指定詞相關(guān)的詞。
2.根據(jù)權(quán)利要求1所述的相關(guān)詞抽取設(shè)備,還包括存儲裝置,用于存儲至少一個涉及指定詞的計(jì)算結(jié)果或抽取結(jié)果。
3.根據(jù)權(quán)利要求1所述的相關(guān)詞抽取設(shè)備,還包括詞分隔裝置(28),用于逐個詞或逐個詞素地分隔正文數(shù)據(jù),其中,前置和后置詞抽取裝置(21)和出現(xiàn)概率計(jì)算裝置(22)通過使用由詞分隔裝置(28)分隔的正文數(shù)據(jù)而進(jìn)行操作。
4.根據(jù)權(quán)利要求1所述的相關(guān)詞抽取設(shè)備,還包括相似度計(jì)算裝置(29),用于通過使用一些由詞組抽取裝置(27)抽取的涉及至少兩個相應(yīng)指定詞的諸組詞,計(jì)算這至少兩個指定詞之間的相似度。
5.根據(jù)權(quán)利要求1所述的相關(guān)詞抽取設(shè)備,還包括相關(guān)詞組抽取裝置(30),用于通過使用一些由詞組抽取裝置(27)抽取的涉及至少兩個相應(yīng)詞的諸組詞,抽取一組涉及全部至少兩個詞的詞。
6.根據(jù)權(quán)利要求1所述的相關(guān)詞抽取設(shè)備,還包括同義詞字典裝置(31),其中,一個根據(jù)從同義詞字典裝置(31)接收的信息而和指定詞同義地確定的詞,是和指定詞一起分組到同一個組中的。
7.一種從正文數(shù)據(jù)中抽取一組涉及某一詞的詞的方法,包括關(guān)鍵字指定步驟,用于指定一個用來從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字;前置和后置詞抽取步驟,用于抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞,和一個在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞;并發(fā)概率計(jì)算步驟,用于計(jì)算前置和后置詞的概率,這些詞是在前置和后置詞抽取步驟抽取的,隨著在關(guān)鍵字指定步驟中指定的詞一起出現(xiàn);出現(xiàn)概率計(jì)算步驟,用于計(jì)算一個在關(guān)鍵字指定步驟指定的詞的出現(xiàn)概率,和一些在前置和后置詞抽取步驟抽取的前置和后置詞的出現(xiàn)概率;組合次序相關(guān)度計(jì)算步驟,用于根據(jù)在出現(xiàn)概率計(jì)算步驟計(jì)算的關(guān)于指定詞出現(xiàn)概率、前置詞出現(xiàn)概率和后置詞出現(xiàn)概率的信息,和根據(jù)在并發(fā)概率計(jì)算步驟計(jì)算的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,計(jì)算前置詞和指定詞組合次序相關(guān)度與后置詞和指定詞組合次序相關(guān)度;組合次序無關(guān)度計(jì)算步驟,用于根據(jù)在組合次序相關(guān)度計(jì)算步驟計(jì)算的關(guān)于組合度的信息,計(jì)算前置詞和指定詞組合次序無關(guān)度與后置詞和指定詞組合次序無關(guān)度;和詞組抽取步驟,用于根據(jù)在組合次序無關(guān)度計(jì)算步驟計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組與指定詞相關(guān)的詞。
8.根據(jù)權(quán)利要求7所述的相關(guān)詞抽取方法,還包括一個詞分隔步驟,用于在用來抽取前置和后置詞的前置和后置詞抽取步驟之前或之后,逐個詞或逐個詞素地分隔正文數(shù)據(jù)。
9.根據(jù)權(quán)利要求7所述的相關(guān)詞抽取方法,還包括一個相似度計(jì)算步驟,用于在來自各組詞的至少兩個指定詞之間計(jì)算其相似度,所述諸組詞是已經(jīng)在詞組抽取步驟中由于涉及這兩個相應(yīng)詞而抽取的。
10.根據(jù)權(quán)利要求7所述的相關(guān)詞抽取方法,還包括一個相關(guān)詞組抽取步驟,用于從各組已經(jīng)在詞組抽取步驟由于涉及至少兩個相應(yīng)詞而抽取的詞中,抽取一組涉及全部至少兩個詞的詞。
11.根據(jù)權(quán)利要求7所述的相關(guān)詞抽取方法,其中,如果存在一個被定義為與一個在關(guān)鍵字指定步驟中指定的詞同義的詞,則在詞組抽取步驟中以成組的形式輸出一組涉及一個被定義為同義的詞的詞,和一組涉及一個指定詞的詞。
12.一種已在其上記錄一個相關(guān)詞抽取程序的計(jì)算機(jī)可讀記錄媒體,為了從正文數(shù)據(jù)中抽取一組與某一詞相關(guān)的詞,該程序包括一些要由計(jì)算機(jī)執(zhí)行的下述功能關(guān)鍵字指定功能,用于指定一個用來從正文數(shù)據(jù)中抽取相關(guān)詞的關(guān)鍵字;前置和后置詞抽取功能,用于抽取一個在正文數(shù)據(jù)中指定詞前面出現(xiàn)的前置詞,和一個在正文數(shù)據(jù)中指定詞后面出現(xiàn)的后置詞;并發(fā)概率計(jì)算功能,用于計(jì)算前置和后置詞的概率,這些詞是借助前置和后置詞抽取功能抽取的,是與借助關(guān)鍵字指定功能指定的詞一起出現(xiàn)的;出現(xiàn)概率計(jì)算功能,用于計(jì)算一個借助關(guān)鍵字指定功能指定的詞的出現(xiàn)概率,和一些借助前置和后置詞抽取功能抽取的前置和后置詞的出現(xiàn)概率;組合次序相關(guān)度計(jì)算功能,用于根據(jù)借助出現(xiàn)概率計(jì)算功能計(jì)算的關(guān)于指定詞出現(xiàn)概率、前置詞出現(xiàn)概率和后置詞出現(xiàn)概率的信息,和根據(jù)借助并發(fā)概率計(jì)算功能計(jì)算的關(guān)于隨指定詞一起出現(xiàn)的前置詞的概率的信息和關(guān)于隨指定詞一起出現(xiàn)的后置詞的概率的信息,計(jì)算一個前置詞和指定詞組合次序相關(guān)度與一個后置詞和指定詞組合次序相關(guān)度;組合次序無關(guān)度計(jì)算功能,用于根據(jù)借助組合次序相關(guān)度計(jì)算功能計(jì)算的關(guān)于組合度的信息,計(jì)算一個前置詞和指定詞組合次序無關(guān)度和一個后置詞和指定詞組合次序無關(guān)度;和詞組抽取功能,用于根據(jù)借助組合次序無關(guān)度計(jì)算功能計(jì)算的組合度信息,從正文數(shù)據(jù)中抽取一組與指定詞相關(guān)的詞。
全文摘要
本發(fā)明旨在通過使用互感信息,在不需要進(jìn)行詞法分析或句法分析的情況下,使用戶容易地和準(zhǔn)確地抽取相關(guān)詞,其方法是由下述的裝置組成一個相關(guān)詞抽取設(shè)備;前置和后置詞抽取裝置(21);頻率計(jì)算裝置(22);出現(xiàn)概率計(jì)算裝置(23);并發(fā)概率計(jì)算裝置(24);組合次序相關(guān)度計(jì)算裝置(25);組合次序無關(guān)度計(jì)裝置(26);和詞組抽取裝置(27)。
文檔編號G06F17/30GK1223410SQ9812085
公開日1999年7月21日 申請日期1998年9月30日 優(yōu)先權(quán)日1998年1月13日
發(fā)明者颯々野學(xué) 申請人:富士通株式會社