欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于量化文本表達(dá)相似性的自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系統(tǒng)的制作方法

文檔序號(hào):6570142閱讀:331來源:國知局
專利名稱:用于量化文本表達(dá)相似性的自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系統(tǒng)以;M目對(duì)應(yīng)的 相似性計(jì)算方法,使用該系統(tǒng)和方法,能夠成對(duì)檢查源自以數(shù)字形式存儲(chǔ)
的一個(gè)或多個(gè)文本文檔的文本表達(dá)(text expression )(下面筒稱為表達(dá)) 的語義相似性。
本發(fā)明因此可以用于自動(dòng)的、基于計(jì)算機(jī)的信息結(jié)構(gòu)化領(lǐng)域,特別是 自動(dòng)的、基于計(jì)算機(jī)的詞表(thesaurus)構(gòu)建和/或本體構(gòu)建(ontology construction)領(lǐng)域。
背景技術(shù)
下面,首先介紹隨后使用的概念的若干概念定義。如果需要,在l^ 說明中對(duì)應(yīng)的位置介紹更多的概念定義。
因此,首先,概念"表達(dá)"(與其同義使用的是項(xiàng)或概念)或"文 本表達(dá)"應(yīng)被理解為總共包括一個(gè)詞(word)或多個(gè)詞(由文本構(gòu)成的單詞 表達(dá)或多詞表達(dá))的單字符序列。在此,詞是兩端由空格或標(biāo)點(diǎn)符號(hào)限定 的字符序列??梢源_定一對(duì)或兩個(gè)這樣的表達(dá)的相似性(similarity)。這里, 相似性被理解為給定的語義關(guān)系(語義自然語言文本的含義)。兩個(gè)概 念或表達(dá)之間的這樣的相似性可以用統(tǒng)計(jì)的方法來量化(兩個(gè)表達(dá)之間的 相似性的計(jì)算)。因此,相似性在下面也被理解為描述語義關(guān)系的統(tǒng)計(jì)度 量數(shù)字(statistical dimension figure ),其在下面也被稱為相似性權(quán)重值。 以下被稱為相似性權(quán)重值的量在文獻(xiàn)中也稱為相似性度量(similarity measure).概念"表達(dá)之間的關(guān)系或(關(guān)聯(lián))關(guān)系"也被與概念"相似性" 同義地4吏用。
以下,"詞表,,被理解為表達(dá)或者項(xiàng)的集合連同在這些表達(dá)之間的關(guān) 系或相似性的集合。在此,存在手動(dòng)生成和自動(dòng)生成的詞表。自動(dòng)生成詞 表是可能的,其方式是在大的文集或匯集(匯集單獨(dú)文本文檔的集合)
中,根據(jù)各文本文檔中或文檔內(nèi)各節(jié)、句子或句子部分中的詞的共同出現(xiàn) 來導(dǎo)出上述關(guān)系或關(guān)聯(lián)關(guān)系。被檢查各個(gè)項(xiàng)的出現(xiàn)的文本部分或節(jié)在下面 也被稱為文本片段。因此,這樣的文本片段例如可以是整個(gè)文本文檔、來 自文檔的節(jié)或包括規(guī)定數(shù)目的連續(xù)單詞的詞窗口。這樣的詞表也可以被當(dāng) 作本體(即結(jié)構(gòu)化的知識(shí)庫)的(簡單)描述。
自動(dòng)詞表構(gòu)建的過程可以分為3個(gè)階段
1. 詞匯的構(gòu)建或表達(dá)的選擇。
2. 所選擇詞匯的表達(dá)對(duì)之間的統(tǒng)計(jì)相似性的計(jì)算。
3. 詞匯的組織或結(jié)構(gòu)化(聚類(clustering))。
在此,本發(fā)明涉及第2點(diǎn),即,項(xiàng)對(duì)之間的統(tǒng)計(jì)相似性的計(jì)算。
特別是對(duì)于詞匯的選擇,以M于文本片段內(nèi)表達(dá)出現(xiàn)或不出現(xiàn)的評(píng) 估,有意義的是對(duì)匯集的各文本文檔進(jìn)行預(yù)處理(歸一化)在此,表達(dá) 的歸一化主要包括兩部分,即噪聲詞去除和基本形式縮減。通過噪聲詞去 除,基本上從文本文檔去除以下表達(dá)形容詞和副詞,介詞和冠詞,數(shù)字 和4艮常用的詞(例如"和"或者"或")。如果需要,也可以去除特有名稱。 在詞根縮減的情況下,各表達(dá)或詞被縮減到其詞才艮。由此,派生(從原始
在下面,概念"詞才艮縮減"與概念"基本形式縮減"即"去除詞形變化字 尾"同義使用(因此,不采取或考慮不同派生的縮減)。
相應(yīng)兩個(gè)表達(dá)或表達(dá)對(duì)之間的統(tǒng)計(jì)相似性確定是詞表的自動(dòng)生成的 要點(diǎn)。因此,對(duì)應(yīng)的方法在現(xiàn)有技術(shù)中已存在。第一組方法(以下也被稱 為基于出現(xiàn)的方法)(出現(xiàn)英文巡urrence)在此基于文本片段中表達(dá) 出現(xiàn)的頻率。然而,由此基于一個(gè)表M的兩個(gè)表i^文本片段中的共同 出現(xiàn)的方法不考慮該表M在其中出現(xiàn)的上下文的實(shí)際內(nèi)容。概念"上下 文",即圍繞語言單元或表達(dá)的文本(由此也即其中出現(xiàn)表達(dá)的上下文), 在下面與概念"文本片段"(即其中對(duì)表達(dá)或表M的出現(xiàn)或存在進(jìn)行檢 查的預(yù)定文本節(jié))同義^f吏用。
因此,更新的方法嘗試同時(shí)考慮表達(dá)所處上下文的實(shí)際內(nèi)容。在下面, 表達(dá)的內(nèi)容(content)或內(nèi)容環(huán)境(content surroundings)被理解為在一個(gè) 文本片段內(nèi)或"^"文本片段的集合內(nèi)與特定表達(dá)一起出現(xiàn)的表達(dá)的集合或 數(shù)目?,F(xiàn)有技術(shù)的基于內(nèi)容的方法的缺點(diǎn)在于這些方法不能區(qū)分重要或 實(shí)質(zhì)的內(nèi)容和干擾性或非實(shí)質(zhì)的內(nèi)容。在隨后的說明中,更詳細(xì)地討論現(xiàn)
有技術(shù)的這些缺點(diǎn)。
現(xiàn)有技術(shù)的上述缺點(diǎn)導(dǎo)致直到現(xiàn)在仍只以不令人滿意的方式確定表
達(dá)對(duì)的統(tǒng)計(jì)相似性關(guān)系(即計(jì)算對(duì)應(yīng)的相似性權(quán)重值)因此,在相當(dāng)多 的情況下,對(duì)于其間存在語義相似性的一對(duì)表達(dá),仍然錯(cuò)誤地分配^^目似 性權(quán)重值,并且反之亦然,對(duì)于其間僅有極小的或根本沒有語義相似性存 在的表達(dá)對(duì),錯(cuò)誤地分配了太高的相似性權(quán)重值。

發(fā)明內(nèi)容
因此,本發(fā)明的目的是實(shí)現(xiàn)一種設(shè)備和方法,利用該i殳備和方法,能 夠以改進(jìn)的方式實(shí)現(xiàn)對(duì)表達(dá)對(duì)的相似性權(quán)重值的計(jì)算,并且利用該設(shè)備和 方法,針對(duì)表達(dá)對(duì)統(tǒng)計(jì)確定的相似性權(quán)重值因而更好地反映表達(dá)對(duì)的兩個(gè) 表達(dá)的含義的實(shí)際相似性。
該目的通過根據(jù)權(quán)利要求1所述的相似性計(jì)算系統(tǒng)以及根據(jù)權(quán)利要 求31所述的相似性計(jì)算方法來實(shí)現(xiàn)。在相應(yīng)的從屬權(quán)利要求中說明了根 據(jù)本發(fā)明的相似性計(jì)算系統(tǒng)和對(duì)應(yīng)的計(jì)算方法的有利的實(shí)施例。
根據(jù)本發(fā)明的目的如下實(shí)現(xiàn):提,對(duì)兩個(gè)表達(dá)t和t2(表達(dá)對(duì)(^,t2)) 的相似性的改進(jìn)的相似性度量occ一con(^,t2),上述改進(jìn)的相似性度量 occ—con(tht2)考慮到這兩個(gè)表^文i片段內(nèi)的共同出現(xiàn),以及文本片段 中不同上下iL^達(dá)的數(shù)目(上下文表達(dá)是與t 一起出現(xiàn)在至少一個(gè)文本片
段中且與t2—起出現(xiàn)在至少另一個(gè)文本片段中的表達(dá),但該表達(dá)既不與 ^也不與t2對(duì)應(yīng)或相等)。根據(jù)本發(fā)明的、組合了出現(xiàn)上下文和內(nèi)容上下 文(occ代表出現(xiàn),con代表內(nèi)容)的相似性度量occ_con于是用于計(jì)算 表達(dá)對(duì)的相似性權(quán)重值agw(t,t2)。
如l^更加詳細(xì)說明的那樣,根據(jù)本發(fā)明的相似性度量可以用于根據(jù) 現(xiàn)有技術(shù)已知的相似性加權(quán),例如余弦相似性加權(quán)或PMI相似性加權(quán)。 然而,本發(fā)明的實(shí)質(zhì)方面也在于根據(jù)本發(fā)明提供新的、借助才艮據(jù)本發(fā)明的 相似性度量計(jì)算的相似性權(quán)重或相似性權(quán)重值,特別是隨后更詳細(xì)說明 的、基于若干單獨(dú)權(quán)重的乘積的權(quán)重rel一comb。這在隨后的實(shí)施例說明 中更詳細(xì)描述。
根據(jù)本發(fā)明的相似性度量和根據(jù)本發(fā)明的相似性權(quán)重值、或根據(jù)本發(fā) 明的相似性計(jì)算系統(tǒng)/方法相對(duì)于現(xiàn)有技術(shù)具有明顯的優(yōu)勢(shì)實(shí)驗(yàn)顯示, 與現(xiàn)有技術(shù)的基于文檔的出現(xiàn)方法相比較,利用根據(jù)本發(fā)明的相似性度量 計(jì)算的根據(jù)本發(fā)明的相似性權(quán)重值中最好的相似性權(quán)重值的結(jié)果在F度 量方面改進(jìn)了 70%。
自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系統(tǒng)或?qū)?yīng)的相似性計(jì)算方法可以 如在隨后的例子中詳細(xì)說明的那樣實(shí)現(xiàn)或使用。


附圖中,
圖1示出了同樣可以使用根據(jù)本發(fā)明的相似性度量計(jì)算的若干已知 相似性權(quán)重。
圖2以比較的方式示出了能夠以常規(guī)方式計(jì)算的和利用根據(jù)本發(fā)明 的相似性度量計(jì)算的已知相似性權(quán)重PMI。
圖3示出了基于根據(jù)本發(fā)明的相似性度量計(jì)算的根據(jù)本發(fā)明的一些 相似性權(quán)重互相之間的比較,以及與沒有根據(jù)本發(fā)明的相似性度量計(jì)算的 相似性權(quán)重的比較。
圖4示意性示出才艮據(jù)本發(fā)明的相似性計(jì)算系統(tǒng)的結(jié)構(gòu)。
具體實(shí)施例方式
隨后的實(shí)施例說明大體分為兩個(gè)部分。首先,說明了根據(jù)現(xiàn)有技術(shù)的 基本方法和根據(jù)現(xiàn)有技術(shù)已知的相似性加權(quán),以及與其相關(guān)的缺點(diǎn)。在隨 后的第二部分中,說明如何計(jì)算根據(jù)本發(fā)明的相似性度量occ一con(ti,t2), 以及如何由此計(jì)算根據(jù)本發(fā)明的相似性權(quán)重值或相似性權(quán)重agw(仏t2)。
基于文本匯集的統(tǒng)計(jì)分析的、對(duì)表達(dá)之間的相似性或關(guān)系的確定對(duì)很 多應(yīng)用是重要的,特別是在自動(dòng)詞表構(gòu)建領(lǐng)域中或在信息檢索(IR, information retrieval)領(lǐng)域中。所有這些方法都基于表達(dá)的共同上下文的 特定想法(或特定思想),該共同上下文借助相似性權(quán)重值而被量化,其 中該想法將表達(dá)的各別上下文與它們的共同上下文(即,其在文本片段中 單獨(dú)的出現(xiàn)與共同的出現(xiàn))相比較。高相似性權(quán)重值表示在一個(gè)表達(dá)對(duì) (t^2)的兩個(gè)表達(dá)t" 12之間存在語義關(guān)系。所有已知的相似性權(quán)重值只能 夠有利地用于特定任務(wù),而它們不適合或較不適合其它任務(wù)。本發(fā)明特別 涉及針對(duì)自動(dòng)詞表生成而優(yōu)化的相似性度量的推導(dǎo),和針對(duì)該任務(wù)而優(yōu)化 的根據(jù)相似性度量對(duì)相似性權(quán)重值的計(jì)算。
在此,主JH^設(shè)已識(shí)別出對(duì)于給定文本匯集的主要表達(dá);因此,本發(fā) 明特別用于由表達(dá)的預(yù)先給定的集合(以下也稱為候選表達(dá)ti的集合)來 優(yōu)化地確定表達(dá)對(duì)的相似性權(quán)重值。在此,這些候選表達(dá)的集合的編排可 以通過候選表i^擇單元來實(shí)現(xiàn),該候選表i^擇單元例如基于以下提到
的出版物中提出的選擇算法L. Chen, U. Thiel, M. L,Abbate, "Automatic Thesaurus Production and Query Expansion in an E-commerce Application", Proceedings 8th International Symposium for Information Technology, 2002, pp. 181-199 (以下為參考文獻(xiàn)1 )。
接著,現(xiàn)在首先給出根據(jù)現(xiàn)有技術(shù)的相似性加權(quán)的概述。接下來是對(duì) 根據(jù)現(xiàn)有技術(shù)已知的共同上下文的兩個(gè)主要概念的討論。1^是對(duì)相關(guān)概 率形式的共同上下文的這兩個(gè)已知概念的說明;后者特別用于準(zhǔn)^^基于祁^ 據(jù)本發(fā)明的相似性度量occ一con(tb W的、根據(jù)本發(fā)明的有利相似性權(quán)重值 agw(tb t。的推導(dǎo)。后者的g導(dǎo)在隨后部分中詳細(xì)描述,所述隨后部分首 先介紹直接導(dǎo)致根據(jù)本發(fā)明的相似性度量的共同上下文的根據(jù)本發(fā)明的 新概念,以便說明隨后的根據(jù)本發(fā)明的相似性加權(quán),尤其以組合相似性加 權(quán)的形式進(jìn)行相似性加權(quán)。接下來,最后是揭示根據(jù)本發(fā)明的組合相似性 加權(quán)與現(xiàn)有技術(shù)的相似性加^M目比的優(yōu)點(diǎn)的部分。后者通過將自動(dòng)確定的 關(guān)系或相似性加權(quán)與黃金標(biāo)準(zhǔn)詞表(gold standard thesaurus)相比較來 進(jìn)行。
根據(jù)現(xiàn)有技術(shù)的統(tǒng)計(jì)的相似性量化 a)相似性加權(quán)
兩個(gè)表達(dá)或概念之間的語義相似性關(guān)系通?;诟拍畹墓餐匦?。相 似性關(guān)系的統(tǒng)計(jì)量化使用該原則,其方式是上下文(即表達(dá)的周圍文本或 表M文本匯集內(nèi)或文本主體內(nèi)出現(xiàn)的聯(lián)系)被視為特性。(單個(gè))表達(dá) 的上下文可以定義為該表達(dá)單獨(dú)出現(xiàn)的4^P文本片段(或者其數(shù)目)的集 合。于是,兩個(gè)表達(dá)的共同上下文可以定義為這兩個(gè)表達(dá)一起出現(xiàn)(即, 在一個(gè)Jbf目同的文本片段內(nèi))的全部文本片段(或其數(shù)目)的集合。前面
那些現(xiàn)有技術(shù)的方法。在此,不考慮各文本片段的內(nèi)容。、與此相反,如已 經(jīng)說明的那樣,現(xiàn)有技術(shù)的基于內(nèi)容的方法使用在文本片段內(nèi)要檢查的表 達(dá)周圍出現(xiàn)的內(nèi)容(即,文本片段內(nèi)的其它表達(dá))。關(guān)于后面的方法,共 同上下文由表達(dá)的交集(或由該交集內(nèi)對(duì)應(yīng)數(shù)目的表達(dá))來提供,其中這 些表達(dá)(相對(duì)于要檢查的文本片段的集合)不但至少一次與表達(dá)對(duì)(t, t2)
的第一表達(dá)^一起在一個(gè)文本片段內(nèi)出現(xiàn),而且至少一次和與表i^]"的第
二表達(dá)t2—起在一個(gè)文本片段中出現(xiàn)。隨后,上下文的第一定義被稱為出
現(xiàn)上下文,而上下文的第二定義被稱為內(nèi)容上下文。
從現(xiàn)有技術(shù)中,已知用于量化表達(dá)對(duì)的相似性的一些相似性加權(quán),例
如余弦系數(shù)COS、所謂的"dice"系數(shù)DICE (L.R. Dice "Measures of the Amount of Ecologic Association between Species", J. of Ecology, 26, pp. 297-302 ), JACCARD系數(shù)JAC (參見例如Van Rijsbergen "Information Retrieval",第2版,1979年)或點(diǎn)式共同信息(點(diǎn)式互信息)PMI (參 見K. Church等人的"Word Association Norms, Mutual Information and Lexicography", Computational Linguistics, 16.1, 22-29, 1990 )。針對(duì)表達(dá)
對(duì)(t, t2)的全部這些相似性權(quán)重值在形式上都可以通過四個(gè)可能的組合來
表示,其通常以列聯(lián)表示出,如圖1A中所示。在此,ti和"ti描述在一個(gè) 上下文中存在或不存在表達(dá)ti (i = l, 2)。 fu,t2表示一起出現(xiàn)表達(dá)t、 t2
兩者的上下文或文本片段的頻率。f,tl,t2~ fu,,t2表示出現(xiàn)兩個(gè)表達(dá)之一但
另一個(gè)不出現(xiàn)的上下文或文本片段的頻率。最后,f,tl,,描述兩個(gè)表達(dá)中
沒有一個(gè)出現(xiàn)的上下文或文本片段的頻率。N表示被考慮的文本片段的總 數(shù)目(N = ftl+f,tl=ft2+f,t2 )。例如,如果將完整的句子選作文本片段,且所 考慮的文檔匯集包含105個(gè)不同的句子,則針對(duì)概念t^ "cat"的值fa =10意味著概念"cat"出現(xiàn)在105個(gè)句子中的10個(gè)文本片段或句子中。 則f,tl是99卯。加之t2 = "dog" , ft2 = 20 ,則例如ftl,t2 = 3意味著表達(dá)對(duì)(^,^)= ("cat", "dog")的^和t2在這l()5個(gè)句子中的三個(gè)句子中一起出現(xiàn)在相 應(yīng)的句子內(nèi)。
現(xiàn)在,圖IB示出如何根據(jù)這些頻率計(jì)算出COS系數(shù),DICE系數(shù), JAC系數(shù)和PMI系數(shù)。當(dāng)然,描述兩個(gè)表i^一個(gè)JL^目同的文本片段內(nèi)
共同出現(xiàn)的頻率fu,t2生成所表示的相似性加權(quán)的最重要分量。
圖IB中示出的相似性加權(quán)的前三個(gè)(即,COS, DICE, JAC)也 可以就所使用的頻率f而被歸納為這些頻率不僅描述出現(xiàn)表達(dá)的文本片 段的純粹數(shù)目,而JJ t于每個(gè)文本片段,還描^達(dá)出現(xiàn)在該文本片段內(nèi) 的頻率。因此,例如COS系數(shù)可以被歸納如下
<formula>formula see original document page 20</formula>
這里,ti表示^或t2。就出現(xiàn)上下文而言,f柳,t",ti描述在^和t2的共同文 本片段C中即C(tl,t2) (^和t2的共同文本片段是出現(xiàn)t和t2兩者的文本 片段)中項(xiàng)ti的頻率,而f柳,ti描述項(xiàng)ti的文本片段C中,即C(tj) (ti的 文本片段C是出現(xiàn)ti的文本片段)中項(xiàng)ti的頻率。
就內(nèi)容上下文而言,C(tl,t2)描述與t 一起出現(xiàn)在至少一個(gè)文本片段中 且還與t2—起出現(xiàn)在至少一個(gè)(另外的)文本片段中的表達(dá)C。 f柳,t2),ti描
述在c(tl,t2)和ti的全部共同文本片段中表達(dá)c(tl,t2)的總頻率。c(ti)表示與
tj一起出現(xiàn)在至少一個(gè)文本片段中的表達(dá)C。 f柳,ti描述在C(ti)和ti的4^ 共同文本片段中的表達(dá)C(ti)的總頻率。
由此,COS—ALLG(tl,t2)以歸納的形式描述兩個(gè)表達(dá)^和t2之間的余 弦多巨離。
b)糾概率模型
以下說明條件概率模型,條件概率模型可以被應(yīng)用于單獨(dú)上下文和共 同上下文(根據(jù)現(xiàn)有技術(shù)的出現(xiàn)上下文和內(nèi)容上下文,以及根據(jù)本發(fā)明的、 隨后還要描述的組合上下文)的不同概念。
該方法背后的想法是兩個(gè)表達(dá)之間的關(guān)系的強(qiáng)度取決于一個(gè)表ii^ 多強(qiáng)地依賴于另一個(gè)表達(dá),或者更一般地說,表達(dá)對(duì)的表達(dá)t的單獨(dú)的上 下文有多大可能依賴于共同上下文(即,出現(xiàn)該對(duì)的表達(dá)k和t2兩者)。 這可以通過條件概率P(t^2)來確定,條件概率P(t^2)即在表達(dá)t2的a 下(即,在表達(dá)12已經(jīng)在所考慮的文本片段中出現(xiàn)的條件下)表達(dá)^出現(xiàn) 的概率。該條件概率P(t化)通常可以通過^和t2的共同上下文的概率
P(tbt2)(即,t和t2—起出現(xiàn)在一個(gè)文本片段中的概率)以及具有或不具 有^的情況下t2的上下文的概率P(t2)(即,t2出現(xiàn)在所考慮的文本片段
內(nèi))來計(jì)算
<formula>formula see original document page 21</formula>
為了確定一個(gè)表達(dá)對(duì)(ti,t2)的兩個(gè)表達(dá)互相依賴的程度,可以將條件 概率沿兩個(gè)方向或針對(duì)這兩個(gè)表達(dá)的每一個(gè)表勤目乘在一起,其結(jié)果是,
得到共同條件概率如下<formula>formula see original document page 21</formula>
c)現(xiàn)有技術(shù)的出現(xiàn)上下文
出現(xiàn)上下文是最熟知以被4吏用的上下文類型之一。(目標(biāo))表達(dá)t的 出現(xiàn)上下文被定義為含表達(dá)t的文本片段的集合(或數(shù)目)(在此,不考 慮另外仍包含在文本片段中的內(nèi)容或表達(dá))。如已在先前所述的,例如整 個(gè)文檔或者是文檔的一部分可以用作文本片段。在后一情況下,例如,段 落、整個(gè)句子或者具有固定窗口寬度的文本窗(即,含有精確限定的數(shù)目 的表達(dá)的文本片段)也可以用作文本片段。iOo大的文本片段(特別是 整個(gè)文檔)是相對(duì)不特定的、 一般不能為關(guān)于表達(dá)之間的關(guān)系的決定提供 可靠1^的上下文。因此,反而使用小的文本片段有利。
有利地,這里區(qū)分兩種類型的窗或文本片段 一個(gè)目標(biāo)項(xiàng)或目標(biāo)表達(dá) t的窗(以下也稱為文本片段lte文本片段)以及兩個(gè)目標(biāo)項(xiàng)t" t2的 窗(以下也稱為文本片段lt" t2E文本片段)。于是,距離的單位或者 這樣的文本窗的位置總是如上定義的能夠包括一個(gè)詞或者甚至是若干個(gè) 詞的單個(gè)表達(dá)。
在本實(shí)施例中,使用了包括以目標(biāo)表達(dá)開始向左和向右的規(guī)定數(shù)目的 表達(dá)的文本片段。這里,規(guī)定的數(shù)目有利地設(shè)置為大約20,使得以準(zhǔn)確 的20個(gè)表達(dá)的值,總共產(chǎn)生41個(gè)表達(dá)的窗口寬度。在上述針對(duì)目標(biāo)表達(dá) t的窗口中,因此有目標(biāo)表達(dá)t的窗口總是與該目標(biāo)表達(dá)t在文檔中的 位置有關(guān),并且在特定位置的t的窗口包括該位置向左的n個(gè)表達(dá)和向右 的n個(gè)表達(dá)(這里,應(yīng)該注意文檔界限不超出兩側(cè)或兩個(gè)窗口末端)。
現(xiàn)在,將表達(dá)t的出現(xiàn)上下文定義如下
occ(O = {文本片段I f e文本片段}
因此,occ(t)描述適合以下4Hf的所有文本片段的集合表達(dá)t出現(xiàn)在各 考慮的文本片段中(更準(zhǔn)確地說,occ(t)描述這些文本片段的數(shù)目)。表達(dá) t出現(xiàn)在一個(gè)文本片段中的概率因此可以根據(jù)這樣的文本片段的相對(duì)數(shù)目 來估計(jì)
這里,N描述文本匯集中所有文本片段的數(shù)目。針對(duì)量occ(t), locc(t)l
描述其基數(shù)目或基數(shù),即,該集合的元素的數(shù)目。隨后,對(duì)于該數(shù)目或基
數(shù)目,使用表達(dá)I occ(t) I和簡化了的表達(dá)occ(t)兩者(這也適用于其它基數(shù), 例如locc—con(^,t2)1 )。從而根據(jù)相應(yīng)的意義關(guān)聯(lián)(sense context),得出 例如occ(t)是否意指集合自身或簡化表示其基數(shù)目。
兩個(gè)表達(dá)^和t2的共同上下文可以相應(yīng)地定義為一起出現(xiàn)t和t2二
者的文本片段的集合(更準(zhǔn)確地說是數(shù)目)
OCC", 2) = {文本片段I e文本片段} 這里,用于兩個(gè)目標(biāo)表達(dá)^和t2的窗總是與兩個(gè)目標(biāo)項(xiàng)的位置pOS(tO和
pos(t2)有關(guān),這兩個(gè)目標(biāo)項(xiàng)的距離至多是n個(gè)項(xiàng)或表達(dá),即,適用I pos(tj -pos(t2)l<n。因此,如果不限制一般性,假設(shè)pos(t2)〉 pos(t0,則用于 兩個(gè)項(xiàng)^和t2的窗從pos(t。向左擴(kuò)展n個(gè)表達(dá),且從pos(tj向右擴(kuò)展n 個(gè)項(xiàng)。
上述兩種類型的窗(用于一個(gè)目標(biāo)項(xiàng)的窗和用于兩個(gè)目標(biāo)項(xiàng)的窗)都 是動(dòng)態(tài)的,或能夠以滑動(dòng)的方式在文檔上移動(dòng),因此也能夠交疊。
同樣,表達(dá)^和t2兩者一起出現(xiàn)在一個(gè)文4^1內(nèi)或共同上下文內(nèi)(這 在隨后也描述和縮寫為、與t2")的概率可以根據(jù)共同文本片段的相對(duì) 數(shù)目來估計(jì)
于是,共同M概率(即,兩個(gè)表達(dá)互相依賴的概率)通過下式得到
這里,i...i同樣表示對(duì)應(yīng)的集合的基數(shù)。
與上述余弦加;M目對(duì)應(yīng),純粹基于出現(xiàn)頻率的相似性加權(quán)可以祁4t如 下獲得<formula>formula see original document page 23</formula>
d)才艮據(jù)現(xiàn)有技術(shù)的內(nèi)容上下文
如在c)部分中詳細(xì)說明的那樣,基于出現(xiàn)的方法的主要缺點(diǎn)是它們 沒有考慮內(nèi)容(即,文本片段內(nèi)與被研究的表達(dá)t和t2 —起出現(xiàn)的表達(dá))。 這首先導(dǎo)致被檢查表達(dá)t和t2在相同的內(nèi)容關(guān)聯(lián)(例如,分別出現(xiàn)^和 t2的兩個(gè)相同的句子)中的多次共同出現(xiàn)4m地^4達(dá)對(duì)(ti,t2)的相似性加 權(quán)增加太大的問題。用于避免該問題的一個(gè)方法是在考慮時(shí)將上下文中與 ^和/或t2 —起實(shí)際出現(xiàn)的表達(dá)一同包含在內(nèi)。
這通過如下內(nèi)容上下文的定義來實(shí)現(xiàn)
這里,"tc。n與t"表示表達(dá)tc。n與表達(dá)t一起出現(xiàn)在相同的文本片段中。因
此,con(t)描述所有如下表達(dá)Un的集合(更準(zhǔn)確地說是其數(shù)目)這些表
達(dá)在這些所考慮的文本片段的集合中與一個(gè)文本片段內(nèi)的t 一起分別出 現(xiàn)。
因此,兩個(gè)表達(dá)^和t2的共同內(nèi)容上下文可以通過概念^和t2的兩 個(gè)(單獨(dú)的)上下文的交集來定義<formula>formula see original document page 24</formula>
可以再次使用單獨(dú)內(nèi)容上下文的和共同內(nèi)容上下文的以上兩個(gè)定義,
以便定義共同條件概率
在該定義中,如果同時(shí)考慮上下文的內(nèi)容,則如果該對(duì)的兩個(gè)項(xiàng)t和t2 沒有一起出現(xiàn)在一個(gè)文本片段內(nèi),而是分別單獨(dú)與相同的上下文表達(dá)一起
出現(xiàn),也可以確定項(xiàng)^和t2之間的關(guān)系或相似性。因此,例如在所考慮的
文本片段的集合中,如果出現(xiàn)文本片段"a cat runs down a hill"和文本 片段"a dog runs down a hill",即4錄達(dá)"cat"和"dog"沒有一起出現(xiàn) 在一個(gè)文本片段內(nèi),也可以得到表達(dá)t- "cat"和12= "dog"之間的關(guān) 系或相似性??梢?,本部分d)中所述的純粹基于內(nèi)容的方法在特別是自 動(dòng)詞表構(gòu)建領(lǐng)域中相對(duì)較差地工作。這大概是因?yàn)樯衔桓拍?即,就內(nèi)容 而言具有較寬的范圍的概念)與大量的表達(dá)tc。n —起出現(xiàn)在被研究的文本
片段內(nèi),然而,這些概念tc。n不能指示這樣的上位概念的任何具體方面
如果^和t2是這樣的上位概念,則也提供與第一上位概念b—起在一個(gè) 文本片段內(nèi)出現(xiàn)至少一次、并且與第二上位概念t2 —M另 一個(gè)文本片段
內(nèi)出現(xiàn)至少一次的大量的表達(dá)tc。n,即,從COIl(tht2)或?qū)?yīng)的交集檢測(cè)到 大量的表達(dá)te。n。然而在這種情況下,從COH(tht2)沒有得到關(guān)于內(nèi)容的有
意義的關(guān)系。在上面提到的例子中,文本片段"a boy runs down a hill" 會(huì)同樣導(dǎo)致"dog"和"boy"之間的關(guān)系(或者也導(dǎo)致"cat"和"boy" 之間的關(guān)系或相似性),即使il^概念的語義相似性的確非常低。因此, 這里的問^A內(nèi)容表達(dá)tc。n "runs down a hill"與大量的運(yùn)動(dòng)對(duì)象結(jié)合出 現(xiàn),因此沒有描述"boy"和"cat"之間(或"boy"和"dog"之間)明 顯的共同方面。
根據(jù)本發(fā)明的相似性加權(quán)
為了解決現(xiàn)有技術(shù)的上述問題,根據(jù)本發(fā)明,提出將出現(xiàn)上下文和內(nèi)
容上下文組合在基于共同出現(xiàn)生共同內(nèi)容的共同上下文的一個(gè)概念中,
即,形成相似性度量occ一con(tht2),其既考慮到表達(dá)對(duì)的兩個(gè)表達(dá)t和t2 兩者在文本片段內(nèi)共同出現(xiàn)的總頻率,又考慮到這些文本片段的集合中不 同的上下文表達(dá)的總數(shù)。這里,上下文表達(dá)是與表達(dá)^一起出現(xiàn)在這些上
下文片段的集合中的至少一個(gè)上下文片段中、并且與表達(dá)t2—起出現(xiàn)在這
些上下文片段的集合中的至少另一個(gè)文本片段中的表達(dá),但是,不與t
或t2相對(duì)應(yīng)(即,與^或t2都不相同)。
特別有利的是,根據(jù)本發(fā)明如下計(jì)算這樣的相似性度量
<formula>formula see original document page 25</formula>
因此,這樣定義的相似性度量oc匚con(tbt2)(或者以可替選的基數(shù)目表示 的形式為Iocc—con(t,t2)I )對(duì)應(yīng)于適用以下內(nèi)容的所有上下文表達(dá)tc。n 的集合(更準(zhǔn)確地說是其數(shù)目)這些上下文表達(dá)t咖與^^J2—起出現(xiàn) 在一個(gè)ibf目同的文本片段中。從內(nèi)容的角度來看,根據(jù)本發(fā)明的所提出的 有利的相似性度量occjon(tht2)描述了把t和t2 —起出現(xiàn)于其中的文本片 段的內(nèi)容考慮在內(nèi)的內(nèi)容上下文,同時(shí),從出現(xiàn)的角度來看,所提出的度
量值需要這兩個(gè)被研究的表達(dá)t和t2也分別一起出現(xiàn)在同一個(gè)的文本片 段中。與前面所說的純粹的基于出現(xiàn)的共同上下文相比,根據(jù)本發(fā)明的基
于出現(xiàn)和內(nèi)容的有利的相似性度量因此給予與^或t2—起出現(xiàn)在相同文 本片段中的所有不同的上下文表達(dá)tc。n相同的重要性,而不管^和t2實(shí)際 與特定tc。n的這樣的共同出現(xiàn)有多頻繁。因此,表達(dá)t1和t2—^4相同內(nèi)
容環(huán)境中的多次共同出現(xiàn)并不影響相似性度量occ一con(t1,t2)(因此,祁^據(jù) 其計(jì)算的根據(jù)本發(fā)明的相似性加權(quán)agw(tbt2)也不受影響,參見下文)。與
前面說明的純粹的基于內(nèi)容的共有上下文相比較,根據(jù)本發(fā)明的有利的相 似性度量僅僅考慮到與t tt2 —起出現(xiàn)在一個(gè)文本片段內(nèi)的上下a達(dá)
tc。n;因此,這兩個(gè)表達(dá)t和t2的共同方面的意義,即,語義相似性的實(shí)
際存在,通過該相似性度量被更好,測(cè)出。
現(xiàn)在,本實(shí)施例中使用的共同上下文的有利概念(即,前面所說的相
似性度量occ—con(t1,t2))可以如在下文說明的那樣使用,以便計(jì)算兩種類
型的條件概率(于是,這些*概率自身可以直接使用,或者被結(jié)合使用,
以便針對(duì)表達(dá)對(duì)計(jì)算根據(jù)本發(fā)明的相似性權(quán)重值agw(t"2)):
a) 第一條件概率,其利用出現(xiàn)上下文來歸一化上述相似性度量 ocC-Con(t^,t2), 以及
b) 第二條件概率,其利用共同內(nèi)容上下文來歸一化上述相似性度量 occcon(ti,t2)。
a)第一條件概率
第一M概率度量第一表達(dá)t在文本片段中的存在有多頻繁地導(dǎo)致
第二表達(dá)t2與共同上下文表達(dá)tc。n —起出現(xiàn)在相同文本片段中,以及相反的情況。
<formula>formula see original document page 26</formula>
因此,該共同條件概率考慮了上述^和t2在相同(或相似)的內(nèi)容
關(guān)聯(lián)內(nèi)的多次共同出現(xiàn)的問題。為了與根據(jù)現(xiàn)有技術(shù)已知的余弦相似性加 權(quán)cos的更好的可比性,因此,可以如下直接獲得根據(jù)本發(fā)明的第一相
似性權(quán)重值agw(t"2)(關(guān)于occ(ti)的定義,參見前面的現(xiàn)有技術(shù)的部分
<formula>formula see original document page 26</formula>
b)第二條件概率
如果滿足M:兩個(gè)表達(dá)t和12分別與共同上下文項(xiàng)t咖一起出現(xiàn)
(即,^與tc。n—起在第一文本片段中出現(xiàn),且t2與tc。n—起在第二文本 片段中出現(xiàn)),則該第二a概率記錄這兩個(gè)表達(dá)ti和t2—起共同出現(xiàn)的 概率。第二條件概率如下定義
<formula>formula see original document page 26</formula>
且能夠直接以該形式用作根據(jù)本發(fā)明的相似性權(quán)重值agw(t^t2)(值 con(^,t2)的定義,參見前面的現(xiàn)有技術(shù)的部分d))。這樣計(jì)算出的相似性 權(quán)重值agw(^,t2)還被稱為M^橫比aspect—ratio(ti,t2)。
這樣根據(jù)F2)計(jì)算的條件概率考慮了通過度量值coii(tbt2)而不是通 過度量值occ—con(t,t2)檢測(cè)的共同上下文表達(dá)tc。n的問題。這樣計(jì)算出的 相似性權(quán)重值(縱橫比)實(shí)現(xiàn)消除上位概念(例如"月亮"或"星星") 之間的表面關(guān)系,其中這些表面關(guān)系傾向于具有4艮多共同上下i^達(dá)(這 導(dǎo)致con(tht2)變大)。這里,有利的是,縱橫比沒有消除上位概念和相關(guān) 的很特定的概念(例如"望遠(yuǎn)鏡"和"Ritchey-Chretien望遠(yuǎn)鏡")之間實(shí) 際存在的關(guān)系。后者可以歸因于特定表達(dá)與任何其它表達(dá)的共同內(nèi)容上 下文通常相對(duì)較少。
關(guān)于相似性度量occ—con(^,t2)的歸一化如上所述, 一方面occ—con 是出現(xiàn)上下文一其中考慮了兩個(gè)表達(dá)^和t2的共同出現(xiàn)的總頻率;另一方 面是內(nèi)容上下文一其中考慮了不同上下i^達(dá)的總數(shù)。因此,從不同的方 面,occ—con(t^2)可以被不同地歸一化
1. 從出現(xiàn)上下文的方面,occ一con通過各出現(xiàn)上下文,即occ (tO和 occ(t2),被歸一化<formula>formula see original document page 27</formula>
2. 從內(nèi)容上下文的方面,原則上存在兩個(gè)另外的歸一化可能性 2.1通過各內(nèi)容上下文,即con(t0和con(t2),歸一化occ—con:
<formula>formula see original document page 27</formula>2.2通過^和t2的共同內(nèi)容上下文,即通過con(h,t2),歸一化occ一con, 在這種情況下,生成縱橫比<formula>formula see original document page 27</formula>
如在實(shí)驗(yàn)中所證明的那樣,l.和2.1對(duì)關(guān)聯(lián)計(jì)算表現(xiàn)得非常相似,1. 比2.1相交略好。出現(xiàn)上下文occ的大問題在于在^和t2多次共同出現(xiàn) 在相同或相似的內(nèi)容環(huán)境中的情況下,^和t2之間的關(guān)聯(lián)被錯(cuò)誤地估計(jì)得 太大。在這種情況下,因?yàn)楣餐霈F(xiàn)的頻率相對(duì)較大,所以locc(tOI和 1occ(t2)l的值可能相對(duì)較大,而且,因?yàn)楦鲀?nèi)容環(huán)境相似,所以locc—con(tb t2)|、 |con(t0|、 lcon(t2)l的值相對(duì)較小。因此,最后三個(gè)集合或基數(shù)只包含 少量不同的上下文表達(dá)。因此,具有小分子和小分母的2.1可能導(dǎo)致相對(duì) 較大的相對(duì)數(shù),這是錯(cuò)誤的。與其相反,具有小分子和大分母的l.中的相 對(duì)數(shù)將總是小的,這是對(duì)的。事實(shí)上,2.2.總是與2.1.具有相同的問題, 但是如前所述,2.2.使用與1.及2.1.不同的用于關(guān)聯(lián)計(jì)算的相關(guān)性。因此, 在本發(fā)明中,使用或結(jié)合1.和2.2.。
根據(jù)前面的說明,從而得出下面的相似性權(quán)重值<formula>formula see original document page 28</formula>
這些相似性權(quán)重值基于不同的統(tǒng)計(jì)方法或使用不同的統(tǒng)計(jì)證明,以便指出 在概念^和t2之間存在語義關(guān)系。
根據(jù)本發(fā)明,現(xiàn)在,首先提出利用相似性權(quán)重值F1或相似性權(quán)重值 F2來實(shí)現(xiàn)兩個(gè)表達(dá)h和t2的相似性的量化。然而,根據(jù)本發(fā)明,更有利 的是將下面的乘積組合中的一個(gè)用作相似性權(quán)重值agw(t, t2): F1*F2、 FPF3或F2AF3。然而,根據(jù)本發(fā)明,尤其有利的是使用4^ 3個(gè)所提出 的相似性權(quán)重值的乘積組合F1*F2*F3,即
<formula>formula see original document page 28</formula> 該三乘積組合rel一comb(tb t2)的優(yōu)點(diǎn)的產(chǎn)生特別是因?yàn)閷?duì)于在概念t和
t2之間存在語義關(guān)系的各指示器中的每一個(gè),針對(duì)關(guān)系確定,將不同的統(tǒng)
計(jì)信息考慮在內(nèi)。
根據(jù)本發(fā)明的相似性量化與根據(jù)現(xiàn)有技術(shù)的相似性量化的比較
根據(jù)本發(fā)明的相似性計(jì)算系統(tǒng)(其在隨后參考圖4關(guān)于各個(gè)部件更準(zhǔn) 確地說明)有利地具有目標(biāo)表i^t選擇單元,該系統(tǒng)的基本部件已在上文 中指出。利用該目標(biāo)表i^t選擇單元,基于所計(jì)算的相似性權(quán)重值agw(tu, ti2),可以選出可限定數(shù)目m(m 屬于自然數(shù),且n大于或者等于2)個(gè)候i^狄(tu,ti2), 其中i-l,...,m。這里,優(yōu)選地如下進(jìn)行選擇使得選擇具有最大的計(jì)算 的相似性權(quán)重值的m個(gè)候選表iiX于。這m個(gè)所選候i^達(dá)對(duì)在下面也被 稱為目標(biāo)表達(dá)對(duì)。
通過這樣的m個(gè)目標(biāo)表達(dá)對(duì)的所選集合,可以實(shí)現(xiàn)根據(jù)本發(fā)明的相 似性加權(quán)的評(píng)估。
為此,首先對(duì)于要比較的不同的相似性加權(quán)方法,分別針對(duì)每個(gè)方法, 計(jì)算每個(gè)可能的候選表達(dá)對(duì)的相似性權(quán)重值。于是,選擇m個(gè)目標(biāo)表達(dá)
對(duì)可以被視為設(shè)置閾值,該閾值去除其相似性權(quán)重值低于指定量值的那些 候選表狄。
因?yàn)闆]有完美的相似性加權(quán)方法,所以m個(gè)目標(biāo)表達(dá)的集合將不可
避免地包含噪聲,即,實(shí)際上沒有關(guān)系但被錯(cuò)誤地提供了高的相似性權(quán)重
值的表達(dá)對(duì)。隨后所述評(píng)估的原則是基于以下情況與差的方法相比,好 的相似性加權(quán)方法將為實(shí)際存在或關(guān)心的語義關(guān)系提供更高的相似性權(quán) 重值,使得與差的相似性加權(quán)方法的情^4目比,在m個(gè)選擇的目標(biāo)表達(dá) 對(duì)內(nèi)出現(xiàn)更多的具有實(shí)際出現(xiàn)的語義關(guān)系(以下也被稱為"所關(guān)心的關(guān) 系")的表M。
在指定的表達(dá)對(duì)(ta, k)之間是否實(shí)際存在所關(guān)心的關(guān)系是通過與針 對(duì)所考慮的文檔匯集手動(dòng)生成的詞表進(jìn)行自動(dòng)比較來評(píng)估的如果目標(biāo)表 達(dá)對(duì)關(guān)系已經(jīng)在手動(dòng)生成的詞表(黃金標(biāo)準(zhǔn))內(nèi)被定義為關(guān)心的關(guān)系,則 該目標(biāo)表達(dá)對(duì)關(guān)系已經(jīng)通過所考慮的方法被正確地歸類為是所關(guān)心的。
相似性加權(quán)方法的有效性可以被如下評(píng)估相似性加權(quán)方法的精度 PR(m)以及其命中率R(m)被根據(jù)所選擇的目標(biāo)表狄的數(shù)目m參考給定 的黃金標(biāo)準(zhǔn)來計(jì)算。如果L是被定義為存在于黃金標(biāo)準(zhǔn)中的成對(duì)關(guān)系的 總數(shù),即,所關(guān)心的關(guān)系的總數(shù),m是參考相似性權(quán)重值由所述方法選擇
的目標(biāo)表達(dá)對(duì)的數(shù)目(在此僅僅計(jì)算文檔中的如下對(duì)的權(quán)重值該對(duì)的兩 個(gè)表達(dá)也存在于黃金標(biāo)準(zhǔn)中),且如果y(m)是m個(gè)所選出的目標(biāo)表達(dá)對(duì)中 的、在黃金標(biāo)準(zhǔn)意義上具有所關(guān)心的關(guān)系的那些目標(biāo)表達(dá)對(duì)的數(shù)目,則精 度和命中率可以定義如下
PR(m)=y(m)/m
R(m)=y(m)/L
利用F度量(參見Van Rijsbergen: " Information Retrieval", 1979 ), 這兩個(gè)測(cè)量值可以被結(jié)合記錄為單個(gè)測(cè)量值
<formula>formula see original document page 30</formula>
現(xiàn)在,如果針對(duì)目標(biāo)表達(dá)對(duì)的每個(gè)所選數(shù)目m,將相關(guān)的F度量F(m) 繪制在縱坐標(biāo)上,則可以借助不同相似性加權(quán)的不同F(xiàn)(m)曲線來比較不 同的相似性加權(quán)。 一種相似性加權(quán)方法,其針對(duì)m的指定值的F(m)曲線 在另一個(gè)相似性加權(quán)方法的F(m)曲線之上,因此,該相似性加權(quán)方法是 關(guān)于該m值的更好的方法。
以下提出的比較結(jié)果是如下獲得的
使用來自天文學(xué)領(lǐng)域的大約8000個(gè)文本文檔作為文本匯集。這些文 本文檔被如上所述那樣進(jìn)行預(yù)處理。
將包含大約2卯0個(gè)單個(gè)概念的手動(dòng)生成的天文學(xué)詞表用作黃金標(biāo) 準(zhǔn)。
不是按照自動(dòng)詞表構(gòu)建中通常的那樣,在第一步驟中借助合適的表達(dá) 選擇方法(如同例如在參考文獻(xiàn)1中所描述的)通過為每個(gè)表達(dá)分配 合適的權(quán)重值來選出候選表達(dá)ti的集合,隨后為這些候選表達(dá)成對(duì)計(jì) 算出相似性權(quán)重值agw(t, t2),而是簡化地確定那些黃金標(biāo)準(zhǔn)表達(dá)對(duì), 對(duì)于該方式, 一個(gè)對(duì)中的兩個(gè)表達(dá)t和t2分別一起出現(xiàn)在文本匯集的 至少三個(gè)文檔中。這生成了大約40, OOO個(gè)候選表達(dá)對(duì)。所關(guān)心的關(guān) 系被分配給黃金標(biāo)準(zhǔn)詞表中這些候選表達(dá)對(duì)的743個(gè)候選表達(dá)對(duì)(L
=743)。因此,通過m個(gè)選擇的、最高權(quán)重的目標(biāo)表M(tih仏)中 有多少屬于黃金標(biāo)準(zhǔn)中被分配以所關(guān)心的關(guān)系的那y個(gè)對(duì),可以描述 要比較的相似性加權(quán)方法的目標(biāo)(因此,m可以在1至40, 000的范 圍中變化)。用于提取所關(guān)心的黃金標(biāo)準(zhǔn)關(guān)系的不同的相似性加權(quán)方 法的結(jié)果在下面在各部分中進(jìn)行闡述。
現(xiàn)在,圖2示出根據(jù)現(xiàn)有技術(shù)已知的PMI相似性加權(quán)方法的不同方 法類型的結(jié)果。不同類型的不同之處在于它們針對(duì)各頻率f的計(jì)算方式不 同。因此,例如在圖2A所示的方法類型的第一行中,利用才艮據(jù)本發(fā)明的 相似性度量occ—con(t^ t。計(jì)算頻率ftl,t2,同時(shí)利用上述occ(ti)度量(i = 1, 2)計(jì)算項(xiàng)t或t2的單獨(dú)上下文的頻率。在第二行中表示的方法類型的情
況下,與其不同的是,例如利用現(xiàn)有技術(shù)的OCC(ti,t2)度量值計(jì)算共同上下
文(單獨(dú)上下文以第一行中所表示的方法類型來計(jì)算)。圖2A的前三行 中所述的那些方法類型中,文本片段的大小被設(shè)置為41 (分別從中央目 標(biāo)表達(dá)向左和向右20個(gè)表達(dá))。
相反,在第4行中只選擇了一種方法類型(PMI一occ一doc ),其中, 基于完整文本文檔形式的文本片段計(jì)算對(duì)應(yīng)的頻率度量值occ(t0或
OCC(t,t2)(因此,其度量值或大小被稱為OCC-dOC(ti)或OCC—dOC(ti,t2))?,F(xiàn)
在,圖2B示出根據(jù)現(xiàn)有技術(shù)已知的PMI相似性加權(quán)的圖2A中表示的不 同方法類型的特性。這里,如上所述,這些不同的方法類型由于分別^_用 的單獨(dú)上下文的概念和共同上下文的概念而不同。
如圖2B所示,基于完整文本文檔形式的文本片段而計(jì)算的方法類型 示出最小的F量度,因此代表四個(gè)所示相似性加權(quán)方法中最差的方法。如 預(yù)期的那樣,基于使用較小文本片段的方法類型示出更好的結(jié)果。然而, 純粹基于內(nèi)容上下文的方法類型PMI_con相交僅僅略好。純粹基于出現(xiàn) 上下文的方法類型PMI一occ已經(jīng)比純粹基于內(nèi)容上下文的方法類型 PMI一con相交好很多。在最佳情況下,如果PMI相似性加權(quán)的方法類型 (在此也以相對(duì)小的凸起)相交,其共同上下文也基于根據(jù)本發(fā)明的相似 性量度occ—con(th t2)計(jì)算PMI_ occ con。因jt匕,戶斤表示的例子示出已經(jīng)
通過將根據(jù)本發(fā)明的相似性量度occ一con(t1,t2)包括在根據(jù)現(xiàn)有技術(shù)已知 的相似性加權(quán)(例如PMI相似性加權(quán))中,與使用純粹基于內(nèi)容或純粹 基于出現(xiàn)的共同上下文時(shí)相比,可以實(shí)現(xiàn)更好的結(jié)果。
如圖3所示,根據(jù)本發(fā)明的相似性度量occ一con(t1, t2)的全部優(yōu)點(diǎn)只在 該相似性度量也被用于前面所述的根據(jù)本發(fā)明的相似性加權(quán)中時(shí)才被充 分利用。圖3將這些相似性加權(quán)與現(xiàn)有技術(shù)中經(jīng)常使用的、純粹基于出現(xiàn) 的余弦相似性加權(quán)COS_occ—doc_ALLG相比較,該余弦相似性加權(quán)基于 完整文本文檔形式的文本片段(然而,如前面所述的,根據(jù)一般化的度量 值COS—ALLG計(jì)算COS量度)。為了比較,純粹基于出現(xiàn)的相似性加權(quán) F3,即rel—occ(t1, t2),也被示出(參見上文)。如所預(yù)期的那樣,基于文 檔的相似性加權(quán)COS一occ一doc一ALLG以明顯的距離最差地相交。僅僅基于一個(gè)部分因數(shù)Fl或F2的根據(jù)本發(fā)明的相似性加權(quán)rel_occ—con(t1, t2) 或aspect-ratio(t1,t2)相交已經(jīng)明顯更好。甚至純粹基于出現(xiàn)頻率的相似性 加權(quán)reLocc(t1, t2)在這里也相交較好。然而,因?yàn)槿齻€(gè)單獨(dú)因數(shù)F1、 F2 和F3 (參見上文)中的每一個(gè)基于存在關(guān)系的不同證明,所以,進(jìn)入相似性加權(quán)中用作乘積組合的各因數(shù)越多,則關(guān)于實(shí)際關(guān)心的關(guān)系的識(shí)別, 根據(jù)本發(fā)明的相似性加權(quán)agw(t1, t2)的能力越好。因此,二進(jìn)制乘積組合 F2*F3或F1*F3 (aspect_ratio*rel_occ或rel—occ—con*rel—occ)已再次示 出了明顯改進(jìn)的F量度(第三二進(jìn)制組合F1*F2或rel_occ_con*aspect —ratio在這里沒有示出,因?yàn)榻Y(jié)果與其它兩個(gè)二進(jìn)制組合非常相近)。然 而,通過根據(jù)本發(fā)明的相似性加權(quán)reLcomb(t1, t2)示出了無疑是最好的結(jié) 果,該相似性加權(quán)reLcomb(t1, t2)基于全部3個(gè)單獨(dú)因數(shù)Fl、 F2和F3 的乘積組合計(jì)算
這里,最大的F量度是0.2407,其與相似性加權(quán)COS—occ_doc_ALLG (F-max = 0.1424 )相比較,對(duì)應(yīng)于大約70%的改進(jìn)。因此, COS—occ—doc_ALLG在這里也被用作比較相似性加權(quán),原因是目前該計(jì) 算方法在自動(dòng)詞表構(gòu)建領(lǐng)域中代表應(yīng)用最頻繁的方法。
最后,圖4示出根據(jù)本發(fā)明的、自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系 統(tǒng)的具體結(jié)構(gòu)。在本情況下,通過個(gè)人計(jì)算機(jī)PC (R)形式的計(jì)算機(jī)系 統(tǒng)構(gòu)建該系統(tǒng)。該系統(tǒng)首先包括文檔存儲(chǔ)器單元或文檔數(shù)據(jù)庫單元(1)。 其用于以電子形式存儲(chǔ)文本文檔。存儲(chǔ)器單元(1)在輸入側(cè)連接到 CD/DVD讀取器形式的適配器單元(10)。在本情況下,要存儲(chǔ)在文檔數(shù) 據(jù)庫單元(1)中的文本文檔的集合可以首先被作為文本文檔集(la)存 儲(chǔ)在光盤CD (9)上。隨后,可以通過適配器(10)從光盤讀取各文本 文檔,且可以存儲(chǔ)在文檔數(shù)據(jù)庫單元(1)中。
在輸出側(cè)上,文4*據(jù)庫單元(1 )被連接到文本文檔預(yù)處理單元(5 )。 在文本文檔預(yù)處理單元中,各文本文檔可以被如前所述那樣進(jìn)行預(yù)處理; 這里,可以從各文本文檔中去除例如控制詞,如html控制命令,或者也 去除噪聲詞。同樣地,可以進(jìn)行詞根縮減。這里,文本文檔預(yù)處理單元(5) 具有可以存儲(chǔ)預(yù)處理過的文本文檔的存儲(chǔ)器。>^預(yù)處理過的文本文檔中, 隨后可以利用候選表i^擇單元(4)選擇所考慮的文檔集合特有的一些 單獨(dú)的表達(dá),即候選表達(dá)ti。從本領(lǐng)域的現(xiàn)有技術(shù)已知如何進(jìn)行從文本文 檔中選擇這樣的候選表達(dá),因此在這里不進(jìn)行更詳細(xì)的說明。僅僅舉例來 說,可以利用方差分析選擇指定文本種類(例如,就內(nèi)容而言涉及天文學(xué) 主題領(lǐng)域的文本文檔)的種類特定的表達(dá),如同例如在參考文獻(xiàn)1中所述 的那樣。于是,這些選擇的候i^達(dá)ti的集合可以被存儲(chǔ)在連接到候i^ i^擇單元(4)的候選表達(dá)存儲(chǔ)器單元(2)中。
所示相似性計(jì)算系統(tǒng)的核心是相似性權(quán)重值計(jì)算單元(3 ),其在輸入 側(cè)連接到文檔預(yù)處理單元(5)和候選表達(dá)存儲(chǔ)器單元(2)兩者。相似性 權(quán)重值計(jì)算單元(3)從存儲(chǔ)器單元(2)中選擇候i^達(dá)對(duì)(th t2),如已 經(jīng)詳細(xì)說明的那樣,檢查表達(dá)對(duì)中的單獨(dú)表達(dá)或表達(dá)對(duì)中的兩個(gè)表達(dá)在存 儲(chǔ)在單元(5)中的文本文檔的文本片段中的出現(xiàn),并如前面說明的那樣, 執(zhí)行所有其他必要步驟,用于根據(jù)本發(fā)明計(jì)算各個(gè)對(duì)的相似性權(quán)重值 agw(仏t2)。同樣地,計(jì)算單元(3)具有可以存儲(chǔ)所計(jì)算的相似性權(quán)重值 agw的存儲(chǔ)器單元。
在輸出側(cè),相似性權(quán)重值計(jì)算單元(3 )被連接到目標(biāo)表iixt選擇單 元(6)。目標(biāo)表i^選擇單元(6)可以基于已由計(jì)算單元(3)計(jì)算出的 相似性權(quán)重值agw (tu, ti2)來選捧限定數(shù)目m (i-l,…m )個(gè)候選表達(dá) 對(duì)(tu, ti2)。優(yōu)選地,目標(biāo)表i^t選擇單元(6)進(jìn)行操作,使得從計(jì)算 了權(quán)重值的這些候選表達(dá)對(duì)的集合中,選擇具有最高的、計(jì)算出的相似性 權(quán)重值 agw (tu, tu) (i= 1,…m)的那m個(gè)候選表^^J"。 目標(biāo)表ii^J"選棒 單元(6)可以被實(shí)現(xiàn)為硬件電路,或者也可以作為對(duì)應(yīng)的程序代碼被存 儲(chǔ)在存儲(chǔ)器單元內(nèi)。對(duì)于所述預(yù)處理單元(5)和所述候i^達(dá)選擇單元 (4)以及I51^說明的結(jié)構(gòu)化單元(8)也是類似。部分以硬件電路形式且 部分以程序代碼形式進(jìn)行的實(shí)現(xiàn)也是可能的。為了可以選中具有最高相似 性權(quán)重值的m個(gè)候i^達(dá)對(duì),這里,目標(biāo)表iixt選擇單元(6)具有目標(biāo) 表達(dá)對(duì)分類單元(7),利用該單元(7),候*達(dá)對(duì)可以根據(jù)其權(quán)重值被 分類。
在輸出側(cè),選擇單元(6)被連接到目標(biāo)表iiXt結(jié)構(gòu)化單元(8)。利 用該目標(biāo)表達(dá)對(duì)結(jié)構(gòu)化單元,可以基于目標(biāo)表達(dá)對(duì)的m個(gè)相關(guān)的相似性 權(quán)重值將m個(gè)選擇的目標(biāo)表達(dá)對(duì)的各表達(dá)通過適當(dāng)?shù)姆椒ㄒ苑謱咏Y(jié)構(gòu)設(shè) 置。此外,現(xiàn)有技術(shù)已^>開這樣的結(jié)構(gòu)化單元或?qū)?yīng)的結(jié)構(gòu)化方法,所以, 其在這里不再進(jìn)行說明。例如,這里可以使用利用來自參考文獻(xiàn)1的層-種子方法(layer-seed method)的分層結(jié)構(gòu)4t。
于是,在結(jié)構(gòu)化單元(8)中確定的分層結(jié)構(gòu),或者以及m個(gè)選擇的 目標(biāo)表達(dá)對(duì)可以被顯示在監(jiān)視器(11)上。
權(quán)利要求
1.一種自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算系統(tǒng),用于計(jì)算表達(dá)對(duì)的相似性權(quán)重值,其中相似性權(quán)重值將表達(dá)對(duì)的兩個(gè)表達(dá)的相似性量化,所述系統(tǒng)包括文檔數(shù)據(jù)庫單元(1),其中或在其上能夠以數(shù)字化的形式存儲(chǔ)和/或存儲(chǔ)有包括至少一個(gè)文本文檔的文本文檔匯集,候選表達(dá)存儲(chǔ)單元(2),其中能夠存儲(chǔ)和/或存儲(chǔ)有包括若干表達(dá)的候選表達(dá)ti的集合,其中每個(gè)表達(dá)ti出現(xiàn)在所述匯集的至少一個(gè)文本文檔中,以及相似性權(quán)重值計(jì)算單元(3),利用所述相似性權(quán)重值計(jì)算單元(3),能從所述候選表達(dá)的集合中選擇至少一對(duì)候選表達(dá)t1和t2,并且利用所述相似性權(quán)重值計(jì)算單元(3),能針對(duì)所述至少一對(duì)選擇的表達(dá)計(jì)算相似性權(quán)重值agw(t1,t2),其特征在于,所述相似性權(quán)重值agw(t1,t2)能基于相似性度量|occ_con(t1,t2)|計(jì)算,相似性度量|occ_con(t1,t2)|考慮到所述表達(dá)對(duì)的兩個(gè)表達(dá)t1和t2在能從所述文本文檔的匯集中選擇出的或者已選擇出的文本片段的集合中在同一個(gè)文本片段內(nèi)共同出現(xiàn)的總頻率,以及該文本片段的集合中不同上下文表達(dá)的總數(shù),其中上下文表達(dá)是在該文本片段的集合中與表達(dá)t1一起出現(xiàn)在至少一個(gè)文本片段中并且與表達(dá)t2一起出現(xiàn)在至少一個(gè)文本片段中的表達(dá),且上下文表達(dá)既不與t1對(duì)應(yīng),也不與t2對(duì)應(yīng)。
2. 根據(jù)上述權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,上下文表達(dá)僅僅是在所述文本片段的集合中與兩個(gè)表達(dá)t和t2 —起 出現(xiàn)在至少一個(gè)文本片段中的那些表達(dá)。
3. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,所i^目似性度量occjon(tht2)是在所述文本片段的集合中與表達(dá)^和t2兩者一起出現(xiàn)在至少一個(gè)文本片段中、且與^和12都不對(duì)應(yīng)或相等 的所有那些上下文表達(dá)的總數(shù),其中在多于一個(gè)的文本片段中以相同形式 出現(xiàn)的上下i^達(dá)只被計(jì)數(shù)一次,使得只有不同上下文表達(dá)的數(shù)目被考慮 在內(nèi)。
4. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,能夠基于在一個(gè)第一表達(dá)或多個(gè)第一表達(dá)在一個(gè)文本片段內(nèi)出現(xiàn)的 條件下關(guān)于一個(gè)第二表達(dá)或多個(gè)第二表M該文本片段內(nèi)的出現(xiàn)的至少 一個(gè)條件概率,或者基于這樣的條件概率的近似值,計(jì)算所述相似性權(quán)重 值agw(^,t2)。
5. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,所述條件概率是兩個(gè)條件概率的乘積,或這兩個(gè)^ff概率的兩個(gè)近似 值的乘積。
6. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,所述兩個(gè)M概率中的 一個(gè)將^在文本片段內(nèi)出現(xiàn)作為給定M ,且另一個(gè)M概率將t2在文本片段內(nèi)出現(xiàn)作為給定*。
7. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的并根據(jù)權(quán)利要求3所述的相 似性計(jì)算系統(tǒng),其特征在于,能夠基于歸一化的相似性度量occ—con(tht2)計(jì)算所述相似性權(quán)重值 agw(t^t2),其中occ—con(tht2)的歸一化通過所述文本片段的集合中出現(xiàn)^ 的文本片段的總數(shù)^所述文本片段的集合中出現(xiàn)t2的文本片段的總數(shù)的 乘積來實(shí)現(xiàn)。
8. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的并根據(jù)權(quán)利要求3所述的相 似性計(jì)算系統(tǒng),其特征在于,能夠根據(jù)下面的兩個(gè)公式表達(dá)中的一個(gè)計(jì)算所述相似性權(quán)重值 agw(t^2): <formula>formula see original document page 4</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 ,2,<formula>formula see original document page 4</formula>其中l(wèi)con(ti,t2)l是在所述文本片段的集合中與表達(dá)t 一起出現(xiàn)在至少 一個(gè)文本片段中、且與表達(dá)t2—起出現(xiàn)在至少一個(gè)文本片段中、并且與 t和t2都不對(duì)應(yīng)的不同的上下文表達(dá)的總數(shù)。
9.根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的并根據(jù)權(quán)利要求3所述的相 似性計(jì)算系統(tǒng),其特征在于,相似性權(quán)重值agw(^,t2)能夠計(jì)算為根據(jù)前面的權(quán)利要求所述的公式 表達(dá)Fl和7>式表達(dá)F2的乘積<formula>formula see original document page 4</formula>
10.根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的并根據(jù)權(quán)利要求3所述的相似性計(jì)算系統(tǒng), 其特征在于,相似性權(quán)重值agw(tht2)能夠計(jì)算為根據(jù)權(quán)利要求8的公式表達(dá)Fl或 F2其中一個(gè)與公式表達(dá)reLocc(tht2)的乘積,其中<formula>formula see original document page 4</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 i = l, 2,并且其中l(wèi)occ(tht2)l是所述文本片段的集合中一起出現(xiàn)^和t2的 文本片段的總數(shù)。
11.根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的并根據(jù)權(quán)利要求3所述的相似性計(jì)算系統(tǒng),其特征在于,相似性權(quán)重值agw(t"t2)能夠作為根據(jù)權(quán)利要求8的公式表達(dá)Fl和 F2以及根據(jù)前面的權(quán)利要求的公式表達(dá)F3的乘積,因此有<formula>formula see original document page 5</formula>
12. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng),其特征在于,所述文本片段的集合中的至少 一個(gè)文本片段是完整的文本文檔。
13. 才艮據(jù)上述權(quán)利要求中的任一項(xiàng)所述的所述的相似性計(jì)算系統(tǒng),其特征在于,所述文本片段的集合中的至少 一個(gè)文本片段是文本文檔的 一部分。
14. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng),其特征在于,所述部分是章、分章、文本險(xiǎn)落、句子或句子的在兩個(gè)標(biāo)點(diǎn)符號(hào)之間 的部分,或者所述部分對(duì)應(yīng)于文本文檔的單獨(dú)的、由空格分隔的、相繼的表達(dá)或詞的確定數(shù)目n (具有窗口寬度n的文本窗)。
15. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng),其特征在于,適用3《n《101,優(yōu)選是ll《n幼l,優(yōu)選是21《n《61,優(yōu)選是31《n^51, 特別優(yōu)選是11 = 41。
16. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于, 所述文本片段的集合中的至少兩個(gè)文本片段互相交疊,即具有至少一 個(gè)共同的片段部分。
17. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,候選表^擇單元(4),利用所述候選表^i^擇單元(4),能夠從所 述匯集的文本文檔中選擇候選表達(dá)ti,并能夠?qū)⑺龊騣^達(dá)ti發(fā)送到所 述候選表達(dá)存儲(chǔ)器單元(2 )。
18. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,文本文檔預(yù)處理單元(5),利用所述文本文檔預(yù)處理單元(5 ),能夠 在選擇候選表達(dá)ti和將候選表達(dá)ti發(fā)送到候i^達(dá)存儲(chǔ)器單元(2 )之前 對(duì)所述匯集的文本文檔進(jìn)行預(yù)處理。
19. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,所述文本文檔預(yù)處理單元(5)包括 控制詞去除單元,特別是HTML控制命令去除單元,利用所 述控制詞去除單元,能夠從文本文檔中減去它們中包含的控 制詞,和/或 噪聲詞去除單元,利用所述噪聲詞去除單元,能夠從文本文 檔中減去它們中包含的噪聲詞,和/或 詞根縮減單元,利用所述詞根縮減單元,包含在文本文檔中 的詞能夠被縮減為相應(yīng)的詞才艮,因此文本文檔能夠被縮減為 詞根的集合。
20. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,目標(biāo)表i^J"選擇單元(6),利用所述目標(biāo)表iixt選擇單元(6 ),能夠 基于計(jì)算的相似性權(quán)重值agw (tu, ti2)選擇可限定的數(shù)目m(i = l,…, m)個(gè)候選表達(dá)對(duì)tu和ti2 (m是自然數(shù)且m》2 )。
21. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,所述目標(biāo)表ii^選擇單元(6)具有目標(biāo)表達(dá)對(duì)分類單元(7 ),利用 所述目標(biāo)表達(dá)對(duì)分類單元(7),能夠根據(jù)候i^達(dá)對(duì)的相應(yīng)相似性權(quán)重值 的大小以遞增或遞減的方式將候選表達(dá)對(duì)分類,并且,利用目標(biāo)表達(dá)對(duì)選 擇單元(6),能夠選出具有最高的計(jì)算的相似性權(quán)重值的那m個(gè)候i^ 狄。
22. 根據(jù)前兩項(xiàng)權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,目標(biāo)表達(dá)對(duì)結(jié)構(gòu)化單元(8),利用所述目標(biāo)表達(dá)對(duì)結(jié)構(gòu)化單元(8), m個(gè)所選擇的目標(biāo)表達(dá)對(duì)的各個(gè)表達(dá)能夠基于所述目標(biāo)表達(dá)對(duì)的m個(gè)相 似性權(quán)重值布置在分層結(jié)構(gòu)中。
23. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,能夠不考慮大寫/小寫符號(hào)的不同、關(guān)于存在或不存在連字符和/或各 相繼的詞之間的空格的數(shù)目的差異,確定表ii^文本片段中的出現(xiàn)。
24. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,計(jì)算機(jī)系統(tǒng)(R),特別是個(gè)人計(jì)算機(jī)PC,其中能夠構(gòu)建和/或構(gòu)建有 文檔數(shù)據(jù)庫單元(1 )、候i^達(dá)存儲(chǔ)器單元(2 )和/或相似性權(quán)重值計(jì)算 單元(3)。
25. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,文檔數(shù)據(jù)庫單元(1 )、候i^達(dá)存儲(chǔ)器單元(2 )和/或相似性權(quán)重值 計(jì)算單元(3 )能夠被和/或被至少部分地通過計(jì)算機(jī)系統(tǒng)(Rl)的物理主 存儲(chǔ)器或通過其一部分來構(gòu)建。
26. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng), 其特征在于,至少一個(gè)優(yōu)選為可移動(dòng)的存儲(chǔ)器設(shè)備(9 ),其中或在其上能夠至少部 分地構(gòu)建和/或至少部分地構(gòu)建有文檔數(shù)據(jù)庫單元(1 )。
27. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算系統(tǒng), 其特征在于,存儲(chǔ)器設(shè)備(9)是光盤、特別是CD或DVD,或者是便攜式硬盤。
28. 根據(jù)前兩項(xiàng)權(quán)利要求中的任一項(xiàng)并根據(jù)權(quán)利要求24所述的相似 性計(jì)算系統(tǒng),其特征在于,計(jì)算機(jī)系統(tǒng)(R)具有至少一個(gè)數(shù)據(jù)傳送設(shè)備(10),特別是光學(xué)讀 取器或硬盤適配器,用于與存儲(chǔ)器設(shè)備(9)進(jìn)行數(shù)據(jù)傳輸,特別是用于 以數(shù)字化的形式進(jìn)行文本文檔的傳輸。
29. —種自動(dòng)的、基于計(jì)算機(jī)的相似性計(jì)算方法,用于計(jì)算表達(dá)對(duì)的 相似性權(quán)重值,其中相似性權(quán)重值量化一對(duì)表達(dá)的兩個(gè)表達(dá)的相似性,其中包括至少 一個(gè)文本文檔的文本文檔匯集被以數(shù)字化的形式存儲(chǔ),其中包括若干表達(dá)的候選表達(dá)ti的集合被存儲(chǔ),其中每個(gè)表達(dá)tj出現(xiàn) 在所述匯集的文本文檔的至少一個(gè)文本文檔中,以及其中從所述候選表達(dá)的集合中選擇至少一對(duì)候選表達(dá)t和t2,并且針 對(duì)所述至少一個(gè)所選擇的表達(dá)對(duì)計(jì)算相似性權(quán)重值agw(ti,t2),其特征在于基于相似性度量occ—con(^,t2)計(jì)算相似性權(quán)重值agw(tht2),相似性度 量occ—con(tht2)考慮到表達(dá)對(duì)中的兩個(gè)表達(dá)^和t2在從文本文檔的匯集中 能選^的或選擇出的多個(gè)文本片段的集合中的同一個(gè)文本片段內(nèi)共同出現(xiàn)的總頻率,以;Mt該文本片段的集合中的不同的上下文表達(dá)的總數(shù),其中上下文表達(dá)為在該文本片段的集合中與表達(dá)h —起出現(xiàn)在至少 一個(gè)文本片段中并與表達(dá)t2 —起出現(xiàn)在至少一個(gè)文本片段中的表達(dá),且所述上下文表達(dá)既不與^對(duì)應(yīng),也不與t2對(duì)應(yīng)。
30. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算方法, 其特征在于,使用根據(jù)權(quán)利要求1至28中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)。
31. 根據(jù)前兩項(xiàng)權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,作為上下文表達(dá),只考慮在所述文本片段的集合中與兩個(gè)表達(dá)^和t2—起出現(xiàn)在至少一個(gè)文本片段中的那些表達(dá)。
32. 根據(jù)前三項(xiàng)權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,作為相似性度量0CC—con(^,t2),使用在所述文本片段的集合中與表達(dá) ^和表達(dá)t2兩者一起出現(xiàn)在至少一個(gè)文本片段中、且與t和t2都不對(duì)應(yīng)或 相等的所有上下文表達(dá)的總數(shù),其中在多于一個(gè)的文本片段中以相同的形 式出現(xiàn)的上下文表達(dá)只被計(jì)數(shù)一次,使得僅考慮不同上下文表達(dá)的數(shù)目。
33. 根據(jù)權(quán)利要求29至32中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,基于在一個(gè)第一表達(dá)或多個(gè)第一表達(dá)在一個(gè)文本片段內(nèi)出現(xiàn)的* 下關(guān)于一個(gè)第二表達(dá)或多個(gè)第二表達(dá)在該文本片段內(nèi)出現(xiàn)的至少一個(gè)條 件概率,或基于這樣的條件概率的近似值,計(jì)算相似性權(quán)重值agw(t^2)。
34. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算方法, 其特征在于,所述條件概率是兩個(gè)條件概率的乘積,或這兩個(gè)條件概率的兩個(gè)近似 值的乘積。
35. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算方法, 其特征在于,所述兩個(gè)條件概率中的一個(gè)將t1在一個(gè)文本片段內(nèi)的出現(xiàn)作為給定條件,另一個(gè)條件概率將t2在一個(gè)文本片段內(nèi)的出現(xiàn)作為給定條件。
36. 根據(jù)權(quán)利要求29至35中的任一項(xiàng)以及根據(jù)權(quán)利要求32所述的 相似性計(jì)算方法,其特征在于,基于歸 一 化的相似性度量occ—con(t,t2)計(jì)算所述相似性權(quán)重值 agw(t1,t2),其中occ—con(tht2)的歸一化借助所述文本片段的集合中出現(xiàn)t 的文本片段的總數(shù)和所述文本片段的集合中出現(xiàn)t2的文本片段的總數(shù)的 乘積來實(shí)現(xiàn)。
37. 根據(jù)權(quán)利要求29至36中的任一項(xiàng)以及根據(jù)權(quán)利要求32所述的 相似性計(jì)算方法,其特征在于,根據(jù)下面的兩個(gè)公式表達(dá)中的一個(gè)計(jì)算相似性權(quán)重值agw(t1,t2):<formula>formula see original document page 10</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 1, 2,其中l(wèi)0CC(tht2)l是在所述文本片段的集合中與表達(dá)& 一起出現(xiàn)在至少 一個(gè)文本片段中、并與表達(dá)t2—起出現(xiàn)在至少一個(gè)文本片段中、且與t1和t2都不對(duì)應(yīng)的不周的上下文表達(dá)的總數(shù)。
38.根據(jù)權(quán)利要求29至37中的任一項(xiàng)以及根據(jù)權(quán)利要求32所述的 相似性計(jì)算方法,其特征在于,相似性權(quán)重值agw(ti,t2)被計(jì)算為根據(jù)前面的權(quán)利要求的公式表達(dá)Fl 和公式表達(dá)F2的乘積
39.根據(jù)權(quán)利要求29至38中的任一項(xiàng)以及根據(jù)權(quán)利要求32所述的 相似性計(jì)算方法,其特征在于, 相似性權(quán)重值agw(ti,t2)被計(jì)算為根據(jù)權(quán)利要求37的公式表達(dá)Fl或 F2之一與公式表達(dá)rel—occ(tht2)的乘積,其中其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 i = l, 2,并且其中l(wèi)occ(tht2)l是文本片段的集合中一起出現(xiàn)^和t2的文本 片段的總數(shù)。
40.根據(jù)權(quán)利要求29至39中的任一項(xiàng)以及根據(jù)權(quán)利要求32所述的 相似性計(jì)算方法,其特征在于,相似性權(quán)重值agw(tht2)被計(jì)算為根據(jù)權(quán)利要求37的公式表達(dá)Fl和 F2以及根據(jù)前一權(quán)利要求的公式表達(dá)F3的乘積,因此有<formula>formula see original document page 11</formula>
41.根據(jù)權(quán)利要求29至40中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,所述文本片段的集合中的至少 一個(gè)文本片段是完整的文本文檔。
42. 根據(jù)權(quán)利要求29至41中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,所述文本片段的集合中的至少 一個(gè)文本片段是文本文檔的 一部分。
43. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算方法, 其特征在于,所述部分是章、分章、文本險(xiǎn)落、句子或句子的在兩個(gè)標(biāo)點(diǎn)符號(hào)之間 的部分,或者所述部分對(duì)應(yīng)于文本文檔的單獨(dú)的、由空^隔的、相繼的 表達(dá)或詞的確定數(shù)目n (具有窗口寬度n的文本窗)。
44. 根據(jù)上一權(quán)利要求所述的相似性計(jì)算方法, 其特征在于,適用3《n《101,優(yōu)選是ll《n《81,優(yōu)選是21《n《61,優(yōu)選是31《n《51, 特別優(yōu)選是n-41。
45. 根據(jù)前兩項(xiàng)權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,所述文本片段的集合中的至少兩個(gè)文本片段互相交疊,即,具有至少 一個(gè)共同片段部分。
46. 根據(jù)權(quán)利要求29至45中的任一項(xiàng)所述的相似性計(jì)算方法, 其特征在于,不考慮大寫/小寫符號(hào)的不同、關(guān)于存在或不存在連字符和/或各相繼 的詞之間的空格的數(shù)目的差異,確定表ii^文本片段中的出現(xiàn)。
47. 根據(jù)上述權(quán)利要求中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似性 計(jì)算方法的用途,用于自動(dòng)地、基于計(jì)算機(jī)地從文本片段的集合中選擇信 息、表iiil概念,并且/或者將信息、表達(dá)或概念結(jié)構(gòu)化。
48. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法在自動(dòng)的、基于計(jì)算機(jī)的詞表構(gòu)建和/或本體構(gòu)建領(lǐng)域的用途。
49. 根據(jù)上一權(quán)利要求的、在詞表和/或本體的概念之間的語義關(guān)系的 構(gòu)建領(lǐng)域的用途。
50. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法在自動(dòng)的、基于計(jì)算機(jī)的文本文檔分類領(lǐng)域的用途。
51. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法在因特網(wǎng)搜索引擎和/或數(shù)據(jù)庫搜索引擎中關(guān)于自動(dòng)的、基于 計(jì)算機(jī)的查詢擴(kuò)展和/或查詢改進(jìn)領(lǐng)域、特別是全自動(dòng)和/或部分自動(dòng)的交互式查詢擴(kuò)展和/或查詢改ii領(lǐng)域的用途。
52. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法在自動(dòng)地、基于計(jì)算M構(gòu)建用于集成不同類型的文本文檔數(shù) 據(jù)庫的語義網(wǎng)絡(luò)領(lǐng)域的用途。
53. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法在自動(dòng)地、基于計(jì)算機(jī)地構(gòu)建針對(duì)主題區(qū)域和/或主題區(qū)域的 內(nèi)^要的簡短描述領(lǐng)域的用途。
54. 根據(jù)權(quán)利要求1至46中的任一項(xiàng)所述的相似性計(jì)算系統(tǒng)或相似 性計(jì)算方法用于自動(dòng)構(gòu)建集成索引和/或搜索索引的用途。
全文摘要
本發(fā)明涉及用于自動(dòng)的、基于計(jì)算機(jī)的文本表達(dá)的相似性加權(quán)的設(shè)備和方法。本發(fā)明的系統(tǒng)或方法包括文檔數(shù)據(jù)庫單元(1)、候選表達(dá)存儲(chǔ)單元(2)、相似性權(quán)重值計(jì)算單元(3),且特征在于,可以基于相似度occ_con(t<sub>1</sub>,t<sub>2</sub>)計(jì)算各表達(dá)對(duì)的相似性權(quán)重值agw(t<sub>1</sub>,t<sub>2</sub>),其中,相似度occ_con(t<sub>1</sub>,t<sub>2</sub>)考慮到一對(duì)表達(dá)的兩個(gè)表達(dá)在若干文本片段的同一個(gè)文本片段內(nèi)使用的總頻率,以及所述若干文本片段中不同上下文表達(dá)的總數(shù)。
文檔編號(hào)G06F17/30GK101361066SQ200680048441
公開日2009年2月4日 申請(qǐng)日期2006年10月26日 優(yōu)先權(quán)日2005年10月27日
發(fā)明者烏爾里?!さ贍? 彼得·范克豪澤, 托馬斯·坎普斯, 陳里波 申請(qǐng)人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
拜城县| 古田县| 汾西县| 新和县| 扬中市| 皮山县| 潜山县| 六枝特区| 若尔盖县| 江达县| 江达县| 香河县| 阜阳市| 井陉县| 天门市| 宜宾市| 叶城县| 米泉市| 中山市| 宁阳县| 梓潼县| 临夏市| 当阳市| 海安县| 台湾省| 云安县| 凤翔县| 铁力市| 新宾| 永春县| 海晏县| 时尚| 通州区| 姚安县| 宣威市| 萨迦县| 文水县| 遵义市| 台北县| 正定县| 海盐县|