專利名稱:一種用在實(shí)體識(shí)別系統(tǒng)中的Web實(shí)體識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)庫(kù)和領(lǐng)域,尤其是涉及一種用在實(shí)體識(shí)別系 統(tǒng)中的Web實(shí)體識(shí)別方法。
背景技術(shù):
在應(yīng)用方面,隨著Web的飛速發(fā)展,Web中蘊(yùn)藏了海量的信息,據(jù)保 守估計(jì),目前整個(gè)Web超過(guò)了 200, 000TB的信息量,而且仍在快速的增 長(zhǎng),而且這些信息覆蓋了現(xiàn)實(shí)世界的各個(gè)領(lǐng)域(比如商業(yè)、娛樂(lè)、體育 等)。這使得Web逐漸成為人們獲取有用信息的最重要的途徑之一。然而 海量的信息也經(jīng)常使得人們不能快速準(zhǔn)確地從Web中發(fā)現(xiàn)自己想要的信 息。如何高效地從當(dāng)前巨大的Web中獲取有用的信息成為人們面臨的一 個(gè)新的挑戰(zhàn)。為了解決這個(gè)問(wèn)題,許多研究者們正在致力于如何用自動(dòng) 化的方法幫助人們完成對(duì)Web中信息有效的獲取。然而,Web中存在著大 量重復(fù)的信息,重復(fù)信息是指不同Web數(shù)據(jù)源對(duì)現(xiàn)實(shí)世界中同一個(gè)實(shí)體 的各自的描述。對(duì)于這些重復(fù)的信息的識(shí)別對(duì)于Web數(shù)據(jù)的集成有著非 常重要的意義,典型的應(yīng)用場(chǎng)景是去重、合并、辨真。去重是指將多個(gè)Web數(shù)據(jù)源描述同一實(shí)體的重復(fù)信息只保留一份。 比如用戶向當(dāng)當(dāng)和卓越兩個(gè)購(gòu)書Web數(shù)據(jù)源查詢有關(guān)"java"的書,并 希望買到最便宜的,這就需要把兩個(gè)Web數(shù)據(jù)源返回的記錄集中表示同 一本書的記錄識(shí)別出來(lái),并選擇出最便宜的。合并是指將多個(gè)Web數(shù)據(jù)源描述同一實(shí)體的信息合并在一起并保留 各自不同的部分。比如用戶從多個(gè)提供人員信息的Web數(shù)據(jù)源查詢某個(gè) 人的信息。每個(gè)Web數(shù)據(jù)源提供人員不同方面的信息,有的Web數(shù)據(jù)源 提供人員工作信息(姓名、性別、年齡、單位名稱、職位、郵箱、單位 地點(diǎn)、單位郵編等),有的提供人員的生活信息(姓名、性別、年齡、籍 貫、家庭電話、家庭住址、血型、配偶等)。這就需要把表示同一人的記 錄識(shí)別出來(lái),并將其合并為同一條記錄從而獲得這個(gè)人的全部信息。辨真是指各個(gè)Web數(shù)據(jù)源對(duì)同一實(shí)體的某個(gè)方法描述并不相同,從中 選擇出真實(shí)的。比如很多Web數(shù)據(jù)源報(bào)道易建聯(lián)年齡的新聞,存在很多 版本(18、 19、 24等)。我們需要從中辨別出哪一個(gè)年齡是真實(shí)的。在技術(shù)方面,由于Web中的數(shù)據(jù)具有高度異質(zhì)(異質(zhì)是指數(shù)據(jù)的不同 表現(xiàn)形式,比如日期不同的書寫格式,姓名的全稱和縮略表達(dá))、規(guī)模大 等特點(diǎn),這使得對(duì)于同一個(gè)實(shí)體的描述,不同的Web數(shù)據(jù)源有著不同的 表達(dá)形式,因而造成實(shí)體識(shí)別在準(zhǔn)確性和效率上存在著很大的難度。目前已經(jīng)提出了許多實(shí)體識(shí)別的方法,但這些方法雖然達(dá)到了較高的 準(zhǔn)確性,但它們主要是針對(duì)少量的特別是兩個(gè)異質(zhì)數(shù)據(jù)源而言,對(duì)于Web 中大量高度異質(zhì)的數(shù)據(jù)源存在嚴(yán)重的效率問(wèn)題。舉個(gè)例子,如果有100 個(gè)Web數(shù)據(jù)源,利用已有的實(shí)體識(shí)別方法需要在其中任意兩個(gè)數(shù)據(jù)源之 間執(zhí)行一次,因此一共需要執(zhí)行(^。。-4950次。為了提供在大規(guī)模Web數(shù)據(jù)源上了實(shí)體識(shí)別的效率問(wèn)題,我們提出的 方法可以一次處理一個(gè)領(lǐng)域(經(jīng)濟(jì)、體育、音樂(lè)等現(xiàn)實(shí)領(lǐng)i或)內(nèi)所有Web 數(shù)據(jù)源。發(fā)明內(nèi)容為了解決上述傳統(tǒng)問(wèn)題,因此本發(fā)明的一個(gè)目的就是提出了 一種用 在實(shí)體識(shí)別系統(tǒng)中的Web實(shí)體識(shí)別方法。在本發(fā)明的一個(gè)方面中, 一種用在實(shí)體識(shí)別系統(tǒng)中的Web實(shí)體識(shí)別 方法,該實(shí)體識(shí)別系統(tǒng)包括輸入模塊、基于領(lǐng)域的屬性分析模塊、實(shí)體 識(shí)別模塊、以及輸出模塊,其特征在于,該方法包括步驟A、輸入記錄 集合;B、分析給定領(lǐng)域內(nèi)所有屬性的相似性計(jì)算規(guī)則以及屬性之間的相 關(guān)性;C、確定任意給定兩個(gè)記錄是否為同一實(shí)體;以及D、輸出實(shí)體集 合。在本發(fā)明的這個(gè)方面中,其中步驟B進(jìn)一步包括步驟Bl、輸入一 個(gè)給定的領(lǐng)域;B2、進(jìn)行基于領(lǐng)域的屬性收集;B3、進(jìn)行屬性分類;B4、 進(jìn)行屬性相似性計(jì)算規(guī)則定義;B5、輸出相似性計(jì)算規(guī)則;B6、進(jìn)行屬 性相關(guān)性分析;以及B7、輸出屬性之間的相關(guān)性模型。在本發(fā)明的這個(gè)方面中,其中步驟B2進(jìn)一步包括步驟B2-l、進(jìn) 行Web數(shù)據(jù)源的收集,從特定網(wǎng)站獲取該領(lǐng)域足夠多的Web數(shù)據(jù)源;B2-2、進(jìn)行屬性的收集,對(duì)于每個(gè)已經(jīng)收集到的Web數(shù)據(jù)源,提取所包含 的所有屬性;以及B2-3、進(jìn)行屬性的合并,把從每個(gè)Web數(shù)據(jù)源獲得的 屬性集合進(jìn)行合并,不同Web數(shù)據(jù)源之間表示同一語(yǔ)義的屬性算作一個(gè)。 在本發(fā)明的這個(gè)方面中,其中在步驟B3中,將屬性分類為有用屬性 和無(wú)用屬性,有用屬性進(jìn)一步分為主碼屬性、過(guò)濾屬性、重要屬性、以 及輔助屬性。在本發(fā)明的這個(gè)方面中,其中在步驟B4中,屬性相似性是指兩個(gè)記 錄在某一個(gè)共同屬性上的相似性。判斷兩個(gè)記錄是否同一實(shí)體,需要綜 合它們?cè)诟鱾€(gè)共同屬性上的相似性來(lái)判斷。在本發(fā)明的這個(gè)方面中,其中對(duì)于屬性相似性由YES、 MAYBE、或N0 三元值來(lái)表示。在本發(fā)明的這個(gè)方面中,其中YES是指兩個(gè)記錄在該屬性上值完全 相同;NO是指兩個(gè)記錄在該屬性上值的語(yǔ)義肯定不同;MAYBE是指兩個(gè) 記錄在該屬性上值由于表現(xiàn)形式不同,無(wú)法確定是否語(yǔ)義相同。在本發(fā)明的這個(gè)方面中,其中在步驟B6中,屬性相關(guān)性分析是指給 定一個(gè)領(lǐng)域的所有屬性,通過(guò)訓(xùn)練的方法得到屬性之間的相關(guān)性。在本發(fā)明的這個(gè)方面中,其中步驟C進(jìn)一步包括步驟Cl、判斷這 兩個(gè)記錄是否共有關(guān)鍵屬性,如果沒(méi)有在則轉(zhuǎn)至步驟C2,如果有相同, 則判斷它們是同一實(shí)體;不同,則判斷它們不是同一實(shí)體;C2、判斷這 兩個(gè)記錄是否共有過(guò)濾屬性,沒(méi)有轉(zhuǎn)至步驟C3,如果有不同,則判斷 它們不是同一實(shí)體;相同,轉(zhuǎn)至步驟C3; C3、考察兩個(gè)記錄共有的重要 屬性,分別計(jì)算在各個(gè)重要屬性上的相似度,相似度分為YES、 MAYBE、 或N0; C4、根據(jù)屬性相關(guān)性,利用屬性相似模型提高在取值MAYBE屬性 上的相似性,使得兩個(gè)記錄在這些屬性上取值也能夠判斷為YES;以及 C5、如果兩個(gè)記錄在所有重要屬性上取值都判斷為YES,那么認(rèn)為兩個(gè)記 錄表示同一實(shí)體。
結(jié)合隨后的附圖,從下面的詳細(xì)說(shuō)明中可顯而易見(jiàn)的得出本發(fā)明的 上述及其他目的、特征及優(yōu)點(diǎn)。在附圖中圖1給出了根據(jù)本發(fā)明的實(shí)體識(shí)別系統(tǒng)的整體框架圖;圖2給出了根據(jù)本發(fā)明的基于領(lǐng)域的屬性分析方法的流程圖;圖3給出了根據(jù)本發(fā)明的基于領(lǐng)域的屬性收集方法的流程圖;圖4給出了根據(jù)本發(fā)明的屬性分類的示意圖;圖5給出了根據(jù)本發(fā)明的屬性相似性規(guī)則的示意圖;圖6給出了根據(jù)本發(fā)明的相關(guān)屬性選擇方法的流程圖;以及圖7給出了根據(jù)本發(fā)明的實(shí)體識(shí)別方法的流程圖。
具體實(shí)施方式
首先,參考圖1,對(duì)根據(jù)本發(fā)明的實(shí)體識(shí)別系統(tǒng)的整體框架圖進(jìn)行說(shuō) 明。圖l給出了根據(jù)本發(fā)明的實(shí)體識(shí)別系統(tǒng)的整體框架圖。如圖1所示,該系統(tǒng)主要包括四個(gè)模塊,即基于領(lǐng)域的屬性分析模 塊、實(shí)體別模塊、輸入模塊、以及輸出模塊。輸入模塊用于輸入記錄集合?;陬I(lǐng)域的屬性分析模塊用于分析給定領(lǐng)域內(nèi)所有屬性的相似性計(jì) 算規(guī)則以及屬性之間的相關(guān)性。實(shí)體識(shí)別模塊用于確定任意給定兩個(gè)記錄是否為同一實(shí)體。 輸出模塊用于輸出實(shí)體集合。下面分別對(duì)基于領(lǐng)域的屬性分析模塊和實(shí)體識(shí)別模塊進(jìn)行更詳細(xì)的 說(shuō)明?;陬I(lǐng)域的屬性分析模塊的功能主要包括:確定屬性相似性的計(jì)算方 法;確定屬性之間的相關(guān)性。如圖2所示,圖2給出了根據(jù)本發(fā)明的基于領(lǐng)域的屬性分析方法的流 程圖。在步驟S201,輸入一個(gè)給定的領(lǐng)域,比如圖書、音樂(lè)、電影等。 在步驟S202,進(jìn)行基于領(lǐng)域的屬性收集,隨后參考圖3對(duì)其進(jìn)行更加詳 細(xì)的說(shuō)明。在步驟S203,進(jìn)行屬性分類,隨后參考圖4對(duì)其進(jìn)行更加詳 細(xì)的說(shuō)明。在步驟S204,進(jìn)行屬性相似性計(jì)算規(guī)則定義,并且在步驟S205, 輸出相似性計(jì)算規(guī)則,隨后參考圖5對(duì)其進(jìn)行更加詳細(xì)的說(shuō)明。此后, 在步驟S206,進(jìn)行屬性相關(guān)性分析,并且在步驟S207,輸出屬性之間的 相關(guān)性模型,隨后參考圖6對(duì)其進(jìn)行更加詳細(xì)的說(shuō)明?,F(xiàn)在參考圖3對(duì)步驟S202進(jìn)行更詳細(xì)的說(shuō)明。圖3給出了根據(jù)本發(fā) 明的基于領(lǐng)域的屬性收集方法的流程圖。在步驟S301,進(jìn)行Web數(shù)據(jù)源的收集,從Complet印lanet網(wǎng)站(畫. Complet印lanet. com )獲取該領(lǐng)域足夠多的Web數(shù)據(jù)源; 在步驟S302,進(jìn)行屬性的收集,對(duì)于每個(gè)已經(jīng)收集到的Web數(shù)據(jù)源,提 取所包含的所有屬性;在步驟S303,進(jìn)行屬性的合并,把從每個(gè)Web數(shù)據(jù)源獲得的屬性集 合進(jìn)行合并,不同Web數(shù)據(jù)源之間表示同一語(yǔ)義的屬性算作一個(gè)。 此后,對(duì)收集到的該領(lǐng)域的所有屬性進(jìn)行分類,首先分為有用屬性和無(wú) 用屬性,有用屬性進(jìn)一步分為主碼屬性、過(guò)濾屬性、重要屬性和輔助屬 性,如圖4所示。圖4給出了根據(jù)本發(fā)明的屬性分類的示意圖。 無(wú)用屬性是指對(duì)實(shí)體識(shí)別不起任何作用的屬性。有用屬性是指對(duì)實(shí)體識(shí)別起作用的屬性。主碼屬性是指僅通過(guò)該屬性即可判斷兩個(gè)記錄是否同一實(shí)體的屬性。過(guò)濾屬性是指通過(guò)該屬性可以判斷兩個(gè)記錄不是同一實(shí)體,但不能 確定是同一實(shí)體。重要屬性:是指通過(guò)該屬性可以提高或降低兩個(gè)記錄是同一實(shí)體的可 能性,但無(wú)法確定。輔助屬性是指通過(guò)該屬性可以提高兩個(gè)記錄是同一實(shí)體的可能性, ^旦無(wú)法確定?,F(xiàn)在參考圖5對(duì)步驟S204進(jìn)行更詳細(xì)的說(shuō)明。圖5給出了根據(jù)本發(fā) 明的屬性相似性規(guī)則的示意圖。屬性相似性是指兩個(gè)記錄在某一個(gè)共同屬性上的相似性。判斷兩個(gè)記 錄是否同一實(shí)體,需要綜合它們?cè)诟鱾€(gè)共同屬性上的相似性來(lái)判斷。對(duì) 于屬性相似性由YES、 MAYBE 、或NO三元值來(lái)表示。YES是指兩個(gè)記錄在 該屬性上值完全相同;NO是指兩個(gè)記錄在該屬性上值的語(yǔ)義肯定不同; MAYBE是指兩個(gè)記錄在該屬性上值由于表現(xiàn)形式不同,無(wú)法確定是否語(yǔ)義 相同。兩個(gè)記錄在一個(gè)屬性上的相似性的計(jì)算由一系列規(guī)則確定,如圖5 所示。令字符級(jí)別規(guī)則是指從字符的角度來(lái)比較2個(gè)屬性值的相似性。 字符級(jí)別的縮寫有兩種形式前綴、前綴后綴組合。
前綴規(guī)則是指一個(gè)屬性值是另一個(gè)的前綴。例如Univ是University的縮寫。 前綴后綴組合MJ'J是指一個(gè)屬性值是另 一個(gè)前綴和后綴的組合。例如Dept是Department的縮寫。令復(fù)數(shù)規(guī)則是指一個(gè)屬性值是另一個(gè)的復(fù)數(shù)形式。例如computers是 computer的復(fù)數(shù)形式。令單詞級(jí)別規(guī)則是指從單詞的角度來(lái)比較2個(gè)屬性值的相似性。 單詞級(jí)別的縮寫有兩種形式單詞前綴串聯(lián)、單詞首字母組合。
前綴串聯(lián)規(guī)則是指一個(gè)屬性是另 一個(gè)屬性單詞前綴的串聯(lián)。例如 Caltech是California Institute of Technology的縮寫。 *首字母組合規(guī)則是指一個(gè)屬性是另一個(gè)屬性的單詞的首字母組合。例 如UCSD是University of California, San Diege的縮寫。 令添詞規(guī)則是指一個(gè)屬性是另一個(gè)屬性全部單詞的一部分,并且保持原 來(lái)順序。例如 "Computer Science University California, San Diege" 與,'Department of Computer Science in University of California, San Diege,'。 重置規(guī)則是指一個(gè)屬性與另 一個(gè)屬性包含的單詞完全相同,但出現(xiàn)順 序不同。例如 "Michael Jordan"和"Jordan Michael"。對(duì)于每個(gè)屬性的相似性計(jì)算通常需要一個(gè)或多個(gè)規(guī)則。屬性相關(guān)性 分析是指給定一個(gè)領(lǐng)域的所有屬性,通過(guò)訓(xùn)練的方法得到屬性之間的相 關(guān)性。屬性的相關(guān)性是指根據(jù)一個(gè)屬性相似性來(lái)推斷另一個(gè)屬性的相似 性。比如兩本圖書記錄,如果它們?cè)跁麑傩陨鲜窍嗤?,那么在作?屬性上相同的可能性也非常高。從一個(gè)給定的屬性集合中選擇相關(guān)的屬性,方法如圖6所示。在步驟 S601,進(jìn)行屬性過(guò)濾。在步驟S602,進(jìn)行相關(guān)屬性選擇。在步驟S603, 輸出屬性相關(guān)性模型。技術(shù)細(xì)節(jié)可以參看文獻(xiàn)《Searching for Interacting Features》 (hup: //www. i jcai. org/papers07/contents. php )。下面對(duì)實(shí)體識(shí)別模塊進(jìn)行更詳細(xì)的說(shuō)明。該實(shí)體識(shí)別模塊的功能是 給定一個(gè)記錄集合,利用屬性相似性判斷規(guī)則得到任意兩個(gè)記錄在各個(gè) 屬性上的相似性,進(jìn)一步利用屬性相關(guān)性模型判斷這兩個(gè)記錄是否同一 實(shí)體,重復(fù)這個(gè)過(guò)程直到所有記錄處理完畢。流程如圖7所示,圖7給出了根據(jù)本發(fā)明的實(shí)體識(shí)別方法的流程圖。在步驟S701,判斷這兩個(gè)記錄是否共有關(guān)鍵屬性,如果沒(méi)有在則轉(zhuǎn) 至步驟S702,如果有相同,則判斷它們是同一實(shí)體;不同,則判斷它 們不是同一實(shí)體。在步驟S702,判斷這兩個(gè)記錄是否共有過(guò)濾屬性,沒(méi)有轉(zhuǎn)至步驟 S703,如果有不同,則判斷它們不是同一實(shí)體;相同,轉(zhuǎn)至步驟S703。在步驟S703,考察兩個(gè)記錄共有的重要屬性,分別計(jì)算在各個(gè)重要 屬性上的相似度,相似度分為YES、 MAYBE、或NO。在步驟S704,根據(jù)屬性相關(guān)性,利用屬性相似模型提高在取值MAYBE 屬性上的相似性,使得兩個(gè)記錄在這些屬性上取值也能夠判斷為YES。在步驟S705,如果兩個(gè)記錄在所有重要屬性上取值都判斷為YES, 那么認(rèn)為兩個(gè)記錄表示同一實(shí)體。從以上描述可知,提出基于領(lǐng)域的實(shí)體識(shí)別方法和系統(tǒng)。系統(tǒng)的輸 入是大量屬于一個(gè)領(lǐng)域內(nèi)的來(lái)自不同Web數(shù)據(jù)源的記錄,每個(gè)記錄表示 現(xiàn)實(shí)世界的一個(gè)實(shí)體。系統(tǒng)的輸出是若干記錄集合,每個(gè)集合內(nèi)的記錄 表示同一實(shí)體。我們的方法與以往方法最大的不同,就是可以處理來(lái)自 同一領(lǐng)域的任意兩個(gè)記錄,不局限于特定的凄t據(jù)源。對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)可顯而易見(jiàn)的得出其他優(yōu)點(diǎn)和修改。體說(shuō)明及示例性實(shí)施例。因此,在不脫離由隨后權(quán)利要求及其等價(jià)體所 定義的一般發(fā)明構(gòu)思的精神和范圍的情況下,可對(duì)其做出各種修改。
權(quán)利要求
1、一種用在實(shí)體識(shí)別系統(tǒng)中的Web實(shí)體識(shí)別方法,該實(shí)體識(shí)別系統(tǒng)包括輸入模塊、基于領(lǐng)域的屬性分析模塊、實(shí)體識(shí)別模塊、以及輸出模塊,其特征在于,該方法包括步驟A、輸入記錄集合;B、分析給定領(lǐng)域內(nèi)所有屬性的相似性計(jì)算規(guī)則以及屬性之間的相關(guān)性;C、確定任意給定兩個(gè)記錄是否為同一實(shí)體;以及D、輸出實(shí)體集合。
2、 根據(jù)權(quán)利要求1的方法,其中步驟B進(jìn)一步包括步驟 Bl、輸入一個(gè)給定的領(lǐng)域;B2、進(jìn)行基于領(lǐng)域的屬性收集;B3、進(jìn)行屬性分類;B4、進(jìn)行屬性相似性計(jì)算規(guī)則定義;B5、輸出相似性計(jì)算規(guī)則;B6、進(jìn)行屬性相關(guān)性分析;以及B7、輸出屬性之間的相關(guān)性模型。
3、 根據(jù)權(quán)利要求2的方法,其中步驟B2進(jìn)一步包括步驟B2 - 1、進(jìn)行Web數(shù)據(jù)源的收集,從特定網(wǎng)站獲取該領(lǐng)域足夠多的Web 數(shù)據(jù)源;B2-2、進(jìn)行屬性的收集,對(duì)于每個(gè)已經(jīng)收集到的Web數(shù)據(jù)源,提取 所包含的所有屬性;以及B2-3、進(jìn)行屬性的合并,把從每個(gè)Web數(shù)據(jù)源獲得的屬性集合進(jìn)行 合并,不同Web數(shù)據(jù)源之間表示同一語(yǔ)義的屬性算作一個(gè)。
4、 根據(jù)權(quán)利要求2的方法,其中在步驟B3中,將屬性分類為有用屬性 和無(wú)用屬性,有用屬性進(jìn)一步分為主碼屬性、過(guò)濾屬性、重要屬性、 以及輔助屬性。
5、 根據(jù)權(quán)利要求2的方法,其中在步驟B4中,屬性相似性是指兩個(gè)記 錄在某一個(gè)共同屬性上的相似性。判斷兩個(gè)記錄是否同一實(shí)體,需要 綜合它們?cè)诟鱾€(gè)共同屬性上的相似性來(lái)判斷。
6、 根據(jù)權(quán)利要求5的方法,其中對(duì)于屬性相似性由YES、 MAYBE、或N0 三元值來(lái)表示。
7、 根據(jù)權(quán)利要求6的方法,其中YES是指兩個(gè)記錄在該屬性上值完全相同;NO是指兩個(gè)記錄在該屬性上值的語(yǔ)義肯定不同;MAYBE是指兩個(gè)記錄在該屬性上值由于表現(xiàn)形式不同,無(wú)法確定是否語(yǔ)義相同。
8、 根據(jù)權(quán)利要求2的方法,其中在步驟B6中,屬性相關(guān)性分析是指給 定一個(gè)領(lǐng)域的所有屬性,通過(guò)訓(xùn)練的方法得到屬性之間的相關(guān)性。
9、 根據(jù)權(quán)利要求2的方法,其中步驟C進(jìn)一步包括步驟Cl、判斷這兩個(gè)記錄是否共有關(guān)鍵屬性,如果沒(méi)有在則轉(zhuǎn)至步驟C2, 如果有相同,則判斷它們是同一實(shí)體;不同,則判斷它們不是同 一實(shí)體;C2、判斷這兩個(gè)記錄是否共有過(guò)濾屬性,沒(méi)有轉(zhuǎn)至步驟C3,如果有 不同,則判斷它們不是同一實(shí)體;相同,轉(zhuǎn)至步驟C3; C3、考察兩個(gè)記錄共有的重要屬性,分別計(jì)算在各個(gè)重要屬性上的 相似度,相似度分為YES、 MAYBE、或N0;C4、根據(jù)屬性相關(guān)性,利用屬性相似模型提高在取值MAYBE屬性上 的相似性,使得兩個(gè)記錄在這些屬性上取值也能夠判斷為YES;以及 C5、如果兩個(gè)記錄在所有重要屬性上取值都判斷為YES,那么認(rèn)為兩 個(gè)記錄表示同一實(shí)體。
全文摘要
一種用在實(shí)體識(shí)別系統(tǒng)中的Web實(shí)體識(shí)別方法,該實(shí)體識(shí)別系統(tǒng)包括輸入模塊、基于領(lǐng)域的屬性分析模塊、實(shí)體識(shí)別模塊、以及輸出模塊,其特征在于,該方法包括步驟A.輸入記錄集合;B.分析給定領(lǐng)域內(nèi)所有屬性的相似性計(jì)算規(guī)則以及屬性之間的相關(guān)性;C.確定任意給定兩個(gè)記錄是否為同一實(shí)體;以及D.輸出實(shí)體集合。
文檔編號(hào)G06F17/30GK101226547SQ20081005610
公開(kāi)日2008年7月23日 申請(qǐng)日期2008年1月11日 優(yōu)先權(quán)日2008年1月11日
發(fā)明者凌妍妍, 偉 劉, 孟小峰 申請(qǐng)人:孟小峰