本發(fā)明涉及通信網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,為了更方便地、清晰地獲取信息、學(xué)習(xí)知識(shí),更經(jīng)常的使用搜索引擎服務(wù)來(lái)進(jìn)行信息搜索和查詢。在知識(shí)圖譜領(lǐng)域,面臨實(shí)體對(duì)齊的問(wèn)題。所謂實(shí)體對(duì)齊指的是:從不同網(wǎng)頁(yè)中抽取的實(shí)體(概念),如何判斷這些實(shí)體是否是同一個(gè)?!皩?shí)體”可以是現(xiàn)實(shí)中的一個(gè)事物,也可以是一個(gè)概念等等。比如一個(gè)公司就是一個(gè)實(shí)體,一個(gè)術(shù)語(yǔ)也是一個(gè)實(shí)體。不同渠道獲取的數(shù)據(jù)在進(jìn)行調(diào)整和更新時(shí),由于來(lái)自不同的數(shù)據(jù)對(duì)于同一事物的描述方式不同,或者對(duì)于同一事物,不同的數(shù)據(jù)來(lái)源對(duì)其進(jìn)行不同角度的描述,會(huì)出現(xiàn)同一個(gè)事物具有多個(gè)不同版本的數(shù)據(jù)描述,也需要對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)和梳理。
比如從網(wǎng)頁(yè)http://movie.douban.com/subject/24751756/中抽取的實(shí)體中有一個(gè)名為“馮小剛”的實(shí)體,從網(wǎng)頁(yè)http://baike.so.com/doc/1168497-1236034.html中抽取的實(shí)體中也有一個(gè)名為“馮小剛”的實(shí)體,這兩個(gè)實(shí)體是同一個(gè)。
在解決實(shí)體對(duì)齊的問(wèn)題中,很難找到一個(gè)策略保證100%的正確,因此容易把兩個(gè)不同的實(shí)體誤認(rèn)為是同一個(gè)實(shí)體。比如從不同的網(wǎng)頁(yè)中抽出來(lái)的兩個(gè)“成龍”并不是同一個(gè)實(shí)體,一個(gè)為影星成龍,另一個(gè)為動(dòng)漫《成龍歷險(xiǎn)記》中的角色成龍。因?yàn)樗麄兌荚趧?dòng)漫《成龍歷險(xiǎn)記》中出現(xiàn)過(guò)(比如豆瓣網(wǎng)頁(yè)https://movie.douban.com/subject/1933857/中明確標(biāo)出了《成龍歷險(xiǎn)記》的主演直接鏈接到影星成龍的頁(yè)面https://movie.douban.com/celebrity/1054531/,其實(shí)影星成龍?jiān)诖藙?dòng)漫中是配音),如果先前并不知道他們的類(lèi)型(確定類(lèi)型是難度較大的工作,也存在一定的錯(cuò)誤率),往往會(huì)被認(rèn)為是同一個(gè)。
現(xiàn)有技術(shù)中存在如下不足:,往往只能人工的方式來(lái)解決問(wèn)題,例如設(shè)定一些黑名單等,以明確標(biāo)出這些實(shí)體不是同一個(gè)。但人工的方式成本較高,且效率低下。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明的技術(shù)方案以便提供一種克服上述問(wèn)題或者至少部分地解決或者減緩上述問(wèn)題。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法,所述方法包括:
從網(wǎng)頁(yè)中獲取知識(shí)圖譜中的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體;
對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較;
如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體均與所述實(shí)體集合中的同一個(gè)元素相同,則判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,所述實(shí)體集合為百科多義項(xiàng),所述元素為百科多義項(xiàng)中的多義項(xiàng)。
進(jìn)一步的,所述百科多義項(xiàng)包括具有相同名字的兩個(gè)或者兩個(gè)以上的多義項(xiàng)。
進(jìn)一步的,所述對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較包括:
獲取所述實(shí)體的屬性信息;
對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,并對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn);
根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同。
進(jìn)一步的,所述獲取與實(shí)體對(duì)應(yīng)的屬性信息包括:
從網(wǎng)絡(luò)百科中采集各實(shí)體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過(guò)指定閾值的網(wǎng)頁(yè)中采集各實(shí)體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實(shí)體的屬性信息,所述屬性信息包含屬性名和對(duì)應(yīng)的屬性值。
進(jìn)一步的,對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,包括:
在所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中去除錯(cuò)誤的屬性信息;
從所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中,識(shí)別出語(yǔ)義相同的屬性信息;
對(duì)識(shí)別出的語(yǔ)義相同的屬性信息執(zhí)行去重或者歸一化處理。
進(jìn)一步的,所述對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn),包括:
根據(jù)預(yù)設(shè)的校驗(yàn)規(guī)則,判斷經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值是否正確;
若判斷出經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值不正確,在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息中刪除屬性值不正確的屬性信息。
進(jìn)一步的,根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序;
對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;
如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
根據(jù)本發(fā)明的另一方面,提供了一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的裝置,所述裝置包括:
實(shí)體獲取模塊,用于從網(wǎng)頁(yè)中獲取知識(shí)圖譜中的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體;
比較模塊,用于對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較;
判斷模塊,用于根據(jù)比較的結(jié)果進(jìn)行判斷:如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體均與所述實(shí)體集合中的同一個(gè)元素相同,則判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,所述實(shí)體集合為百科多義項(xiàng),所述元素為百科多義項(xiàng)中的多義項(xiàng)。
進(jìn)一步的,所述百科多義項(xiàng)包括具有相同名字的兩個(gè)或者兩個(gè)以上的多義項(xiàng)。
進(jìn)一步的,所述比較模塊包括:
屬性信息獲取單元,用于獲取所述實(shí)體的屬性信息;
預(yù)處理單元,用于對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理;
校驗(yàn)單元,用于對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn);
確定單元,用于根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同。
進(jìn)一步的,所述屬性信息獲取單元包括:
從網(wǎng)絡(luò)百科中采集各實(shí)體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過(guò)指定閾值的網(wǎng)頁(yè)中采集各實(shí)體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實(shí)體的屬性信息,所述屬性信息包含屬性名和對(duì)應(yīng)的屬性值。
進(jìn)一步的,對(duì)預(yù)處理單元包括:
在所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中去除錯(cuò)誤的屬性信息;
從所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中,識(shí)別出語(yǔ)義相同的屬性信息;
對(duì)識(shí)別出的語(yǔ)義相同的屬性信息執(zhí)行去重或者歸一化處理。
進(jìn)一步的,所述校驗(yàn)單元包括:
根據(jù)預(yù)設(shè)的校驗(yàn)規(guī)則,判斷經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值是否正確;
若判斷出經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值不正確,在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息中刪除屬性值不正確的屬性信息。
進(jìn)一步的,所述確定單元進(jìn)一步包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序;
對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;
如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
本發(fā)明的有益效果為:
本發(fā)明提供了一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法和裝置,通過(guò)對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科中的多義項(xiàng)做比較,來(lái)判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否為相同的實(shí)體。本發(fā)明的技術(shù)方案能夠有效解決現(xiàn)有技術(shù)中通過(guò)人工方式解決實(shí)體對(duì)齊的問(wèn)題,不僅節(jié)約了成本,而且能夠大大提高效率。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文具體實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出具體實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1為本發(fā)明的解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法流程圖;
圖2為本發(fā)明的方法中預(yù)處理和校驗(yàn)步驟的示意圖;
圖3為本發(fā)明的方法中確定步驟的示意圖;
圖4為本發(fā)明的解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的裝置示意圖;
圖5為本發(fā)明的裝置中比較模塊的示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體的實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。
圖1為本發(fā)明的解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法流程圖。本實(shí)施例的方法可以由解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的裝置來(lái)執(zhí)行,該裝置可以通過(guò)軟件的方式實(shí)現(xiàn),并集成于搜索引擎客戶端(如360搜索等)所在的終端設(shè)備(例如,筆記本、pad、手機(jī)等)中。
在構(gòu)建知識(shí)圖譜或?qū)χR(shí)圖譜進(jìn)行更新時(shí),在進(jìn)行數(shù)據(jù)融合的過(guò)程中,需要解決實(shí)體對(duì)齊的問(wèn)題,即判斷不同的實(shí)體實(shí)際上是否描述的是同一事物。如圖1所示,本發(fā)明提供了一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的方法,所述方法包括:
S101、從網(wǎng)頁(yè)中獲取知識(shí)圖譜中的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體;
S102、對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較;
S103、如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體均與所述實(shí)體集合中的同一個(gè)元素相同,則判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,所述實(shí)體集合為百科多義項(xiàng),所述百科多義項(xiàng)包括具有相同名字的兩個(gè)或者兩個(gè)以上的多義項(xiàng)。所述百科,包括但不限于360百科、維基百科、互動(dòng)百科、百度百科等網(wǎng)絡(luò)百科數(shù)據(jù)。多義項(xiàng),指百科中包含有兩個(gè)或兩個(gè)以上的義項(xiàng)。百科詞條中,每一個(gè)不同概念意義事物的敘述內(nèi)容稱(chēng)為義項(xiàng)。每一個(gè)義項(xiàng),具有獨(dú)立的義項(xiàng)名、百科名片、基本信息模塊、正文、參考資料等內(nèi)容。義項(xiàng)名是對(duì)詞條名所指代事物作明確識(shí)別的詞組,是義項(xiàng)內(nèi)容說(shuō)明。義項(xiàng)名一般為事物的屬性、從屬關(guān)系等,應(yīng)具有代表性強(qiáng)、認(rèn)知度高、簡(jiǎn)短易識(shí)別的特點(diǎn)。
圖2為本發(fā)明的方法中預(yù)處理和校驗(yàn)步驟的示意圖。
進(jìn)一步的,所述對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較包括:
S201、獲取與實(shí)體對(duì)應(yīng)的屬性信息;
S202、對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,并對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn);
S203、根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同。
進(jìn)一步的,步驟S201具體為:
所述獲取與實(shí)體對(duì)應(yīng)的屬性信息包括:
從網(wǎng)絡(luò)百科中采集各實(shí)體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過(guò)指定閾值的網(wǎng)頁(yè)中采集各實(shí)體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實(shí)體的屬性信息,所述屬性信息包含屬性名和對(duì)應(yīng)的屬性值。
進(jìn)一步的,由于采集到的各實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的來(lái)源眾多且數(shù)據(jù)質(zhì)量不一,因此需要先對(duì)各實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,以提高獲取的屬性信息準(zhǔn)確性。
進(jìn)一步的,所述S202、對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,并對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)具體為:
對(duì)所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理的方法可以包括但不限于:
首先,在所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中去除錯(cuò)誤的屬性信息。然后,從所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中,識(shí)別出語(yǔ)義相同的屬性信息。最后,對(duì)識(shí)別出的語(yǔ)義相同的屬性信息執(zhí)行去重或者歸一化處理。
可以理解得是,在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中可能會(huì)存在錯(cuò)誤的屬性信息,因此有必要對(duì)錯(cuò)誤的屬性信息進(jìn)行清除,以提高知識(shí)圖譜的準(zhǔn)確性。例如,可以基于已有的其他知識(shí)圖譜中實(shí)體與其他實(shí)體的關(guān)系,對(duì)采集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的關(guān)系中的錯(cuò)誤的關(guān)系進(jìn)行識(shí)別,從而對(duì)識(shí)別出的錯(cuò)誤的關(guān)系進(jìn)行去除。
在一個(gè)具體的實(shí)現(xiàn)過(guò)程中,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的描述文本中對(duì)應(yīng)關(guān)系的說(shuō)明,識(shí)別出語(yǔ)義相同的屬性信息?;蛘?,也可以根據(jù)非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的共現(xiàn)數(shù)據(jù),識(shí)別出語(yǔ)義相同的屬性信息?;蛘?,還可以根據(jù)該實(shí)體在其他知識(shí)圖譜中有共同指向的其他實(shí)體的數(shù)目比例數(shù)據(jù),識(shí)別出語(yǔ)義相同的屬性信息。
由于不同結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的屬性信息語(yǔ)義相同但是描述不同,因此,在識(shí)別出語(yǔ)義相同的屬性信息后,對(duì)識(shí)別出的語(yǔ)義相同的屬性信息進(jìn)行去重處理,去除其中一個(gè)屬性信息;或者,也可以進(jìn)行歸一化處理。該歸一化處理可以是以其中一個(gè)屬性信息為準(zhǔn),或者也可以根據(jù)兩個(gè)屬性信息,重新生成一個(gè)屬性信息,將該重新生成的屬性信息作為歸一化處理的結(jié)果,且對(duì)語(yǔ)義相同的兩個(gè)屬性信息進(jìn)行去除。
例如,某人物的綽號(hào)和外號(hào)在語(yǔ)義上是相同的,因此,可以保留綽號(hào),去除外號(hào),或者,也可以保留外號(hào),去除綽號(hào)。再例如,對(duì)于與時(shí)間相關(guān)的實(shí)體,將1999年8月1號(hào)下午3點(diǎn)24分24秒和一九九九年八月一日15點(diǎn)24分24秒進(jìn)行時(shí)間歸一化,標(biāo)準(zhǔn)ISO6801(19990801152424),以供后期進(jìn)行合并。對(duì)于與地點(diǎn)相關(guān)的實(shí)體進(jìn)行地點(diǎn)歸一化處理(例如通過(guò)最大生成樹(shù)算法(MST)),得到地點(diǎn)的標(biāo)準(zhǔn)格式(國(guó)家.省/州/自治區(qū).城市.區(qū).鎮(zhèn),以及經(jīng)緯度)。
去重處理和歸一化處理都是為了在實(shí)體的屬性信息中去除冗余的重復(fù)數(shù)據(jù),減少后續(xù)的數(shù)據(jù)處理量。
在對(duì)各實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理后,還需要對(duì)屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)。
舉例說(shuō)明,對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)的方法可以包括但不限于:
根據(jù)預(yù)設(shè)的校驗(yàn)規(guī)則,判斷經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值是否正確;若判斷出經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值不正確,在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息中刪除屬性值不正確的屬性信息。
可以理解的是,校驗(yàn)規(guī)則中可以定義屬性信息中的屬性值的合理數(shù)值,若屬性信息中的屬性值與合理數(shù)值不符,則該屬性信息的屬性值是錯(cuò)誤的,即該屬性信息屬于錯(cuò)誤數(shù)據(jù),因此需要?jiǎng)h除該屬性信息。
例如,實(shí)體是人物,人物的身高屬性的屬性值不會(huì)超過(guò)2.5米,所以若判斷出某人物的身高屬性的屬性值超過(guò)2.5米,表示該屬性信息是錯(cuò)誤的。或者,又例如,實(shí)體是人物,人物的女兒屬性的屬性值的性別是女性,所以若判斷出某人物的女兒屬性的屬性值的性別是男性,表示該屬性信息是錯(cuò)誤的。
校驗(yàn)步驟的目的是提高屬性信息的準(zhǔn)確性。
另外,還可以在上述數(shù)據(jù)校驗(yàn)之后,再進(jìn)行一次人工數(shù)據(jù)校驗(yàn),以進(jìn)一步提高數(shù)據(jù)準(zhǔn)確性。
圖3為本發(fā)明的方法中確定步驟的示意圖。
進(jìn)一步的,根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同包括:
S301、按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序;
S302、對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;
S303、如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,S301、按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序具體為:對(duì)實(shí)體進(jìn)行對(duì)比,其本質(zhì)是對(duì)其屬性信息進(jìn)行對(duì)比。而屬性信息的區(qū)分度顯然是不同的,因此按照重要性(即區(qū)分度)從高到低的順序?qū)λ鰧傩孕畔⑦M(jìn)行排序,將有利于對(duì)實(shí)體進(jìn)行比較和區(qū)分。
進(jìn)一步的,S302、對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;S303、如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體具體為:
首先對(duì)排序好的屬性信息賦予適當(dāng)?shù)臋?quán)重值。屬性信息不同,則其權(quán)重值也不同。例如,實(shí)體“成龍”的“身份”屬性信息最為重要,其權(quán)重值應(yīng)該最大。相比之下,由于真人的成龍與動(dòng)漫中的成龍的武功都很好,因此該屬性信息對(duì)應(yīng)的權(quán)重值應(yīng)相應(yīng)較小。
如果與百科做比較的實(shí)體具有該屬性信息,則將該屬性信息相應(yīng)的記為1,否則記為0。對(duì)所有預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和之后即可得到從網(wǎng)頁(yè)獲取的實(shí)體與百科的實(shí)體之間的相似度。
當(dāng)然,相似度的計(jì)算方法包括但并不限于上述方法,其他的方法如采用逆文檔頻率的方法也可以得到實(shí)體之間的相似度。
進(jìn)一步的,將計(jì)算得到的相似度與預(yù)定的閾值做比較包括:如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定網(wǎng)頁(yè)獲取的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)均為同一個(gè)實(shí)體,即所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科中的不同的實(shí)體義項(xiàng)相似度大于等于預(yù)定的閾值,則判定兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。此時(shí),可以基于上述相似度的判定結(jié)果對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體進(jìn)行進(jìn)一步區(qū)分。例如:第一個(gè)實(shí)體“成龍”為中國(guó)香港演員、導(dǎo)演;第二個(gè)實(shí)體“成龍”為美國(guó)動(dòng)漫《成龍歷險(xiǎn)記》中的角色。
圖4為本發(fā)明的解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的裝置示意圖;
如圖4所示,本發(fā)明提供了一種解決知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題的裝置,所述裝置包括:
實(shí)體獲取模塊401,用于從網(wǎng)頁(yè)中獲取知識(shí)圖譜中的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體;
比較模塊402,用于對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與指定的實(shí)體集合中的元素做比較;
判斷模塊403,用于根據(jù)比較的結(jié)果進(jìn)行判斷:如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體均與所述實(shí)體集合中的同一個(gè)元素相同,則判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,判斷所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,所述實(shí)體集合為百科多義項(xiàng),所述百科多義項(xiàng)包括具有相同名字的兩個(gè)或者兩個(gè)以上的多義項(xiàng)。所述百科,包括但不限于360百科、維基百科、互動(dòng)百科、百度百科等網(wǎng)絡(luò)百科數(shù)據(jù)。多義項(xiàng),指百科中包含有兩個(gè)或兩個(gè)以上的義項(xiàng)。百科詞條中,每一個(gè)不同概念意義事物的敘述內(nèi)容稱(chēng)為義項(xiàng)。每一個(gè)義項(xiàng),具有獨(dú)立的義項(xiàng)名、百科名片、基本信息模塊、正文、參考資料等內(nèi)容。義項(xiàng)名是對(duì)詞條名所指代事物作明確識(shí)別的詞組,是義項(xiàng)內(nèi)容說(shuō)明。義項(xiàng)名一般為事物的屬性、從屬關(guān)系等,應(yīng)具有代表性強(qiáng)、認(rèn)知度高、簡(jiǎn)短易識(shí)別的特點(diǎn)。
圖5為本發(fā)明的裝置中比較模塊的示意圖。
進(jìn)一步的,所述比較模塊包括:
屬性信息獲取單元501,用于獲取所述實(shí)體的屬性信息;
預(yù)處理單元502,用于對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理;
校驗(yàn)單元503,用于對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn);
確定單元504,用于根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同。
進(jìn)一步的,所述屬性信息獲取單元包括:
從網(wǎng)絡(luò)百科中采集各實(shí)體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過(guò)指定閾值的網(wǎng)頁(yè)中采集各實(shí)體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實(shí)體的屬性信息,所述屬性信息包含屬性名和對(duì)應(yīng)的屬性值。
進(jìn)一步的,由于采集到的各實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的來(lái)源眾多且數(shù)據(jù)質(zhì)量不一,因此需要先對(duì)各實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,以提高獲取的屬性信息準(zhǔn)確性。
進(jìn)一步的,對(duì)所述實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,并對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)具體為:
對(duì)所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理的方法可以包括但不限于:
首先,在所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中去除錯(cuò)誤的屬性信息。然后,從所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中,識(shí)別出語(yǔ)義相同的屬性信息。最后,對(duì)識(shí)別出的語(yǔ)義相同的屬性信息執(zhí)行去重或者歸一化處理。
可以理解得是,在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的屬性信息中可能會(huì)存在錯(cuò)誤的屬性信息,因此有必要對(duì)錯(cuò)誤的屬性信息進(jìn)行清除,以提高知識(shí)圖譜的準(zhǔn)確性。例如,可以基于已有的其他知識(shí)圖譜中實(shí)體與其他實(shí)體的關(guān)系,對(duì)采集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實(shí)體的關(guān)系中的錯(cuò)誤的關(guān)系進(jìn)行識(shí)別,從而對(duì)識(shí)別出的錯(cuò)誤的關(guān)系進(jìn)行去除。
在一個(gè)具體的實(shí)現(xiàn)過(guò)程中,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的描述文本中對(duì)應(yīng)關(guān)系的說(shuō)明,識(shí)別出語(yǔ)義相同的屬性信息?;蛘?,也可以根據(jù)非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的共現(xiàn)數(shù)據(jù),識(shí)別出語(yǔ)義相同的屬性信息?;蛘?,還可以根據(jù)該實(shí)體在其他知識(shí)圖譜中有共同指向的其他實(shí)體的數(shù)目比例數(shù)據(jù),識(shí)別出語(yǔ)義相同的屬性信息。
由于不同結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體的屬性信息語(yǔ)義相同但是描述不同,因此,在識(shí)別出語(yǔ)義相同的屬性信息后,對(duì)識(shí)別出的語(yǔ)義相同的屬性信息進(jìn)行去重處理,去除其中一個(gè)屬性信息;或者,也可以進(jìn)行歸一化處理。該歸一化處理可以是以其中一個(gè)屬性信息為準(zhǔn),或者也可以根據(jù)兩個(gè)屬性信息,重新生成一個(gè)屬性信息,將該重新生成的屬性信息作為歸一化處理的結(jié)果,且對(duì)語(yǔ)義相同的兩個(gè)屬性信息進(jìn)行去除。
例如,某人物的綽號(hào)和外號(hào)在語(yǔ)義上是相同的,因此,可以保留綽號(hào),去除外號(hào),或者,也可以保留外號(hào),去除綽號(hào)。再例如,對(duì)于與時(shí)間相關(guān)的實(shí)體,將1999年8月1號(hào)下午3點(diǎn)24分24秒和一九九九年八月一日15點(diǎn)24分24秒進(jìn)行時(shí)間歸一化,標(biāo)準(zhǔn)ISO6801(19990801152424),以供后期進(jìn)行合并。對(duì)于與地點(diǎn)相關(guān)的實(shí)體進(jìn)行地點(diǎn)歸一化處理(例如通過(guò)最大生成樹(shù)算法(MST)),得到地點(diǎn)的標(biāo)準(zhǔn)格式(國(guó)家.省/州/自治區(qū).城市.區(qū).鎮(zhèn),以及經(jīng)緯度)。
去重處理和歸一化處理都是為了在實(shí)體的屬性信息中去除冗余的重復(fù)數(shù)據(jù),減少后續(xù)的數(shù)據(jù)處理量。
在對(duì)各實(shí)體的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理后,還需要對(duì)屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)。
舉例說(shuō)明,對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息進(jìn)行數(shù)據(jù)校驗(yàn)的方法可以包括但不限于:
根據(jù)預(yù)設(shè)的校驗(yàn)規(guī)則,判斷經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值是否正確;若判斷出經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息的屬性值不正確,在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的屬性信息中刪除屬性值不正確的屬性信息。
可以理解的是,校驗(yàn)規(guī)則中可以定義屬性信息中的屬性值的合理數(shù)值,若屬性信息中的屬性值與合理數(shù)值不符,則該屬性信息的屬性值是錯(cuò)誤的,即該屬性信息屬于錯(cuò)誤數(shù)據(jù),因此需要?jiǎng)h除該屬性信息。
例如,實(shí)體是人物,人物的身高屬性的屬性值不會(huì)超過(guò)2.5米,所以若判斷出某人物的身高屬性的屬性值超過(guò)2.5米,表示該屬性信息是錯(cuò)誤的?;蛘?,又例如,實(shí)體是人物,人物的女兒屬性的屬性值的性別是女性,所以若判斷出某人物的女兒屬性的屬性值的性別是男性,表示該屬性信息是錯(cuò)誤的。
校驗(yàn)步驟的目的是提高屬性信息的準(zhǔn)確性。
另外,還可以在上述數(shù)據(jù)校驗(yàn)之后,再進(jìn)行一次人工數(shù)據(jù)校驗(yàn),以進(jìn)一步提高數(shù)據(jù)準(zhǔn)確性。
進(jìn)一步的,根據(jù)所述與實(shí)體對(duì)應(yīng)的屬性確定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體是否均與所述百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相同包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序;
對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;
如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。
進(jìn)一步的,按照重要性從高到低的順序?qū)Π倏贫嗔x項(xiàng)中的多義項(xiàng)的預(yù)定數(shù)量的所述屬性信息進(jìn)行排序具體為:對(duì)實(shí)體進(jìn)行對(duì)比,其本質(zhì)是對(duì)其屬性信息進(jìn)行對(duì)比。而屬性信息的區(qū)分度顯然是不同的,因此按照重要性(即區(qū)分度)從高到低的順序?qū)λ鰧傩孕畔⑦M(jìn)行排序,將有利于對(duì)實(shí)體進(jìn)行比較和區(qū)分。
進(jìn)一步的,對(duì)預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和以計(jì)算其相似度;如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;否則,判定所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體具體為:
首先對(duì)排序好的屬性信息賦予適當(dāng)?shù)臋?quán)重值。屬性信息不同,則其權(quán)重值也不同。例如,實(shí)體“成龍”的“身份”屬性信息最為重要,其權(quán)重值應(yīng)該最大。相比之下,由于真人的成龍與動(dòng)漫中的成龍的武功都很好,因此該屬性信息對(duì)應(yīng)的權(quán)重值應(yīng)相應(yīng)較小。
如果與百科做比較的實(shí)體具有該屬性信息,則將該屬性信息相應(yīng)的記為1,否則記為0。對(duì)所有預(yù)定數(shù)量的屬性信息進(jìn)行加權(quán)求和之后即可得到從網(wǎng)頁(yè)獲取的實(shí)體與百科的實(shí)體之間的相似度。
當(dāng)然,相似度的計(jì)算方法包括但并不限于上述方法,其他的方法如采用逆文檔頻率的方法也可以得到實(shí)體之間的相似度。
進(jìn)一步的,將計(jì)算得到的相似度與預(yù)定的閾值做比較包括:如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)相似度均大于等于預(yù)定的閾值,則判定網(wǎng)頁(yè)獲取的兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科多義項(xiàng)中的同一個(gè)多義項(xiàng)均為同一個(gè)實(shí)體,即所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為相同的實(shí)體;
否則,如果所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體與百科中的不同的實(shí)體義項(xiàng)相似度大于等于預(yù)定的閾值,則判定兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體為不相同的實(shí)體。此時(shí),可以基于上述相似度的判定結(jié)果對(duì)所述兩個(gè)或兩個(gè)以上具體相同名字的實(shí)體進(jìn)行進(jìn)一步區(qū)分。例如:第一個(gè)實(shí)體“成龍”為中國(guó)香港演員、導(dǎo)演;第二個(gè)實(shí)體“成龍”為美國(guó)動(dòng)漫《成龍歷險(xiǎn)記》中的角色。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上。
本文中所稱(chēng)的“一個(gè)實(shí)施例”、“實(shí)施例”或者“一個(gè)或者多個(gè)實(shí)施例”意味著,結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或者特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。此外,請(qǐng)注意,這里“在一個(gè)實(shí)施例中”的詞語(yǔ)例子不一定全指同一個(gè)實(shí)施例。
在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下被實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱(chēng)。
此外,還應(yīng)當(dāng)注意,本說(shuō)明書(shū)中使用的語(yǔ)言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書(shū)的范圍和精神的情況下,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見(jiàn)的。對(duì)于本發(fā)明的范圍,對(duì)本發(fā)明所做的公開(kāi)是說(shuō)明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書(shū)限定。