欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法

文檔序號(hào):6639524閱讀:502來(lái)源:國(guó)知局
一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,主要用于處理圖書(shū)領(lǐng)域的本體匹配問(wèn)題。本發(fā)明首先對(duì)于給定的兩個(gè)圖書(shū)本體生成所有待匹配的實(shí)例對(duì)與概念對(duì),再利用啟發(fā)式實(shí)例匹配規(guī)則與基于監(jiān)督學(xué)習(xí)的決策模型從所有待匹配的實(shí)例對(duì)中挖掘?qū)嵗g的等價(jià)關(guān)系,即得到實(shí)例匹配結(jié)果。然后對(duì)于所有待匹配的概念對(duì)使用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播算法挖掘概念間的上下位與等價(jià)關(guān)系,從而得到概念匹配結(jié)果。最終,將實(shí)例匹配結(jié)果與概念匹配結(jié)果共同作為圖書(shū)本體匹配的結(jié)果。
【專(zhuān)利說(shuō)明】一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于本體匹配領(lǐng)域,涉及一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法。

【背景技術(shù)】
[0002] 近年來(lái),隨著語(yǔ)義萬(wàn)維網(wǎng)的不斷發(fā)展,越來(lái)越多的知識(shí)以本體的形式發(fā)布在萬(wàn)維 網(wǎng)中。本體作為一種新的且具有代表性的知識(shí)表現(xiàn)形式,在語(yǔ)義萬(wàn)維網(wǎng)的發(fā)展與部署中扮 演著不可忽視的作用,越來(lái)越多的組織及個(gè)人構(gòu)建不同領(lǐng)域的基于本體的應(yīng)用,包括電子 商務(wù)、生命科學(xué)、社交媒體、地理信息等。隨著互聯(lián)網(wǎng)中本體數(shù)量的不斷增加,必然存在多個(gè) 本體來(lái)源于相關(guān)或相同的應(yīng)用領(lǐng)域。由于來(lái)源于相關(guān)或相同領(lǐng)域的不同本體的構(gòu)建方式不 同,必然具有很大的信息互補(bǔ)性,這樣對(duì)于使用不同但相關(guān)的本體構(gòu)建而成的應(yīng)用而言,隱 含了很大的交互空間。所以,使用本體匹配技術(shù)將相關(guān)本體聯(lián)系在一起是一件極富意義而 且極具挑戰(zhàn)的工作。
[0003] 由于本體的構(gòu)建方式不同,因此語(yǔ)義異構(gòu)的問(wèn)題是本體匹配技術(shù)所面對(duì)的最大的 挑戰(zhàn)。近年來(lái),國(guó)內(nèi)外研宄人員為了解決本體匹配中的語(yǔ)義異構(gòu)問(wèn)題,許多實(shí)用系統(tǒng)被研制 而成,包括東南大學(xué)的Falcon系統(tǒng)、Lily系統(tǒng),卡爾斯魯厄大學(xué)的FOM系統(tǒng)、APFEL系統(tǒng), 清華大學(xué)與香港科技大學(xué)的RMOM系統(tǒng),以及伊利諾伊大學(xué)的GLUE系統(tǒng)等。但是目前并未 出現(xiàn)針對(duì)圖書(shū)領(lǐng)域的本體匹配系統(tǒng),僅僅使用領(lǐng)域無(wú)關(guān)的本體匹配系統(tǒng)來(lái)對(duì)圖書(shū)領(lǐng)域的本 體進(jìn)行匹配,無(wú)法分析與挖掘出圖書(shū)領(lǐng)域本體固有的特點(diǎn),因此匹配效果并不盡如人意,達(dá) 不到實(shí)用要求。
[0004] 本文中提出的基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,分析圖書(shū)本體中所固有的屬性 特征,使用了啟發(fā)式實(shí)例匹配規(guī)則與基于監(jiān)督學(xué)習(xí)的決策模型進(jìn)行實(shí)例匹配。在實(shí)例匹配 完成的基礎(chǔ)之上。定義了概念間的不對(duì)稱(chēng)的字符串相似度、相關(guān)概念集合相似度、相關(guān)概念 向量相似度、文本上下文相似度以及實(shí)例集合相似度作為每個(gè)概念對(duì)的特征,再使用基于 半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播算法進(jìn)行概念匹配,從而完成圖書(shū)領(lǐng)域本體匹配的任務(wù)。


【發(fā)明內(nèi)容】

[0005] 技術(shù)問(wèn)題:本發(fā)明提供一種對(duì)于給定的兩個(gè)圖書(shū)本體,不僅能夠自動(dòng)挖掘不同圖 書(shū)本體中實(shí)例間的等價(jià)關(guān)系,而且可以挖掘不同圖書(shū)本體中概念間的上下位與等價(jià)關(guān)系的 基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法。
[0006] 技術(shù)方案:本發(fā)明的基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,首先從給定的兩個(gè)圖書(shū) 本體中抽取出待匹配的實(shí)例對(duì)與概念對(duì);對(duì)于所有實(shí)例對(duì),順序使用啟發(fā)式實(shí)例匹配規(guī)則 與基于監(jiān)督學(xué)習(xí)的決策模型進(jìn)行實(shí)例間等價(jià)關(guān)系的判斷;然后為所有待匹配的概念對(duì)生 成反向概念對(duì),再利用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播算法進(jìn)行概念間上下位與等價(jià)關(guān)系的判 斷;從而獲得所有實(shí)例匹配與概念匹配的結(jié)果。
[0007] 本發(fā)明的基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,包括如下步驟:
[0008] 1)分別遍歷兩個(gè)給定待匹配圖書(shū)本體的實(shí)例集合與概念集合,生成待匹 配實(shí)例對(duì)集合IP與待匹配的概念對(duì)集合CP,其中IP= {(In,I21),(In,I22),… ,(I11,I2111),(I12,I21),…(I12,I2111),…,(II(n-1),I2111),(IIn,I21),…,(IIn,I2111)},CP- {(C11,C21),(Cn,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1(H),C2t),(Cls,C21),… ,(Cls,C2t)},1"與Clk分別為第一個(gè)圖書(shū)本體的實(shí)例與概念,ie{1,2,…,n},ke{1,2,… ,s},η與s分別為第一個(gè)圖書(shū)本體中實(shí)例與概念的總量,&_與C21)分別為第二個(gè)圖書(shū)本體 的實(shí)例與概念,je{1,2,…,m},ρe{1,2,…,t},m與t分別為第二個(gè)圖書(shū)本體中實(shí)例與 概念的總量,(Ili,I2j)為待匹配實(shí)例對(duì),(Clk,C2p)為待匹配的概念對(duì);
[0009] 2)對(duì)于所述步驟1)中生成的所有待匹配的實(shí)例對(duì),利用啟發(fā)式實(shí)例匹配規(guī)則與 基于監(jiān)督學(xué)習(xí)的決策模型進(jìn)行實(shí)例匹配,匹配過(guò)程如下:
[0010] 2a)對(duì)所有待匹配實(shí)例對(duì),利用如下啟發(fā)式實(shí)例匹配規(guī)則進(jìn)行關(guān)系的判斷:如果 待匹配的一對(duì)實(shí)例均具有國(guó)際標(biāo)準(zhǔn)書(shū)號(hào),則進(jìn)一步判斷兩者的國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)是否相同,若 相同,則判定兩實(shí)例等價(jià),若不同,則判定不等價(jià);若待匹配的一對(duì)實(shí)例的國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)有 缺失,則認(rèn)為無(wú)法判定該實(shí)例對(duì)之間是否存在等價(jià)關(guān)系;
[0011] 完成對(duì)所有待匹配實(shí)例對(duì)的上述判斷后,若存在無(wú)法判定關(guān)系的實(shí)例對(duì),則進(jìn)入 步驟2b),否則實(shí)例匹配結(jié)束,進(jìn)入步驟3);
[0012] 2b)從判定出關(guān)系的實(shí)例對(duì)中進(jìn)行抽樣,并提取圖書(shū)實(shí)例的有效特征,包括:書(shū) 名、作者、譯者、出版社、頁(yè)數(shù)、開(kāi)本、出版時(shí)間、原始定價(jià),用于訓(xùn)練基于監(jiān)督學(xué)習(xí)的決策模 型,進(jìn)而將無(wú)法判定關(guān)系的實(shí)例對(duì)的有效特征輸入所述基于監(jiān)督學(xué)習(xí)的決策模型,得出各 實(shí)例對(duì)的兩個(gè)實(shí)例之間是否存在等價(jià)關(guān)系;
[0013] 3)對(duì)于所述步驟1)中生成的所有待匹配的概念對(duì),利用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽 傳播算法進(jìn)行概念匹配,匹配過(guò)程如下:
[0014] 3a)將每個(gè)待匹配的概念對(duì)(Clk,C2p)作為正向概念對(duì),為其生成反向概念對(duì) (C2P,Clk);
[0015] 3b)分別為每個(gè)正向概念對(duì)和每個(gè)反向概念對(duì)構(gòu)造不對(duì)稱(chēng)的字符串相似度、相關(guān) 概念集合相似度、相關(guān)概念向量相似度、文本上下文相似度、實(shí)例集合相似度,作為其自身 的特征;
[0016] 3c)針對(duì)所有正向概念對(duì)和反向概念對(duì),利用顯式圖書(shū)概念間上下位關(guān)系匹配規(guī) 則挖掘出上下位關(guān)系和非上下位關(guān)系,對(duì)并對(duì)其添加標(biāo)簽作為已標(biāo)注概念對(duì),然后將所有 正反向概念對(duì)作為節(jié)點(diǎn)構(gòu)建一個(gè)完全圖,再根據(jù)所述步驟3b)中得到的正向概念對(duì)的特征 和反向概念對(duì)的特征計(jì)算所有節(jié)點(diǎn)間邊的權(quán)重,最后利用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播算法 判斷每個(gè)正向概念對(duì)的兩個(gè)概念之間,以及每個(gè)反向概念對(duì)的兩個(gè)概念之間是否存在上下 位關(guān)系,若一個(gè)正向概念對(duì)(Clk,C2p)的兩個(gè)概念之間,以及其反向概念對(duì)(C2p,Clk)的兩個(gè) 概念之間均存在上下位關(guān)系,則判定概念Clk與C2p間為等價(jià)關(guān)系;
[0017] 4)將所述步驟2)中生成的實(shí)例匹配結(jié)果與所述步驟3)中生成的概念匹配結(jié)果, 共同作為最終的圖書(shū)本體的匹配結(jié)果。
[0018] 本發(fā)明方法的優(yōu)選方案中,所述步驟3b)中按照如下方法為每個(gè)正向概念對(duì)和每 個(gè)反向概念對(duì)構(gòu)造不對(duì)稱(chēng)的字符串相似度、相關(guān)概念集合相似度、相關(guān)概念向量相似度、文 本上下文相似度、實(shí)例集合相似度:
[0019] 1)字符串相似度:給定一個(gè)概念對(duì)(Clk,C2p),概念Clk與C2p之間的字符串相似度 CLsim(Clk,C2p)的定義如下所示:
[0020]

【權(quán)利要求】
1. 一種基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,其特征在于,該方法包括如下步驟: 1) 分別遍歷兩個(gè)給定待匹配圖書(shū)本體的實(shí)例集合與概念集合,生成待匹配實(shí)例對(duì)集
一個(gè)圖書(shū)本體的實(shí)例與概念,ie{1,2,…,n},kG{1,2,…,s},n與s分別為第一個(gè)圖書(shū)本 體中實(shí)例與概念的總量,12」與C2p分別為第二個(gè)圖書(shū)本體的實(shí)例與概念,jG{1,2,…,m}, pG{1,2,…,t},m與t分別為第二個(gè)圖書(shū)本體中實(shí)例與概念的總量,(In,I2j)為待匹配實(shí) 例對(duì),(Clk,C2P)為待匹配的概念對(duì); 2) 對(duì)于所述步驟1)中生成的所有待匹配的實(shí)例對(duì),利用啟發(fā)式實(shí)例匹配規(guī)則與基于 監(jiān)督學(xué)習(xí)的決策模型進(jìn)行實(shí)例匹配,匹配過(guò)程如下: 2a)對(duì)所有待匹配實(shí)例對(duì),利用如下啟發(fā)式實(shí)例匹配規(guī)則進(jìn)行關(guān)系的判斷:如果待匹 配的一對(duì)實(shí)例均具有國(guó)際標(biāo)準(zhǔn)書(shū)號(hào),則進(jìn)一步判斷兩者的國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)是否相同,若相同, 則判定兩實(shí)例等價(jià),若不同,則判定不等價(jià);若待匹配的一對(duì)實(shí)例的國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)有缺失, 則認(rèn)為無(wú)法判定該實(shí)例對(duì)之間是否存在等價(jià)關(guān)系; 完成對(duì)所有待匹配實(shí)例對(duì)的上述判斷后,若存在無(wú)法判定關(guān)系的實(shí)例對(duì),則進(jìn)入步驟 2b),否則實(shí)例匹配結(jié)束,進(jìn)入步驟3); 2b)從判定出關(guān)系的實(shí)例對(duì)中進(jìn)行抽樣,并提取圖書(shū)實(shí)例的有效特征,包括:書(shū)名、作 者、譯者、出版社、頁(yè)數(shù)、開(kāi)本、出版時(shí)間、原始定價(jià),用于訓(xùn)練基于監(jiān)督學(xué)習(xí)的決策模型,進(jìn) 而將無(wú)法判定關(guān)系的實(shí)例對(duì)的有效特征輸入所述基于監(jiān)督學(xué)習(xí)的決策模型,得出各實(shí)例對(duì) 的兩個(gè)實(shí)例之間是否存在等價(jià)關(guān)系; 3) 對(duì)于所述步驟1)中生成的所有待匹配的概念對(duì),利用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播 算法進(jìn)行概念匹配,匹配過(guò)程如下: 3a)將每個(gè)待匹配的概念對(duì)(Clk,C2p)作為正向概念對(duì),為其生成反向概念對(duì)(C2p,Clk); 3b)分別為每個(gè)正向概念對(duì)和每個(gè)反向概念對(duì)構(gòu)造不對(duì)稱(chēng)的字符串相似度、相關(guān)概念 集合相似度、相關(guān)概念向量相似度、文本上下文相似度、實(shí)例集合相似度,作為其自身的特 征; 3c)針對(duì)所有正向概念對(duì)和反向概念對(duì),利用顯式圖書(shū)概念間上下位關(guān)系匹配規(guī)則挖 掘出上下位關(guān)系和非上下位關(guān)系,對(duì)并對(duì)其添加標(biāo)簽作為已標(biāo)注概念對(duì),然后將所有正反 向概念對(duì)作為節(jié)點(diǎn)構(gòu)建一個(gè)完全圖,再根據(jù)所述步驟3b)中得到的正向概念對(duì)的特征和反 向概念對(duì)的特征計(jì)算所有節(jié)點(diǎn)間邊的權(quán)重,最后利用基于半監(jiān)督學(xué)習(xí)的標(biāo)簽傳播算法判斷 每個(gè)正向概念對(duì)的兩個(gè)概念之間,以及每個(gè)反向概念對(duì)的兩個(gè)概念之間是否存在上下位關(guān) 系,若一個(gè)正向概念對(duì)(Clk,C2p)的兩個(gè)概念之間,以及其反向概念對(duì)(C2p,Clk)的兩個(gè)概念 之間均存在上下位關(guān)系,則判定概念Clk與C2P間為等價(jià)關(guān)系; 4) 將所述步驟2)中生成的實(shí)例匹配結(jié)果與所述步驟3)中生成的概念匹配結(jié)果,共同 作為最終的圖書(shū)本體的匹配結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,其特征在于,所述步驟 3b)中按照如下方法為每個(gè)正向概念對(duì)和每個(gè)反向概念對(duì)構(gòu)造不對(duì)稱(chēng)的字符串相似度、相 關(guān)概念集合相似度、相關(guān)概念向量相似度、文本上下文相似度、實(shí)例集合相似度: 1) 字符串相似度:給定一個(gè)概念對(duì)(clk,c2p),概念clk與c2p之間的字符串相似度 CLsim(Clk,C2p)的定義如下所示:
其中1 (Clk)是Clk的標(biāo)簽字符串,11(Clk) |是Clk的標(biāo)簽字符串長(zhǎng)度,而LCS(1 (Clk),1 (C2p))表示1 (Clk)與1 (C2p)的最長(zhǎng)公共子串的長(zhǎng)度; 2) 相關(guān)概念集合相似度:給定任意一個(gè)概念C,將其概念標(biāo)簽1(C)提交到百度知道后, 收集返回的前十頁(yè)面中的所有相關(guān)問(wèn)題,然后抽取這些問(wèn)題所關(guān)聯(lián)的分類(lèi),將這些分類(lèi)構(gòu) 成了概念C的一組相關(guān)概念RCS(C),RCS(C) = {rCi,rc2,…,rcj,其中rcx是第X個(gè)相關(guān)概 念,對(duì)應(yīng)給定的概念對(duì)(Clk,C2p),概念Clk與C2p之間的相關(guān)概念集合相似度RCSsim(Clk,C2p) 的定義如下所示:
其中|RCS(Clk)nRCS(C2p) |指Clk與C2p的相關(guān)概念集合的交集的大小,而|RCS(Clk) 表不clk的相關(guān)概念集合的大??; 3) 相關(guān)概念向量相似度:定義概念C的相關(guān)概念向量RCV(C),RCV(C)= 〈rcJC),rc2(C),…,rcn(C)>,其中rcy(C)表示第y個(gè)相關(guān)概念rcy出現(xiàn)的次數(shù);對(duì)于給定一 個(gè)概念對(duì)(Clk,C2p),概念Clk與C2p之間的相關(guān)概念向量相似度RCVsim(Clk,C2p)的定義如下 所示:
4) 文本上下文相似度:對(duì)于給定的任意一個(gè)概念C,首先將其標(biāo)簽1(C)作為關(guān)鍵詞提 交到搜索引擎,將返回的前二十個(gè)搜索結(jié)果作為C的文本上下文并進(jìn)行分詞與去停用詞處 理,最后采用詞頻-逆向文件頻率方法對(duì)得到的每個(gè)詞組u進(jìn)行加權(quán),u的權(quán)重wu的計(jì)算公 式如下所示:
其中tfu指u在其文本上下文中的出現(xiàn)次數(shù),dfu是包含u的文本上下文的數(shù)量,而N為文本上下文的總數(shù); 定義概念C的文本上下文向量為T(mén)C(C) =〈wJChwJC), --?,》"(〇>,其中第v個(gè)詞 組TC(C)V的權(quán)重是《^〇,n是所有概念的文本上下文進(jìn)行分詞與去停用詞處理后的詞 組的總量;對(duì)于給定的一個(gè)概念對(duì)(Clk,C2p),概念Clk與C2p之間的文本上下文的相似度 TCsim(Clk,C2p)的定義如下所示:
5)實(shí)例集合相似度:此處定義概念C的實(shí)例集合為IS(C),利用兩個(gè)不同圖書(shū)本體的實(shí) 例匹配后得到的屬于不同圖書(shū)本體的等價(jià)實(shí)例,根據(jù)下式得到給定的概念對(duì)(Clk,C2p)中概 念Clk與C2p之間的實(shí)例集合相似度ISsim(Clk,C2p):
其中|is(clk)nis(c2p) |指clk與c2p的實(shí)例集合的交集,即等價(jià)實(shí)例的數(shù)量,而IS(Clk)I表示clk的實(shí)例集合的大小。
3.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的圖書(shū)本體匹配方法,其特征在于,所述步驟 3c)中的上下位關(guān)系匹配規(guī)則為: 1) 當(dāng)一個(gè)圖書(shū)概念Clk字符串是另一個(gè)圖書(shū)概念C2P的字符串的后綴,并且C2P中不包 含"與"、"和"、"&"符號(hào)時(shí),則判定C2P是Clk的子概念; 2) 當(dāng)一個(gè)圖書(shū)概念C2P包含"與"或"和"或"&"符號(hào)時(shí),以這些符號(hào)作為分隔符對(duì)C2P 進(jìn)行分詞,若分詞后得到的詞組中有一個(gè)詞與圖書(shū)概念Clk的字符串完全相同,則判定Clk是 c2p的子概念; 3) 分別計(jì)算給定的一個(gè)圖書(shū)概念對(duì)(Clk,C2p)的兩個(gè)概念間的不對(duì)稱(chēng)的字符串相似度、 相關(guān)概念集合相似度、相關(guān)概念向量相似度、文本上下文相似度、實(shí)例集合相似度,若得到 的上述五種相似度均小于0. 5時(shí),則判定這兩個(gè)圖書(shū)概念間不存在上下位關(guān)系。
【文檔編號(hào)】G06F17/30GK104484433SQ201410799922
【公開(kāi)日】2015年4月1日 申請(qǐng)日期:2014年12月19日 優(yōu)先權(quán)日:2014年12月19日
【發(fā)明者】吳天星, 漆桂林, 羅斌, 陸彬 申請(qǐng)人:東南大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
孝义市| 肃宁县| 平利县| 兴仁县| 宾川县| 宾川县| 保靖县| 宁城县| 古田县| 温宿县| 香河县| 新源县| 元朗区| 尼勒克县| 北辰区| 裕民县| 武鸣县| 从化市| 琼结县| 西藏| 新昌县| 霍山县| 收藏| 平遥县| 徐水县| 长春市| 瓦房店市| 大庆市| 永德县| 湘潭县| 邹平县| 庆安县| 通城县| 丹江口市| 错那县| 井研县| 阿荣旗| 鹤庆县| 武陟县| 东丰县| 西青区|