一種基于本體的支持模糊匹配的事件發(fā)布訂閱方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,涉及一種基于本體的發(fā)布訂閱匹配方法。
【背景技術(shù)】
[0002] 發(fā)布訂閱系統(tǒng)是指一種能夠提供用戶以發(fā)布者和訂閱者的角色參與到消息轉(zhuǎn)發(fā) 中的中間件系統(tǒng),被轉(zhuǎn)發(fā)的消息在本專利中又被稱作事件,其中發(fā)布者和訂閱者是系統(tǒng)最 基本的角色。訂閱者和發(fā)布者角色可以被同一個(gè)系統(tǒng)終端用戶所擁有,即一個(gè)終端用戶可 以同時(shí)是訂閱者和發(fā)布者。發(fā)布者是事件的生產(chǎn)者,而訂閱者是事件的消費(fèi)者,訂閱者通過 訂閱語句來表達(dá)對于某些事件的興趣,而發(fā)布者在發(fā)布訂閱系統(tǒng)中按照一定的約束來發(fā)布 事件,最終事件經(jīng)過匹配算法被轉(zhuǎn)發(fā)給特定的訂閱者。所以發(fā)布訂閱系統(tǒng)的目標(biāo)是保證訂 閱者所需要的事件準(zhǔn)確、及時(shí)、高效地轉(zhuǎn)發(fā)給訂閱者。
[0003] 組成一個(gè)發(fā)布訂閱系統(tǒng)的基礎(chǔ)是數(shù)據(jù)模型和匹配算法,其中數(shù)據(jù)模型決定了匹配 算法的實(shí)現(xiàn)方式?;谥黝}的發(fā)布訂閱把事件按照主題來分類,事件的表達(dá)能力有限,但是 匹配算法實(shí)現(xiàn)簡單。基于內(nèi)容的發(fā)布訂閱提供事件的更細(xì)粒度的表達(dá),但是匹配算法的復(fù) 雜度比較高,沒有考慮事件的語義信息。隨著語義技術(shù)的發(fā)展,更多的研宄轉(zhuǎn)移到基于語義 的發(fā)布訂閱上來。經(jīng)過調(diào)研,基于本體的語義發(fā)布訂閱系統(tǒng)也有很多,但是很少有支持推理 功能和模糊匹配的。
【發(fā)明內(nèi)容】
[0004] 技術(shù)問題:針對傳統(tǒng)發(fā)布訂閱系統(tǒng)的缺點(diǎn),本發(fā)明提出了一種以語義技術(shù)為基礎(chǔ), 支持事件的語義表達(dá)和推理、訂閱的語義表達(dá)、事件/訂閱的基于本體的支持模糊匹配的 事件發(fā)布訂閱方法。
[0005] 技術(shù)方案:本發(fā)明的基于本體的支持模糊匹配的事件發(fā)布訂閱方法,包括以下步 驟:
[0006] 步驟1)構(gòu)建用以提供發(fā)布訂閱系統(tǒng)中的概念和概念間關(guān)系定義的領(lǐng)域本體;步 驟2)首先分別按照如下兩種方式構(gòu)建基于所述領(lǐng)域本體的同義詞詞庫:
[0007] a)從一個(gè)以上的中文百科中抽取重定向;
[0008] b)利用固定模式從中文語料庫中抽取同義詞;
[0009] 然后將兩種方式構(gòu)建的同義詞詞庫共同構(gòu)成基于Web的同義詞詞典,如果兩種方 式構(gòu)建的同義詞詞庫集合之間存在交集,則對兩者進(jìn)行合并,去掉重復(fù)的詞條;
[0010] 步驟3)構(gòu)建RDF事件圖(RDF是用來表現(xiàn)萬維網(wǎng)上各類資源的信息的一種語言): 事件發(fā)布者首先通過瀏覽器在網(wǎng)頁上構(gòu)建事件內(nèi)容,然后通過事件代理把事件內(nèi)容轉(zhuǎn)換成 RDF事件圖;
[0011] 步驟4)構(gòu)建訂閱請求:訂閱者首先通過瀏覽器在網(wǎng)頁上構(gòu)建訂閱內(nèi)容,然后通過 訂閱代理把訂閱請求內(nèi)容轉(zhuǎn)化成SPARQL語句(這是一個(gè)遞歸縮寫,代表的是一種用于RDF 上的查詢語言);
[0012] 同時(shí)收集用戶訂閱時(shí)輸入的關(guān)鍵詞;
[0013] 步驟5)事件和訂閱匹配:首先利用本體的上下位推理能力對所述步驟4)中生成 的SPARQL語句做父子類擴(kuò)展,然后利用SPARQL查詢引擎查詢得到滿足SPARQL查詢條件的 事件節(jié)點(diǎn)集合;
[0014] 步驟6)基于每個(gè)事件節(jié)點(diǎn),在所述步驟3)構(gòu)建的RDF事件圖上進(jìn)行有向圖的廣 度優(yōu)先遍歷,得到從事件節(jié)點(diǎn)出發(fā)的子圖,一個(gè)子圖即一個(gè)事件的描述信息;
[0015] 步驟7)基于用戶訂閱的關(guān)鍵詞和構(gòu)建好的同義詞詞典在事件描述信息中進(jìn)行詞 頻-逆向文件詞頻計(jì)算,得到所述關(guān)鍵詞和事件描述信息之間的匹配相關(guān)度得分,最后根 據(jù)匹配得分對事件進(jìn)行排序并返回給訂閱者。
[0016] 本發(fā)明方法的優(yōu)選方案中,所述步驟1)中構(gòu)建的領(lǐng)域本體用OWL( -種用于描述 語義網(wǎng)上本體論關(guān)系的語言)文檔形式存儲(chǔ)。
[0017] 本發(fā)明方法的優(yōu)選方案中,所述步驟2)中的中文百科采用維基百科、互動(dòng)百科和 百度百科。
[0018] 本發(fā)明方法的優(yōu)選方案中,所述步驟3)中,事件內(nèi)容的主題是從步驟1)中所構(gòu)建 的領(lǐng)域本體中定義的事件類中選取的;所述RDF事件圖是在關(guān)系型數(shù)據(jù)庫中構(gòu)建事件表來 存放RDF事件得到的。
[0019] 本發(fā)明方法把語義技術(shù)引入到發(fā)布訂閱系統(tǒng)中,以提高語義發(fā)布系統(tǒng)的事件表達(dá) 能力、訂閱表達(dá)能力、訂閱/事件匹配準(zhǔn)確度。
[0020] 有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
[0021] 本發(fā)明支持以瀏覽器這種用戶容易接受的方式來構(gòu)建事件內(nèi)容和訂閱請求,這種 用戶界面比直接構(gòu)建事件內(nèi)容和訂閱請求的方法更友好。另外在訂閱與事件匹配上考慮了 上下位擴(kuò)展從而對用戶訂閱請求匹配到的事件比類似于主題模型的發(fā)布訂閱系統(tǒng)匹配到 的事件更多。這里擴(kuò)展在本質(zhì)上是依靠構(gòu)建好的領(lǐng)域本體來實(shí)現(xiàn)的,例如領(lǐng)域本體中有這 樣一條規(guī)則:類A包含于類B,那么如果用戶訂閱了類B主題下的事件,通過上下位推理,該 用戶同樣會(huì)收到主題A下面的所有滿足條件約束的事件。此外我們利用了中文三大百科構(gòu) 建了基于領(lǐng)域本體的同義詞詞典用于提高訂閱與事件的匹配準(zhǔn)確度。例如:在構(gòu)建的同義 詞詞典中"金陵"是"南京"的同義詞,用戶的訂閱只包含"南京"或"金陵"和同時(shí)包含"南 京"和"金陵"效果一樣,即都能收到包含南京或金陵并且滿足其他約束條件的事件。最后 在事件排序上就是基于前面構(gòu)建的詞典和訂閱中的關(guān)鍵詞并使用信息論中的詞頻-反向 詞頻度量方法來計(jì)算關(guān)鍵詞和事件之間的相關(guān)度,因?yàn)楝F(xiàn)存的發(fā)布訂閱系統(tǒng)考慮事件排序 的很少,而排序?qū)τ谟脩魜碚f很有必要,因?yàn)榻?jīng)過排序可以使用戶很容易瀏覽到其最關(guān)注 的事件。綜上所述本發(fā)明與現(xiàn)存的訂閱匹配方法相比具有更友好的用戶體驗(yàn)、事件匹配的 準(zhǔn)確率和相關(guān)性更高等優(yōu)點(diǎn),通過驗(yàn)證,該方法是完全正確可行的。
【附圖說明】
[0022] 圖1是一個(gè)領(lǐng)域的本體圖。
[0023] 圖2是事件代理處理過程圖。
[0024] 圖3是訂閱代理處理過程圖。
[0025] 圖4是訂閱事件匹配過程圖。
【具體實(shí)施方式】
[0026] 為使本發(fā)明的目的技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合實(shí)施例和說明書附圖對本 發(fā)明進(jìn)一步說明。
[0027] 本發(fā)明方法包括以下七個(gè)步驟:
[0028] 步驟1)構(gòu)建領(lǐng)域本體,構(gòu)建的內(nèi)容包括領(lǐng)域中的概念、概念的屬性、概念間的關(guān) 系以及屬性和關(guān)系的約束。本體構(gòu)建是一個(gè)工程性的工作,本系統(tǒng)利用斯坦福大學(xué)開發(fā)的 工具prot6g6來構(gòu)建本體。本體的模式層相對于數(shù)據(jù)層來說比較小,構(gòu)建的模式層包括類、 數(shù)據(jù)屬性、對象屬性、類之間和屬性之間的關(guān)系包括等價(jià)關(guān)系、繼承關(guān)系。如圖1為構(gòu)建出 來的一個(gè)本體。它的具體實(shí)現(xiàn)描述如下:
[0029] 本體中每個(gè)類、屬性都需要唯一的URI引用來標(biāo)識(shí),按照本體的約束,各個(gè)類之間 可以存在多重繼承,但是不容許出現(xiàn)循環(huán)的繼承關(guān)系,例如奧運(yùn)會(huì)籃球比賽是籃球比賽和 奧運(yùn)會(huì)比賽的子類。同理屬性之間可以存在多重繼承,但是不容許出現(xiàn)循環(huán)的繼承關(guān)系。一 個(gè)類可以擁有多個(gè)屬性,一個(gè)屬性也可以服務(wù)于多個(gè)類。為了適應(yīng)事件模型,在本體中定義 了所有事件的父類,該類去掉命名空間后的名稱是"Event",這樣一個(gè)事件必須指向Event 類或Event的子類。上下位推理的意義是,奧運(yùn)會(huì)籃球比賽、CBA、NBA等都是籃球比賽下的 派生類,如果一個(gè)訂閱者對這兩個(gè)比賽的事件都感興趣,而且對地點(diǎn)進(jìn)行限制:比賽場地在 北京(NBA有國際賽場),這樣他可以訂閱籃球比賽并設(shè)置條件hasLocation="北京"而不 需要對奧運(yùn)會(huì)籃球比賽、CBA等都構(gòu)建一個(gè)訂閱請求。
[0030] 步驟2)構(gòu)建基于特定領(lǐng)域的同義詞詞庫,同義詞構(gòu)建包括以下兩種方式
[0031] 從百度百科、互動(dòng)百科和維基百科中抽取重定向。首先,利用Ansj分詞工具(一 個(gè)開源的Java中文分詞工具)對本體中的所有標(biāo)簽進(jìn)行分詞。然后將分詞后的所有詞語 加入待訪問集合(UnvisitedSet)中。最后,遍歷待訪問集合中的詞,將其分別提交到三大 百科,若存在重定向,則將重定向的詞抽取出來,與原本體標(biāo)簽建立映射。
[0032] 利用固定模式從語料庫中抽取同義詞。從語言學(xué)的角度來看,大量的同義詞會(huì)以 固定的模式出現(xiàn)在文本中,從本體的標(biāo)簽字符集合串出發(fā),利用手工構(gòu)建中文通用同義詞 模式包括"[*]別稱[*]"、"[*]即[*]"、"[*]又被稱為[*]"、"[*]又叫做[*]"來抽取同 義詞,這些模式中[*]是對文本分詞后的最靠近模式詞("別稱"、"即"等)的名詞。
[0033] 如果兩種方式構(gòu)建的同義詞詞庫集合之間存在交集,則對兩者進(jìn)行合并,去掉重 復(fù)的詞條,從而構(gòu)建基于Web抽取的同義詞詞典。
[0034] 步驟3)構(gòu)建事件模型,在發(fā)布訂閱系統(tǒng),事件構(gòu)建頁面后臺(tái)有一個(gè)領(lǐng)域本體支 持,這樣發(fā)布者在發(fā)布事件內(nèi)容的時(shí)需要選擇事件所屬的類,這里選擇的類必