專利名稱:Xml關(guān)鍵詞檢索的摘要生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及XML檢索技術(shù),尤其是一種XML關(guān)鍵詞檢索的摘要生成方法,可以應用 在XML關(guān)鍵詞搜索引擎以及其他結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵詞搜索引擎中。
背景技術(shù):
自1998年誕生以來,由于開放性,自描述性以及簡潔性等特點,XML文檔現(xiàn)廣泛應 用于互聯(lián)網(wǎng),數(shù)據(jù)庫等領(lǐng)域,已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)交換和集成的語言標準。隨著XML文檔 的大量涌現(xiàn),如何快速地從大規(guī)模XML文檔中尋找出滿足用戶需求的信息成為信息檢索以 及數(shù)據(jù)庫領(lǐng)域的一個研究熱點。一個具體的XML文件如
圖1所示,圖2是圖1所示XML文 檔對應的樹形結(jié)構(gòu)。XML信息檢索可分為兩大類關(guān)鍵詞檢索和“關(guān)鍵詞+結(jié)構(gòu)”檢索。由W3C(the Worldffide Web Consortium)頒布的XML檢索標準XPath和XQuery是“關(guān)鍵詞+結(jié)構(gòu)”檢 索的代表,“關(guān)鍵詞+結(jié)構(gòu)”檢索在為用戶準確表達其查詢需求方面提供了有效的描述手段, 從而能獲得高質(zhì)量的查詢結(jié)果。但是“關(guān)鍵詞+結(jié)構(gòu)”檢索要求用戶掌握相關(guān)的查詢語言, 并且對XML文檔的結(jié)構(gòu)信息有所了解,從而限制了這種檢索方式在實際中的應用范圍。關(guān) 鍵詞檢索是一種經(jīng)過實踐證明且取得巨大成功的檢索方式,是在傳統(tǒng)搜索引擎中被廣泛采 用的檢索手段。在傳統(tǒng)搜索引擎的影響下,普通互聯(lián)網(wǎng)用戶現(xiàn)在已經(jīng)習慣于關(guān)鍵詞檢索方 式,因為關(guān)鍵詞檢索簡單易用,能迅速被普通用戶所掌握。因此,XML關(guān)鍵詞檢索比“關(guān)鍵詞 +結(jié)構(gòu)”檢索更具有現(xiàn)實應用意義。XML關(guān)鍵詞檢索也因此成為了 XML信息檢索領(lǐng)域的研究 ^^點οXML關(guān)鍵詞檢索即用戶以關(guān)鍵詞作為表達查詢的手段對XML文檔(集)進行檢索 的模式。由于XML文檔是包含層次結(jié)構(gòu)信息的,而關(guān)鍵詞檢索只能模糊地表達用戶的查詢 語義,如何通過關(guān)鍵詞檢索,充分利用XML文檔內(nèi)部的結(jié)構(gòu)信息,來為用戶提供精確的檢索 服務就是一件非常有現(xiàn)實意義且具有極大挑戰(zhàn)性的事情。目前,關(guān)于XML關(guān)鍵詞檢索已有相當多的研究,但對于XML檢索結(jié)果的摘要提取的 技術(shù)研究仍然比較欠缺。傳統(tǒng)的搜索引擎(如谷歌、百度等)在對給出關(guān)鍵詞找出相應的網(wǎng) 頁作為結(jié)果后,把每個網(wǎng)頁中出現(xiàn)關(guān)鍵詞的一段文字作為摘要返回給用戶,如附圖3所示。 與傳統(tǒng)的搜索引擎不同,基于XML的關(guān)鍵詞檢索提供了更豐富的結(jié)構(gòu)信息,大量標簽的引 入以及樹形結(jié)構(gòu)的組織使得每個XML文檔中各信息之間的結(jié)構(gòu)關(guān)系更加清晰,這使得對每 個XML文檔進行摘要提取時也能按照樹形結(jié)構(gòu)組織,從而給用戶提供更加形象化的信息。文獻[1][2][3]針對XML關(guān)鍵詞檢索的摘要提取提出了 XSeek模型,并根據(jù)此 模型實現(xiàn)了自動生成摘要的系統(tǒng)extract,系統(tǒng)實現(xiàn)的實例見附圖4。XSeek模型提出 了一個好的摘要(snippet)所應滿足的幾個條件完整性(self-contained)、可區(qū)分性 (distinguishable)和代表性(r印resentative)。完整性是指摘要應包含相關(guān)的“主語”, 也就是要包含必要的實體信息,即文檔描述的對象是什么;區(qū)分性是指不同的文檔的摘要 應互不相同,用戶能通過摘要就區(qū)分出不同文檔之間的差異性;代表性是指摘要應該把對
4應文檔的最突出的一些特征反映出來,能反映文檔的主要信息。在滿足以上三個條件的基 礎(chǔ)上,一個好的摘要還應盡量簡短,[1]中還給出了在有長度限定(不能超過LimitSize)的 情況下生成符合上述三個條件的算法,[3]對相應的extract系統(tǒng)進行了展示。XSeek模型提出了評價一個摘要好壞的幾條標準,并實現(xiàn)了在長度限定的情況下 生成比較符合完整性、可區(qū)分性和代表性三個條件的摘要的算法。但是XSeek模型沒有對 每個評價標準給出定量的計算公式,從而不能對摘要滿足各個標準的程度進行一個準確的 評估。[1]中將XML文檔內(nèi)樹中的節(jié)點分成了四類實體節(jié)點(entity),聯(lián)接節(jié)點 (connection),屬性節(jié)點(attribute)和值節(jié)點(value)。其中值節(jié)點都是XML樹中的葉節(jié) 點,其內(nèi)容反映的是一些具體的取值;屬性節(jié)點是只包含一個值節(jié)點作為其子節(jié)點的非葉 節(jié)點,它給出了對應值節(jié)點的類型和名稱。一個屬性節(jié)點和其相應的值節(jié)點一起構(gòu)成了一 個完整的屬性信息屬性名稱+屬性值,如“姓名” + “張三”一起構(gòu)成了某一個人的“姓名” 這一屬性。實體節(jié)點就是包含多個屬性節(jié)點作為子節(jié)點的非葉節(jié)點(其子節(jié)點當中也可以 包含實體節(jié)點),反映的是一個具體的描述對象,比如一個人、一個公司或一個國家等。聯(lián)接 節(jié)點是子節(jié)點中只包含實體節(jié)點(通常是同名節(jié)點)的非葉節(jié)點,反映的是實體節(jié)點之間 的關(guān)系。如附圖2中,paper節(jié)點(0. 0)、Institution(0. 0. 1)節(jié)點是實體節(jié)點,分別指代 論文和發(fā)表論文的單位;title 節(jié)點(0. 0. 0,0. 1.0)、Introduction 節(jié)點(0. 0. 2,0. 1.2)、 Name 節(jié)點(0. 0. 1. 1. 0,0. 0. 1. 1. 1,0. 1. 1. 0,0. 1. 1. 1)是屬性節(jié)點,分別指代論文(0. 0)的 標題、介紹和作者等屬性的名稱;上述屬性節(jié)點的子節(jié)點(所有葉節(jié)點)都為值節(jié)點,指代 對應屬性的具體取值,可以認為值節(jié)點0.0. 1.0對應的屬性節(jié)點(0.0. 1的單位名稱)被省 略;proceedings節(jié)點是聯(lián)接節(jié)點,表明的是這些論文(paper節(jié)點)都是在同一個會刊里 的,authors節(jié)點也是聯(lián)接節(jié)點,可以認為name節(jié)點的父節(jié)點author節(jié)點(實體節(jié)點)被 省略。參考文獻[1]Z. Liu, Y. Chen identifying meaningful return information for XML keyword search. In SIGMOD 2007,pages329-340.[2]Z. Liu, J. Walker, Y. Chen :XSeek :A Semantic XML Search Engine Using Keywords. In VLDB 2007 :1330-1333[3]Yu Huang,Ziyang Liu,Yi Chen. eXtract :A Snippet Generation System for XML Search. In VLDB 2008,Pagesl392_1395[4]Y. Xu, Y. Papakonstantinou. Efficient keyword search for smallest LCAs in XML databases. In SIGMOD 2005,pages537_538
發(fā)明內(nèi)容
為解決傳統(tǒng)XML關(guān)鍵詞檢索缺少對信息重要性的定量衡量的問題,本發(fā)明重新定 義了評價一個摘要好壞的三個標準關(guān)聯(lián)性(correlativeness)、明確性(explicitness) 和區(qū)分性(distinctiveness),并給出了相應的計算公式,同時通過提出MR印A模型對這三 個屬性進行綜合得到XML文檔中各屬性的重要程度。本發(fā)明的詳細技術(shù)方案如下
方案1 一種XML關(guān)鍵詞檢索的摘要生成方法,包括如下步驟1)輸入查詢Q ;2)找 到與Q相關(guān)的XML文檔;3)提取文檔中的屬性a ;4)計算屬性a的權(quán)重;5)選取權(quán)重值最 大的K個屬性,加入到摘要中;其特征在于,所述步驟4)中屬性a的權(quán)重W的計算方法如下ff(e, a) = (Dist(a) · Expl (a, Q)) c。rr(e’a),其中,-Dist (a)用于衡量屬性a的區(qū)分性強弱,Dist (a) = exp (pa) ‘ H (a)Η{α) = ~^ρ(α.)·Ιο§[ρ(α.)]
/=1其中,pa指屬性a在該類實體中出現(xiàn)的比例,H(a)是屬性a的信息熵;-Expl (a, Q)用于衡量屬性a對于查詢Q的明確性,其中,Q= {qi,q2,……qn},Qi表示關(guān)鍵詞Qi的長度,a表示屬性a的值節(jié)點 的長度;-Corr (e, a)用于衡量屬性a與實體e間的關(guān)聯(lián)性;Corr(e, a) = k,ength^a). f\Numiei), 其中,Num(ei)表示路徑中第i個實體同層的該類實體的個數(shù)。方案2 作為方案1的一種優(yōu)選實現(xiàn),其特征在于,所述K的取值為5 7,這樣能 既減少信息冗余又兼顧信息的完整。方案3 作為方案1的一種優(yōu)選實現(xiàn),其特征在于,在步驟1)之前進一步包括對 XML文檔進行預處理,把XML文檔中的元素歸并為三類關(guān)系、實體和屬性。方案4 作為方案3的一種優(yōu)選實現(xiàn),其特征在于,在XML數(shù)據(jù)集預處理時把下列 信息存儲在索引文件中所有屬性節(jié)點的長度,所有屬性強度的區(qū)分性強弱,所有實體節(jié)點 的子節(jié)點中同名實體節(jié)點的數(shù)量。方案5 作為方案4的一種優(yōu)選實現(xiàn),其特征在于,所述屬性強度的區(qū)分性強弱是 通過計算屬性的熵得到的。本發(fā)明同時提出了一種新的衡量XML關(guān)鍵詞檢索的摘要的重要性程度的模型,記 作MR印A模型,描述如下方案6 —種衡量XML關(guān)鍵詞檢索的摘要的重要性程度的模型,記作MR印A模型, 其特征在于,所述模型包含如下三個評價要素區(qū)分性,明確性,關(guān)聯(lián)性;該模型衡量XML關(guān) 鍵詞檢索的摘要的重要性程度的計算公式為W(e,a) = (Dist(a) ·Εχρ1 (a,Q))to&’a),其中-Dist (a)用于衡量屬性a的區(qū)分性強弱,Dist (a) = exp (pa) · H (a) H (a) = -^ρ(α.)Λοζ[ρ(α.)\
其中,pa指屬性a在該類實體中出現(xiàn)的比例,H(a)是屬性a的信息熵;-Expl (a, Q)用于衡量屬性a對于查詢Q的明確性,
權(quán)利要求
1.一種XML關(guān)鍵詞檢索的摘要生成方法,包括如下步驟1)輸入查詢Q ;2)找到與Q相 關(guān)的XML文檔;3)提取文檔中的屬性a ;4)計算屬性a的權(quán)重;5)選取權(quán)重值最大的K個 屬性,加入到摘要中;其特征在于,所述步驟4)中屬性a的權(quán)重W的計算方法如下
2.如權(quán)利要求1所述的摘要生成方法,其特征在于,所述K的取值為5 7。
3.如權(quán)利要求1所述的摘要生成方法,其特征在于,在步驟1)之前進一步包括對XML 文檔進行預處理,把XML文檔中的元素歸并為三類關(guān)系、實體和屬性。
4.如權(quán)利要求3所述的摘要生成方法,其特征在于,在XML數(shù)據(jù)集預處理時把下列信息 存儲在索引文件中所有屬性節(jié)點的長度,所有屬性強度的區(qū)分性強弱,所有實體節(jié)點的子 節(jié)點中同名實體節(jié)點的數(shù)量。
5.如權(quán)利要求4所述的摘要生成方法,其特征在于,所述屬性強度的區(qū)分性強弱是通 過計算屬性的熵得到的。
6.一種衡量XML關(guān)鍵詞檢索的摘要的重要性程度的模型,記作MRepA模型,其特征在 于,所述模型包含如下三個評價要素區(qū)分性,明確性,關(guān)聯(lián)性;該模型衡量XML關(guān)鍵詞檢索 的摘要的重要性程度的計算公式為W(e,a) = (Dist(a) · Expl (a,Q))c。rr(e’a),其中-Dist (a)用于衡量屬性a的區(qū)分性強弱, Dist (a) = exp (pa) · H(a)
全文摘要
本發(fā)明提供了一種XML關(guān)鍵詞檢索的摘要生成方法以及一種評判摘要重要程度的模型。該模型包含三個評價要素區(qū)分性,明確性,關(guān)聯(lián)性。區(qū)分性用于衡量屬性a的區(qū)分性強弱,明確性用于衡量屬性a對于查詢Q的明確性,關(guān)聯(lián)性用于衡量屬性a與實體e間的關(guān)聯(lián)性。本發(fā)明提供的方法利用該模型對XML關(guān)鍵詞檢索的摘要的重要性進行定量分析,計算公式為W(e,a)=(Dist(a)·Expl(a,Q))Corr(e,a),然后選取最重要的top-K個屬性作為描述實體的摘要,解決了傳統(tǒng)XML關(guān)鍵詞檢索缺少對信息重要性的定量衡量的問題。
文檔編號G06F17/30GK102004802SQ20101061495
公開日2011年4月6日 申請日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
發(fā)明者江家健, 鄧志鴻 申請人:北京大學