一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種基于豐富本體進(jìn)行災(zāi)難管理的方 法。
【背景技術(shù)】
[0002] 災(zāi)難管理是一個(gè)新興技術(shù)領(lǐng)域,在該領(lǐng)域中,一些戰(zhàn)略性的管理過程將被運(yùn)用,以 保護(hù)人類的關(guān)鍵資源免受災(zāi)難威脅?,F(xiàn)實(shí)中,大量關(guān)于災(zāi)難的報(bào)道和資訊會(huì)以文檔的形式 描述,而專家則期望能從這些信息中概括出災(zāi)難的發(fā)展趨勢、公共基礎(chǔ)設(shè)施的運(yùn)作情況或 家園重建的進(jìn)程。專家提供的這些信息將可以給人類在再次面對災(zāi)難時(shí)提供很大的幫助。
[0003] 但是巨大的信息量使得對信息的人工處理不再可行,數(shù)據(jù)挖掘技術(shù)的日益成熟以 及其在災(zāi)難管理領(lǐng)域愈發(fā)廣泛的應(yīng)用逐漸改善這一狀況。然而傳統(tǒng)基于單個(gè)術(shù)語的挖掘效 率較低,本發(fā)明提出一種更具競爭力的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對基于單個(gè)術(shù)語的挖掘效率較低的問題而提供一種基于豐富本體的多 文檔挖掘?yàn)?zāi)難管理方法,該方法通過本體論的表現(xiàn)方法以挖掘?yàn)?zāi)難相關(guān)文檔范圍內(nèi)語句的 關(guān)聯(lián)性。
[0005] 實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為:一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法, 該管理方法以豐富本體為基礎(chǔ),包括語句映射、子模型建模和語句篩選三個(gè)步驟, 1) 語句映射的步驟:將某一領(lǐng)域的文檔劃分成多條語句,將多條語句映射到相應(yīng)本體 的層次結(jié)構(gòu)中,經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射; 2) 子模型建模的步驟:將子模塊函數(shù)應(yīng)用于貪心算法中,順序地從給定語句集中選取 語句; 3) 語句篩選的步驟:采用貪心算法來從原始文檔中提取長語句。
[0006] 本發(fā)明所述的語句當(dāng)只和一個(gè)概念相關(guān)聯(lián),則將該語句映射到這一概念上;當(dāng)語 句和多個(gè)概念相關(guān)聯(lián),則映射該語句到這些概念的最小祖先LCA上。
[0007] 本發(fā)明所述語句與指定給各個(gè)概念的關(guān)鍵字重疊度進(jìn)行計(jì)算,所得結(jié)果作為度量 關(guān)聯(lián)度的分?jǐn)?shù),然后選出分?jǐn)?shù)最高的概念。
[0008] 本發(fā)明所述的子模函數(shù)為:設(shè)f為非遞減函數(shù),滿足:
且S和T是E的子集,:給定文檔集 D和預(yù)算B,通過使用子模函數(shù)生成一個(gè)滿足預(yù)算B的文檔集D,設(shè)預(yù)算B為詞語的總個(gè)數(shù), 定義文檔上當(dāng)前生成的概括的質(zhì)量為:
和c2是兩個(gè)概念,分別與ei和e2對應(yīng),- ei的意思是語句ei和概念是相關(guān)聯(lián)的; 將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上,然后定義質(zhì)量函數(shù)為:
[0009] 本發(fā)明所述的兩個(gè)概念的相關(guān)性由如下公式計(jì)算:
其中Q和C2是要被計(jì)算的概念,C。是Q和C 2在概念層 次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn),P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
[0010] 本發(fā)明具有的優(yōu)點(diǎn)在于:1、使用某一災(zāi)難本體的語義學(xué)概念來構(gòu)建語句,而不是 使用大量詞匯。從而可以更好地幫助用戶決定是否需要在總結(jié)概括該災(zāi)難本體的時(shí)候采納 本語句。2、提供一種通用框架,該框架基于隱藏在災(zāi)難相關(guān)文檔語句集中的子模性,使用它 來指出概括總結(jié)時(shí)的不同問題,通過子模塊屬性,該框架能夠處理多種災(zāi)難相關(guān)指標(biāo)。
【附圖說明】
[0011] 圖1為本發(fā)明方法的框架。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖對本方法做進(jìn)一步地描述。
[0013] 圖1給出了本方法的框架,由三部分組成,即語句映射、子模型建模和語句篩選。 語句映射是指,給定一個(gè)本體,建立語句到這一本體相應(yīng)概念的映射;子模型建模是指為每 一條語句指定一個(gè)分?jǐn)?shù),用來體現(xiàn)他們對結(jié)果的總結(jié)概括的貢獻(xiàn)度,本發(fā)明將多文檔概括 按照最大預(yù)算問題來建模;語句篩選通過一個(gè)貪心算法選取貢獻(xiàn)度最高的語句。每一部分 的【具體實(shí)施方式】如下: 1)語句映射 在災(zāi)難管理領(lǐng)域,本體為我們提供了豐富的概念性的、語義性的信息,幫助我們進(jìn)行多 文檔概括。語句映射首先將某一領(lǐng)域的文檔劃分成多條語句,并將它們映射到相應(yīng)本體的 層次結(jié)構(gòu)中,由專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射,整個(gè)映射過程按照如下兩個(gè) 標(biāo)準(zhǔn)進(jìn)行: 一、 如果語句只和一個(gè)概念相關(guān)聯(lián),則將該語句映射到這一概念上; 二、 如果語句和多個(gè)概念相關(guān)聯(lián),則映射該語句到這些概念的最小祖先(LCA,Least Common Ancestor)上。如果該LCA是該本體的最平凡概念,則將該語句映射到原始特定概 念。
[0014] 在這一過程中,語句與指定給各個(gè)概念的關(guān)鍵字重疊度將被計(jì)算出來,并作為度 量關(guān)聯(lián)度的分?jǐn)?shù),之后選出最高的概念。由于本體的概念是經(jīng)過選擇的、有意義的,所有的 語句都能夠被映射,這樣我們就能得到一個(gè)擁有豐富實(shí)例的本體層次結(jié)構(gòu)。
[0015] 2)子模型建模 1. 1.子模函數(shù) 在概括多文檔過程中,我們將子模塊函數(shù)應(yīng)用于貪心算法中,來順序地從給定語句集 中選取語句。
[0016] 定義1.設(shè)f為非遞減函數(shù),滿足:
其中Kf,且S和T是E的子集,W 稱f為子模函數(shù)。
[0017] 根據(jù)該定義,往一個(gè)較大集T中添加一個(gè)元素為f帶來的增量,會(huì)小于等于往一個(gè) 較小集S中添加一個(gè)元素為f帶來的增量。
[0018] 本發(fā)明中的最大預(yù)算問題描述如下:給定集合E,E中的元素被指派一個(gè)影響因子 和開銷因子,這兩者通過元素所述領(lǐng)域和一個(gè)預(yù)算B定義。問題的目標(biāo)是找到E的一個(gè)子 集,該子集擁有最大的影響力且沒有超出預(yù)算B。
[0019] 1.2.平凡概括 設(shè)預(yù)算B為詞語的總個(gè)數(shù)。添加一個(gè)候選語句將會(huì)提高概括的質(zhì)量同時(shí)也會(huì)增加開 銷。定義文檔上當(dāng)前生成的概括的質(zhì)量為:
在本函數(shù)中,ei和e2代表兩個(gè)語句,(^和c2是兩個(gè)概念,分別與ei和e2對應(yīng)。- ei 的意思是語句ei和概念Cl是相關(guān)聯(lián)的。兩個(gè)概念的相關(guān)性由如下公式計(jì)算:
其中q和c2是要被計(jì)算的概念,c。是 Cl和c2在概 念層次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn)。P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
[0020] 相應(yīng)地,定義添加一個(gè)候選語句帶來的質(zhì)量提升為:
1.3.基于查詢的概括 將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上,然后定義質(zhì)量函數(shù)為:
3)語句篩選 我們使用貪心算法來從原始文檔中提取重要語句。給定文檔集D和預(yù)算B,該算法通過 使用子模函數(shù)生成一個(gè)滿足B的D。算法每次選擇一個(gè)較長的語句來進(jìn)行結(jié)果的概括,因?yàn)?長語句有較大的可能包涵重要信息并帶來較大的質(zhì)量提高。
【主權(quán)項(xiàng)】
1. 一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法,該管理方法W豐富本體為基礎(chǔ),包 括語句映射、子模型建模和語句篩選Η個(gè)步驟,其特征在于: 1) 語句映射的步驟;將某一領(lǐng)域的文檔劃分成多條語句,將多條語句映射到相應(yīng)本體 的層次結(jié)構(gòu)中,經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射; 2) 子模型建模的步驟;將子模函數(shù)應(yīng)用于貪必算法中,順序地從給定語句集中選取語 句; 3) 語句篩選的步驟:采用貪必算法來從原始文檔中提取長語句。2. 根據(jù)權(quán)利要求1所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法,其特征在于:所 述的語句當(dāng)只和一個(gè)概念相關(guān)聯(lián),則將該語句映射到送一概念上;當(dāng)語句和多個(gè)概念相關(guān) 聯(lián),則映射該語句到送些概念的最小祖先LCA上。3. 根據(jù)權(quán)利要求2所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法,其特征在于:所 述語句與指定給各個(gè)概念的關(guān)鍵字重疊度進(jìn)行計(jì)算,所得結(jié)果作為度量關(guān)聯(lián)度的分?jǐn)?shù),然 后選出分?jǐn)?shù)最高的概念。4. 根據(jù)權(quán)利要求1所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管 理方法,其特征在于:所述的子模函數(shù)為:設(shè)f為非遞減函數(shù),滿足: 趴'。冰AT)'; /取.料},其中騰取且S和T是E的子集,爹擦娛罪給定文檔集 D和預(yù)算B,通過使用子模函數(shù)生成一個(gè)滿足預(yù)算B的文檔集D,設(shè)預(yù)算B為詞語的總個(gè)數(shù), 定義文檔上當(dāng)前生成的概括的質(zhì)量為:ei和θ2代表兩個(gè)語句,Cl 和C2是兩個(gè)概念,分別與ei和θ2對應(yīng),Cl 一 ei的意思是語句ei和概念Cl是相關(guān)聯(lián)的; 將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上,然后定義質(zhì)量函數(shù)為:5. 根據(jù)權(quán)利要求4所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法,其特征在于:所 述的兩個(gè)概念的相關(guān)性由如下公式計(jì)算:其中。和C2是要被計(jì)算的概念,C。是。和C2在概念層 次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn),P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
【專利摘要】本發(fā)明涉及一種基于豐富本體的進(jìn)行災(zāi)難管理的方法,該管理方法以豐富本體為基礎(chǔ),包括語句映射、子模型建模和語句篩選三個(gè)步驟,1)語句映射的步驟:將某一領(lǐng)域的文檔劃分成多條語句,將多條語句映射到相應(yīng)本體的層次結(jié)構(gòu)中,經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射;2)子模型建模的步驟:將子模函數(shù)應(yīng)用于貪心算法中,順序地從給定語句集中選取語句;3)語句篩選的步驟:采用貪心算法來從原始文檔中提取長語句。相比傳統(tǒng)基于單個(gè)術(shù)語的挖掘效率較低,本發(fā)明提出的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法更具競爭力。
【IPC分類】G06F17/30, G06F17/27
【公開號】CN105573976
【申請?zhí)枴緾N201410521099
【發(fā)明人】李千目, 李濤, 劉浩, 徐建
【申請人】南京理工大學(xué)常熟研究院有限公司
【公開日】2016年5月11日
【申請日】2014年10月8日