一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法

文檔序號：9810504閱讀：192來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域，具體涉及一種基于豐富本體進(jìn)行災(zāi)難管理的方法。
【背景技術(shù)】
[0002] 災(zāi)難管理是一個(gè)新興技術(shù)領(lǐng)域，在該領(lǐng)域中，一些戰(zhàn)略性的管理過程將被運(yùn)用，以保護(hù)人類的關(guān)鍵資源免受災(zāi)難威脅?，F(xiàn)實(shí)中，大量關(guān)于災(zāi)難的報(bào)道和資訊會(huì)以文檔的形式描述，而專家則期望能從這些信息中概括出災(zāi)難的發(fā)展趨勢、公共基礎(chǔ)設(shè)施的運(yùn)作情況或家園重建的進(jìn)程。專家提供的這些信息將可以給人類在再次面對災(zāi)難時(shí)提供很大的幫助。
[0003] 但是巨大的信息量使得對信息的人工處理不再可行，數(shù)據(jù)挖掘技術(shù)的日益成熟以及其在災(zāi)難管理領(lǐng)域愈發(fā)廣泛的應(yīng)用逐漸改善這一狀況。然而傳統(tǒng)基于單個(gè)術(shù)語的挖掘效率較低，本發(fā)明提出一種更具競爭力的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對基于單個(gè)術(shù)語的挖掘效率較低的問題而提供一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，該方法通過本體論的表現(xiàn)方法以挖掘?yàn)?zāi)難相關(guān)文檔范圍內(nèi)語句的關(guān)聯(lián)性。
[0005] 實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為：一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，該管理方法以豐富本體為基礎(chǔ)，包括語句映射、子模型建模和語句篩選三個(gè)步驟， 1) 語句映射的步驟：將某一領(lǐng)域的文檔劃分成多條語句，將多條語句映射到相應(yīng)本體的層次結(jié)構(gòu)中，經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射； 2) 子模型建模的步驟：將子模塊函數(shù)應(yīng)用于貪心算法中，順序地從給定語句集中選取語句； 3) 語句篩選的步驟：采用貪心算法來從原始文檔中提取長語句。
[0006] 本發(fā)明所述的語句當(dāng)只和一個(gè)概念相關(guān)聯(lián)，則將該語句映射到這一概念上；當(dāng)語句和多個(gè)概念相關(guān)聯(lián)，則映射該語句到這些概念的最小祖先LCA上。
[0007] 本發(fā)明所述語句與指定給各個(gè)概念的關(guān)鍵字重疊度進(jìn)行計(jì)算，所得結(jié)果作為度量關(guān)聯(lián)度的分?jǐn)?shù)，然后選出分?jǐn)?shù)最高的概念。
[0008] 本發(fā)明所述的子模函數(shù)為：設(shè)f為非遞減函數(shù)，滿足：
且S和T是E的子集，:給定文檔集 D和預(yù)算B，通過使用子模函數(shù)生成一個(gè)滿足預(yù)算B的文檔集D，設(shè)預(yù)算B為詞語的總個(gè)數(shù)，定義文檔上當(dāng)前生成的概括的質(zhì)量為：
和c2是兩個(gè)概念，分別與ei和e2對應(yīng)，- ei的意思是語句ei和概念是相關(guān)聯(lián)的；將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上，然后定義質(zhì)量函數(shù)為：
[0009] 本發(fā)明所述的兩個(gè)概念的相關(guān)性由如下公式計(jì)算：
其中Q和C2是要被計(jì)算的概念，C。是Q和C 2在概念層次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn)，P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
[0010] 本發(fā)明具有的優(yōu)點(diǎn)在于：1、使用某一災(zāi)難本體的語義學(xué)概念來構(gòu)建語句，而不是使用大量詞匯。從而可以更好地幫助用戶決定是否需要在總結(jié)概括該災(zāi)難本體的時(shí)候采納本語句。2、提供一種通用框架，該框架基于隱藏在災(zāi)難相關(guān)文檔語句集中的子模性，使用它來指出概括總結(jié)時(shí)的不同問題，通過子模塊屬性，該框架能夠處理多種災(zāi)難相關(guān)指標(biāo)。
【附圖說明】
[0011] 圖1為本發(fā)明方法的框架。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖對本方法做進(jìn)一步地描述。
[0013] 圖1給出了本方法的框架，由三部分組成，即語句映射、子模型建模和語句篩選。語句映射是指，給定一個(gè)本體，建立語句到這一本體相應(yīng)概念的映射；子模型建模是指為每一條語句指定一個(gè)分?jǐn)?shù)，用來體現(xiàn)他們對結(jié)果的總結(jié)概括的貢獻(xiàn)度，本發(fā)明將多文檔概括按照最大預(yù)算問題來建模；語句篩選通過一個(gè)貪心算法選取貢獻(xiàn)度最高的語句。每一部分的【具體實(shí)施方式】如下： 1)語句映射在災(zāi)難管理領(lǐng)域，本體為我們提供了豐富的概念性的、語義性的信息，幫助我們進(jìn)行多文檔概括。語句映射首先將某一領(lǐng)域的文檔劃分成多條語句，并將它們映射到相應(yīng)本體的層次結(jié)構(gòu)中，由專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射，整個(gè)映射過程按照如下兩個(gè) 標(biāo)準(zhǔn)進(jìn)行：一、如果語句只和一個(gè)概念相關(guān)聯(lián)，則將該語句映射到這一概念上；二、如果語句和多個(gè)概念相關(guān)聯(lián)，則映射該語句到這些概念的最小祖先（LCA，Least Common Ancestor)上。如果該LCA是該本體的最平凡概念，則將該語句映射到原始特定概念。
[0014] 在這一過程中，語句與指定給各個(gè)概念的關(guān)鍵字重疊度將被計(jì)算出來，并作為度量關(guān)聯(lián)度的分?jǐn)?shù)，之后選出最高的概念。由于本體的概念是經(jīng)過選擇的、有意義的，所有的語句都能夠被映射，這樣我們就能得到一個(gè)擁有豐富實(shí)例的本體層次結(jié)構(gòu)。
[0015] 2)子模型建模 1. 1.子模函數(shù) 在概括多文檔過程中，我們將子模塊函數(shù)應(yīng)用于貪心算法中，來順序地從給定語句集中選取語句。
[0016] 定義1.設(shè)f為非遞減函數(shù)，滿足：
其中Kf，且S和T是E的子集，W 稱f為子模函數(shù)。
[0017] 根據(jù)該定義，往一個(gè)較大集T中添加一個(gè)元素為f帶來的增量，會(huì)小于等于往一個(gè) 較小集S中添加一個(gè)元素為f帶來的增量。
[0018] 本發(fā)明中的最大預(yù)算問題描述如下：給定集合E，E中的元素被指派一個(gè)影響因子和開銷因子，這兩者通過元素所述領(lǐng)域和一個(gè)預(yù)算B定義。問題的目標(biāo)是找到E的一個(gè)子集，該子集擁有最大的影響力且沒有超出預(yù)算B。
[0019] 1.2.平凡概括設(shè)預(yù)算B為詞語的總個(gè)數(shù)。添加一個(gè)候選語句將會(huì)提高概括的質(zhì)量同時(shí)也會(huì)增加開銷。定義文檔上當(dāng)前生成的概括的質(zhì)量為：
在本函數(shù)中，ei和e2代表兩個(gè)語句，(^和c2是兩個(gè)概念，分別與ei和e2對應(yīng)。- ei 的意思是語句ei和概念Cl是相關(guān)聯(lián)的。兩個(gè)概念的相關(guān)性由如下公式計(jì)算：
其中q和c2是要被計(jì)算的概念，c。是 Cl和c2在概念層次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn)。P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
[0020] 相應(yīng)地，定義添加一個(gè)候選語句帶來的質(zhì)量提升為：
1.3.基于查詢的概括將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上，然后定義質(zhì)量函數(shù)為：
3)語句篩選我們使用貪心算法來從原始文檔中提取重要語句。給定文檔集D和預(yù)算B，該算法通過使用子模函數(shù)生成一個(gè)滿足B的D。算法每次選擇一個(gè)較長的語句來進(jìn)行結(jié)果的概括，因?yàn)?長語句有較大的可能包涵重要信息并帶來較大的質(zhì)量提高。
【主權(quán)項(xiàng)】
1. 一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，該管理方法W豐富本體為基礎(chǔ)，包括語句映射、子模型建模和語句篩選Η個(gè)步驟，其特征在于： 1) 語句映射的步驟；將某一領(lǐng)域的文檔劃分成多條語句，將多條語句映射到相應(yīng)本體的層次結(jié)構(gòu)中，經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射； 2) 子模型建模的步驟；將子模函數(shù)應(yīng)用于貪必算法中，順序地從給定語句集中選取語句； 3) 語句篩選的步驟：采用貪必算法來從原始文檔中提取長語句。2. 根據(jù)權(quán)利要求1所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，其特征在于：所述的語句當(dāng)只和一個(gè)概念相關(guān)聯(lián)，則將該語句映射到送一概念上；當(dāng)語句和多個(gè)概念相關(guān) 聯(lián)，則映射該語句到送些概念的最小祖先LCA上。3. 根據(jù)權(quán)利要求2所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，其特征在于：所述語句與指定給各個(gè)概念的關(guān)鍵字重疊度進(jìn)行計(jì)算，所得結(jié)果作為度量關(guān)聯(lián)度的分?jǐn)?shù)，然后選出分?jǐn)?shù)最高的概念。4. 根據(jù)權(quán)利要求1所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，其特征在于：所述的子模函數(shù)為：設(shè)f為非遞減函數(shù)，滿足：趴'。冰AT)'; /取.料}，其中騰取且S和T是E的子集，爹擦娛罪給定文檔集 D和預(yù)算B，通過使用子模函數(shù)生成一個(gè)滿足預(yù)算B的文檔集D，設(shè)預(yù)算B為詞語的總個(gè)數(shù)，定義文檔上當(dāng)前生成的概括的質(zhì)量為：ei和θ2代表兩個(gè)語句，Cl 和C2是兩個(gè)概念，分別與ei和θ2對應(yīng)，Cl 一 ei的意思是語句ei和概念Cl是相關(guān)聯(lián)的；將查詢q映射到本體層次結(jié)構(gòu)中的某一概念上，然后定義質(zhì)量函數(shù)為：5. 根據(jù)權(quán)利要求4所述的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法，其特征在于：所述的兩個(gè)概念的相關(guān)性由如下公式計(jì)算：其中。和C2是要被計(jì)算的概念，C。是。和C2在概念層次結(jié)構(gòu)中的最小公共父節(jié)點(diǎn)，P()表示一個(gè)隨機(jī)選取的目標(biāo)屬于該概念的概率。
【專利摘要】本發(fā)明涉及一種基于豐富本體的進(jìn)行災(zāi)難管理的方法，該管理方法以豐富本體為基礎(chǔ)，包括語句映射、子模型建模和語句篩選三個(gè)步驟，1）語句映射的步驟：將某一領(lǐng)域的文檔劃分成多條語句，將多條語句映射到相應(yīng)本體的層次結(jié)構(gòu)中，經(jīng)專家為該層次結(jié)構(gòu)指定關(guān)鍵字用于語句映射；2）子模型建模的步驟：將子模函數(shù)應(yīng)用于貪心算法中，順序地從給定語句集中選取語句；3）語句篩選的步驟：采用貪心算法來從原始文檔中提取長語句。相比傳統(tǒng)基于單個(gè)術(shù)語的挖掘效率較低，本發(fā)明提出的基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法更具競爭力。
【IPC分類】G06F17/30, G06F17/27
【公開號】CN105573976
【申請?zhí)枴緾N201410521099
【發(fā)明人】李千目, 李濤, 劉浩, 徐建
【申請人】南京理工大學(xué)常熟研究院有限公司
【公開日】2016年5月11日
【申請日】2014年10月8日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李千目;李濤;劉浩;徐建;
技術(shù)所有人：南京理工大學(xué)常熟研究院有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

災(zāi)難片相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于豐富本體的多文檔挖掘?yàn)?zāi)難管理方法