欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文檔級(jí)地質(zhì)空間關(guān)系抽取方法、系統(tǒng)

文檔序號(hào):40594667發(fā)布日期:2025-01-07 20:35閱讀:8來(lái)源:國(guó)知局
一種文檔級(jí)地質(zhì)空間關(guān)系抽取方法、系統(tǒng)

本發(fā)明涉及地質(zhì)數(shù)據(jù)挖掘,尤其涉及一種文檔級(jí)地質(zhì)空間關(guān)系抽取方法、系統(tǒng)。


背景技術(shù):

1、隨著信息技術(shù)的發(fā)展,海量的地球科學(xué)信息被匯總整合,大數(shù)據(jù)成為地球科學(xué)領(lǐng)域新的科學(xué)范式。近年來(lái),隨著人工智能和自然語(yǔ)言處理等技術(shù)的不斷發(fā)展,地質(zhì)文本挖掘任務(wù)已經(jīng)逐漸成為地球科學(xué)領(lǐng)域的熱點(diǎn)問(wèn)題。海量非結(jié)構(gòu)化地質(zhì)文本數(shù)據(jù)中蘊(yùn)含的各種空間關(guān)系的謂詞、短語(yǔ)對(duì)于地質(zhì)對(duì)象的空間位置和關(guān)系進(jìn)行了詳細(xì)的刻畫(huà)。這些空間關(guān)系信息能夠?yàn)榈叵驴臻g的場(chǎng)景重建、空間分析和空間推理等研究提供可靠的數(shù)據(jù)基礎(chǔ)。

2、以往針對(duì)地質(zhì)文本的空間關(guān)系方法專(zhuān)注于句子級(jí)的空間關(guān)系抽取任務(wù),它在一個(gè)句子中預(yù)測(cè)實(shí)體之間的空間關(guān)系。然而,句子級(jí)的空間關(guān)系模型難以識(shí)別跨句子實(shí)體之間的空間關(guān)系。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于:為了解決當(dāng)前關(guān)系抽取方法難以在地質(zhì)文本中捕捉上下文的長(zhǎng)距離依賴(lài)關(guān)系,完成跨句子空間關(guān)系抽取的問(wèn)題,提出一種文檔級(jí)地質(zhì)空間關(guān)系抽取方法,包括以下步驟:

2、s1、獲取地質(zhì)文本數(shù)據(jù),對(duì)地質(zhì)實(shí)體類(lèi)型和地質(zhì)空間關(guān)系類(lèi)型進(jìn)行定義,并根據(jù)定義的地質(zhì)實(shí)體類(lèi)型和地質(zhì)空間關(guān)系類(lèi)型對(duì)地質(zhì)文本數(shù)據(jù)進(jìn)行標(biāo)注;

3、s2、基于roberta預(yù)訓(xùn)練語(yǔ)言模型、卷積神經(jīng)網(wǎng)絡(luò)以及圖卷積網(wǎng)絡(luò)構(gòu)建文檔級(jí)地質(zhì)空間關(guān)系抽取模型;

4、s3、將標(biāo)注后的地質(zhì)文本數(shù)據(jù)輸入roberta預(yù)訓(xùn)練語(yǔ)言模型,得到具有上下文語(yǔ)義信息的語(yǔ)義特征;

5、s4、將語(yǔ)義特征輸入卷積神經(jīng)網(wǎng)絡(luò)得到文本上下文的結(jié)構(gòu)特征;

6、s5、將語(yǔ)義特征與結(jié)構(gòu)特征進(jìn)行融合,得到融合特征;

7、s6、基于融合特征,構(gòu)建異構(gòu)圖,使用圖卷積網(wǎng)絡(luò)對(duì)異構(gòu)圖進(jìn)行處理,提取異構(gòu)圖的節(jié)點(diǎn)特征;

8、s7、根據(jù)異構(gòu)圖的節(jié)點(diǎn)特征,將異構(gòu)圖轉(zhuǎn)化為實(shí)體級(jí)語(yǔ)義層次圖,獲取含有路徑推理信息的地質(zhì)實(shí)體節(jié)點(diǎn)向量;

9、s8、根據(jù)地質(zhì)實(shí)體節(jié)點(diǎn)向量預(yù)測(cè)地質(zhì)實(shí)體之間存在的空間關(guān)系,獲得結(jié)構(gòu)化的空間關(guān)系三元組。

10、進(jìn)一步地,地質(zhì)實(shí)體類(lèi)型包含巖石、地名、地層以及地質(zhì)構(gòu)造四類(lèi);

11、地質(zhì)空間關(guān)系類(lèi)型包含拓?fù)潢P(guān)系、絕對(duì)方位關(guān)系以及相對(duì)方位關(guān)系三類(lèi),拓?fù)潢P(guān)系進(jìn)一步劃分為包含、相等、相接、相離、覆蓋、相交六種,絕對(duì)方位關(guān)系進(jìn)一步劃分為東部、西部、南部、北部、東南部、東北部、西南部、西北部以及中部九種,相對(duì)方位關(guān)系進(jìn)一步劃分為上部、下部、左部、右部、內(nèi)部、頂部、底部七種。

12、進(jìn)一步地,對(duì)地質(zhì)文本數(shù)據(jù)進(jìn)行標(biāo)注表示為:

13、entity_label<pos,type,sent_id>

14、relation_label<relation,head,tail,evidence>

15、其中,entity_label表示地質(zhì)實(shí)體標(biāo)注,pos表示地質(zhì)實(shí)體在文檔中的頭尾位置索引,type表示地質(zhì)實(shí)體類(lèi)型,sent_id表示地質(zhì)實(shí)體所在的句子在文檔中的位置索引;relation_label表示地質(zhì)空間關(guān)系標(biāo)注,relation表示地質(zhì)空間關(guān)系類(lèi)型,head表示地質(zhì)空間關(guān)系對(duì)應(yīng)的頭實(shí)體索引,tail表示地質(zhì)空間關(guān)系對(duì)應(yīng)的尾實(shí)體索引,evidence表示用于推理得到地質(zhì)空間關(guān)系所涉及到的句子索引。

16、進(jìn)一步地,s3表示為:

17、gsem=[g1,g2,…,gn]=roberta([x1,x2,…,xn])

18、其中g(shù)sem表示語(yǔ)義特征,xi表示第i個(gè)標(biāo)注后的地質(zhì)文本數(shù)據(jù),i=1,2,...,n,gi為xi經(jīng)過(guò)roberta編碼器后得到的語(yǔ)義特征。

19、進(jìn)一步地,融合特征表示為:

20、h=[h1,h2,…,hk]=[(g1:cstruct),(g2:cstruct),…,(gn:cstruct)])

21、其中,h表示融合特征,hk表示第k個(gè)字符的融合特征,gn表示第n個(gè)語(yǔ)義特征,cstruct表示結(jié)構(gòu)特征。

22、進(jìn)一步地,異構(gòu)圖具有提及節(jié)點(diǎn)、實(shí)體節(jié)點(diǎn)和句子節(jié)點(diǎn)三種節(jié)點(diǎn)類(lèi)型;提及-提及邊、提及-實(shí)體邊、提及-句子邊、實(shí)體-句子邊、句子-句子邊五種類(lèi)型邊;

23、提及節(jié)點(diǎn)mi的表示為:其中,wj∈mi表示提及節(jié)點(diǎn)mi包含字符wj,hj表示wj的融合特征,avg表示取平均值;

24、實(shí)體節(jié)點(diǎn)ei的表示為:其中,mj∈ei表示mj屬于實(shí)體節(jié)點(diǎn)ei所對(duì)應(yīng)的提及節(jié)點(diǎn);

25、句子節(jié)點(diǎn)si的表示為:其中,wk∈si表示句子節(jié)點(diǎn)si包含字符wk,hk表示wk的融合特征。

26、進(jìn)一步地,使用圖卷積網(wǎng)絡(luò)對(duì)異構(gòu)圖進(jìn)行處理表示為:

27、

28、其中,表示圖卷積網(wǎng)絡(luò)第l+1層輸出的第i個(gè)節(jié)點(diǎn)特征,σ(·)表示激活函數(shù),x表示邊類(lèi)型集合,表示通過(guò)第x類(lèi)邊與節(jié)點(diǎn)i相連的鄰居節(jié)點(diǎn)集合,為圖卷積網(wǎng)絡(luò)第l層可訓(xùn)練的參數(shù)矩陣,dn為節(jié)點(diǎn)表示的維數(shù),表示圖卷積網(wǎng)絡(luò)第l層輸出的第j個(gè)節(jié)點(diǎn)的特征,表示圖卷積網(wǎng)絡(luò)第l層輸出的第i個(gè)節(jié)點(diǎn)特征。

29、進(jìn)一步地,s7具體為:

30、s71、合并所有連接相同兩個(gè)實(shí)體提及的不同實(shí)體間的邊,得到實(shí)體級(jí)圖中的邊,實(shí)體級(jí)圖中到有向邊的表示定義為:

31、

32、其中,eij表示實(shí)體級(jí)圖中到有向邊的表示,表示圖卷積之后的實(shí)體ei的表示,ei表示第i個(gè)實(shí)體,表示圖卷積之后的實(shí)體ej的表示,ej表示第j個(gè)實(shí)體,σ(·)表示激活函數(shù),wq和bq為可訓(xùn)練參數(shù),[;]是串聯(lián)運(yùn)算符;

33、s72、根據(jù)邊表示,得到頭實(shí)體與尾實(shí)體經(jīng)過(guò)另一個(gè)實(shí)體的路徑,表示如下:

34、

35、其中,表示頭實(shí)體eh與尾實(shí)體et經(jīng)過(guò)實(shí)體eo的第i條路徑;eho,eot,eto,eoh分別為連接實(shí)體eh和eo、eo和et、et和eo、eo和eh之間的有向邊的向量表示;

36、s73、使用頭實(shí)體與尾實(shí)體對(duì)融合頭實(shí)體和尾實(shí)體之間不同路徑的信息進(jìn)行查找,表示為:

37、

38、

39、其中,si為融合頭尾實(shí)體后的第i個(gè)路徑特征,[eh;ei]表示eh和ei串聯(lián)后的向量,eh表示頭實(shí)體,ei表示第i個(gè)實(shí)體,wl為可訓(xùn)練的參數(shù),αi表示第i條路徑的歸一化注意力權(quán)重,ph,t表示用于推斷空間關(guān)系的最終路徑信息,均表示自然指數(shù),sj表示融合頭尾實(shí)體后的第j個(gè)路徑特征。

40、進(jìn)一步地,s8中,根據(jù)地質(zhì)實(shí)體節(jié)點(diǎn)向量預(yù)測(cè)地質(zhì)實(shí)體之間存在的空間關(guān)系表示為:

41、p(r|eh,et)=sigmoid(wbσ(waih,t+ba)+bb)

42、

43、其中,p(r|eh,et)表示地質(zhì)實(shí)體eh和et之間的空間關(guān)系,wa、wb分別表示不同的權(quán)重系數(shù),ba、bb分別表示不同的偏置,σ(·)表示激活函數(shù),ih,t表示用于預(yù)測(cè)地質(zhì)實(shí)體對(duì)空間關(guān)系的最終向量表示,|eh-et|表示eh和et相減后的絕對(duì)值,表示相乘,mdoc表示文檔節(jié)點(diǎn),文檔節(jié)點(diǎn)由句子節(jié)點(diǎn)的向量表示取均值得到;

44、根據(jù)空間關(guān)系預(yù)測(cè)的結(jié)果,得到目標(biāo)空間關(guān)系三元組(eh,p(r|eh,et),et)。

45、本發(fā)明還提出一種文檔級(jí)地質(zhì)空間關(guān)系抽取系統(tǒng),包括:

46、數(shù)據(jù)獲取模塊,用于獲取地質(zhì)文本數(shù)據(jù),對(duì)地質(zhì)實(shí)體類(lèi)型和地質(zhì)空間關(guān)系類(lèi)型進(jìn)行定義,并根據(jù)定義的地質(zhì)實(shí)體類(lèi)型和地質(zhì)空間關(guān)系類(lèi)型對(duì)地質(zhì)文本數(shù)據(jù)進(jìn)行標(biāo)注;

47、模型構(gòu)建模塊,用于基于roberta預(yù)訓(xùn)練語(yǔ)言模型、卷積神經(jīng)網(wǎng)絡(luò)以及圖卷積網(wǎng)絡(luò)構(gòu)建文檔級(jí)地質(zhì)空間關(guān)系抽取模型;

48、語(yǔ)義特征獲得模塊,用于將標(biāo)注后的地質(zhì)文本數(shù)據(jù)輸入roberta預(yù)訓(xùn)練語(yǔ)言模型,得到具有上下文語(yǔ)義信息的語(yǔ)義特征;

49、結(jié)構(gòu)特征獲得模塊,用于將語(yǔ)義特征輸入卷積神經(jīng)網(wǎng)絡(luò)得到文本上下文的結(jié)構(gòu)特征;

50、特征融合模塊,用于將語(yǔ)義特征與結(jié)構(gòu)特征進(jìn)行融合,得到融合特征;

51、異構(gòu)圖構(gòu)建與處理模塊,用于基于融合特征,構(gòu)建異構(gòu)圖,使用圖卷積網(wǎng)絡(luò)對(duì)異構(gòu)圖進(jìn)行處理,提取異構(gòu)圖的節(jié)點(diǎn)特征;

52、異構(gòu)圖轉(zhuǎn)化模塊,用于根據(jù)異構(gòu)圖的節(jié)點(diǎn)特征,將異構(gòu)圖轉(zhuǎn)化為實(shí)體級(jí)語(yǔ)義層次圖,獲取含有路徑推理信息的地質(zhì)實(shí)體節(jié)點(diǎn)向量;

53、空間關(guān)系三元組獲得模塊,用于根據(jù)地質(zhì)實(shí)體節(jié)點(diǎn)向量預(yù)測(cè)地質(zhì)實(shí)體之間存在的空間關(guān)系,獲得結(jié)構(gòu)化的空間關(guān)系三元組。

54、本發(fā)明提供的技術(shù)方案帶來(lái)的有益效果是:

55、本發(fā)明提出一種基于圖卷積網(wǎng)絡(luò)的文檔級(jí)地質(zhì)空間關(guān)系抽取方法及系統(tǒng),首先獲取地質(zhì)文本數(shù)據(jù)的語(yǔ)義特征和結(jié)構(gòu)特征并融合,基于構(gòu)建異構(gòu)圖的方法使用圖卷積網(wǎng)絡(luò)捕獲非局部語(yǔ)法和上下文信息,并通過(guò)語(yǔ)義交互構(gòu)建實(shí)體級(jí)語(yǔ)義層次圖,建模實(shí)體間潛在的關(guān)系推理路徑,預(yù)測(cè)地質(zhì)實(shí)體之間存在的空間關(guān)系。該方法能夠有效解決長(zhǎng)距離依賴(lài)關(guān)系及跨句子關(guān)系難以提取的問(wèn)題,進(jìn)而從海量非結(jié)構(gòu)化地質(zhì)文本中高效提取結(jié)構(gòu)化的空間關(guān)系信息,為解決地學(xué)認(rèn)知、預(yù)測(cè)、決策和評(píng)價(jià)等方面的理論和實(shí)踐問(wèn)題提供了有力的支持。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
深圳市| 叶城县| 怀集县| 会泽县| 泾川县| 札达县| 壶关县| 龙海市| 格尔木市| 孙吴县| 长泰县| 沙湾县| 云浮市| 嘉黎县| 南和县| 宁强县| 白玉县| 城市| 邳州市| 疏附县| 浑源县| 翁源县| 墨脱县| 轮台县| 溆浦县| 彰化市| 九龙城区| 婺源县| 万载县| 许昌县| 常山县| 定边县| 呼伦贝尔市| 伊金霍洛旗| 太仆寺旗| 临洮县| 察哈| 岳西县| 宁武县| 临江市| 海晏县|