本發(fā)明涉及自然語言處理,具體為一種能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法及系統(tǒng)。
背景技術:
1、在過去十幾年內,事件關系抽取的研究主要基于一系列人工標注的語料,但受限于成本和領域特性,現(xiàn)有的語料庫規(guī)模較小且領域有限,限制了模型訓練的效果和應用范圍。因此,自動構建大規(guī)模、專業(yè)領域的事件關系語料庫成為研究者持續(xù)關注的熱點。盡管目前的研究已經在通用領域取得一定的成果,但在能源領域,事件關系抽取的語料構建仍處于初級階段,因此,如何在通用領域的基礎上進一步開展能源領域的事件關系語料構建研究,是當前研究者們面臨的一個重要問題。
2、目前在能源事件關系抽取領域尚未發(fā)現(xiàn)公開的大規(guī)模語料,由于能源事件關系的復雜性,通用領域的語料構建方法不能很好地應對能源事件關系語料構建任務,限制了相關研究的進展。因此,如何針對能源事件關系的復雜性設計高精度和高效率的自動標注方法以構建大規(guī)模能源事件關系語料,是深入研究能源事件關系抽取亟需解決的問題。
技術實現(xiàn)思路
1、鑒于上述存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明解決的技術問題是:通用領域的語料構建方法不能很好地應對能源事件關系語料構建任務,效率和精度不足。
3、為解決上述技術問題,本發(fā)明提供如下技術方案:一種能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法,包括:采集能源行業(yè)數(shù)據(jù),分析得到能源實體及事件關系,定義要素路徑并構建觸發(fā)詞語義匹配模板;根據(jù)關鍵要素路徑比例,計算關鍵要素路徑集合;根據(jù)觸發(fā)詞匹配率,匹配事件關系,使用語義單元生成能源事件關系語料庫。
4、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:所述要素路徑包括觸發(fā)詞t1通過要素1的角色類型邊連接至要素1,隨后經由要素關系連接至要素2,并通過要素2的角色類型邊連接至觸發(fā)詞t2;其中,觸發(fā)詞t1和要素1屬于事件e1,觸發(fā)詞t2和要素2屬于事件e2,角色類型邊表示能源事件內部要素與觸發(fā)詞單元之間的關系,使用多條要素路徑標注復雜事件。
5、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:計算所述關鍵要素路徑集合包括,計算要素路徑重要性apsij,表示為:
6、
7、其中,count(pai,etpj)表示知識庫中第j個語義關系類型etpj下包含第i個要素路徑pai的樣本數(shù);count(etpj)表示知識庫中第j個語義關系類型etpj下所有的樣本總數(shù);
8、計算事件關系相關性erri:
9、
10、其中,sum(etp)表示知識庫中語義關系類型集合etp中所有語義關系類型數(shù);count(etpci)表示知識庫含有第i個要素路徑pai的語義關系類型數(shù);ε表示防止分母為0的常數(shù);
11、計算關鍵要素路徑比例krarpij:
12、krarpij=apsij*erri
13、計算每一個事件語義關系類型的關鍵要素路徑比例krarpij,排序選出最前面k個要素路徑作為當前關鍵要素路徑集合。
14、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:所述匹配事件關系包括,根據(jù)觸發(fā)詞匹配率,從觸發(fā)詞語義匹配模板中選取關鍵要素路徑覆蓋比例最高的語義類型,匹配事件關系,計算觸發(fā)詞對候選頻率tpceij,表示為:
15、
16、其中,count(epi,tpsj)表示文本中第i個觸發(fā)詞對epi在第j個事件語義類型對tpsj下的樣本數(shù);count(tpsj)表示文檔中第j個語義類型對tpsj包含所有觸發(fā)詞對的數(shù)目;
17、計算觸發(fā)詞語義匹配頻率tpmfi:
18、
19、其中,sum(etp)表示語義類型對集合etp中語義類型對的總數(shù);count(etpsi)表示包含觸發(fā)詞對epi的語義類型對的數(shù)目;
20、計算觸發(fā)詞匹配率tmrij:
21、tmrij=tpcfij*tpmfi
22、對一個觸發(fā)詞對,選擇tmrij最大的事件語義關系類型為觸發(fā)詞對匹配的事件關系。
23、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:所述語義單元包括,根據(jù)觸發(fā)詞對與知識庫映射的framenet語義單元的查詢關系,進行事件關系擴展和噪聲過濾;當知識庫映射的framenet語義單元中可查詢到文本中觸發(fā)詞對時,知識庫映射對應框架的語義單元中的單詞、詞組被用來擴展觸發(fā)詞對的規(guī)模,進而擴展事件關系的標注規(guī)模,得到大規(guī)模自動標注的能源事件關系語料;若知識庫映射的framenet語義單元中未查詢到文本中觸發(fā)詞對,則對應觸發(fā)詞對作為噪聲過濾。
24、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:所述語義單元還包括,建立事件關系抽取模型,采用兩階段對事件關系抽取模型訓練和回標,并驗證自動標注的結果的準確性;
25、第一階段,建立事件關系抽取模型并進行預訓練,事件關系抽取模型以bert模型為基礎,bert模型的損失函數(shù)旨在語言建模和句子預測,引入關鍵要素路徑比例作為輔助任務,通過多任務學習框架,在訓練過程中同時優(yōu)化語言模型和事件關系特征提取,表示為:
26、
27、其中,表示預訓練階段的損失函數(shù);表示bert模型的mlm損失函數(shù);表示bert模型的nsp損失函數(shù);λ1表示權重參數(shù);ni表示預訓練數(shù)據(jù)中要素路徑的總數(shù);nj表示預訓練數(shù)據(jù)中語義關系類型的總數(shù);第二階段,將經過人工標注的高質量數(shù)據(jù)集劃分為訓練、驗證、測試集,經過預訓練的事件關系抽取模型通過高質量數(shù)據(jù)集進行微調,減小預測與真實結果的偏差,表示為:
28、
29、其中,表示微調階段的損失函數(shù);m表示高質量數(shù)據(jù)集中樣本總數(shù);yj表示高質量數(shù)據(jù)集的真實標簽;表示高質量數(shù)據(jù)集的預測標簽;λ2表示權重參數(shù);l表示特征向量zj的數(shù)量;ψl(zj)表示高質量數(shù)據(jù)集的歸一化特征變換函數(shù)。
30、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的一種優(yōu)選方案,其中:生成所述能源事件關系語料庫包括,使用兩階段訓練后的事件關系抽取模型對大規(guī)模自動標注的能源事件關系語料進行回標,回標數(shù)據(jù)與高質量數(shù)據(jù)集的數(shù)據(jù)構成能源事件關系語料庫。
31、第二方面,本發(fā)明還提供了能源行業(yè)大數(shù)據(jù)的語料庫自動構建系統(tǒng),包括,采集模塊,采集能源行業(yè)數(shù)據(jù),分析得到能源實體及事件關系,定義要素路徑并構建觸發(fā)詞語義匹配模板;計算模塊,根據(jù)采集的數(shù)據(jù)計算關鍵要素路徑比例和觸發(fā)詞匹配率,獲得關鍵要素路徑集合;匹配模塊,以bert模型為基礎建立事件關系抽取模型,并進行二階段訓練,使用訓練后的事件關系抽取模型對大規(guī)模自動標注的能源事件關系語料進行回標,生成能源事件關系語料庫。
32、第三方面,本發(fā)明還提供了一種計算設備,包括:存儲器和處理器;
33、所述存儲器用于存儲計算機可執(zhí)行指令,所述處理器用于執(zhí)行所述計算機可執(zhí)行指令,該計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)所述能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的步驟。
34、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質,其存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)所述能源行業(yè)大數(shù)據(jù)的語料庫自動構建方法的步驟。
35、本發(fā)明的有益效果:本發(fā)明通過采集和分析能源數(shù)據(jù),定義要素路徑并構建觸發(fā)詞語義匹配模板,奠定了數(shù)據(jù)處理基礎。計算關鍵要素路徑集合,優(yōu)化匹配模板,提高匹配精度。隨后,通過匹配事件關系,使用語義單元生成高質量語料庫,確保豐富的事件關系和實體信息。建立事件關系抽取模型并進行兩階段訓練,生成的語料庫具備高準確性和全面性,顯著提升了大數(shù)據(jù)分析和應用的效率與可靠性。