背景技術(shù):
0、技術(shù)背景
1、鐵路安全風(fēng)險(xiǎn)識(shí)別是保障鐵路持續(xù)穩(wěn)定運(yùn)營(yíng)的必要條件。關(guān)鍵是如何從人防、物防、技防“三位一體”的場(chǎng)景中,自動(dòng)識(shí)別對(duì)象的安全風(fēng)險(xiǎn)。傳統(tǒng)的鐵路安全風(fēng)險(xiǎn)識(shí)別主要依靠專家經(jīng)驗(yàn),從異構(gòu)數(shù)據(jù)中挖掘安全風(fēng)險(xiǎn)。構(gòu)建故障樹(shù)和事件樹(shù)推理安全風(fēng)險(xiǎn)演化過(guò)程,實(shí)現(xiàn)安全風(fēng)險(xiǎn)關(guān)口前移、事后管理變事前預(yù)防的目的。面對(duì)智能軌道交通系統(tǒng)的海量數(shù)據(jù)規(guī)模,人工識(shí)別方式無(wú)法滿足大數(shù)據(jù)分析的需求。同時(shí)人為主觀性的差異導(dǎo)致識(shí)別標(biāo)準(zhǔn)不一,影響安全風(fēng)險(xiǎn)演化推理過(guò)程。依靠專家經(jīng)驗(yàn)構(gòu)建故障樹(shù)和事件樹(shù),不能自動(dòng)推理安全風(fēng)險(xiǎn)之間的因果關(guān)系。智慧鐵路的發(fā)展亟需自動(dòng)識(shí)別鐵路安全風(fēng)險(xiǎn),并對(duì)其演化過(guò)程進(jìn)行智能推理。
2、目前,海量數(shù)據(jù)驅(qū)動(dòng)深度神經(jīng)網(wǎng)絡(luò)成為鐵路安全風(fēng)險(xiǎn)識(shí)別的主要方法。dnn使用單個(gè)神經(jīng)元和組合神經(jīng)元模擬人類(lèi)認(rèn)知的抽象機(jī)制,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)和反向傳播模仿人類(lèi)認(rèn)知的迭代機(jī)制,從而獲取自學(xué)習(xí)和自適應(yīng)鐵路領(lǐng)域數(shù)據(jù)的能力。但是深度神經(jīng)網(wǎng)絡(luò)從文本中識(shí)別鐵路安全風(fēng)險(xiǎn)面臨兩個(gè)難題。
3、(1)忽視鐵路對(duì)象之間互聯(lián)的重要性。這些現(xiàn)有模型未能探索鐵路對(duì)象之間的關(guān)系,因此必須依賴額外的經(jīng)驗(yàn)或先驗(yàn)知識(shí)來(lái)推斷事故/事故。此外,由于人類(lèi)主體性的差異,在引入額外的經(jīng)驗(yàn)或先驗(yàn)知識(shí)來(lái)探索這種關(guān)系時(shí),可能會(huì)產(chǎn)生不一致的結(jié)果。
4、(2)缺乏鐵路領(lǐng)域語(yǔ)義。幾乎所有這些基于dnn的模型都面臨鐵路領(lǐng)域和通用領(lǐng)域之間的嚴(yán)重語(yǔ)義鴻溝,特別是在文本挖掘領(lǐng)域?,F(xiàn)有模型通常使用在開(kāi)放語(yǔ)料庫(kù)(包括維基百科、華爾街日?qǐng)?bào)等)上訓(xùn)練的預(yù)訓(xùn)練模型初始化數(shù)據(jù)表示,而開(kāi)放語(yǔ)料庫(kù)缺乏領(lǐng)域語(yǔ)料庫(kù),尤其是中國(guó)鐵路語(yǔ)料庫(kù),這會(huì)對(duì)理解鐵路文本造成損害,從而影響最終性能。這表明,增強(qiáng)領(lǐng)域語(yǔ)義對(duì)于理解鐵路文本非常重要。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述問(wèn)題,本發(fā)明公開(kāi)識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,包括四個(gè)模塊,領(lǐng)域語(yǔ)義特征模塊、增強(qiáng)語(yǔ)義特征模塊、知識(shí)結(jié)構(gòu)語(yǔ)義特征模塊和安全風(fēng)險(xiǎn)關(guān)系分類(lèi)模塊。針對(duì)鐵路安全風(fēng)險(xiǎn)識(shí)別,引入知識(shí)圖譜中的三元組概念,探究待檢測(cè)鐵路實(shí)體之間的關(guān)系,將鐵路安全風(fēng)險(xiǎn)識(shí)別重新定義為關(guān)系提取任務(wù)。首先將鐵路領(lǐng)域術(shù)語(yǔ)構(gòu)建為領(lǐng)域字典,使用n-gram機(jī)制,從統(tǒng)計(jì)學(xué)的角度從詞典中挖掘詞邊界信息,學(xué)習(xí)領(lǐng)域詞匯的語(yǔ)義特征;然后將n-gram機(jī)制和多頭注意力機(jī)制融合為領(lǐng)域語(yǔ)義增強(qiáng)transformer網(wǎng)絡(luò),對(duì)輸入文本進(jìn)行編碼,融合鐵路和通用語(yǔ)義,實(shí)現(xiàn)自動(dòng)認(rèn)知鐵路文本語(yǔ)義信息;在對(duì)領(lǐng)域文本理解能力提升的基礎(chǔ)上,進(jìn)一步通過(guò)分段卷積神經(jīng)網(wǎng)絡(luò)在每個(gè)片段中引入分段最大池操作來(lái)捕獲細(xì)粒度特征,而不是在整個(gè)句子中實(shí)現(xiàn)單個(gè)最大池操作;分段卷積神經(jīng)網(wǎng)絡(luò)的輸出是一個(gè)與關(guān)系類(lèi)型相關(guān)聯(lián)的分?jǐn)?shù)矩陣o,然后,對(duì)于每個(gè)句子s,可以通過(guò)soft-max操作計(jì)算關(guān)系類(lèi)型的概率,最后使用交叉熵作為目標(biāo)函數(shù)。
2、與現(xiàn)有技術(shù)相比,本發(fā)明的有效效果是:
3、(1)本文首次從知識(shí)互聯(lián)角度分析鐵路安全風(fēng)險(xiǎn),使用三元組知識(shí)建模安全風(fēng)險(xiǎn)主客體及其關(guān)系。對(duì)比現(xiàn)有方法,知識(shí)互聯(lián)不僅提供一種新的識(shí)別鐵路安全風(fēng)險(xiǎn)的思路,而且奠定鐵路安全風(fēng)險(xiǎn)演化的知識(shí)推理基礎(chǔ)。
4、(2)提出一種基于領(lǐng)域語(yǔ)義增強(qiáng)的安全風(fēng)險(xiǎn)識(shí)別模型,該模型通過(guò)增強(qiáng)transformer機(jī)制和分段卷積神經(jīng)網(wǎng)絡(luò),持續(xù)地學(xué)習(xí)鐵路文本數(shù)據(jù)的語(yǔ)義特征。
1.用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,(1)引入知識(shí)圖譜中的三元組概念,探究待檢測(cè)鐵路實(shí)體之間的關(guān)系,將鐵路安全風(fēng)險(xiǎn)識(shí)別重新定義為關(guān)系提取任務(wù),將鐵路安全風(fēng)險(xiǎn)投影到可用于事故推斷的知識(shí)互聯(lián)空間中;(2)設(shè)計(jì)了一種領(lǐng)域語(yǔ)義增強(qiáng)transformer機(jī)制,該機(jī)制可以通過(guò)n-gram機(jī)制自動(dòng)從鐵路詞典中增強(qiáng)鐵路領(lǐng)域語(yǔ)義信息;(3)引入分段卷積神經(jīng)網(wǎng)絡(luò)來(lái)探索三元組結(jié)構(gòu)中包含的細(xì)粒度特征,提高關(guān)系分類(lèi)的性能。
2.根據(jù)權(quán)利要求1所述的用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,提取鐵路實(shí)體之間的關(guān)系。通過(guò)對(duì)鐵路安全風(fēng)險(xiǎn)事件的調(diào)研與統(tǒng)計(jì),定義了8種實(shí)體和4種關(guān)系,用來(lái)描述了鐵路安全風(fēng)險(xiǎn)主體、客體及其之間的關(guān)系。為了將鐵路對(duì)象互連,我們將鐵路安全風(fēng)險(xiǎn)建模為三元組:
3.根據(jù)權(quán)利要求1所述的用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,從專用的鐵路詞典中增強(qiáng)鐵路領(lǐng)域語(yǔ)義信息。從統(tǒng)計(jì)學(xué)的角度引入n-gram機(jī)制來(lái)探索鐵路詞典中的詞邊界特征。設(shè)是一個(gè)鐵路術(shù)語(yǔ)詞典,n-gram的聯(lián)合概率可以表示為:
4.根據(jù)權(quán)利要求1和3所述的用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,增強(qiáng)鐵路領(lǐng)域語(yǔ)義信息。增強(qiáng)transformer機(jī)制融合統(tǒng)計(jì)語(yǔ)義特征和通用語(yǔ)義特征生成增強(qiáng)語(yǔ)義特征。通過(guò)多頭注意力網(wǎng)絡(luò)編碼n-gram獲取的領(lǐng)域語(yǔ)義信息和句子輸入,如下編碼:
5.根據(jù)權(quán)利要求1所述的用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,對(duì)鐵路文本進(jìn)行關(guān)系抽取。在增強(qiáng)語(yǔ)義特征的基礎(chǔ)上,使用分段卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。三元組結(jié)構(gòu)將句子分成了三個(gè)片段,每個(gè)片段中引入了分段最大池操作,而不是在整個(gè)句子中實(shí)現(xiàn)單個(gè)最大池,捕捉這些細(xì)粒度的特征,形式上,將第i個(gè)卷積運(yùn)算定義為:
6.根據(jù)權(quán)利要求1和5所述的用于識(shí)別鐵路安全風(fēng)險(xiǎn)的領(lǐng)域語(yǔ)義增強(qiáng)關(guān)系提取模型,其特征在于,自動(dòng)增強(qiáng)領(lǐng)域語(yǔ)義并捕獲細(xì)粒度特征以提取關(guān)系,模型目標(biāo)函數(shù)為: