本發(fā)明涉及一種知識圖譜平臺,尤其涉及一種支持電力系統(tǒng)數(shù)據(jù)整合分析和可視化的知識圖譜平臺,屬于電網(wǎng)調(diào)控。
背景技術(shù):
1、隨著電力系統(tǒng)的復(fù)雜性增加,對于電力系統(tǒng)的數(shù)據(jù)處理和知識管理需求日益增強。傳統(tǒng)的數(shù)據(jù)處理方法,如基于規(guī)則的數(shù)據(jù)處理和簡單的統(tǒng)計分析,已難以滿足現(xiàn)代電力系統(tǒng)的需求。知識圖譜是一種用于表示和組織知識的方法,它通過圖形結(jié)構(gòu)將實體、概念和它們之間的關(guān)系進行建模。知識圖譜在電力系統(tǒng)領(lǐng)域可以用于表示電網(wǎng)拓撲、設(shè)備、參數(shù)和事件等,從而實現(xiàn)對電力系統(tǒng)進行全面、多維度的理解和分析。在電力系統(tǒng)中,來自不同來源的數(shù)據(jù),如監(jiān)測數(shù)據(jù)、運行數(shù)據(jù)、設(shè)備參數(shù)等進行整合和統(tǒng)一管理,并通過可視化技術(shù)將復(fù)雜的電網(wǎng)運行狀態(tài)和分析結(jié)果以直觀的方式展示,便于研究人員和工程師進行觀察和決策。
2、總體來說,知識圖譜技術(shù)在電網(wǎng)調(diào)控領(lǐng)域應(yīng)用已有初步成果,但現(xiàn)階段電力系統(tǒng)調(diào)控領(lǐng)域知識圖譜應(yīng)用成果較為零散,資源共享性較差,算法模型、數(shù)據(jù)、經(jīng)驗難以在調(diào)控領(lǐng)域全局共享,應(yīng)用成果深度和廣度都不足,對調(diào)控業(yè)務(wù)支撐的范圍、程度還不夠,亟需結(jié)合業(yè)務(wù)需求、技術(shù)成熟度,從模型、樣本、平臺、運營機制、開放生態(tài)這些方面統(tǒng)籌開展體系設(shè)計和研究應(yīng)用。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種能夠提高電力系統(tǒng)的運行效率和管理水平的支持電力系統(tǒng)數(shù)據(jù)整合分析和可視化的知識圖譜平臺。
2、技術(shù)方案:本發(fā)明所述的一種支持電力系統(tǒng)數(shù)據(jù)整合分析和可視化的知識圖譜平臺,包括:
3、電力數(shù)據(jù)預(yù)處理模塊,用于使用自然語言處理技術(shù),從電力系統(tǒng)文檔和記錄中提取出關(guān)鍵信息;
4、知識抽取模塊,用于從數(shù)據(jù)源中抽取實體、關(guān)系和屬性,構(gòu)建三元組并存入知識圖譜中;
5、數(shù)據(jù)整合模塊,用于根據(jù)預(yù)設(shè)的需求,使用模型計算屬性、實體以及子圖之間的相似度,識別需對齊的本體,并由用戶對識別結(jié)果進行核對,平臺將核對后的結(jié)果執(zhí)行合并或鏈接操作,完成實體的整合;
6、圖譜構(gòu)建模塊,用于通過拖拽式或從公共本體庫構(gòu)建知識圖譜;
7、圖譜表征模塊,用于整合自然語言處理功能,提供用戶通過自然語言形式進行查詢的服務(wù),通過自然語言理解技術(shù)解析查詢,識別出關(guān)鍵實體和用戶意圖,調(diào)用圖算法進行數(shù)據(jù)檢索和分析;
8、用戶界面模塊,用于提供用戶界面,提供用戶訪問和利用平臺管理、統(tǒng)計和整合功能;所述用戶界面模塊具體包括:知識圖譜平臺管理界面功能、知識圖譜平臺統(tǒng)計界面功能、知識圖譜平臺圖譜整合功能。
9、進一步地,所述電力數(shù)據(jù)預(yù)處理模塊,具體實現(xiàn)方法為:
10、s1.1:將電力數(shù)據(jù)對應(yīng)的電力領(lǐng)域?qū)I(yè)術(shù)語、設(shè)備名稱和技術(shù)詞匯添加到分詞工具的自定義詞典中,選擇支持中英文的分詞算法進行分詞;
11、s1.2:利用預(yù)定義的規(guī)則集進行詞性標注,再通過訓練模型自動識別詞性,結(jié)合預(yù)定義規(guī)則集和訓練模型的方法,提高詞性標注的準確性和魯棒性;
12、s1.3:利用基于深度學習的時序數(shù)據(jù)分析模型,學習數(shù)據(jù)中的時間依賴關(guān)系,并對未來的數(shù)據(jù)趨勢進行預(yù)測;
13、s1.4:使用可視化文本標注工具,從待標注文本文件中,標注初待提取的實體、關(guān)系和屬性,得到標注結(jié)果,并利用主動學習模型學習標注規(guī)律。
14、進一步地,步驟s1.4中所述標注結(jié)果文件為ann格式,所述步驟s1.4具體包括:
15、s1.4.1:上傳待標注文本文件,所述待標注文本文件由用戶上傳,文件格式支持txt格式,文件編碼方式為utf-8;上傳的文件為新文件時,自動生成對應(yīng)的空白ann文件,所述空白ann文件編碼方式為utf-8;
16、s1.4.2:進行文本標注,所述標注的方式包括手動文本標注和自動文本標注;
17、所述手動文本標注方式為,通過在頁面上劃選文本標注實體的類型或?qū)傩裕ㄟ^在頁面上從一個實體tag拖拽至另一個實體tag,標注符合約束的關(guān)系,具體包括:
18、實體、屬性標注:選定頁面的文本段落時,自動呈現(xiàn)標注對話框,用于為所選文本賦予實體標注或?qū)傩詷俗?;完成標注后,該文本段落將以預(yù)設(shè)的顏色進行高亮顯示,并附帶相應(yīng)的標注標簽;所述標注標簽可以被編輯或刪除;
19、關(guān)系標注:當用戶選中一個已標注的實體并拖拽至另一個已標注的實體時,判斷這兩個實體之間是否預(yù)設(shè)關(guān)系,若存在預(yù)設(shè)關(guān)系,則會即時呈現(xiàn)連接線,并彈出關(guān)系標注對話框,用于進行關(guān)系標注,標注結(jié)果可通過連接線觸發(fā)展示;若兩個實體之間并未預(yù)設(shè)關(guān)系,則進行提示告知;所述標注結(jié)果可以被編輯或刪除;
20、所述自動文本標注方式為,首先對文本進行精細的分詞處理,將文本拆分成多個詞語或短語;然后,利用相似度匹配技術(shù),將文本中的每個詞語或短語與已有的標注數(shù)據(jù)進行對比,以確定其對應(yīng)的實體和關(guān)系;在標注過程中,系統(tǒng)自動為每個標注結(jié)果生成一個標記,用于用戶進行確認;將經(jīng)過用戶確認后的標注信息作為新的標注數(shù)據(jù)加入已標注ann文件中;
21、s1.4.3:根據(jù)預(yù)設(shè)標準進行標注檢查;對于根據(jù)標準識別出的錯誤標注結(jié)果,采用預(yù)設(shè)顏色進行標識,用于用戶識別與修正;并將標注內(nèi)容依據(jù)所屬實體類別,采用不同顏色進行區(qū)分;
22、所述標準包括:
23、所標注的實體類別及屬性在既定配置中均有所體現(xiàn),不存在缺失;
24、標注的關(guān)系類型需在配置中有所定義;
25、標注的關(guān)系,遵循配置中規(guī)定的實體類型,將所有不符合或擅自更改配置的行為定義為錯誤;
26、s1.4.4:標注數(shù)據(jù)集下載:設(shè)置訪問數(shù)據(jù)集頁面,為用戶提供下載功能,根據(jù)用戶下載需求,自動打包整個數(shù)據(jù)集的源文本文件以及標記后的ann文件,或根據(jù)用戶需求選擇指定的源文本文件以及標記后的ann文件,并提供選擇生成json格式文件的選項供用戶下載。
27、進一步地,所述知識抽取模塊的數(shù)據(jù)源包括結(jié)構(gòu)化數(shù)據(jù)源、半結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源;
28、所述結(jié)構(gòu)化數(shù)據(jù)源的抽取,支持用戶通過配置映射規(guī)則以構(gòu)建圖譜;通過解析文件內(nèi)容并結(jié)合映射配置,將文件中的信息轉(zhuǎn)化為圖譜中的概念和關(guān)系;具體包括:
29、s2.1.1:設(shè)置映射規(guī)則:所述結(jié)構(gòu)化數(shù)據(jù)包括文件、行和列,根據(jù)列的字段名稱編寫實體、關(guān)系、屬性的配置規(guī)則;將映射過程中所有的值視為字符串進行處理,當文件名不包含連接符號,以文件名作為實體類型的名稱,文件中的字段名稱作為實體的屬性名,當文件名中包含連接符號,將文件名按連接符號分解為三元組,分別作為頭實體類型、關(guān)系類型和尾實體類型,文件中,三個字段分別作為三元組的頭實體實例、關(guān)系實例、尾實體實例;
30、s2.1.2:概念映射:利用映射規(guī)則將文件中的字段映射為圖譜本體的核心概念及其節(jié)點的具體類型;具體的,用戶在文件選擇區(qū)域指定文件類型和數(shù)據(jù)格式,并在打開的文件瀏覽器內(nèi)選取待映射的目標文件,隨后當平臺收到用戶命令,觸發(fā)自動映射流程;
31、s2.1.3:關(guān)系映射:利用映射規(guī)則在選擇文件類型和數(shù)據(jù)格式,從文件瀏覽器中選擇待映射的文件;發(fā)出映射命令完成映射;
32、所述半結(jié)構(gòu)化數(shù)據(jù)源的抽取,提供按照模板知識抽取功能,允許用戶定義包含詞性的模板來抽取文本中的實體和關(guān)系;所述模板具體為根據(jù)待提取知識的文本的內(nèi)容,編寫正則表達式;
33、所述非結(jié)構(gòu)化的抽取,基于ocr技術(shù)的圖像中的文本識別,與調(diào)度自動化系統(tǒng)設(shè)備關(guān)聯(lián),形成設(shè)備參數(shù)知識;具體包括:
34、s2.3.1:圖像預(yù)處理:通過圖像灰度化將彩色圖像的任意像素點元素滿足r=g=b關(guān)系;再用二值化讓圖像的像素點矩陣中每個元素的灰度值為兩個不同的值;采用霍夫變換方法實現(xiàn)圖像自動傾斜旋轉(zhuǎn)校正;使用layout-parser文本版面分析工具包,從限值圖像文件中識別出標題、文字段落、表格與圖片四類區(qū)塊,從電網(wǎng)知識數(shù)據(jù)中提取出表格區(qū)域,生成滿足圖像識別的預(yù)處理結(jié)果圖像文件;
35、s2.3.2:圖像語義分割:通過語義分割,獲得圖像中每個對象的精確形狀和位置,提取出照片中的主要設(shè)備物體;具體的,通過編碼器逐漸減小特征圖的空間尺寸以捕獲上下文信息,通過解碼器恢復(fù)特征圖的空間尺寸以進行像素級分類;引入空洞卷積機制,通過增大卷積核的感受野來捕獲上下文信息;使用語義分割任務(wù)的損失函數(shù)ctc,將預(yù)處理后的數(shù)據(jù)輸入到網(wǎng)絡(luò)模型中,通過反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù),以最小化損失函數(shù);在訓練過程中,使用驗證集來監(jiān)控模型的性能,并根據(jù)需要進行參數(shù)調(diào)整;
36、s2.3.3:設(shè)備關(guān)聯(lián):利用光學字符識別ocr技術(shù),對圖像進行處理從設(shè)備銘牌上提取文字信息;將文字信息轉(zhuǎn)化為編號文本及數(shù)據(jù)格式;從電力設(shè)備知識圖譜中檢索設(shè)備的唯一標識編號;將ocr識別到的銘牌信息與圖譜中的設(shè)備編號進行比對和匹配;當匹配成功,平臺自動將銘牌信息與圖譜中對應(yīng)的設(shè)備記錄進行關(guān)聯(lián),并將圖像中與銘牌的所有相關(guān)信息同步更新至圖譜設(shè)備的屬性中。
37、進一步地,所述數(shù)據(jù)整合模塊,具體實現(xiàn)方法為:
38、s3.1:范圍篩選:根據(jù)用戶配置的實體類型和屬性范圍,篩選融合標識符相似的實體數(shù)據(jù);
39、s3.2:判斷相似實體:根據(jù)實體間的屬性相似度,判斷實體相似度;所述判斷方法,當實體屬于同一個圖譜,采用基于表示向量的相似度判斷;實體屬于不同圖譜,采用編輯距離判斷;具體的:
40、s3.2.1:基于表示學習的相似度計算;首先將待對齊的實體轉(zhuǎn)化為特征向量,再以向量之間的余弦相似度作為實體的相似度;對于n維空間的兩個向量a(x11,x12,…,x1n)和b(x21,x22,…,x2n),它們的余弦相似度計算公式如下:
41、
42、余弦相似度的取值范圍界定在[-1,1],其中,當余弦值越接近1表示兩個向量在方向上越相似;當余弦值越接近-1,則代表兩個向量在方向上越不相似;
43、s3.2.2:基于編輯距離的相似度,對于兩個字符串a(chǎn)、b,長度分別為|a|、|b|,它們的編輯距離如下:
44、
45、s3.3:數(shù)據(jù)整合:將屬性相似度均滿足閾值條件的圖譜數(shù)據(jù)進行融合,具體的:
46、s3.3.1:設(shè)定閾值p,用于判斷兩個屬性是否足夠相似以便進行融合;
47、s3.3.2:對于每對待融合的圖譜數(shù)據(jù)中的實體,進行屬性匹配和相似度計算;遍歷兩個圖譜中的實體及其屬性;對于每個屬性,計算其在另一個圖譜中的同類型屬性的相似度;當找到相似度高于預(yù)設(shè)閾值的屬性,則兩個屬性相匹配;
48、s3.3.3:對于匹配的屬性,將對應(yīng)的數(shù)據(jù)融合到一個統(tǒng)一的圖譜中,其中,對于數(shù)值型屬性,取數(shù)值的平均值;對于文本型屬性,選擇一個主要值;對于關(guān)系型屬性,合并關(guān)系的圖結(jié)構(gòu)。
49、進一步地,所述圖譜構(gòu)建模塊的拖拽式構(gòu)建知識圖譜步驟如下:
50、s4.1.1:設(shè)置快速創(chuàng)建頁面,根據(jù)頁面引導(dǎo),通過點擊創(chuàng)建概念節(jié)點,設(shè)計知識圖譜模式層中的概念,編輯概念的信息和其屬性的信息;
51、s4.1.2:在快速創(chuàng)建頁面中,根據(jù)頁面引導(dǎo),通過拖拽加點擊方式創(chuàng)建概念節(jié)點之間的關(guān)系,編輯關(guān)系的信息和其屬性的信息;
52、所述圖譜構(gòu)建模塊的從公共本體庫構(gòu)建知識圖譜步驟如下:
53、s4.2.1:在從公共本體庫創(chuàng)建頁面中,根據(jù)頁面引導(dǎo),選擇需要的公共本體,所述公共本體包含若干本體概念和本體關(guān)系,作為新建應(yīng)用的模式層的基礎(chǔ);
54、s4.2.2:選擇一個公共本體后,預(yù)覽其中包含的本體概念和本體關(guān)系,將公共本體的內(nèi)容復(fù)制到私有應(yīng)用中;
55、s4.2.3:確定選擇,完成新增一個私有的知識圖譜應(yīng)用。
56、進一步地,所述圖譜表征模塊,通過提供節(jié)點編碼器、邊編碼器、偽句編碼器為不同顆粒度的圖譜元素提供表征;
57、所述節(jié)點編碼器表征:使用graphsage算法,指定編碼維度為d,通過采樣鄰居節(jié)點并聚合特征以學習節(jié)點的向量表示,包括:
58、s5.1.1:采樣鄰居:對于每個目標節(jié)點,從其鄰居中隨機采樣固定數(shù)量m的鄰居節(jié)點;
59、s5.1.2:聚合鄰居信息:使用池化聚合器聚合采樣出的m個鄰居節(jié)點的特征,當鄰居個數(shù)小于m時,全部采用;
60、s5.1.3:更新節(jié)點嵌入:將聚合后的鄰居特征與目標節(jié)點自身的特征加權(quán)求和,通過一個神經(jīng)網(wǎng)絡(luò)層來更新節(jié)點的嵌入;
61、s5.1.4:重復(fù)與優(yōu)化:對圖中所有節(jié)點根據(jù)預(yù)設(shè)迭代次數(shù)重復(fù)步驟s5.1.1至s5.1.3,通過反向傳播和梯度下降的優(yōu)化方法來訓練模型參數(shù);
62、所述邊編碼器表征:構(gòu)建原圖譜的對偶圖,將原圖譜的邊轉(zhuǎn)換為新圖譜的節(jié)點,將原圖譜的節(jié)點則轉(zhuǎn)換為新圖譜的邊,利用graphsage算法獲得新圖譜上每個節(jié)點的編碼向量,具體包括:
63、s5.2.1:搜集原始圖譜中的節(jié)點和邊的表示,設(shè)原始圖譜g=(v,e),其中v是節(jié)點集合,e是邊集合,指定編碼維度為d;
64、s5.2.2:定義新的對偶圖的節(jié)點和邊:節(jié)點是每條原始圖譜的邊,在對偶圖中都會有一個對應(yīng)的節(jié)點,當兩條原始圖譜的邊e1和e2共享一個節(jié)點v,則在對偶圖中存在一條連接e1和e2的邊;
65、s5.2.3:使用graphsage算法獲得對偶圖譜上每個節(jié)點的編碼向量,作為對應(yīng)的原圖譜中的邊的編碼;
66、所述三元組編碼器表征:對于圖譜中的每個三元組,提供其對應(yīng)的編碼向量,指定編碼維度為d,具體包括:
67、s5.3.1:對于圖譜中的三元組{h,r,t},使用所述節(jié)點編碼器和邊編碼器分別將{h,r,t}映射為向量(v_h,v_r,v_t),維度分別為(d_h,d_r,d_t);
68、s5.3.2:構(gòu)建自編碼器,編碼器輸入維度為(d_h+d_r+d_t),輸出維度為d;解碼器輸入維度為d,輸出維度為(d_h+d_r+d_t);
69、s5.3.3:使用全圖譜三元組數(shù)據(jù)訓練步驟s5.3.2中的自編碼器網(wǎng)絡(luò),獲得其參數(shù);
70、s5.3.4:對于每一個三元組{h,r,t},使用編碼器網(wǎng)絡(luò)的輸出作為其編碼向量。
71、進一步地,所述用戶界面模塊的知識圖譜平臺管理界面功能,用于為用戶提供概念、關(guān)系定義、編輯、導(dǎo)入導(dǎo)出管理功能,通過流程化引導(dǎo)式拖拽編輯方法構(gòu)建知識圖譜模式層;具體包括:
72、應(yīng)用定義單元:定義整個模式層的命名空間,所述命名空間作為不同知識圖譜之間的隔離;
73、概念定義單元:用于定義實體的類型,應(yīng)用定義完成后,新建概念,并編輯概念的必要元素,同步定義概念的屬性;所述概念的定義和屬性可以被編輯;
74、關(guān)系定義單元:定義概念之間的關(guān)系,從該概念節(jié)點產(chǎn)生連接線,拖拽至另一概念節(jié)點或本身,形成概念之間的關(guān)系,并編輯關(guān)系的必要元素,并可選擇是否同步定義關(guān)系的屬性;
75、屬性定義單元:定義概念的屬性和關(guān)系的屬性,配置屬性的特性;
76、導(dǎo)入導(dǎo)出單元:支持文件映射和預(yù)置模式庫,支持從csv、xlsx、json格式文件導(dǎo)入本體,支持導(dǎo)入多個文件;導(dǎo)入概念時,制定概念的字段,自動檢測出各個概念,為每個概念配置屬性字段、屬性類型、特性,支持將已定義的本體導(dǎo)出為json格式文件;
77、可視化單元:以多種可視化方式展示本體之間的層級關(guān)系和關(guān)聯(lián)關(guān)系,支可視化、拖拽式構(gòu)建本體;支持對概念的新建、編輯、復(fù)制和刪除;所述概念包括概念名稱、icon和屬性;屬性可以配置是否單值、數(shù)據(jù)類型。
78、進一步地,所述用戶界面模塊的知識圖譜平臺統(tǒng)計界面功能,用于為應(yīng)用圖譜分析現(xiàn)有本體、實例及度的分布情況提供統(tǒng)計功能;具體包括:
79、整體統(tǒng)計單元:用于統(tǒng)計本體概念類型、關(guān)系類型、實例節(jié)點、實例關(guān)系的數(shù)量,以柱狀圖展示;
80、例類型分布單元:用于將實例按類型統(tǒng)計數(shù)量,當實例類型多于預(yù)設(shè)閾值時,分桶統(tǒng)計,以柱狀圖展示;
81、關(guān)系類型分布單元:用于將關(guān)系按類型統(tǒng)計數(shù)量,當關(guān)系類型多于預(yù)設(shè)閾值時,分桶統(tǒng)計,以柱狀圖展示;
82、度分布單元:所述度是節(jié)點上邊的數(shù)量,按度的分布密度統(tǒng)計,以柱狀圖展示;
83、下鉆功能單元:用于展示該柱子統(tǒng)計的節(jié)點、關(guān)系實例。
84、進一步地,所述用戶界面模塊的知識圖譜平臺圖譜整合功能,用于通過知識圖譜平臺配置和圖算法,對所選擇的知識圖譜進行相整合,整合的具體流程如下:
85、s6.3.1:配置對齊項,包括選擇待整合的圖譜,用于對齊圖譜概念的屬性、實例中實體的屬性整合方式、實例中關(guān)系的整合方式;
86、s6.3.2:查詢圖譜數(shù)據(jù),在搜索框中輸入搜索內(nèi)容,在多個待對齊的知識圖譜中搜索相關(guān)實例數(shù)據(jù)并返回展示;
87、s6.3.3:圖譜整合,調(diào)用數(shù)據(jù)整合模塊,根據(jù)配置中的整合方式,對多個圖譜中的實例數(shù)據(jù)進行合并,并返回整合后的圖譜。
88、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明抓住了知識圖譜平臺能夠整合電力系統(tǒng)中各類數(shù)據(jù)源,包括電網(wǎng)運行數(shù)據(jù)、設(shè)備監(jiān)測數(shù)據(jù)、能源市場數(shù)據(jù)等,實現(xiàn)對電力領(lǐng)域知識的全面覆蓋和深度挖掘;有助于電力企業(yè)更全面地了解系統(tǒng)運行狀況,發(fā)現(xiàn)潛在問題,并制定相應(yīng)的解決方案;本發(fā)明通過數(shù)據(jù)清洗、去重、格式轉(zhuǎn)換等預(yù)處理操作,確保整合后的數(shù)據(jù)在格式和質(zhì)量上保持一致,為后續(xù)的分析和可視化提供統(tǒng)一的數(shù)據(jù)源,減少了數(shù)據(jù)處理的復(fù)雜性和錯誤率,提高了數(shù)據(jù)的質(zhì)量和可用性;本發(fā)明利用機器學習、數(shù)據(jù)挖掘等先進技術(shù)對電力數(shù)據(jù)進行深度分析,發(fā)現(xiàn)隱藏的模式和關(guān)聯(lián)關(guān)系;通過對這些信息的挖掘和利用,可以實現(xiàn)對電力系統(tǒng)運行狀態(tài)的智能預(yù)測和故障預(yù)警,為電力企業(yè)的決策提供有力支持。