本技術涉及知識圖譜實體識別,特別是涉及一種市場失信信息知識圖譜實體識別方法。
背景技術:
1、知識圖譜作為一種重要的信息組織和處理工具,已被廣泛應用于多種場景,包括搜索引擎優(yōu)化、智能問答系統(tǒng)、推薦系統(tǒng)等,它能夠幫助機器更好地理解信息,提供更加精準的信息服務。
2、實體識別任務作為構建知識圖譜的基礎任務仍面臨諸多挑戰(zhàn):1)傳統(tǒng)的實體識別方法常常面臨詞匯損失的問題,尤其是在處理復雜文本或多粒度數(shù)據(jù)時,難以有效捕捉所有關鍵信息;2)缺乏有效的數(shù)據(jù)增強手段,其模型在新穎或變化的數(shù)據(jù)集上表現(xiàn)不佳,易受過擬合影響;3)許多現(xiàn)有算法依賴于梯度下降等傳統(tǒng)優(yōu)化技術,這些方法在非凸優(yōu)化問題上容易陷入局部最優(yōu),且優(yōu)化速度慢。
技術實現(xiàn)思路
1、基于此,有必要基于多粒度特征提供一種市場失信信息知識圖譜實體識別方法,該方法包括:
2、s1:獲取待識別的市場失信信息的文本數(shù)據(jù);
3、s2:將所述文本數(shù)據(jù)輸入序列拼接層進行多粒度處理,得到不同結構的詞匯向量,將不同結構的詞匯向量拼接得到文本向量;
4、s3:將所述文本向量輸入至基于自適應分形探索優(yōu)化算法的特征提取模型,輸出特征提取向量;
5、s4:將所述特征提取向量輸入至基于策略優(yōu)化的條件隨機場模型,輸出所述文本數(shù)據(jù)中的實體及其類別。
6、優(yōu)選的,所述將所述文本數(shù)據(jù)輸入序列拼接層進行多粒度處理,得到不同結構的詞匯向量包括:
7、所述序列拼接層包括b、m、e、s四種結構;
8、b結構用于匹配所述文本數(shù)據(jù)中以字符 c i為首位的詞匯;
9、m結構用于匹配所述文本數(shù)據(jù)中字符 c i處于中間的詞匯;
10、e結構用于匹配所述文本數(shù)據(jù)中字符 c i處于結尾的詞匯;
11、s結構用于表示字符 c i本身;
12、不同結構的詞匯向量表達式包括:
13、;
14、;
15、;
16、;
17、其中,表示字符 c i匹配到b結構的詞匯向量;表示字符 c i匹配到m結構的詞匯向量;表示字符 c i匹配到e結構的詞匯向量;表示字符 c i匹配到s結構的詞匯向量; c i表示第i個字符;表示文本數(shù)據(jù)中第i個字符位于第k個字符之前的詞匯;表示文本數(shù)據(jù)中第i個字符位于第j個字符與第k個字符之間的詞匯;表示文本數(shù)據(jù)中第i個字符位于第j個字符之后的詞匯;l表示詞典;n表示文本數(shù)據(jù)序列。
18、優(yōu)選的,所述將不同結構的詞匯向量拼接得到文本向量包括:
19、將各結構的詞匯向量進行歸一整合,計算公式包括:
20、;
21、;
22、其中,表示歸一整合;s表示任意一種結構;w表示任意一種結構的詞匯向量;s表示文本數(shù)據(jù)中符合s結構的詞匯向量;b表示文本數(shù)據(jù)中符合b結構的詞匯向量;m表示文本數(shù)據(jù)中符合m結構的詞匯向量;e表示文本數(shù)據(jù)中符合e結構的詞匯向量;表示詞匯向量w的詞頻;表示詞匯向量w的詞匯嵌入矩陣;z表示四種結構的詞匯向量中詞匯向量w的詞頻之和;
23、將歸一整合后的所有結構的詞匯向量進行拼接,得到文本向量,計算公式為:
24、;
25、其中,表示文本向量;表示歸一整合后的b結構的詞匯向量;表示歸一整合后的m結構的詞匯向量;表示歸一整合后的e結構的詞匯向量;表示歸一整合后的s結構的詞匯向量。
26、優(yōu)選的,還包括訓練所述特征提取模型,訓練過程包括:
27、步驟1:采集用于訓練的文本數(shù)據(jù),并對其進行預處理;
28、步驟2:將預處理得到的訓練文本向量輸入至所述特征提取模型;
29、步驟3:選定特征提取模型的初始參數(shù)集合,并初始化搜索粒度和搜索半徑;所述初始參數(shù)集合包括神經(jīng)網(wǎng)絡的權重和偏置;
30、步驟4:根據(jù)當前迭代的參數(shù)點,生成一組自相似的探索點;所有所述探索點圍繞當前迭代的參數(shù)點基于所述搜索粒度和所述搜索半徑按照分形規(guī)則分布;
31、步驟5:計算所有探索點的損失函數(shù)值,基于所述損失函數(shù)值計算所有探索點的信息熵,并基于所述信息熵構建搜索粒度調(diào)整函數(shù);
32、步驟6:基于所述搜索粒度調(diào)整函數(shù)動態(tài)調(diào)整搜索粒度;
33、步驟7:選擇損失函數(shù)值最小的探索點作為下一迭代的參數(shù)點,根據(jù)當前迭代的參數(shù)點與下一迭代的參數(shù)點之間的損失動態(tài)調(diào)整搜索半徑;
34、步驟8:重復迭代步驟4-7,直至達到最大迭代次數(shù),得到訓練好的特征提取模型;將訓練文本向量輸入至訓練好的基于自適應分形探索優(yōu)化算法的特征提取模型,輸出訓練特征提取向量。
35、優(yōu)選的,所述預處理包括:
36、將用于訓練的文本數(shù)據(jù)經(jīng)過序列拼接層得到訓練用的文本向量;
37、基于拓撲相演化的生成對抗網(wǎng)絡對訓練用的文本向量進行數(shù)據(jù)擴充,得到訓練文本向量。
38、優(yōu)選的,基于拓撲相演化的生成對抗網(wǎng)絡的訓練過程包括:
39、步驟1:初始化生成器和判別器的網(wǎng)絡參數(shù);
40、步驟2:根據(jù)真實數(shù)據(jù)集和當前迭代的生成數(shù)據(jù)集調(diào)整生成器的生成策略;
41、步驟3:采用調(diào)整后的生成器從隨機噪聲中生成一批假數(shù)據(jù);
42、步驟4:將所述假數(shù)據(jù)和真實數(shù)據(jù)一同輸入至判別器,得到判別結果;
43、步驟5:根據(jù)所述判別結果計算判別損失,基于所述判別損失更新判別器參數(shù);
44、步驟6:固定更新的判別器,計算生成損失,并基于所述生成損失更新生成器參數(shù);
45、步驟7:基于所述判別損失和生成損失自適應調(diào)整對應的訓練頻率;
46、步驟8:重復迭代執(zhí)行步驟2-7,直至達到最大迭代次數(shù),得到訓練好的生成對抗網(wǎng)絡;將訓練用的文本向量輸入至訓練好的基于拓撲相演化的生成對抗網(wǎng)絡,得到所述訓練文本向量。
47、優(yōu)選的,基于策略優(yōu)化的條件隨機場模型的訓練過程包括:
48、步驟1:將所述訓練特征提取向量輸入至條件隨機場模型,并初始化條件隨機場模型中的特征提取層;
49、步驟2:初始化條件隨機場模型的參數(shù),所述參數(shù)包括狀態(tài)轉移概率和特征函數(shù)權重;
50、步驟:3:所述特征提取層基于其中的特征提取權重和特征提取偏置,并采用sigmoid激活函數(shù)對訓練特征提取向量進行特征提取,得到高級特征表示;
51、步驟4:基于條件隨機場模型預測的標簽與用于訓練的文本數(shù)據(jù)的真實標簽,構建獎勵函數(shù);所述真實標簽為實體類別;
52、步驟5:基于所述獎勵函數(shù)更新所述狀態(tài)轉移概率和特征函數(shù)權重;
53、步驟6:重復迭代步驟3-5,直至達到最大迭代次數(shù),得到訓練好的條件隨機場模型;將所述特征提取向量輸入至訓練好的基于策略優(yōu)化的條件隨機場模型,輸出所述文本數(shù)據(jù)中的實體及其類別。
54、優(yōu)選的,所述最大迭代次數(shù)設置為1000次。
55、優(yōu)選的,所述基于自適應分形探索優(yōu)化算法的特征提取模型包括三層全連接神經(jīng)網(wǎng)絡。
56、優(yōu)選的,用于訓練的文本數(shù)據(jù)的采集來源包括公開的知識庫、專業(yè)網(wǎng)站;用于訓練的文本數(shù)據(jù)存儲為json格式。
57、有益效果:該方法能夠更準確地識別出文本中的細微實體,顯著提高了實體識別的準確性。