本發(fā)明屬于數(shù)據(jù)分析,具體涉及到一種操作系統(tǒng)用戶數(shù)據(jù)隔離與處理分析方法。
背景技術(shù):
1、隨著信息技術(shù)的迅速發(fā)展,操作系統(tǒng)在處理大量用戶數(shù)據(jù)時面臨著越來越多的安全挑戰(zhàn),用戶數(shù)據(jù)包括但不限于用戶操作記錄、應用程序使用數(shù)據(jù)及系統(tǒng)日志等,這些數(shù)據(jù)中潛藏著用戶行為的風險等級信息。在實際應用中,如何從復雜的操作系統(tǒng)用戶數(shù)據(jù)中有效地提取風險信息,并據(jù)此執(zhí)行相應的安全隔離措施,是確保系統(tǒng)安全運行的關(guān)鍵。
2、現(xiàn)有技術(shù)中,申請?zhí)枮閏n202210249805.4的中國發(fā)明專利公開了一種基于機器學習的用戶異常行為檢測方法及裝置,該方法包括:獲取用戶的操作日志信息;將操作日志信息輸入到行為檢測模型中,得到行為檢測模型輸出的用戶行為屬性;其中,行為檢測模型為以樣本日志信息為樣本,以與樣本日志信息對應的用戶行為屬性樣本數(shù)據(jù)為標簽進行訓練得到的;行為檢測模型內(nèi)部包括多種神經(jīng)網(wǎng)絡模型,每種神經(jīng)網(wǎng)絡模型基于操作日志信息輸出一種參考行為屬性,用戶行為屬性為基于多種神經(jīng)網(wǎng)絡模型的權(quán)重參數(shù)以及對應輸出的參考行為屬性確定的。申請?zhí)枮閏n202311702989.6的中國發(fā)明專利公開了一種基于機器學習的動態(tài)白名單準入放行方法及系統(tǒng),包括通過網(wǎng)絡流量分析設備或系統(tǒng)審計設備采集網(wǎng)絡行為流量數(shù)據(jù);對收集的流量數(shù)據(jù)進行預處理和特征提?。换跈C器學習算法利用支持向量機svm作為分類算法進行訓練;系統(tǒng)根據(jù)svm模型識別出的常見合法訪問行為生成初步白名單。
3、現(xiàn)有技術(shù)中存在以下問題:傳統(tǒng)生成對抗網(wǎng)絡在模擬用戶數(shù)據(jù)間復雜關(guān)系和依賴性方面表現(xiàn)不足,導致生成的合成數(shù)據(jù)質(zhì)量和多樣性有限;現(xiàn)有技術(shù)中的特征提取方法未能充分挖掘數(shù)據(jù)中的非線性關(guān)系和隱藏模式,且特征降維過程中效率和精確度不足,影響最終模型的表現(xiàn)和應用效果;現(xiàn)有的分類器模型缺乏對數(shù)據(jù)不確定性的動態(tài)適應機制,使得模型在面對數(shù)據(jù)流的不確定性特性時泛化能力和分類精度受限。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于克服上述現(xiàn)有技術(shù)的缺點,提供一種操作系統(tǒng)用戶數(shù)據(jù)隔離與處理分析方法。
2、解決上述技術(shù)問題所采用的技術(shù)方案是:一種操作系統(tǒng)用戶數(shù)據(jù)隔離與處理分析方法包括以下步驟:
3、s1,對用戶操作記錄、應用程序使用數(shù)據(jù)及系統(tǒng)日志進行數(shù)據(jù)采集,將向量化后的用戶操作記錄與離散屬性進行連接,實現(xiàn)訓練數(shù)據(jù)集中的樣本構(gòu)建,對所構(gòu)建的訓練數(shù)據(jù)集中的樣本進行人工標注,標注類別包括低風險用戶操作、中等風險用戶操作、高風險用戶操作;
4、s2,采用基于圖理論的生成對抗網(wǎng)絡算法進行樣本生成,進而實現(xiàn)數(shù)據(jù)擴充,所述的基于圖理論的生成對抗網(wǎng)絡算法包括生成器、判別器,所述的生成器用于產(chǎn)生近似于真實用戶數(shù)據(jù)的合成數(shù)據(jù),所述的判別器用于區(qū)分合成數(shù)據(jù)和真實數(shù)據(jù);
5、s3,將擴充后的數(shù)據(jù)輸入到特征提取模型中進行特征提取模型的訓練,采用6層全連接神經(jīng)網(wǎng)絡進行特征提取,采用基于量子霍爾效應的神經(jīng)網(wǎng)絡算法作為特征提取模型,通過模擬量子系統(tǒng)中電子在磁場作用下的行為進行模型訓練,通過采用量子態(tài)關(guān)聯(lián)層模擬量子粒子的疊加狀態(tài),使網(wǎng)絡能夠在多個狀態(tài)之間進行轉(zhuǎn)換,從而捕捉數(shù)據(jù)中的非線性關(guān)系和隱藏模式;
6、s4,將特征提取得到的特征輸入到特征降維模型中進行特征降維模型的訓練,采用改進的自編碼器作為特征降維模型,通過學習壓縮和解壓縮過程,以最小化輸入和輸出之間的差異,采用自編碼器結(jié)構(gòu)包括編碼器和解碼器;
7、s5,將特征降維后的數(shù)據(jù)輸入到分類器中進行分類器模型的訓練,采用基于不確定性連接的概率神經(jīng)網(wǎng)絡算法作為分類算法,通過采用動態(tài)權(quán)重調(diào)整機制,根據(jù)數(shù)據(jù)流的不確定性特性動態(tài)調(diào)整概率神經(jīng)網(wǎng)絡中的連接權(quán)重,提升模型對數(shù)據(jù)變異性的適應能力,增強模型的泛化能力和分類精度;
8、s6,利用已訓練完成的模型來處理新的樣本,采集的原始數(shù)據(jù)輸入到訓練完成的特征提取和特征降維模型中進行特征處理將處理得到的特征輸入到分類器模型中進行分類器的訓練,進而得到分類結(jié)果。
9、進一步的,所述的步驟s1中的離散屬性包括ra1、ra2、ra3、ra4、ra5、ra6、ra7、ra8、ra9、ra10;ra1表示用戶活動持續(xù)時間,ra2表示應用程序啟動頻率,ra3表示文件訪問次數(shù),ra4表示網(wǎng)絡請求量,ra5表示錯誤日志條目數(shù),ra6表示外設使用情況,ra7表示電子郵件交互數(shù),ra8表示系統(tǒng)設置更改次數(shù),ra9表示安全警報觸發(fā)頻率,ra10表示數(shù)據(jù)下載上傳量。
10、進一步的,步驟s2中所述的基于圖理論的生成對抗網(wǎng)絡算法的訓練流程包括以下步驟:
11、s201、初始化拓撲圖結(jié)構(gòu),根據(jù)操作系統(tǒng)用戶數(shù)據(jù)的特征關(guān)系構(gòu)建初始拓撲圖,設拓撲圖結(jié)構(gòu)為tc,拓撲圖結(jié)構(gòu)和生成對抗網(wǎng)絡參數(shù)的初始化方式表示為:
12、tc=ft({vc,ec})?(2)
13、
14、公式(2)中,ft()為拓撲圖的構(gòu)造函數(shù),vc為頂點集,代表操作系統(tǒng)用戶的特征,ec為邊集,代表系統(tǒng)用戶的特征間的依賴關(guān)系;
15、公式(3)、(4)中,和分別為生成器和判別器的初始化參數(shù),初始化服從標準正態(tài)分布,~為服從于特定分布,為均值為0、方差為單位矩陣的正態(tài)分布,為正態(tài)分布;
16、s202、在每次迭代中,生成器基于當前的網(wǎng)絡參數(shù)和輸入噪聲生成拓撲圖結(jié)構(gòu)化的合成數(shù)據(jù),設輸入噪聲為zc,生成拓撲圖結(jié)構(gòu)化的合成數(shù)據(jù)的方式表示為:
17、
18、公式(5)中,為生成的數(shù)據(jù),gc()為生成器函數(shù),zc為輸入噪聲,且服從于分布為生成器的參數(shù);
19、生成器函數(shù)的實現(xiàn)方式表示為:
20、
21、公式(6)中,leak()為leakyrelu激活函數(shù),wc為生成器的權(quán)重矩陣,bc為生成器的偏置向量;
22、設生成器的函數(shù)的輸入為xge,則leakyrelu激活函數(shù)的實現(xiàn)方式表示為:
23、σ(xge)=max(0.01xge,xge)?(7)
24、判別器評估生成的數(shù)據(jù)和真實數(shù)據(jù),輸出評價結(jié)果,對于生成數(shù)據(jù)的數(shù)據(jù)判別器的評價結(jié)果為真實數(shù)據(jù)判別器的評價結(jié)果為dc()為判別器函數(shù),為判別器的參數(shù);
25、s203、根據(jù)判別器的反饋,調(diào)整生成數(shù)據(jù)的特征分布,優(yōu)化生成數(shù)據(jù)的質(zhì)量和多樣性,通過調(diào)整生成器的參數(shù)實現(xiàn)生成數(shù)據(jù)的特征分布的調(diào)整,生成器的參數(shù)的增量的計算方式表示為:
26、
27、公式(8)中,ηge為生成器增量的學習率,為對生成器參數(shù)的梯度;
28、s204、計算生成器和判別器的損失,并通過損失函數(shù)進行參數(shù)的更新,損失函數(shù)表示為:
29、
30、公式(9)、(10)中,和分別為生成器和判別器的損失函數(shù),表示期望操作,~為服從于特定分布,pdata(x)為真實數(shù)據(jù)分布,p(zc)為噪聲的分布,為生成器正則損失項,為真實數(shù)據(jù),p(zc)為真實數(shù)據(jù)的分布,為判別器梯度懲罰損失項;
31、公式(11)、(12)中,為更新后的生成器參數(shù),為更新后的判別器參數(shù),αgan為生成對抗網(wǎng)絡的學習率,為生成器的損失函數(shù)對生成器參數(shù)的梯度,為判別器的損失函數(shù)對判別器參數(shù)的梯度,為對判別器參數(shù)的梯度;
32、s205、重復迭代上述步驟,直至滿足預設的停止迭代條件,即表示模型訓練完成。
33、進一步的,所述的步驟s204中的生成對抗網(wǎng)絡的學習率通過動態(tài)調(diào)節(jié)的方式進行設置,根據(jù)模型的在每次迭代中的性能調(diào)整學習步長,進而提高模型對新數(shù)據(jù)的適應能力和整體的生成質(zhì)量,定義生成對抗網(wǎng)絡學習率的動態(tài)調(diào)節(jié)函數(shù)為ad(),學習率在每次迭代時的計算方式表示為:
34、
35、公式(13)中,αt為在第t次迭代時的學習率,αt+1為在第t+1次迭代時的學習率;
36、設為判別器對生成數(shù)據(jù)的輸出,為判別器對真實數(shù)據(jù)的輸出,動態(tài)調(diào)節(jié)函數(shù)的實現(xiàn)方式表示為:
37、
38、公式(14)中,βph為調(diào)節(jié)系數(shù),控制學習率調(diào)整的敏感度,βph為2,tanh()為雙曲正切函數(shù),σph為平滑參數(shù),避免調(diào)整過程中的波動過大,σph為0.98;
39、生成器正則損失項用于增強模型的泛化能力,生成器正則損失項的計算方式表示為:
40、
41、公式(15)中,λc為正則化系數(shù),λc為0.3,為生成器參數(shù)的l2范數(shù)的平方,∥∥為l2范數(shù);
42、判別器梯度懲罰損失項的計算方式表示為:
43、
44、公式(16)中,是在真實數(shù)據(jù)和生成數(shù)據(jù)之間通過線性插值得到的樣本,γc是梯度懲罰的權(quán)重,γc為0.3,表示對的梯度。
45、進一步的,所述的步驟s3中的基于量子霍爾效應的神經(jīng)網(wǎng)絡算法的訓練流程包括以下步驟:
46、s301、初始化神經(jīng)網(wǎng)絡的所有網(wǎng)絡參數(shù),神經(jīng)網(wǎng)絡的權(quán)重和偏置參數(shù)的初始化方式為隨機初始化,初始化量子態(tài)關(guān)聯(lián)層中的量子位相和幅度參數(shù),設量子態(tài)關(guān)聯(lián)層中的量子位相參數(shù)為φp,量子態(tài)關(guān)聯(lián)層中的幅度參數(shù)為ap,初始化的方式表示為:
47、φp~gra(0,2π)(17)
48、ap~gra(0,1)(18)
49、公式(17)、(18)中,gra()為高斯分布,gra(0,2π)表示均值為0、方差為2π的高斯分布,gra(0,1)為均值為0、方差為1的高斯分布;
50、s302、輸入數(shù)據(jù)通過量子態(tài)關(guān)聯(lián)層,利用量子位相和幅度參數(shù)生成數(shù)據(jù)的量子表示,設神經(jīng)網(wǎng)絡的輸入數(shù)據(jù)為xp,其通過量子態(tài)關(guān)聯(lián)層被轉(zhuǎn)換成量子表示,表示為:
51、
52、公式(19)中,ψp為輸入數(shù)據(jù)的量子表示,kas為輸入特征的維度,ap,k和φp,k分別為第k個特征的幅度和位相參數(shù),i*為虛數(shù)單位,xp,k為輸入數(shù)據(jù)xp的第k個特征;
53、s303、采用基于量子信息熵和預測誤差的量子信息熵損失函數(shù)計算損失,以評估神經(jīng)網(wǎng)絡模型的性能,量子信息熵損失函數(shù)的計算方式表示為:
54、
55、公式(25)中,lp為量子信息熵損失函數(shù),tr()為跡運算,ρp為量子態(tài)密度矩陣,yp為所輸入樣本的真實標簽,為模型預測的輸出,由預設的softmax函數(shù)對特征提取后的向量進行分類得到;
56、跡運算確保量子態(tài)的多樣性和計算的純度,計算方式表示為:
57、
58、公式(26)中,λm為量子態(tài)密度矩陣的第m個特征值,mas為量子態(tài)密度矩陣的元素數(shù)量;
59、s304、通過誤差反向傳播的方式,利用梯度下降算法進行量子態(tài)關(guān)聯(lián)層的參數(shù)更新,更新方式表示為:
60、
61、公式(27)、(28)中,為更新后的量子態(tài)關(guān)聯(lián)層中的量子位相參數(shù),為更新后的量子態(tài)關(guān)聯(lián)層中的幅度參數(shù),ηp為神經(jīng)網(wǎng)絡的學習率,和分別為量子信息熵損失函數(shù)對量子位相和幅度參數(shù)的梯度;
62、s305、重復迭代上述步驟,直至滿足預設的停止迭代條件,即表示模型訓練完成。
63、進一步的,所述的步驟s302中量子表示通過量子霍爾效應化的方式進行處理,以實現(xiàn)特征的多個狀態(tài)轉(zhuǎn)換,計算方式表示為:
64、
65、公式(20)中,qp()是量子霍爾效應化的函數(shù),up()表示應用于量子態(tài)的幺正變換,hp是哈密頓算子,表示元素乘法;
66、第k個特征的幅度和位相參數(shù)的計算通過學習從數(shù)據(jù)中自動調(diào)整得到的,通過非線性約束優(yōu)化以保持幅度和相位在合理的物理界限內(nèi),計算方式表示為:
67、ap,k=sig(va,k)?(21)
68、φp,k=2π·re(vφ,k)?(22)
69、公式(21)、(22)中,sig()為sigmoid激活函數(shù),va,k和vφ,k為從輸入批次的數(shù)據(jù)中計算得到的平方差參數(shù)和均值參數(shù),re()為relu激活函數(shù);
70、量子霍爾效應化的函數(shù)通過幺正變換到量子態(tài)上,計算方式表示為:
71、
72、公式(23)中,up為幺正變換得到的量子表示ψp對應的量子態(tài),hp為哈密頓算子,δt為迭代間隔,δt為1;
73、哈密頓算子的計算方式表示為:
74、
75、公式(24)中,jas為量子表示ψp對應pauli-x矩陣的元素數(shù)量,σx,j(ψp)為量子表示ψp位于第j個位置上的pauli-x矩陣,σz,j+1(ψp)為量子表示ψp位于第j+1個位置上的pauli-x矩陣,兩者分別用于在相鄰的量子比特上施加耦合。
76、進一步的,所述的步驟s4中自編碼器算法的訓練流程包括以下步驟:
77、s401、初始化自編碼器所有網(wǎng)絡層的權(quán)重和偏置,自編碼器的初始權(quán)重和自編碼器的初始偏置的初始化方式表示為:
78、
79、公式(29)、(30)中,σ2為初始化的方差,σ2為0.01;
80、s402、在前向傳播過程中,輸入的特征提取后的數(shù)據(jù)xq通過編碼器轉(zhuǎn)換為隱藏層表示hq,再通過解碼器重構(gòu)為表示為:
81、hq=sig(we,qxq+be,q)?(31)
82、
83、公式(31)、(32)中,sig()為sigmoid激活函數(shù),we,q和be,q分別為編碼器的權(quán)重和偏置,wd,q和bd,q分別為解碼器的權(quán)重和偏置,xq為自編碼器的輸入;
84、s403、計算自編碼器的損失函數(shù),并通過反向傳播算法更新網(wǎng)絡權(quán)重,優(yōu)化參數(shù)以最小化輸入與重構(gòu)輸出之間的差異,自編碼器的損失函數(shù)lq用于計算自編碼器的輸入xq和重構(gòu)輸出之間的差異,計算方式表示為:
85、
86、ω(xq)=[ω1(xq),ω2(xq),...,ωi(xq),...,ωnsd(xq)]?(34)
87、公式(33)、(34)中,∥∥2為l2范數(shù)的平方,ωi(xq)為針對第i個特征的重構(gòu)權(quán)重,ω(xq)為自適應重構(gòu)權(quán)重向量,ωnsd(xq)為針對第nsd個特征的重構(gòu)權(quán)重,nsd為重構(gòu)后的特征數(shù)量;
88、s404、重復迭代上述步驟,直至滿足預設的停止迭代條件,即表示模型訓練完成。
89、進一步的,所述的步驟s403中針對第i個特征的重構(gòu)權(quán)重的計算方式表示為:
90、
91、公式(35)中,xq,i為輸入向量xq的第i個特征,為重構(gòu)輸出的第i個特征,σx,i為基于訓練數(shù)據(jù)集中第i個特征的標準差計算得到的一個尺度參數(shù);
92、采用梯度下降的方式更新權(quán)重和偏置,表示為:
93、
94、公式(36)中,為自編碼器第t+1次迭代的權(quán)重,為自編碼器第t次迭代的權(quán)重,ηq為自編碼器的學習率,ηq為0.01,為損失函數(shù)lq關(guān)于參數(shù)的偏導數(shù);
95、公式(37)中,為自編碼器第t+1次迭代的偏置,為自編碼器第t次迭代的偏置,為損失函數(shù)lq關(guān)于參數(shù)的偏導數(shù)。
96、進一步的,所述的步驟s5中基于不確定性連接的概率神經(jīng)網(wǎng)絡算法的訓練流程包括以下步驟:
97、s501、初始化概率神經(jīng)網(wǎng)絡的參數(shù),包括概率神經(jīng)網(wǎng)絡的權(quán)重和偏置參數(shù),設概率神經(jīng)網(wǎng)絡的權(quán)重矩陣為wu,概率神經(jīng)網(wǎng)絡的偏置向量為bu,初始化的方式表示為:
98、wu=σu·randn(du,nfg)?(38)
99、bu=σu·randn(nfg)?(39)
100、公式(38)、(39)中,σu為概率神經(jīng)網(wǎng)絡的初始化標準差,randn(du,nfg)為生成du行nfg列的標準正態(tài)分布隨機數(shù)矩陣,du為輸入數(shù)據(jù)特征維度,即特征降維后的數(shù)據(jù)維度,nfg為當前批次輸入的樣本數(shù)量,randn(nfg)為生成nfg行的標準正態(tài)分布隨機數(shù)向量;
101、s502、利用不確定性連接機制,根據(jù)每個數(shù)據(jù)點的信息量和不確定性調(diào)整概率神經(jīng)網(wǎng)絡的權(quán)重,調(diào)整方式表示為:
102、
103、wu(t+1)=wu(t)+δwu(t)?(41)
104、公式(40)中,δwu(t)為第t次迭代概率神經(jīng)網(wǎng)絡的權(quán)重更新量,ηu為概率神經(jīng)網(wǎng)絡的學習率,ηu為0.01,為概率神經(jīng)網(wǎng)絡的損失函數(shù)關(guān)于權(quán)重的梯度,lu為概率神經(jīng)網(wǎng)絡的交叉熵損失函數(shù),為根據(jù)數(shù)據(jù)不確定性度量和不確定性調(diào)節(jié)因子λu動態(tài)調(diào)整的函數(shù),確保權(quán)重更新與數(shù)據(jù)不確定性成正比,為不確定性度量,λu為不確定性調(diào)節(jié)因子,λu為2;
105、公式(41)中,wu(t+1)為第t+1次迭代的概率神經(jīng)網(wǎng)絡的權(quán)重,wu(t)為第t次迭代的概率神經(jīng)網(wǎng)絡的權(quán)重;
106、s503、在概率神經(jīng)網(wǎng)絡的輸出層,計算概率密度函數(shù),計算方式表示為:
107、
108、公式(43)中,p()為概率密度函數(shù),p(xu,c)為對于第一樣本類別的預測概率,c為第一樣本類別,xu為輸入到概率神經(jīng)網(wǎng)絡的特征向量,μu為概率神經(jīng)網(wǎng)絡輸出層神經(jīng)元的均值向量,通過wu計算得到,σu為根據(jù)動態(tài)權(quán)重調(diào)整機制更新的協(xié)方差矩陣;
109、根據(jù)動態(tài)權(quán)重調(diào)整機制更新的協(xié)方差矩陣依賴于樣本集的動態(tài)特性,計算方式表示為:
110、
111、公式(44)中,xui為第i個訓練樣本,nu為樣本總數(shù),(xui-μu)t表示(xui-μu)的轉(zhuǎn)置;
112、s504、根據(jù)概率神經(jīng)網(wǎng)絡的輸出層的輸出計算每個分類的累計概率,根據(jù)概率密度函數(shù)的結(jié)果計算每個類別的總體概率,表示為:
113、
114、公式(45)中,pu(c|xu)為每個類別的總體概率,即給定輸入xu下,預測為類別c的條件概率,αu為放縮因子,αu為2,p(xu,c)是對于第一樣本類別的預測概率,c和c′為不同的樣本類別,c為第一樣本類別,c′為第二樣本類別,p(xu,c′)為對于第二樣本類別的預測概率;
115、s505、選擇最可能的類別作為最終決策,通過選擇概率最高的類別作為預測結(jié)果,表示為:
116、
117、公式(46)中,yu為概率神經(jīng)網(wǎng)絡模型的輸出,即預測的類別標簽;
118、s506、重復迭代上述步驟,直至滿足預設的停止迭代條件,即表示模型訓練完成。
119、進一步的,所述的步驟s502中根據(jù)數(shù)據(jù)不確定性度量和不確定性調(diào)節(jié)因子λu動態(tài)調(diào)整的函數(shù)的計算方式表示為:
120、
121、公式(42)中,為數(shù)據(jù)的不確定性度量,θu為控制衰減速率,θu為2,以確保在數(shù)據(jù)不確定性高的情況下適度調(diào)整權(quán)重。
122、本發(fā)明的有益效果如下:(1)本發(fā)明采用基于圖理論的生成對抗網(wǎng)絡,通過拓撲圖結(jié)構(gòu)模擬用戶數(shù)據(jù)間的復雜關(guān)系和依賴性,解決了傳統(tǒng)生成對抗網(wǎng)絡在處理操作系統(tǒng)用戶數(shù)據(jù)時對關(guān)系和依賴性表現(xiàn)力不足的問題。
123、(2)本發(fā)明采用基于量子霍爾效應的神經(jīng)網(wǎng)絡算法,模擬量子粒子在磁場作用下的行為,以捕捉數(shù)據(jù)中的非線性關(guān)系和隱藏模式,提升了網(wǎng)絡在復雜數(shù)據(jù)結(jié)構(gòu)中的表現(xiàn)力。
124、(3)本發(fā)明采用自編碼器模型進行數(shù)據(jù)壓縮和解壓縮,最小化輸入與輸出間的差異,提高了數(shù)據(jù)處理的效率和準確性。
125、(4)本發(fā)明采用基于不確定性連接的概率神經(jīng)網(wǎng)絡,通過動態(tài)調(diào)整權(quán)重來適應數(shù)據(jù)流的不確定性,增強了模型的泛化能力和對數(shù)據(jù)變異性的適應能力。