本發(fā)明涉及物聯(lián)網(wǎng),具體是基于物聯(lián)網(wǎng)的檔案信息安全追蹤與實時監(jiān)控系統(tǒng)及方法。
背景技術(shù):
1、隨著計算機(jī)技術(shù)、物聯(lián)網(wǎng)技術(shù)和信息安全技術(shù)的快速發(fā)展,信息化和數(shù)字化成為各行各業(yè)的主流趨勢,在當(dāng)今數(shù)字化時代,檔案信息已成為組織極為重要的資產(chǎn)。常見的檔案數(shù)據(jù)包括物聯(lián)網(wǎng)設(shè)備各種類型的運(yùn)行參數(shù)、生產(chǎn)環(huán)境數(shù)據(jù)、項目申報文檔、技術(shù)文檔和監(jiān)控圖像數(shù)據(jù)等,并對這些數(shù)據(jù)進(jìn)行數(shù)字化存儲;然而,在全球化的背景下,隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜,越來越多的物聯(lián)網(wǎng)設(shè)備接入到網(wǎng)絡(luò)中產(chǎn)生數(shù)據(jù),導(dǎo)致檔案數(shù)據(jù)也愈發(fā)的復(fù)雜和繁多,若不及時對這些檔案數(shù)據(jù)進(jìn)行分類和歸整,不僅會導(dǎo)致檔案信息混亂,而且還面臨著諸多如數(shù)據(jù)泄露、篡改等安全威脅。
2、現(xiàn)有對檔案數(shù)據(jù)的分類和歸整,通常是將檔案數(shù)據(jù)先存儲到特定的存儲介質(zhì)或數(shù)據(jù)庫中,再由人工手動分類或基于簡單規(guī)則的半自動化分類方式,面對海量的檔案數(shù)據(jù),不僅效率低下,主觀性大,不可避免地出現(xiàn)差錯,而且若存在不合理的分類還要進(jìn)行數(shù)據(jù)轉(zhuǎn)移,并且無法對存在異常的數(shù)據(jù)實時監(jiān)控。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供基于物聯(lián)網(wǎng)的檔案信息安全追蹤與實時監(jiān)控系統(tǒng)及方法,以解決現(xiàn)有技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、基于物聯(lián)網(wǎng)的檔案信息安全追蹤與實時監(jiān)控方法,包括以下步驟:
4、步驟s100:采集將檔案數(shù)據(jù)分為不同檔案類別的分類記錄,以及將檔案數(shù)據(jù)從某一檔案類別轉(zhuǎn)移至另一檔案類別的轉(zhuǎn)移記錄,將分類記錄和轉(zhuǎn)移記錄統(tǒng)稱為操作記錄,根據(jù)各操作記錄對應(yīng)的操作時間,得到若干子時段,并得到每一子時段對應(yīng)的特征系數(shù);
5、步驟s200:根據(jù)各操作記錄對應(yīng)的操作人員的權(quán)限,以及操作后填寫的報告記錄,得到各操作記錄的人員可靠度,并根據(jù)特征系數(shù),得到其中的所有目標(biāo)記錄;
6、步驟s300:獲取目標(biāo)記錄中對應(yīng)的各關(guān)鍵詞,并根據(jù)大語言模型,計算各關(guān)鍵詞之間的相似度,進(jìn)而得到特性詞,并根據(jù)各特性詞,建立各檔案類別對應(yīng)的特征檔案模型;
7、步驟s400:將當(dāng)前產(chǎn)生待分類檔案數(shù)據(jù)的物聯(lián)網(wǎng)設(shè)備作為待檢測設(shè)備,待分類檔案數(shù)據(jù)作為待分類數(shù)據(jù),根據(jù)特征檔案模型,并根據(jù)待檢測設(shè)備歷史產(chǎn)生的檔案數(shù)據(jù)的所屬類別,確定待分類數(shù)據(jù)所屬類別,并將待分類數(shù)據(jù)傳輸?shù)较鄳?yīng)的檔案類別中。
8、進(jìn)一步的,步驟s100包括:
9、步驟s110:獲取歷史的若干條分類記錄和轉(zhuǎn)移記錄,分類記錄包括:操作人員、操作時刻、目標(biāo)類別、檔案編號和檔案內(nèi)容,檔案內(nèi)容包括檔案描述和檔案文件,轉(zhuǎn)移記錄包括:操作人員、操作時刻、轉(zhuǎn)移前類別、目標(biāo)類別、檔案編號和檔案內(nèi)容;獲取操作人員的上班時刻和下班時刻,將某一天的上班時刻與下一天的上班時刻之間的時段作為特征時段;
10、步驟s120:獲取特征時段內(nèi)的所有操作時刻,數(shù)量為q,設(shè)置最小時段為f1,最大時段為f2,以特征時段起點為開始時刻,終點為結(jié)束時刻,距離開始時刻時長為f1的時刻為第一時刻m1,距離開始時刻時長為f2的時刻為第二時刻m2,若開始時刻和時刻m1內(nèi)的操作時刻數(shù)量q1>q0,q0為數(shù)量閾值,將時刻m1作為分割時刻,若q1≤q0,且在時刻m1和時刻m2之間存在時刻m1?2,滿足開始時刻和時刻m1?2內(nèi)的操作時刻數(shù)量q1=q0,則將時刻m1?2作為分割時刻,若上述條件均不滿足,將時刻m2作為分割時刻;進(jìn)而以分割時刻為開始時刻,得到另一分割時刻,并以此類推,若某分割時刻距離結(jié)束時刻的時段小于f1+f2,將兩時刻中間的時刻作為分割時刻,進(jìn)而得到所有分割時刻,將起點與相鄰的分割時刻之間、兩相鄰的分割時刻之間和某分割時刻與相鄰的終點之間的時段作為子時段,將各子時段中的操作時刻數(shù)量除去數(shù)量q,作為各子時段對應(yīng)的特征系數(shù)c,并進(jìn)行歸一化。
11、對于開發(fā)文檔、項目申報等檔案來說,為了更加方便操作人員的快速理解,通常情況下需要對檔案內(nèi)容進(jìn)行提煉總結(jié),而這些提煉總結(jié)的部分在本方案中稱為檔案描述;一般在正常情況下,操作人員是在上班時間對各檔案進(jìn)行歸類,并且離上班時間越遠(yuǎn),比如上班時間是在白天,而在凌晨發(fā)生了檔案操作現(xiàn)象,則判斷其存在異常行為的可能性比較高,在本方案中特征系數(shù)c是用來表征各子時段異常行為的,并且特征系數(shù)越小,說明其存在非正常的概率越大,特征系數(shù)越大,說明正常概率越大。
12、進(jìn)一步的,步驟s200包括:
13、步驟s210:操作人員在完成對應(yīng)的操作之后,需要填寫報告記錄,報告記錄內(nèi)容包括對操作人員、操作時間、檔案編號、操作描述;若報告記錄中的操作人員、操作時間或檔案編號與實際的完全匹配,判斷操作人員、操作時間或檔案編號的匹配程度為1,若不完全匹配,則匹配程度為0;若某操作記錄對應(yīng)的操作人員,具有對對應(yīng)的目標(biāo)類別修改的權(quán)限,將某操作記錄的第一可靠度y=1,若不具有修改的權(quán)限,第一可靠度y=0;
14、操作人員在對一個操作完成之后,需要填寫報告記錄,用來告訴相關(guān)工作人員哪方面進(jìn)行了改變,而若不填寫或者少寫錯寫報告記錄,會判定該操作人員異常程度較大,并且由于操作人員需要進(jìn)行登錄,才能對檔案進(jìn)行操作,而權(quán)限一般是由管理員根據(jù)各個操作人員的職責(zé)設(shè)立的,若出現(xiàn)某操作人員對并不屬于自己權(quán)限的類別進(jìn)行修改,也會導(dǎo)致該操作人員的異常程度較大,所以綜合報告記錄和權(quán)限這兩方面,可以得到操作人員的可靠度;
15、步驟s220:進(jìn)而得到某操作記錄對應(yīng)的人員可靠度d=w1*(∑n?n=1xn)/n+w2*y,w1和w2分別為報告記錄權(quán)重和權(quán)限權(quán)重,w1+w2=1,其中,n為報告記錄內(nèi)容數(shù)量,n=1,2或3,xn為第n個報告記錄內(nèi)容的匹配程度,y為某操作記錄的第一可靠度;進(jìn)而根據(jù)某操作記錄,對應(yīng)的操作時刻所在子時段的特征系數(shù)c,得到某操作記錄的目標(biāo)程度為:t=wc*c+wd*d,其中,wc為特征系數(shù)權(quán)重,wd為人員可靠度權(quán)重,wc+wd=1,若t>t0,t0為目標(biāo)程度閾值,則將某操作記錄作為目標(biāo)記錄;獲取某轉(zhuǎn)移記錄tr對應(yīng)的檔案編號fn,以及檔案編號fn對應(yīng)的分類記錄sr,若某轉(zhuǎn)移記錄tr和分類記錄sr均為目標(biāo)記錄,將分類記錄sr取消作為目標(biāo)記錄,進(jìn)而得到所有目標(biāo)記錄。
16、進(jìn)一步的,步驟s300包括:
17、步驟s310:獲取某目標(biāo)記錄對應(yīng)的檔案描述和操作描述,提取兩描述中的所有關(guān)鍵詞,作為某目標(biāo)記錄的關(guān)鍵詞庫,進(jìn)而得到每一關(guān)鍵詞庫,計算某關(guān)鍵詞庫中的某關(guān)鍵詞kw,與另一關(guān)鍵詞庫中的每一關(guān)鍵詞的相似度,并進(jìn)行歸一化;若某關(guān)鍵詞庫對應(yīng)的目標(biāo)記錄為分類記錄,且另一關(guān)鍵詞庫中,對應(yīng)的相似度最大值大于第一閾值,則將另一關(guān)鍵詞庫作為某關(guān)鍵詞kw的第一特征庫,若某關(guān)鍵詞kw對應(yīng)的第一特征庫數(shù)量大于數(shù)量閾值,將某關(guān)鍵詞kw進(jìn)行標(biāo)記;若某關(guān)鍵詞庫對應(yīng)的目標(biāo)記錄為轉(zhuǎn)移記錄,且另一關(guān)鍵詞庫中,對應(yīng)的相似度最大值大于第二閾值,則將另一關(guān)鍵詞庫作為某關(guān)鍵詞kw的第二特征庫,若某關(guān)鍵詞kw對應(yīng)的第二特征庫數(shù)量大于數(shù)量閾值,將某關(guān)鍵詞kw進(jìn)行標(biāo)記;進(jìn)而得到所有標(biāo)記的關(guān)鍵詞,并將未標(biāo)記的關(guān)鍵詞作為特性詞,并得到每一目標(biāo)記錄對應(yīng)的所有特性詞;
18、步驟s320:建立某目標(biāo)類別的神經(jīng)網(wǎng)絡(luò)模型,設(shè)置初始循環(huán)次數(shù)b=1,獲取某目標(biāo)類別對應(yīng)的所有目標(biāo)記錄,并以每一目標(biāo)記錄對應(yīng)的所有特性詞,以及其中的若干檔案內(nèi)容作為訓(xùn)練集,對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果為檔案內(nèi)容與目標(biāo)類別的相關(guān)性;并將某目標(biāo)類別對應(yīng)的隨機(jī)h1個檔案內(nèi)容,作為相關(guān)檔案,將其余目標(biāo)類別對應(yīng)的隨機(jī)h2個檔案內(nèi)容,作為非相關(guān)檔案,將相關(guān)檔案和非相關(guān)檔案作為驗證集,輸入到訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型,得到輸出結(jié)果;
19、需要說明的是,在對模型進(jìn)行訓(xùn)練時,可以將訓(xùn)練過程分為相關(guān)性訓(xùn)練和非相關(guān)性訓(xùn)練,相關(guān)訓(xùn)練就是強(qiáng)化模型的特征關(guān)聯(lián)和模式識別強(qiáng)化方面,去學(xué)習(xí)和強(qiáng)化輸入數(shù)據(jù)與目標(biāo)輸出之間的相關(guān)特征和規(guī)律,而非相關(guān)性訓(xùn)練主要是強(qiáng)化模型的相似干擾和異常識別方面,旨在讓模型學(xué)習(xí)和區(qū)分與目標(biāo)輸出不相關(guān)或差異較大的特征及情況;比如對于兩個相似但不同類的文案,若只對其中某一類進(jìn)行相關(guān)性訓(xùn)練,而不對其進(jìn)行非相關(guān)性訓(xùn)練,那么會大大降低其輸出結(jié)果的可靠性;在本方案中步驟s320只對模型進(jìn)行相關(guān)性訓(xùn)練,而在步驟s330中,對于循環(huán)次數(shù)b大于1時,對模型的相關(guān)性和非相關(guān)性均要進(jìn)行訓(xùn)練;
20、步驟s330:若存在非相關(guān)檔案中的相關(guān)性最大值,大于相關(guān)檔案中的相關(guān)性最小值,將相關(guān)檔案和非相關(guān)檔案均作為訓(xùn)練集,對神經(jīng)網(wǎng)絡(luò)模型再次進(jìn)行訓(xùn)練,循環(huán)次數(shù)b的值加1,設(shè)置最大循環(huán)次數(shù)為b,直至b=b或滿足非相關(guān)檔案中的相關(guān)性最大值,不大于相關(guān)檔案中的相關(guān)性最小值為止,將訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型作為特征檔案模型,進(jìn)而得到每一檔案類別對應(yīng)的特征檔案模型。
21、進(jìn)一步的,步驟s400包括:
22、步驟s410:提取待分類數(shù)據(jù)對應(yīng)的檔案描述中的所有關(guān)鍵詞,根據(jù)步驟s310,將其中標(biāo)記的關(guān)鍵詞進(jìn)行去除,將剩下的關(guān)鍵詞和待分類數(shù)據(jù)均輸入到每一特征檔案模型中,得到每一模型的輸出結(jié)果,得到若干相關(guān)性,將其中相關(guān)性最大值zmax對應(yīng)的模型作為a,將模型a之外的其余模型的相關(guān)性之和作為zsum,若滿足zmax>kz*zsum且zmax>z0,其中,kz為相關(guān)性系數(shù),z0為相關(guān)性閾值,則將待分類數(shù)據(jù)歸為模型a對應(yīng)的檔案類別,并進(jìn)行傳輸;若滿足zmax≤kz*zsum或zmax≤z0,獲取待檢測設(shè)備歷史生成的若干條檔案數(shù)據(jù),并均勻分為g份,得到第g份的權(quán)重為:wg=g/∑g?h=1h;檔案數(shù)據(jù)的狀態(tài)包括已歸檔和未歸檔,根據(jù)各份未歸檔的檔案數(shù)據(jù)數(shù)量,占對應(yīng)的各份總檔案數(shù)據(jù)數(shù)量的比值,得到待檢測設(shè)備的未歸檔值val=∑gg=1wg*rg,rg為第g份的比值;
23、滿足zmax>kz*zsum是為了確保在實際分類的過程中,存在有且僅有一個檔案類別符合該待分類數(shù)據(jù),這是由于當(dāng)其余的檔案類別相關(guān)性均較大時,比如第二、第三大的相關(guān)性也較大時,容易造成判斷影響,導(dǎo)致類別分類模糊的問題,所以通過這個條件,可以突出主要相關(guān)因素,使得待分類數(shù)據(jù)能夠更精準(zhǔn)地歸為最相關(guān)的模型對應(yīng)的類別;而zmax>z0是為了設(shè)定最低相關(guān)性門檻,保證分類質(zhì)量,排除無關(guān)或弱相關(guān)數(shù)據(jù),提高分類準(zhǔn)確性,確保數(shù)據(jù)與模型有足夠的相關(guān)性才能歸為該模型對應(yīng)的類別;
24、步驟s420:將某檔案類別中存在的,待檢測設(shè)備歷史產(chǎn)生的檔案數(shù)據(jù),作為設(shè)備數(shù)據(jù);獲取待分類數(shù)據(jù)的檔案描述中的關(guān)鍵詞,并將其中標(biāo)記的關(guān)鍵詞進(jìn)行去除,得到所有檢測關(guān)鍵詞,計算某檢測關(guān)鍵詞與某設(shè)備數(shù)據(jù)中的各關(guān)鍵詞的相似度,并得到某檢測關(guān)鍵詞對應(yīng)的最大相似度,進(jìn)而將所有檢測關(guān)鍵詞對應(yīng)的最大相似度相加,得到總相似度s,并根據(jù)待檢測設(shè)備的未歸檔值val,得到待分類數(shù)據(jù)與某檔案類別的歸類程度cd=1-e-k*s/val,e為自然指數(shù),k為歸類系數(shù),若待分類數(shù)據(jù)對應(yīng)的最大歸類程度大于歸類閾值,將最大歸類程度對應(yīng)的檔案類別,作為待分類數(shù)據(jù)的所屬類別,并進(jìn)行傳輸;若最大歸類程度不大于歸類閾值,將待分類數(shù)據(jù)進(jìn)行安全警告,并且不進(jìn)行歸檔。
25、基于物聯(lián)網(wǎng)的檔案信息安全追蹤與實時監(jiān)控系統(tǒng),包括特征系數(shù)計算模塊、目標(biāo)記錄獲取模塊、特征檔案模型建立模塊和待分類數(shù)據(jù)分類模塊;
26、特征系數(shù)計算模塊:用于采集將檔案數(shù)據(jù)分為不同檔案類別的分類記錄,以及將檔案數(shù)據(jù)從某一檔案類別轉(zhuǎn)移至另一檔案類別的轉(zhuǎn)移記錄,將分類記錄和轉(zhuǎn)移記錄統(tǒng)稱為操作記錄,根據(jù)各操作記錄對應(yīng)的操作時間,得到若干子時段,并得到每一子時段對應(yīng)的特征系數(shù);
27、目標(biāo)記錄獲取模塊:用于根據(jù)各操作記錄對應(yīng)的操作人員的權(quán)限,以及操作后填寫的報告記錄,得到各操作記錄的人員可靠度,并根據(jù)特征系數(shù),得到其中的所有目標(biāo)記錄;
28、特征檔案模型建立模塊:用于獲取目標(biāo)記錄中對應(yīng)的各關(guān)鍵詞,并根據(jù)大語言模型,計算各關(guān)鍵詞之間的相似度,進(jìn)而得到特性詞,并根據(jù)各特性詞,建立各檔案類別對應(yīng)的特征檔案模型;
29、待分類數(shù)據(jù)分類模塊:用于將當(dāng)前產(chǎn)生待分類檔案數(shù)據(jù)的物聯(lián)網(wǎng)設(shè)備作為待檢測設(shè)備,待分類檔案數(shù)據(jù)作為待分類數(shù)據(jù),根據(jù)特征檔案模型,并根據(jù)待檢測設(shè)備歷史產(chǎn)生的檔案數(shù)據(jù)的所屬類別,確定待分類數(shù)據(jù)所屬類別,并將待分類數(shù)據(jù)傳輸?shù)较鄳?yīng)的檔案類別中。
30、進(jìn)一步的,特征系數(shù)計算模塊包括操作記錄分類單元和特征系數(shù)計算單元;
31、操作記錄分類單元:用于獲取歷史的若干條分類記錄和轉(zhuǎn)移記錄,根據(jù)操作人員的上班時刻和下班時刻,得到特征時段;
32、特征系數(shù)計算單元:用于獲取特征時段中的各子時段,根據(jù)子時段中的操作記錄數(shù)量,得到各子時段對應(yīng)的特征系數(shù)。
33、進(jìn)一步的,待分類數(shù)據(jù)分類模塊包括未歸檔值計算單元和待分類數(shù)據(jù)分類單元;
34、未歸檔值計算單元:用于獲取待檢測設(shè)備歷史未歸檔數(shù)據(jù)數(shù)量,并根據(jù)總產(chǎn)生的歸檔數(shù)據(jù),得到待檢測設(shè)備的未歸檔值;
35、待分類數(shù)據(jù)分類單元:用于計算待分類數(shù)據(jù)與每一檔案類別的歸類程度,并根據(jù)各歸類程度,判斷待分類數(shù)據(jù)的所屬類別。
36、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明提供了基于物聯(lián)網(wǎng)的檔案信息安全追蹤與實時監(jiān)控系統(tǒng)及方法,包括:采集分類記錄和轉(zhuǎn)移記錄,并統(tǒng)稱為操作記錄,根據(jù)各操作記錄對應(yīng)的操作時間,得到若干子時段,并得到每一子時段對應(yīng)的特征系數(shù);得到各操作記錄的人員可靠度,并根據(jù)特征系數(shù),得到其中的所有目標(biāo)記錄;獲取目標(biāo)記錄中對應(yīng)的各關(guān)鍵詞,計算各關(guān)鍵詞之間的相似度,建立各檔案類別對應(yīng)的特征檔案模型;根據(jù)特征檔案模型,將當(dāng)前的待分類檔案數(shù)據(jù)進(jìn)行分類,并傳輸?shù)较鄳?yīng)的檔案類別中。本發(fā)明通過對歷史的檔案數(shù)據(jù)進(jìn)行分析,得到當(dāng)前的待分類檔案數(shù)據(jù)的所屬檔案類別,提升了分類效率,使分類更加準(zhǔn)確高效,并實現(xiàn)對異常檔案數(shù)據(jù)的實時監(jiān)控。