本發(fā)明涉及數(shù)據(jù)處理,特別涉及一種監(jiān)控?cái)?shù)據(jù)篩選方法及系統(tǒng)。
背景技術(shù):
1、在多機(jī)構(gòu)聯(lián)合監(jiān)測進(jìn)行數(shù)據(jù)獲取的場景下,如何在嚴(yán)格確保數(shù)據(jù)隱私安全的前提下,完成多機(jī)構(gòu)的數(shù)據(jù)獲取,成為了一項(xiàng)亟待攻克的關(guān)鍵技術(shù)挑戰(zhàn)。
2、近年來,聯(lián)邦學(xué)習(xí)作為一種新興的數(shù)據(jù)處理技術(shù),為多機(jī)構(gòu)聯(lián)合安全監(jiān)測提供了新的解決方案,聯(lián)邦學(xué)習(xí)允許多個(gè)機(jī)構(gòu)在本地進(jìn)行數(shù)據(jù)處理和分析,僅將加密后的處理結(jié)果上傳至協(xié)調(diào)方進(jìn)行匯總和分析,從而避免了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
3、但在聯(lián)邦學(xué)習(xí)的框架基礎(chǔ)上,如何對多機(jī)構(gòu)監(jiān)測后獲取的數(shù)據(jù)源進(jìn)行高效、精確的篩選,仍是一個(gè)技術(shù)難題,多機(jī)構(gòu)的數(shù)據(jù)來源廣泛且多樣,存在大量的冗余和無效數(shù)據(jù),其將導(dǎo)致整體的監(jiān)測效率及準(zhǔn)確度降低。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種監(jiān)控?cái)?shù)據(jù)篩選方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中多機(jī)構(gòu)的數(shù)據(jù)來源廣泛且多樣,存在大量的冗余和無效數(shù)據(jù),其將導(dǎo)致整體的監(jiān)測效率及準(zhǔn)確度降低的技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,第一方面,本技術(shù)實(shí)施例提供了一種監(jiān)控?cái)?shù)據(jù)篩選方法,用于對若干個(gè)監(jiān)測機(jī)構(gòu)的監(jiān)測屬性進(jìn)行過濾,所述監(jiān)控?cái)?shù)據(jù)篩選方法包括以下步驟:
3、基于決策屬性自決策機(jī)構(gòu)的決策記錄中獲取與監(jiān)測對象對應(yīng)的若干個(gè)決策屬性值,為每一所述決策屬性值賦予第一id編號,將所述第一id編號及所述決策屬性值組合為第一數(shù)據(jù)對,對若干個(gè)所述第一數(shù)據(jù)對進(jìn)行等價(jià)劃分,以形成包括若干個(gè)第一等價(jià)類的第一等價(jià)集合;
4、自監(jiān)測機(jī)構(gòu)中獲取與監(jiān)測對象對應(yīng)的監(jiān)測記錄,所述監(jiān)測機(jī)構(gòu)包括若干個(gè)監(jiān)測屬性,基于所述監(jiān)測屬性自所述監(jiān)測記錄中提取監(jiān)測值,為每一所述監(jiān)測值賦予第二id編號,所述第二id編號與所述監(jiān)測值組合為第二數(shù)據(jù)對,對若干個(gè)所述第二數(shù)據(jù)對進(jìn)行等價(jià)劃分,以形成包括若干個(gè)第二等價(jià)類的第二等價(jià)集合,所述第二等價(jià)集合的數(shù)量與所述監(jiān)測屬性的數(shù)量相同;
5、通過所述第一等價(jià)集合獲取與所述決策屬性對應(yīng)的決策信息熵;
6、基于所述第一等價(jià)集合及所述第二等價(jià)集合確定與所述第二等價(jià)集合對應(yīng)的監(jiān)測屬性的監(jiān)測條件熵;
7、基于所述決策信息熵及所述監(jiān)測條件熵確定所述監(jiān)測屬性的增益值,通過所述增益值判斷是否需過濾所述監(jiān)測屬性。
8、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:僅處理包括所述第一id編號的所述第一等價(jià)集合及包括所述第二id編號的所述第二等價(jià)集合,確保了數(shù)據(jù)的安全性;通過信息熵理論,計(jì)算數(shù)據(jù)的不確定性來衡量數(shù)據(jù)的信息含量及冗余程度,即通過獲取所述決策信息熵及所述監(jiān)測條件熵,分析所述監(jiān)測屬性與所述決策記錄之間的關(guān)聯(lián)程度,進(jìn)而自眾多的監(jiān)測屬性中篩選出關(guān)聯(lián)程度較低的所述監(jiān)測屬性,避免該部分所述監(jiān)測屬性的監(jiān)測值混雜于重要的監(jiān)測值中,排除了較多的冗余數(shù)據(jù)和無效數(shù)據(jù),提升了監(jiān)測效率及監(jiān)測準(zhǔn)確性。
9、進(jìn)一步,所述對若干個(gè)所述第一數(shù)據(jù)對進(jìn)行等價(jià)劃分,以形成包括若干個(gè)第一等價(jià)類的第一等價(jià)集合的步驟包括:
10、將不同的所述第一數(shù)據(jù)對中的所述決策屬性值進(jìn)行比對;
11、若存在相同的所述決策屬性值,則將與相同的所述決策屬性值對應(yīng)的所述第一id編號合并為第一集合,并將剩余的所述第一id編號分別確定為第二集合;
12、將所述第一集合及所述第二集合均定義為第一等價(jià)類,并將若干個(gè)所述第一等價(jià)類組合為第一等價(jià)集合。
13、更進(jìn)一步,所述通過所述第一等價(jià)集合獲取與所述決策屬性對應(yīng)的決策信息熵的步驟具體為:
14、獲取所述第一等價(jià)集合中所述第一等價(jià)類的概率值;
15、基于所述第一等價(jià)類的概率值計(jì)算與所述決策屬性對應(yīng)的決策信息熵。
16、更進(jìn)一步,所述第一等價(jià)類的概率值的計(jì)算公式為:
17、,
18、其中,表示第i個(gè)第一等價(jià)類的概率值,表示第i個(gè)第一等價(jià)類中第一id編號的數(shù)量,表示第一等價(jià)集合中第一id編號的數(shù)量。
19、更進(jìn)一步,所述決策信息熵的計(jì)算公式為:
20、,
21、其中,表示決策信息熵,表示第i個(gè)第一等價(jià)類的概率值,表示第一等價(jià)類的數(shù)量,表示對數(shù)函數(shù)。
22、更進(jìn)一步,所述基于所述第一等價(jià)集合及所述第二等價(jià)集合確定與所述第二等價(jià)集合對應(yīng)的監(jiān)測屬性的監(jiān)測條件熵的步驟包括:
23、在與某一所述監(jiān)測屬性對應(yīng)的某一所述第二等價(jià)集合中,以所述第二等價(jià)類為條件,并以所述第一等價(jià)集合為結(jié)果確定所述第二等價(jià)類的單條件熵;
24、通過若干個(gè)所述單條件熵確定該所述監(jiān)測屬性的監(jiān)測條件熵。
25、更進(jìn)一步,所述單條件熵的計(jì)算公式為:
26、,
27、其中,表示與第i個(gè)監(jiān)測機(jī)構(gòu)下第j個(gè)監(jiān)測屬性對應(yīng)的第q個(gè)第二等價(jià)類的單條件熵,表示以與第i個(gè)監(jiān)測機(jī)構(gòu)下第j個(gè)監(jiān)測屬性對應(yīng)的第q個(gè)第二等價(jià)類為條件值,以第n個(gè)第一等價(jià)類為結(jié)果值的概率,表示對數(shù)函數(shù),表示第一等價(jià)類的數(shù)量。
28、更進(jìn)一步,所述監(jiān)測條件熵的計(jì)算公式為:
29、,
30、其中,表示第i個(gè)監(jiān)測機(jī)構(gòu)的第j個(gè)監(jiān)測屬性的監(jiān)測條件熵,表示與第i個(gè)監(jiān)測機(jī)構(gòu)下第j個(gè)監(jiān)測屬性對應(yīng)的第m個(gè)第二等價(jià)類的單條件熵,表示與第i個(gè)監(jiān)測機(jī)構(gòu)下第j個(gè)監(jiān)測屬性對應(yīng)的第m個(gè)第二等價(jià)類的概率值,表示與第i個(gè)監(jiān)測機(jī)構(gòu)下第j個(gè)監(jiān)測屬性對應(yīng)的第二等價(jià)類的數(shù)量。
31、更進(jìn)一步,所述通過所述增益值判斷是否需過濾所述監(jiān)測屬性的步驟包括:
32、將所述增益值與屬性閾值進(jìn)行比對;
33、若所述增益值大于所述屬性閾值,則保留與大于所述屬性閾值的增益值對應(yīng)的監(jiān)測屬性;
34、若所述增益值小于所述屬性閾值,則剔除與小于所述屬性閾值的增益值對應(yīng)的監(jiān)測屬性。
35、第二方面,本技術(shù)實(shí)施例提供了一種監(jiān)控?cái)?shù)據(jù)篩選系統(tǒng),應(yīng)用于如上述第一方面所述的監(jiān)控?cái)?shù)據(jù)篩選方法,所述系統(tǒng)包括:
36、第一獲取模塊,用于基于決策屬性自決策機(jī)構(gòu)的決策記錄中獲取與監(jiān)測對象對應(yīng)的若干個(gè)決策屬性值,為每一所述決策屬性值賦予第一id編號,將所述第一id編號及所述決策屬性值組合為第一數(shù)據(jù)對,對若干個(gè)所述第一數(shù)據(jù)對進(jìn)行等價(jià)劃分,以形成包括若干個(gè)第一等價(jià)類的第一等價(jià)集合;
37、第二獲取模塊,用于自監(jiān)測機(jī)構(gòu)中獲取與監(jiān)測對象對應(yīng)的監(jiān)測記錄,所述監(jiān)測機(jī)構(gòu)包括若干個(gè)監(jiān)測屬性,基于所述監(jiān)測屬性自所述監(jiān)測記錄中提取監(jiān)測值,為每一所述監(jiān)測值賦予第二id編號,所述第二id編號與所述監(jiān)測值組合為第二數(shù)據(jù)對,對若干個(gè)所述第二數(shù)據(jù)對進(jìn)行等價(jià)劃分,以形成包括若干個(gè)第二等價(jià)類的第二等價(jià)集合,所述第二等價(jià)集合的數(shù)量與所述監(jiān)測屬性的數(shù)量相同;
38、第一分析模塊,用于通過所述第一等價(jià)集合獲取與所述決策屬性對應(yīng)的決策信息熵;
39、第二分析模塊,用于基于所述第一等價(jià)集合及所述第二等價(jià)集合確定與所述第二等價(jià)集合對應(yīng)的監(jiān)測屬性的監(jiān)測條件熵;
40、判斷模塊,用于基于所述決策信息熵及所述監(jiān)測條件熵確定所述監(jiān)測屬性的增益值,通過所述增益值判斷是否需過濾所述監(jiān)測屬性。
41、第三方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述第一方面所述的監(jiān)控?cái)?shù)據(jù)篩選方法。
42、第四方面,本技術(shù)實(shí)施例提供了一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的監(jiān)控?cái)?shù)據(jù)篩選方法。