一種分類數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)隱私保護方法
【技術領域】
[0001] 本發(fā)明涉及一種分類數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)隱私保護方法。
【背景技術】
[0002] 數(shù)據(jù)挖掘(DataMining,DM)是從大量的、不完全的、有噪聲、模糊的、隨機的數(shù)據(jù) 中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。隨著數(shù)據(jù) 挖掘和知識發(fā)現(xiàn)技術的發(fā)展,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究已經(jīng)涵蓋數(shù)據(jù)庫、人工智能和數(shù) 理統(tǒng)計三大學科的內容。它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖 掘知識,提供決策和支持。
[0003] 由于數(shù)據(jù)挖掘的諸多優(yōu)點,它在商業(yè)零售、醫(yī)療與保險、大數(shù)據(jù)分析等方面都有較 好的應用前景,對數(shù)據(jù)挖掘技術的研究正成為學術界、商業(yè)界和工業(yè)界的熱點之一。但是, 數(shù)據(jù)挖掘在為人們提供有益知識的同時,也會直接或間接的泄露參與方的數(shù)據(jù)隱私,給當 事人帶來經(jīng)濟和其他方面的損失,甚至造成難以估量的影響,這成為數(shù)據(jù)挖掘不能逃避的 問題。因此數(shù)據(jù)挖掘中的隱私安全問題具有重要意義。
[0004] 根據(jù)數(shù)據(jù)挖掘實現(xiàn)的不同場景,數(shù)據(jù)挖掘可分為集中式數(shù)據(jù)挖掘和分布式的數(shù)據(jù) 挖掘。目前對于集中式的數(shù)據(jù)挖掘,由于它不涉及通信傳輸和多方參與,目前已經(jīng)有了比較 成熟的隱私保護方案。而在分布式環(huán)境中,挖掘環(huán)境和實現(xiàn)過程更為復雜,分布式環(huán)境中數(shù) 據(jù)挖掘的隱私安全問題主要包括三個方面:(1)保護聚類挖掘參與方的數(shù)據(jù)隱私;(2)保護 關聯(lián)規(guī)則挖掘參與方的數(shù)據(jù)隱私;(3)保護分類挖掘中的參與方的數(shù)據(jù)隱私。目前對前兩 個方面的研究已有不少成果,然而對分類挖掘的隱私保護研究還少有人涉及,分布式環(huán)境 中的多方參與和準誠信的環(huán)境,顯然給問題的解決帶來了一定的難度,一般采用的策略主 要是使用密碼學的方法,但僅用密碼學的方法是不足夠的,仍然需要結合新的技術、方法來 保證分類挖掘中各方的隱私數(shù)據(jù)不被泄露;對于分布式環(huán)境來說,分布式環(huán)境包括水平分 割數(shù)據(jù)和垂直分割數(shù)據(jù)兩種,在垂直劃分的數(shù)據(jù)集中,同一數(shù)據(jù)的不同屬性分別存儲在不 同的參與方中;在水平劃分的數(shù)據(jù)集中,數(shù)據(jù)的所有屬性存儲在同一個參與方中,不同的 參與方存儲不同數(shù)據(jù)的信息。
[0005] 在網(wǎng)絡世界里,針對網(wǎng)絡中隱私數(shù)據(jù)的攻擊表現(xiàn)為網(wǎng)絡惡意入侵,網(wǎng)絡惡意入侵 的主要過程是發(fā)生在分類器生成過程中,如果某個參與方是惡意的,它可能對參與分類挖 掘的其他各方進行如下幾種攻擊:①截獲其他參與方的通信數(shù)據(jù),分析它們的隱私數(shù)據(jù); ②利用自己參與計算的便利職務,分析其他各方的隱私數(shù)據(jù);③利用自己收到的計算結果, 倒推其他參與方的數(shù)據(jù)隱私等等。
【發(fā)明內容】
[0006] 針對上述技術問題,本發(fā)明所要解決的技術問題是提供一種基于保護隱私的ID3 分類模型,采用全同態(tài)加密算法的方案,有效實現(xiàn)針對網(wǎng)絡分類數(shù)據(jù)挖掘過程中隱私數(shù)據(jù) 保護的分類數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)隱私保護方法。
[0007] 本發(fā)明為了解決上述技術問題采用以下技術方案:本發(fā)明設計了一種分類數(shù)據(jù)挖 掘系統(tǒng)中數(shù)據(jù)隱私保護方法,其中,系統(tǒng)中處理數(shù)據(jù)的各個屬性按分布式垂直劃分的方式 分配給各個參與方,數(shù)據(jù)隱私保護方法包括如下步驟:
[0008] 步驟001.首先,各參與方分別將其隱私數(shù)據(jù)以密文形式,通過隨機排序方式分布 在其對應的隨機數(shù)據(jù)中;然后,各參與方根據(jù)各自對應的隨機數(shù)據(jù)進行合作計算,分別獲得 處理數(shù)據(jù)中各個屬性的信息熵;
[0009] 步驟002.通過針對計算過程中計算結果采用加密傳輸?shù)姆绞?,各參與方根據(jù)處 理數(shù)據(jù)中各個屬性的信息熵進行合作計算,分別獲得處理數(shù)據(jù)中各個屬性的信息增益;
[0010] 步驟003.針對處理數(shù)據(jù)中各個屬性的信息增益進行比較,獲得最大信息增益所 對應的屬性,將該屬性作為最佳分裂屬性,以最佳分裂屬性為節(jié)點進行分裂;
[0011] 步驟004.判斷是否滿足終止分裂條件,是則結束,否則返回步驟001。
[0012] 作為本發(fā)明的一種優(yōu)選技術方案:所述步驟001之前,初始化,針對處理數(shù)據(jù)中 的屬性預設目標屬性,其余屬性為候選屬性,表示第i個參與方對應系統(tǒng)中所述處理數(shù) 據(jù)中第1個候選屬性中第&個類別的類別數(shù)據(jù),其中,iG{1,…,I},I為參與方的總數(shù), IG{1,…,L},L為處理數(shù)據(jù)中候選屬性的個數(shù),h為對應處理數(shù)據(jù)中第1個候選屬性中的 第^個類別,he{1,…,T1KT1為處理數(shù)據(jù)中第1個候選屬性對應的類別的總數(shù);并且, 若第i個參與方所對應的各個候選屬性當中不包括第1個候選屬性,則
[0013] 所述步驟001具體包括如下步驟:
[0014]步驟00101.第I個參與方P1隨機產(chǎn)生加解密密鑰(e,d),Pi保存解密密鑰d,并 將加密密鑰e分發(fā)給其他所有參與方;
[0015] 步驟00102.第I個參與方P1通過加密密鑰e,針對^進行加密獲得£?(4J,并將 發(fā)送給第1個參與方pi;
[0016]步驟00103?第1個參與方P1根據(jù)£>(為^,采用加密密鑰e,通過¥為;,卜針對 進行加密獲得并將發(fā)送給第2個參與方P2;
[0017] 步驟00104.第2個參與方P2按上述步驟同樣的方式,針對為〃,進行加密獲得 依次方式類推,依序針對所有參與方,直至第(1-1)個參與方P(w針對 啦,進7TT加S猶得為;…為;
[0018]步驟00105 ?第(I-I)個參與方P(I_u根據(jù) 為i)/i為n、…、為/2;…先-i)/r,為《;,分力U計算猶得e(&,),其中,0?表不參與方對 應處理數(shù)據(jù)第1個候選屬性中第^個類別的概率值,即針對Ie{1,…,L}和he以,… ,TJ,獲得參與方分別對應處理數(shù)據(jù)各個候選屬性中各個類別的概率值
[0019]步驟00106?第(I-I)個參與方P(I〇生成一組隨機數(shù)Ri,R2,…,RM,并且將 與e(R1),e(R2),…,e(Rm)隨機排序,將序列發(fā)送至第I個參與方P1;
[0020] 步驟00107.第I個參與方P1根據(jù)解密密鑰d,針對接收到的序列中 的各個元素進行解密,并保持序列中元素順序不變,針對各個元素進行處理獲得
【主權項】
1. 一種分類數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)隱私保護方法,其中,系統(tǒng)中處理數(shù)據(jù)的各個屬性 按分布式垂直劃分的方式分配給各個參與方,其特征在于,數(shù)據(jù)隱私保護方法包括如下步 驟: 步驟001.首先,各參與方分別將其隱私數(shù)據(jù)W密文形式,通過隨機排序方式分布在其 對應的隨機數(shù)據(jù)中;然后,各參與方根據(jù)各自對應的隨機數(shù)據(jù)進行合作計算,分別獲得處理 數(shù)據(jù)中各個屬性的信息賭; 步驟002.通過針對計算過程中計算結果采用加密傳輸?shù)姆绞?,各參與方根據(jù)處理數(shù) 據(jù)中各個屬性的信息賭進行合作計算,分別獲得處理數(shù)據(jù)中各個屬性的信息增益; 步驟003.針對處理數(shù)據(jù)中各個屬性的信息增益進行比較,獲得最大信息增益所對應 的屬性,將該屬性作為最佳分裂屬性,W最佳分裂屬性為節(jié)點進行分裂; 步驟004.判斷是否滿足終止分裂條件,是則結束,否則返回步驟001。
2. 根據(jù)權利要求1所述一種分類數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)隱私保護方法,其特征在于,所 述步驟001之前,初始化,針對處理數(shù)據(jù)中的屬性預設目標屬性,其余屬性為候選屬性,4/。 表示第i個參與方對應系統(tǒng)中所述處理數(shù)據(jù)中第1個候選屬性中第ti個類別的類別數(shù)據(jù), 其中,i G (1,…,I},I為參與方的總數(shù),1 G (1,…,L},L為處理數(shù)據(jù)中候選屬性的個數(shù), ti為對應處理數(shù)據(jù)中第1個候選屬性中的第11個類別,11G {1,…,T i},Ti為處理數(shù)據(jù)中第 1個候選屬性對應的類別的總數(shù);并且,若第i個參與方所對應的各個候選屬性當中不包括 第1個候選屬性