專利名稱:一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)隱私與模式信息提取技術(shù),特別是涉及一種模式信 息損失最小化的序列類數(shù)據(jù)隱私保護方法。
背景技術(shù):
時間序列數(shù)據(jù)被公認為是自然界和人類社會中一類非常重要的數(shù)據(jù),其應(yīng)用范圍 包括金融分析和社交行為追蹤等重要領(lǐng)域。近幾年來,傳感器網(wǎng)絡(luò),RFID和無線定位設(shè)備 的快速發(fā)展,更加凸顯了時間序列數(shù)據(jù)的重要性。但是,值得注意的是,時間序列數(shù)據(jù)中也 包含著大量的隱私信息,如果不加以適當?shù)谋Wo,數(shù)據(jù)擁有者對數(shù)據(jù)隱私的擔(dān)憂將極大的 桎梏相關(guān)應(yīng)用的發(fā)展。目前,時間序列數(shù)據(jù)的隱私保護問題還沒有得到很好的解決。主要原因是時間序 列數(shù)據(jù)與傳統(tǒng)表數(shù)據(jù)相比,其數(shù)據(jù)特征相對復(fù)雜。時間序列數(shù)據(jù)的各個屬性在時間上存在 一種前后依賴的關(guān)系,整體表現(xiàn)為一種模式信息。模式匹配是時間序列數(shù)據(jù)的一類重要查 詢。k匿名是傳統(tǒng)表數(shù)據(jù)領(lǐng)域的一類重要的隱私保護技術(shù)。但是,如果將這種方法直接 應(yīng)用于時間序列數(shù)據(jù),其缺陷十分明顯。因為k匿名所要求的屬性值泛化會使時間序列的 模式信息遭到嚴重破壞,從而使得數(shù)據(jù)可用性大大降低。目前,一些與時間序列相關(guān)的隱私 保護技術(shù)也各自存在缺陷。TGA是一種基于干擾的匿名技術(shù),首先將時間序列進行分組,然 后在組內(nèi)隨機重建時間序列,這種方法導(dǎo)致的模式信息損失也非常之大。BFP2KA是一種基 于字符串的隱私保護技術(shù),通過構(gòu)建前綴樹并對其進行剪枝來實現(xiàn)k匿名。雖然BFP2KA號 稱能夠保留模式,但其所謂的模式僅限于字符串的精確匹配,通用性受到很大的限制。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,基 于k匿名技術(shù),構(gòu)建出一個新的匿名模型,S卩(k,P)匿名模型,在有效保護隱私的同時達到 模式信息損失最小化的效果,有效的解決了時間序列的隱私保護問題。本發(fā)明采用的技術(shù)方案的步驟如下1)建立一個廣義的時間序列模式定義模型,根據(jù)這個模型以及實際應(yīng)用的模式挖 掘任務(wù)需求,選擇符合實際應(yīng)用需求的模式定義函數(shù)集;2)根據(jù)步驟1)中提出的模式定義函數(shù)集,確定模式映射函數(shù),時間序列的屬性分 為標識屬性,QI屬性和敏感屬性三種,時間序列的模式特征由模式映射函數(shù)基于QI屬性來 進行提?。?)根據(jù)時間序列的屬性值以及時間序列的模式特征,定義隱私攻擊類型,構(gòu)建 (k,P)匿名模型以保護時間序列數(shù)據(jù)隱私;4)根據(jù)上述步驟2)中所述的時間序列的模式特征,衡量整個原始數(shù)據(jù)集中任意 兩條時間序列之間的模式相似性,構(gòu)建P子組,以達到模式信息損失最小化的效果;
5)基于步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性, 以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數(shù)據(jù)集最終滿足(k,P) 匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,并分析其隱私泄露概率,完成對(k, P)匿名模型的可用性評估,同時根據(jù)分組結(jié)果,對時間序列數(shù)據(jù)進行屬性值的泛化,完成數(shù) 據(jù)發(fā)布。步驟1)中選用的模式定義模型,兼容已有文獻中所有的模式定義方式,對于一條 具體的時間序列r,其模式定義函數(shù)集形式化為ρ (r) =<fi;f2, fm>,m為系統(tǒng)變量,其 中,fi(l彡i彡m)為任意兩個或兩個以上屬性的相關(guān)性函數(shù)。步驟2)中的模式特征應(yīng)滿足以下兩個條件a)由原始時間序列經(jīng)過特定的模式 映射函數(shù)得出;b)可根據(jù)該模式特征對原始時間序列的模式進行重建。模式特征從QI屬 性中提取,并作為一種獨立的形式發(fā)布。要求模式映射函數(shù)能夠使得重建后的模式與原始 時間序列模式的差異最小。步驟3)中構(gòu)建的(k,P)匿名模型是一個雙層隱私保護模型,其具體含義如下a)在第一層約束中,整個原始數(shù)據(jù)集被要求在QI屬性上滿足k匿名的條件;b)在第二層約束中,在每一個k匿名組內(nèi),要求每一條時間序列的模式特征都至 少與其他P-I條時間序列相同。步驟4)中提到的模式特征的相似性衡量方式嚴重依賴于模式映射函數(shù)以及攻擊 者的背景知識。步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分,屬性 值信息損失由于屬性值泛化而產(chǎn)生,模式信息損失是指原始時間序列的模式與根據(jù)模式特 征重建的模式之間的差異,在(k,P)匿名模型約束下,證明在最壞情況下的隱私泄露概率 為 1/P。本發(fā)明具有的有益效果是本發(fā)明充分利用了傳統(tǒng)表數(shù)據(jù)領(lǐng)域的隱私保護模型以及現(xiàn)有的時間序列模式特 征提取技術(shù),將兩者進行融合,為時間序列構(gòu)建出一個新的隱私保護模型,(k,p)匿名模型。 該模型將時間序列的各個屬性區(qū)間以及整條序列的模式特征分別作為獨立的形式發(fā)布,能 夠在充分保證數(shù)據(jù)隱私的基礎(chǔ)上,將時間序列的模式信息最小化,充分保證了數(shù)據(jù)的可用 性。
圖1是本發(fā)明實施步驟流程圖。圖2是(k,P)匿名模型構(gòu)造示意圖。
具體實施例方式下面結(jié)合附圖和具體實施對本發(fā)明的技術(shù)方案作進一步說明。1、如圖1與圖2所示,本發(fā)明具體實施過程和工作原理如下1)建立一個廣義的時間序列模式定義模型,根據(jù)這個模型以及實際應(yīng)用的模式挖 掘任務(wù)需求,選擇合適的模式定義函數(shù)集(即符合實際應(yīng)用需求的模式定義函數(shù)集);
2)根據(jù)步驟1)中提出的模式定義函數(shù)集,確定模式映射函數(shù)。時間序列的屬性分 為標識屬性,QI屬性(即聯(lián)合標識屬性)和敏感屬性三種。原始時間序列的模式特征由模 式映射函數(shù)基于QI屬性來進行提??;3)根據(jù)時間序列的屬性值以及模式特征,定義隱私攻擊類型,構(gòu)建(k,P)匿名模 型以保護時間序列數(shù)據(jù)隱私;4)根據(jù)上述步驟2)中所述的模式特征,衡量時間序列兩兩之間(即原始數(shù)據(jù)集中 任意兩條時間序列之間)的模式相似性,構(gòu)建P子組(P子組的大小由參數(shù)P確定,在同一 個P子組中的時間序列都具有相同的模式特征),以達到模式信息損失最小化的效果;5)基于步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性, 以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數(shù)據(jù)集最終滿足(k,P) 匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,并分析其隱私泄露概率,完成對(k, P)匿名模型的可用性評估。同時根據(jù)分組結(jié)果,對時間序列數(shù)據(jù)進行屬性值的泛化,完成數(shù) 據(jù)發(fā)布。步驟1)中選用的模式定義模型,可以兼容已有文獻中所有的模式定義方式。對于 一條具體的時間序列r,其模式定義函數(shù)集可形式化為ρ (r) = <f1;f2,...,fm>,m為系統(tǒng)變 量。其中,^(1 ^m)為任意兩個或兩個以上屬性的相關(guān)性函數(shù)。步驟2)中的模式特征應(yīng)滿足以下兩個條件a)由原始時間序列經(jīng)過特定的模式 映射函數(shù)得出;b)可根據(jù)該模式特征對原始時間序列的模式進行重建。模式特征從QI屬 性中提取,并作為一種獨立的形式發(fā)布。要求模式映射函數(shù)能夠使得重建后的模式與原始 時間序列模式的差異最小。鑒于模式信息的重要性,現(xiàn)有文獻中有大量廣為人知的模式特 征提取技術(shù),包括SAX,PAA,PLA和APCA等。步驟1)中定義的模式定義模型可以完全兼容 這些模式特征提取技術(shù)。由于SAX的直觀性和易操作性,以下幾個步驟的具體實施方式
將 在SAX的基礎(chǔ)上進行闡述。SAX技術(shù)將時間序列的屬性值進行離散化,最終將其模式特征表 示為一條字符串,其參數(shù)level用于控制模式特征的精確程度,即與原始時間序列模式的 匹配程度。level值越大,模式信息損失越小。步驟3)中,根據(jù)時間序列的屬性值以及模式特征,分析攻擊者的背景知識,定義 隱私攻擊類型。由于最終發(fā)布的數(shù)據(jù)中包含最大化保留的模式信息,所以攻擊者的背景知 識可以分為兩大類,一類是關(guān)于時間序列屬性值的背景知識,定義為Kv,另一類是關(guān)于模式 信息的背景知識,定義為κρ。相應(yīng)的,攻擊者的隱私攻擊類型可以劃分為三大類a)基于Kv 的隱私攻擊;b)基于Kp的隱私攻擊;c)基于Kv U Kp的隱私攻擊。(k,P)匿名模型基于上 述定義的三種隱私攻擊類型進行構(gòu)建,能夠有效的抵御隱私攻擊,從而保證用戶隱私。(k,P)匿名模型將時間序列的各個屬性區(qū)間,以及整條序列的模式特征分別作為 獨立的形式發(fā)布,力求達到模式信息損失最小化的效果。(k,P)匿名模型是一個雙層隱私 保護模型,其具體含義如下a)在第一層約束中,整個時間序列原始數(shù)據(jù)集被要求在QI屬性上滿足k匿名的條 件,在數(shù)據(jù)發(fā)布時發(fā)布每個k匿名組各個屬性的泛化區(qū)間;b)在第二層約束中,在每一個k匿名組內(nèi),要求每一條時間序列的模式特征都至 少與其他P-I條時間序列相同,在數(shù)據(jù)發(fā)布時發(fā)布每條時間序列的模式特征。(k,P)匿名模型的構(gòu)造示例如圖2所示,在圖2中,我們根據(jù)一個包含8條時間序列的原始數(shù)據(jù)集來構(gòu) 建(k,P)匿名模型,首先可將其分為2個k匿名組(k匿名組1和k匿名組2),每個k匿名 組中包含四條時間序列,發(fā)布每個k匿名組的各個屬性的泛化區(qū)間,然后,將每個k匿名組 各進一步劃分為兩個P子組,發(fā)布各個P子組的模式特征。步驟4)中提到的模式特征的相似性衡量方式嚴重依賴于模式映射函數(shù)以及攻擊 者的背景知識,需具體問題具體分析,不可一概而論。對于SAX而言,我們將模式特征的相 似性定義為兩條模式特征字符串之間的歐式距離。在進行分組以滿足(k,P)匿名模型約束 時,首先根據(jù)模式特征的相似性,在整個原始數(shù)據(jù)集中以一種自頂向下的方式來構(gòu)造P子 組,進一步保證模式信息損失最小化的需求。步驟5)中,基于步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值 的相似性,以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數(shù)據(jù)集最終 滿足(k,p)匿名模型的要求。步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分。屬性 值信息損失由于屬性值泛化而產(chǎn)生。對于一條有η個屬性的時間序列r而言,其屬性區(qū)間 上限可表示為<,<,...,<,屬性區(qū)間下限表示為〈,『2_,...,(?;谏鲜龆x,r的屬性值信息 損失可形式化為 模式信息損失是指原始時間序列的模式與根據(jù)模式特征重建的模式之間的差異。 在(k,p)匿名模型約束下,能夠證明在最壞情況下的隱私泄露概率為1/P。
權(quán)利要求
一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特征在于該方法的步驟如下1)建立一個廣義的時間序列模式定義模型,根據(jù)這個模型以及實際應(yīng)用的模式挖掘任務(wù)需求,選擇符合實際應(yīng)用需求的模式定義函數(shù)集;2)根據(jù)步驟1)中提出的模式定義函數(shù)集,確定模式映射函數(shù),時間序列的屬性分為標識屬性,QI屬性和敏感屬性三種,時間序列的模式特征由模式映射函數(shù)基于QI屬性來進行提?。?)根據(jù)時間序列的屬性值以及時間序列的模式特征,定義隱私攻擊類型,構(gòu)建(k,P)匿名模型以保護時間序列數(shù)據(jù)隱私;4)根據(jù)上述步驟2)中所述的時間序列的模式特征,衡量整個原始數(shù)據(jù)集中任意兩條時間序列之間的模式相似性,構(gòu)建P子組,以達到模式信息損失最小化的效果;5)基于步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性,以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數(shù)據(jù)集最終滿足(k,P)匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,并分析其隱私泄露概率,完成對(k,P)匿名模型的可用性評估,同時根據(jù)分組結(jié)果,對時間序列數(shù)據(jù)進行屬性值的泛化,完成數(shù)據(jù)發(fā)布。
2.根據(jù)權(quán)利要求1所述的一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特 征在于步驟1)中選用的模式定義模型,兼容已有文獻中所有的模式定義方式,對于一條 具體的時間序列r,其模式定義函數(shù)集形式化為ρ (r) = <fi; f2,. . .,fm>,m為系統(tǒng)變量,其 中,fi(l彡i彡m)為任意兩個或兩個以上屬性的相關(guān)性函數(shù)。
3.根據(jù)權(quán)利要求1所述的一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特 征在于步驟2)中的模式特征應(yīng)滿足以下兩個條件a)由原始時間序列經(jīng)過特定的模式映 射函數(shù)得出;b)可根據(jù)該模式特征對原始時間序列的模式進行重建。模式特征從QI屬性 中提取,并作為一種獨立的形式發(fā)布。要求模式映射函數(shù)能夠使得重建后的模式與原始時 間序列模式的差異最小。
4.根據(jù)權(quán)利要求1所述的一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特 征在于步驟3)中構(gòu)建的(k,P)匿名模型是一個雙層隱私保護模型,其具體含義如下a)在第一層約束中,整個原始數(shù)據(jù)集被要求在QI屬性上滿足k匿名的條件;b)在第二層約束中,在每一個k匿名組內(nèi),要求每一條時間序列的模式特征都至少與 其他P-I條時間序列相同。
5.根據(jù)權(quán)利要求1所述的一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特 征在于步驟4)中提到的模式特征的相似性衡量方式嚴重依賴于模式映射函數(shù)以及攻擊 者的背景知識。
6.根據(jù)權(quán)利要求1所述的一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法,其特 征在于步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分,屬性 值信息損失由于屬性值泛化而產(chǎn)生,模式信息損失是指原始時間序列的模式與根據(jù)模式特 征重建的模式之間的差異,在(k,P)匿名模型約束下,證明在最壞情況下的隱私泄露概率 為 1/P。
全文摘要
本發(fā)明公開了一種模式信息損失最小化的序列類數(shù)據(jù)隱私保護方法?;谝粋€廣義的模式定義模型以及實際應(yīng)用需求來確定模式定義函數(shù)集,在此基礎(chǔ)上選擇能夠?qū)崿F(xiàn)模式信息損失最小化的模式映射函數(shù)以提取模式特征。同時基于攻擊者的背景知識來確定隱私攻擊類型,基于k匿名技術(shù),對時間序列的QI屬性值和模式特征施加(k,P)匿名模型,該模型將時間序列的屬性泛化區(qū)間以及模式特征分別作為獨立的形式發(fā)布,在保證數(shù)據(jù)隱私的基礎(chǔ)上,將時間序列的模式信息最小化,保證數(shù)據(jù)的可用性。(k,P)匿名模型能夠兼容各種模式定義方式并擁有一套完整的可用性評估機制,其完善性和有效性使得(k,P)匿名模型能夠在最大程度上博得信賴,獲得廣泛應(yīng)用。
文檔編號G06F17/30GK101964034SQ201010298698
公開日2011年2月2日 申請日期2010年9月30日 優(yōu)先權(quán)日2010年9月30日
發(fā)明者壽黎但, 尚璇, 胡天磊, 陳剛, 陳珂 申請人:浙江大學(xué)