欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多元數(shù)據(jù)微融合的方法與流程

文檔序號:12272099閱讀:784來源:國知局
一種多元數(shù)據(jù)微融合的方法與流程

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體地,涉及一種數(shù)據(jù)匿名保護的方法。



背景技術(shù):

現(xiàn)實生活中,有很多數(shù)據(jù)需要公開作為人們的參考,常見的有醫(yī)療數(shù)據(jù),人們的部分日常健康數(shù)據(jù),地理位置數(shù)據(jù)等等,而這些數(shù)據(jù)本身可能與用戶的信息相關(guān),比如有研究表明人們?nèi)粘;顒拥牡乩硇畔⒅苯优c其身份相關(guān)。不加保護的直接公布用戶的信息會導致嚴重的隱私泄露,危害用戶的隱私安全。

基于用戶隱私的考慮,Latanya Sweeney在2002年International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems上發(fā)表了k-ANONYMITY:A MODEL FOR PROTECTING PRIVACY(k匿名:保護數(shù)據(jù)隱私的一個模型)提出了k匿名的概念。k匿名要求將用戶的某種數(shù)據(jù)與其他至少k-1個人的數(shù)據(jù)組合在一起發(fā)表,這樣惡意用戶就不能分別其中一個數(shù)據(jù)和剩余的k-1個數(shù)據(jù)的區(qū)別,實現(xiàn)了用戶隱私數(shù)據(jù)的保護。然而,在隱私保護的同時,會帶來數(shù)據(jù)信息損失,以地理位置的隱私保護來說,關(guān)于地理位置的k匿名保護包含位置隱藏,提交噪聲,信息存儲等等,這些在LBS系統(tǒng)中和群智系統(tǒng)中都有研究。為了保護用戶的地理位置隱私,地理位置常常會被過度處理,使得處理后的位置與原本的位置相差很大,處理后的位置保護的隱私但是不能傳遞該有的信息。因此,在保護數(shù)據(jù)k匿名隱私的同時減少處理帶來的信息損失是非常必要的。

對現(xiàn)有技術(shù)進行檢索發(fā)現(xiàn),Josep Domingo-Ferrer等在2002年IEEE Transactions on Knowledge and Data Engineering上發(fā)表的Practical data-oriented microaggregation for statistical disclosure control(實際數(shù)據(jù)導向的微融合以控制統(tǒng)計泄露)中提出了一種保護k匿名的微融合技術(shù),并表明多元數(shù)據(jù)的微融合是NP-hard,最優(yōu)的結(jié)果中每個分組的大小在k與2k-1之間,基于該文的結(jié)果,文章作者在后續(xù)的研究中提出了MDAV方法微融合多元數(shù)據(jù),該方法因為固定的分組大小和簡單的分組機制,使得分組帶來的信息損失仍然較大。Agusti Solanas等在2006年COMPSTAT Symposium of the IASC上發(fā)表的V-MDAV:a multivariate microaggregation with variable group size(V-MDAV:一種多元變量的微融合并允許可變組大小)中基于MDAV提出了可變分組的思想,但是該分組方式較為簡單只能一定程度上減少信息損失。George Kokolakis等在2009年在Computational Statistics Data Analysis中發(fā)表的Importance partitioning in microaggregation中提出了IP方法以分組中心決定加入的下一個數(shù)據(jù),但是仍然是固定的分組大小,只能在一定程度上降低信息損失。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提出一種多元數(shù)據(jù)微融合方法,通過可變分組大小與比較數(shù)據(jù)與分組中心距離,實現(xiàn)信息損失的降低。

為達到上述目的,本發(fā)明所采用的技術(shù)方案如下:

一種多元數(shù)據(jù)微融合的方法,多元數(shù)據(jù)X={x1,x2,...,xN},每一個數(shù)據(jù)元素可以表示為xi={yi1,yi2,...,yin}:包括如下步驟:

步驟一,為了匿名保護,需要將數(shù)據(jù)集X分組,每一組的數(shù)據(jù)數(shù)量不小于k,在完成分組的同時需要盡量減少因為分組帶來的信息損失:

步驟二,計算數(shù)據(jù)集的全局中心以及各個數(shù)據(jù)之間的歐式距離;

步驟三,判斷數(shù)據(jù)集中剩余數(shù)據(jù)的數(shù)量,如果小于k,轉(zhuǎn)到步驟六,否則計算距離全局中心最遠的數(shù)據(jù),并生成一個新的分組;

步驟四,依次選擇距離分組數(shù)據(jù)中心最近的數(shù)據(jù)加入到分組,新的數(shù)據(jù)加入后重新計算分組中心,直至分組數(shù)據(jù)數(shù)量為k;

第五步,對分組進行擴展,使用分組的中心判斷新的數(shù)據(jù)是否加入,并保證每每一個分組的數(shù)量不超過2k-1,轉(zhuǎn)至步驟二;

步驟六,將剩余的數(shù)據(jù)分別添加到信息損失增加最小的分組,并輸出分組結(jié)果。

步驟一包括:

步驟1.1,數(shù)據(jù)集大小N遠大于k,分組的目的為了保護匿名隱私,信息損失衡量分組帶來的數(shù)據(jù)信息丟失程度,信息損失越小數(shù)據(jù)的保真度越高;

步驟1.2,假設(shè)得到Nk個分組對于分組gi,其組內(nèi)平方和為:

其中ni為數(shù)據(jù)數(shù)量,T是轉(zhuǎn)置,xij與分別為gi中第j個元素和中心。所有的組內(nèi)平方和為:

SSE描述了數(shù)據(jù)分組后的一致性。

步驟1.3,數(shù)據(jù)集X的所有平方和為:

其中為數(shù)據(jù)集的全局中心,可以知道SST與數(shù)據(jù)的分組無關(guān),當數(shù)據(jù)集給定后SST也就確定了;

步驟1.4,分組的信息損失定義為SSE與SST的比值:

可以知道IL僅與SSE相關(guān),最小化IL只需要最小SSE。

步驟二包括:

步驟2.1,對于數(shù)據(jù)集X,其全局中心為:

即:

步驟2.2,對于數(shù)據(jù)集X中的任意兩個元素xi,xj其歐式距離定義為:

步驟三,計算數(shù)據(jù)集中剩余的數(shù)據(jù)數(shù)量,如果數(shù)量小于k則轉(zhuǎn)到步驟六,否則選取距離最遠的數(shù)據(jù)xi,并生成新的分組。

步驟四包括:

步驟4.1,對于分組gi,假設(shè)已經(jīng)有ni個數(shù)據(jù),則該分組的中心為:

選擇選擇距離最近的數(shù)據(jù)加入到分組gi中,并跟新直至gi的數(shù)據(jù)數(shù)量為k;

步驟4.2,對于分組gi,其中心的更新按照如下方式:

其中x′是新加入的數(shù)據(jù);

步驟4.3,選擇距離分組中心最近的數(shù)據(jù)元素加入是為了減少信息損失的增加量,假設(shè)x′需要加入到分組gi中,原組內(nèi)平方和ssei為:

當x′加入時,組內(nèi)平方和變?yōu)椋?/p>

這里將x′看做是第(ni+1)個元素,那么組內(nèi)平方和的增加為:

這就是說選擇距離分組中心最近的數(shù)據(jù)加入可以減少組內(nèi)平方和的增加,也就是減少信息損失的增加。

步驟五包括:

步驟5.1,在每個分組數(shù)據(jù)數(shù)量不小k時,最優(yōu)分組大小應(yīng)該在k與2k-1之間,因此在擴展分組的大小不能超過2k-1;

步驟5.2,假設(shè)距離gi中心最近的數(shù)據(jù)為xout,其距離為在沒有被加入分組的數(shù)據(jù)集中,距離xout最近距離為dout,如果滿足:

則將xout加入到gi;

步驟5.3,當上式不滿足或者分組大小到達2k-1則終止。

步驟六包括:

步驟6.1,對于剩余的數(shù)據(jù),比較其距離已有的分組的中心,選擇最小的分組加入;

步驟6.2,其中是數(shù)據(jù)加入分組時組內(nèi)平方和增加的系數(shù),加入后更新該分組的中心。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:

第一,每一個分組的數(shù)據(jù)數(shù)量不小于k保證了數(shù)據(jù)匿名的需求,同時可以在多項式時間內(nèi)得到結(jié)果;

第二,相比較已有方法,本發(fā)明可以進一步減少因數(shù)據(jù)保護帶來的信息損失。

附圖說明

通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:

圖1為本發(fā)明的工作流程圖;

圖2為本發(fā)明的微融合地理位置的實例;

圖3是本發(fā)明的偽碼;

圖4是本發(fā)明的部分結(jié)果演示。

具體實施方式

下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領(lǐng)域的技術(shù)人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進。這些都屬于本發(fā)明的保護范圍。

本發(fā)明利用可變分組大小和以分組中心為參考點選擇新的加入數(shù)據(jù)實現(xiàn)了數(shù)據(jù)匿名保護的同時盡量降低信息損失租車的智能調(diào)度。

參見圖1,圖2,和圖3,下面更詳細地將本發(fā)明的實施過程進行闡述。

第一步,為了匿名保護,需要將數(shù)據(jù)集X分組,每一組的數(shù)據(jù)數(shù)量不小于k,在完成分組的同時需要盡量減少因為分組帶來的信息損失,對于分組gi,其組內(nèi)平方和為:

其中ni為數(shù)據(jù)數(shù)量,T是轉(zhuǎn)置,xij與分別為gi中第j個元素和中心。所有的組內(nèi)平方和為:

第二步,計算數(shù)據(jù)集的全局中心與以及任意兩個元素xi,xj其歐式距離

第三步,判斷數(shù)據(jù)集中剩余數(shù)據(jù)的數(shù)量,如果小于k,轉(zhuǎn)到第六步,否則計算距離全局中心最遠的數(shù)據(jù),并生成一個新的分組;計算數(shù)據(jù)集中剩余的數(shù)據(jù)數(shù)量,如果數(shù)量小于k則轉(zhuǎn)到步驟六,否則選取距離最遠的數(shù)據(jù)xi,并生成新的分組。

第四步,依次選擇距離分組數(shù)據(jù)中心最近的數(shù)據(jù)加入到分組,新的數(shù)據(jù)加入后重新計算分組中心,直至分組數(shù)據(jù)數(shù)量為k;對于分組gi,假設(shè)已經(jīng)有ni個數(shù)據(jù),則該分組的中心為假設(shè)x′需要加入到分組gi中,原組內(nèi)平方和ssei為:

當x′加入時,組內(nèi)平方和變?yōu)椋?/p>

這里將x′看做是第(ni+1)個元素,那么組內(nèi)平方和的增加為:

這就是說選擇距離分組中心最近的數(shù)據(jù)加入可以減少組內(nèi)平方和的增加,也就是減少信息損失的增加。

第五步,對分組進行擴展,使用分組的中心判斷新的數(shù)據(jù)是否加入,并保證每每一個分組的數(shù)量不超過2k-1,轉(zhuǎn)至第二步;假設(shè)距離gi中心最近的數(shù)據(jù)為xout,其距離為在沒有被加入分組的數(shù)據(jù)集中,距離xout最近距離為dout,如果滿足:

則將xout加入到gi;當上式不滿足或者分組大小到達2k-1則終止。

步驟六,將剩余的數(shù)據(jù)分別添加到信息損失增加最小的分組,并輸出分組結(jié)果,選擇最小的分組加入。

圖4所示,本發(fā)明一個實施例具體地展示系統(tǒng)的工作流程和實際效果。本實施例采用http://crawdad.org/cmu/supermarket/20140527中的數(shù)據(jù)集,該數(shù)據(jù)集包含有室內(nèi)定位的兩個坐標,為了保留大量重復的數(shù)據(jù),對原有數(shù)據(jù)添加小的噪聲。此外合成一個在50*50范圍內(nèi)的地理位置數(shù)據(jù)集,并對數(shù)據(jù)實現(xiàn)k=3,4,5的匿名保護,計算匿名保護后的組內(nèi)平方和,并與MDAV,V-MMAD以及IP做對比。該數(shù)據(jù)的結(jié)果是在一天配置32G內(nèi)存i7處理器的Windows電腦上得到的。

以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。在不沖突的情況下,本申請的實施例和實施例中的特征可以任意相互組合。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乌鲁木齐县| 大丰市| 金山区| 清河县| 新兴县| 浦江县| 平定县| 东乌珠穆沁旗| 新兴县| 四川省| 大厂| 环江| 晋宁县| 双流县| 南华县| 重庆市| 潜江市| 建湖县| 奉节县| 稷山县| 安化县| 新源县| 和龙市| 巴彦淖尔市| 芮城县| 惠安县| 阿克陶县| 鹤山市| 来宾市| 共和县| 信阳市| 昌乐县| 四平市| 宝山区| 保德县| 泰和县| 汽车| 广灵县| 三都| 大安市| 兴仁县|