針對失配的先驗信息對抗推斷攻擊的隱私的制作方法
【專利說明】
[0001] 相關(guān)申請的交叉引用
[0002] 本申請請求于2013年2月8日,在美國專利和商標(biāo)局提交,并且被分配的序列號為 61 /762480的臨時申請的優(yōu)先權(quán)和從其獲得的所有利益。
技術(shù)領(lǐng)域
[0003] 本發(fā)明一般地設(shè)及用于保護(hù)隱私的方法和裝置,并且更特別地,設(shè)及根據(jù)在聯(lián)合 概率比較中使用的失配或不完整的先驗信息生成隱私保護(hù)映射機(jī)制的方法和裝置。
【背景技術(shù)】
[0004] 在大數(shù)據(jù)時代,用戶數(shù)據(jù)的收集和挖掘已經(jīng)成為大量的私有和公共機(jī)構(gòu)的快速成 長的慣常做法。例如,技術(shù)公司利用用戶數(shù)據(jù),W向他們的客戶提供個性化服務(wù),政府代理 依賴數(shù)據(jù)W解決各類挑戰(zhàn),例如,國家安全、國民健康狀況、預(yù)算和經(jīng)費(fèi)分配,或者醫(yī)療機(jī)構(gòu) 分析數(shù)據(jù)W發(fā)現(xiàn)疾病的起源和可能的治療方案。在一些情形下,收集、分析或與第=方共享 用戶數(shù)據(jù),在未經(jīng)用戶許可或覺察的情況下執(zhí)行。在另一些情形下,數(shù)據(jù)被用戶自愿向特定 分析方公布,W獲得服務(wù)作為回報,例如,產(chǎn)品評級被公布W獲得推薦。運(yùn)一服務(wù),或者用戶 從允許訪問該用戶的數(shù)據(jù)所獲得的其它利益,可W被稱為效用。在二者之一的情形下,當(dāng)一 些被收集的數(shù)據(jù)可能被用戶認(rèn)為是敏感的(例如,政治觀點(diǎn)、健康狀態(tài)、收入水平)時,或乍 看可能無害(例如產(chǎn)品評級),仍然導(dǎo)致對與其相關(guān)的更為敏感的數(shù)據(jù)的推斷時,隱私風(fēng)險 將會增加。后者的威脅設(shè)及推斷攻擊(inference attack),運(yùn)是一種通過利用隱私數(shù)據(jù)與 被公開公布數(shù)據(jù)的關(guān)系,對隱私數(shù)據(jù)進(jìn)行推斷的技術(shù)。
[0005] 在近些年中,在線隱私濫用的許多威脅已經(jīng)顯露,包括身份竊取、名譽(yù)損害、工作 丟失、歧視、騷擾、網(wǎng)絡(luò)恐嚇、追蹤甚至自殺。同時,對在線社會網(wǎng)絡(luò)(OSN)提供方的指控已經(jīng) 變成常見的設(shè)嫌非法數(shù)據(jù)收集、未經(jīng)用戶許可共享數(shù)據(jù)、未經(jīng)通知用戶改變隱私設(shè)置、誤導(dǎo) 用戶追蹤他們的瀏覽行為、不執(zhí)行用戶的刪除行為,W及未適當(dāng)?shù)赝ㄖ脩絷P(guān)于他們的數(shù) 據(jù)的用途和其他哪些人得W訪問運(yùn)些數(shù)據(jù)。OSN的賠償責(zé)任可能上升到幾千萬甚至幾億美 J L O
[0006] 互聯(lián)網(wǎng)中管理隱私的一個中屯、問題在于同時管理公開數(shù)據(jù)和隱私數(shù)據(jù)。許多用戶 愿意公布關(guān)于他們的一些數(shù)據(jù),比如他們的觀影史或者他們的性別;他們運(yùn)么做是因為運(yùn) 種數(shù)據(jù)允許有用的服務(wù),并且因為運(yùn)些屬性很少被認(rèn)為隱私。然而,用戶還有其他他們認(rèn)為 隱私的數(shù)據(jù),比如收入水平、政治立場、或醫(yī)療條件。在運(yùn)樣的工作中,我們關(guān)注用戶能夠公 布她的公開數(shù)據(jù),但是能夠阻止可W從公開信息得到她的隱私數(shù)據(jù)的推斷攻擊的方法。通 知用戶關(guān)于如何使她的公開數(shù)據(jù)失真(在公布它之前),W致推斷攻擊不能夠成功地得知她 的隱私數(shù)據(jù),運(yùn)一點(diǎn)將是受期望的。同時,該失真應(yīng)當(dāng)是有界的,W便于原來的服務(wù)(比如推 薦)能夠繼續(xù)有效。
[0007] 期望用戶獲得對公開公布的數(shù)據(jù)的分析的利益,比如電影喜好、或購物習(xí)慣。然 而,不期望第=方能夠分析運(yùn)一公開數(shù)據(jù)并推斷隱私數(shù)據(jù),比如政治立場或收入水平。期待 用戶或服務(wù)能夠公布一些公開信息W獲得利益,但是控制第=方推斷隱私信息的能力,運(yùn) 一點(diǎn)將是受期望的。運(yùn)一控制機(jī)制的困難方面在于,使用先驗記錄和隱私記錄(不容易被獲 取W進(jìn)行可靠比較)的聯(lián)合概率比較,隱私數(shù)據(jù)通常被推斷。隱私數(shù)據(jù)和公開數(shù)據(jù)的運(yùn)一限 定數(shù)目的樣本導(dǎo)致先驗信息失配的問題。因此,期望克服上面的難點(diǎn),并且向用戶提供對于 隱私數(shù)據(jù)安全的體驗。
【發(fā)明內(nèi)容】
[0008] 根據(jù)本發(fā)明的一方面,公開了一種裝置。根據(jù)示例性的實(shí)施例,用于處理用戶數(shù)據(jù) 的裝置包括:存儲器,用于存儲所述用戶數(shù)據(jù),其中所述用戶數(shù)據(jù)包括公開數(shù)據(jù);處理器,用 于將所述用戶數(shù)據(jù)與調(diào)查數(shù)據(jù)比較,用于響應(yīng)于所述比較,確定隱私數(shù)據(jù)的概率,并響應(yīng)于 所述概率的值超過預(yù)定闊值,用于改變所述公開數(shù)據(jù)W生成改變后的數(shù)據(jù);網(wǎng)絡(luò)接口,用于 傳送所述改變后數(shù)據(jù)。
[0009] 根據(jù)本發(fā)明的另一方面,公開了一種用于保護(hù)隱私數(shù)據(jù)的方法。根據(jù)示例性的實(shí) 施例,該方法包括W下步驟:獲取所述用戶數(shù)據(jù),其中所述用戶數(shù)據(jù)包括公開數(shù)據(jù);將所述 用戶數(shù)據(jù)與調(diào)查數(shù)據(jù)比較;響應(yīng)于所述比較確定隱私數(shù)據(jù)的概率;并響應(yīng)于所述概率的值 超過預(yù)定闊值,改變所述公開數(shù)據(jù)W生成改變后的數(shù)據(jù)。
[0010] 根據(jù)本發(fā)明的另一方面,公開了用于保護(hù)隱私數(shù)據(jù)的第二方法。根據(jù)示例性的實(shí) 施例,該方法包括W下步驟:收集與用戶相關(guān)的多個用戶公開數(shù)據(jù);將所述多個公開數(shù)據(jù)與 多個公開調(diào)查數(shù)據(jù)比較,其中所述公開調(diào)查數(shù)據(jù)與多個隱私調(diào)查數(shù)據(jù)相關(guān);響應(yīng)于所述比 較確定所述用戶隱私數(shù)據(jù)的概率,其中所述用戶隱私數(shù)據(jù)的概率準(zhǔn)確地超過闊值;并改變 所述多個用戶公開數(shù)據(jù)的至少一個W生成多個改變后的用戶公開數(shù)據(jù);將所述多個改變后 的用戶公開數(shù)據(jù)與所述多個公開調(diào)查數(shù)據(jù)比較;W及響應(yīng)于所述多個改變后的公開數(shù)據(jù)與 所述多個公開調(diào)查數(shù)據(jù)的所述比較,確定所述用戶隱私數(shù)據(jù)的所述概率,其中所述用戶隱 私數(shù)據(jù)的概率低于所述闊值。
【附圖說明】
[0011] 通過參考下面結(jié)合附圖對本發(fā)明的實(shí)施例的描述,本發(fā)明的上面提及的和其他特 征和優(yōu)勢,W及獲得運(yùn)些的方式,將變得更為明顯,且本發(fā)明將被更好地理解,其中:
[0012] 圖1為根據(jù)本原理的實(shí)施例,描述了用于保護(hù)隱私的示例性方法的流程圖。
[0013] 圖2為根據(jù)本原理的實(shí)施例,描述了當(dāng)隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布已知 時,用于保護(hù)隱私的示例性方法的流程圖。
[0014] 圖3為根據(jù)本原理的實(shí)施例,描述了當(dāng)隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布未知 且公開數(shù)據(jù)的邊緣概率測度也未知時,用于保護(hù)隱私的示例性方法的流程圖。
[0015] 圖4為根據(jù)本原理的實(shí)施例,描述了當(dāng)隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布未知 但公開數(shù)據(jù)的邊緣概率測度已知時,用于保護(hù)隱私的示例性方法的流程圖。
[0016] 圖5為根據(jù)本原理的實(shí)施例,描述了示例性的隱私代理的框圖。
[0017]圖6為根據(jù)本原理的實(shí)施例,描述了具有多個隱私代理的示例性系統(tǒng)的框圖。
[0018] 圖7為根據(jù)本原理的實(shí)施例,描述了用于保護(hù)隱私的示例性方法的流程圖。
[0019] 圖8為根據(jù)本原理的實(shí)施例,描述了用于保護(hù)隱私的第二示例性方法的流程圖。
[0020] 運(yùn)里提出的范例示出了本發(fā)明的優(yōu)選實(shí)施例,并且運(yùn)些范例不被解釋為W任何方 式限制本發(fā)明的范圍。
【具體實(shí)施方式】
[0021] 現(xiàn)在參考附圖,并且更特別地參考圖1,示出用于實(shí)現(xiàn)本發(fā)明的示例性方法100的 示圖。
[0022] 圖1示出了根據(jù)本原理,用于使將被公布的公開數(shù)據(jù)失真W保護(hù)隱私的示例性方 法100。方法100起始于105。在步驟110,例如,從不關(guān)屯、他們的公開數(shù)據(jù)或隱私數(shù)據(jù)的隱私 的那些用戶,基于被公布的數(shù)據(jù)收集統(tǒng)計信息。我們將運(yùn)些用戶表示為"公開用戶",并且將 希望使將被公布的公開數(shù)據(jù)失真的用戶表示為"隱私用戶"。
[0023] 統(tǒng)計信息可W通過網(wǎng)絡(luò)爬蟲、訪問不同的數(shù)據(jù)庫收集,或者可W被數(shù)據(jù)整合方提 供。哪些統(tǒng)計信息能夠被收集取決于公開用戶所公布的內(nèi)容。例如,如果公開用戶公布了隱 私數(shù)據(jù)和公開數(shù)據(jù),聯(lián)合分布Ps,x的估計能夠被獲取。在另一示例中,如果公開用戶僅公布 了公開數(shù)據(jù),邊緣概率測度Px(而非聯(lián)合分布Ps,X)的估計,能夠被獲取。在另一示例中,我們 可能僅能夠獲得公開數(shù)據(jù)的均值和方差。在最差的情形下,我們可能不能獲得關(guān)于公開數(shù) 據(jù)或隱私數(shù)據(jù)的任何信息。
[0024] 在步驟120,假定效用約束,該方法基于統(tǒng)計信息確定隱私保護(hù)映射。如之前討論 的,隱私保護(hù)映射機(jī)制的解決方法取決于可用的統(tǒng)計信息。
[0025] 在步驟130,在于步驟140向例如服務(wù)提供方或數(shù)據(jù)收集代理公布之前,根據(jù)被確 定的隱私保護(hù)映射,使當(dāng)前隱私用戶的公開數(shù)據(jù)失真。對隱私用戶,假定值X = X,根據(jù)分布 Pyix=X,值Y = y被采樣。運(yùn)一值y被公布,而非真實(shí)值X。注意到該隱私映射的使用W生成被公 布的y