本發(fā)明涉及信息安全,具體涉及基于本地化差分隱私的鍵值數(shù)據(jù)安全采集方法和系統(tǒng)。
背景技術(shù):
1、在大數(shù)據(jù)時(shí)代,服務(wù)提供商熱衷于收集和分析用戶數(shù)據(jù)以輔助決策或改進(jìn)服務(wù)。然而,數(shù)據(jù)采集操作伴隨著隱私風(fēng)險(xiǎn),這必然引發(fā)用戶對(duì)隱私泄露的擔(dān)憂。隨著數(shù)據(jù)采集安全需求的持續(xù)增長,差分隱私(differential?privacy,dp)已成為保護(hù)用戶隱私數(shù)據(jù)的關(guān)鍵技術(shù)。無論攻擊者具備何種先驗(yàn)知識(shí),差分隱私都能夠提供可證明的隱私保護(hù)。本地化差分隱私(local?differential?privacy,ldp)部署在數(shù)據(jù)收集階段,其隱私化處理過程從服務(wù)提供方轉(zhuǎn)移至用戶端,從而降低了不可信的數(shù)據(jù)收集者泄露用戶數(shù)據(jù)的風(fēng)險(xiǎn)。
2、鍵值數(shù)據(jù)是一種典型的非結(jié)構(gòu)化查詢語言(non?structured?query?language,non-sql)混合數(shù)據(jù)類型,在實(shí)踐中得到了廣泛應(yīng)用,實(shí)現(xiàn)鍵值數(shù)據(jù)的安全采集需要ldp的介入。目前,基于一元編碼和通用隨機(jī)響應(yīng)機(jī)制的ldp采集方案在鍵值數(shù)據(jù)采集中得到了應(yīng)用,其代表性的方案包括privkv(privacy?key-value),pckv(private?correlated?key-value)和mlpkv(multi-layer?private?key-value)。
3、然而,privkv方案由于采用了多次迭代的方法,計(jì)算復(fù)雜度較高,多輪迭代會(huì)分割隱私預(yù)算并擴(kuò)大方差。采用一元編碼實(shí)現(xiàn)鍵擾動(dòng)的pckv,在大型鍵域中會(huì)導(dǎo)致巨大的通信開銷。mlpkv方案存在由于填充長度過大而導(dǎo)致估計(jì)精度急劇下降的問題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中的上述問題,本發(fā)明提供了一種基于本地化差分隱私的鍵值數(shù)據(jù)安全采集方法和系統(tǒng)。具體包括:
2、第一方面,本發(fā)明提供了一種基于本地化差分隱私的鍵值數(shù)據(jù)安全采集方法,適用于鍵值數(shù)據(jù)安全采集系統(tǒng),系統(tǒng)包括通信連接的服務(wù)器和多個(gè)用戶端;
3、該方法包括:
4、服務(wù)器,向各用戶端下發(fā)預(yù)設(shè)的鍵值數(shù)據(jù)采集參數(shù),參數(shù)包括鍵域、值域、鍵擾動(dòng)隱私預(yù)算和值擾動(dòng)隱私預(yù)算;
5、各用戶端,根據(jù)接收到的鍵域,填充本地鍵值數(shù)據(jù)集,生成混淆后的鍵值數(shù)據(jù)集,并按照預(yù)設(shè)概率從混淆后的鍵值數(shù)據(jù)集中抽取一個(gè)鍵值數(shù)據(jù),基于預(yù)設(shè)的評(píng)分函數(shù),根據(jù)接收到的鍵域、鍵擾動(dòng)隱私預(yù)算和值擾動(dòng)隱私預(yù)算,對(duì)抽取的鍵值數(shù)據(jù)進(jìn)行擾動(dòng),得到擾動(dòng)結(jié)果,并將擾動(dòng)結(jié)果發(fā)送至服務(wù)器;
6、服務(wù)器,根據(jù)鍵域、鍵擾動(dòng)隱私預(yù)算、值擾動(dòng)隱私預(yù)算和接收到的擾動(dòng)結(jié)果,校準(zhǔn)得到所抽取的各鍵值數(shù)據(jù)的鍵的頻率估計(jì)和均值估計(jì)。
7、第二方面,本發(fā)明還提供了一種鍵值數(shù)據(jù)安全采集系統(tǒng),包括:通信連接的服務(wù)器和多個(gè)用戶端;
8、服務(wù)器,用于向各用戶端下發(fā)預(yù)設(shè)的鍵值數(shù)據(jù)采集參數(shù),參數(shù)包括鍵域、值域、鍵擾動(dòng)隱私預(yù)算和值擾動(dòng)隱私預(yù)算;
9、各用戶端,用于根據(jù)接收到的鍵域,填充本地鍵值數(shù)據(jù)集,生成混淆后的鍵值數(shù)據(jù)集,并按照預(yù)設(shè)概率從混淆后的鍵值數(shù)據(jù)集中抽取一個(gè)鍵值數(shù)據(jù)?;陬A(yù)設(shè)的評(píng)分函數(shù),根據(jù)接收到的鍵域、鍵擾動(dòng)隱私預(yù)算和值擾動(dòng)隱私預(yù)算,對(duì)抽取的鍵值數(shù)據(jù)進(jìn)行擾動(dòng),生成擾動(dòng)結(jié)果,并將擾動(dòng)結(jié)果發(fā)送至服務(wù)器;
10、服務(wù)器,用于根據(jù)鍵域、鍵擾動(dòng)隱私預(yù)算、值擾動(dòng)隱私預(yù)算和接收到的各擾動(dòng)結(jié)果,校準(zhǔn)得到所抽取的各鍵值數(shù)據(jù)的鍵的頻率估計(jì)和均值估計(jì)。
11、第三方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所提供的任一方法。
12、本發(fā)明的有益效果:
13、本發(fā)明提供的基于本地化差分隱私的鍵值數(shù)據(jù)安全采集方法和系統(tǒng),通過服務(wù)器向各用戶端下發(fā)預(yù)設(shè)的鍵值數(shù)據(jù)采集參數(shù);各用戶端根據(jù)接收到的鍵域,填充本地鍵值數(shù)據(jù)集,生成混淆后的鍵值數(shù)據(jù)集,并按照預(yù)設(shè)概率從混淆后的鍵值數(shù)據(jù)集中抽取一個(gè)鍵值數(shù)據(jù)?;陬A(yù)設(shè)的評(píng)分函數(shù),根據(jù)接收到的鍵域、鍵擾動(dòng)隱私預(yù)算和值擾動(dòng)隱私預(yù)算,對(duì)抽取的鍵值數(shù)據(jù)進(jìn)行擾動(dòng),得到擾動(dòng)結(jié)果,并將該擾動(dòng)結(jié)果發(fā)送至服務(wù)器;服務(wù)器根據(jù)鍵域、鍵擾動(dòng)隱私預(yù)算、值擾動(dòng)隱私預(yù)算和接收到的擾動(dòng)結(jié)果,校準(zhǔn)得到所抽取的各鍵值數(shù)據(jù)的鍵的頻率估計(jì)和均值估計(jì)。本發(fā)明能夠有效減少通信開銷,提升執(zhí)行速度和估計(jì)結(jié)果的準(zhǔn)確性,特別針對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)的數(shù)據(jù)安全采集問題,能夠有效地完成收集任務(wù),提升隱私保護(hù)的數(shù)據(jù)收集統(tǒng)計(jì)結(jié)果的精準(zhǔn)度。以下將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
1.一種基于本地化差分隱私的鍵值數(shù)據(jù)安全采集方法,其特征在于,應(yīng)用于鍵值數(shù)據(jù)采集系統(tǒng),所述系統(tǒng)包括通信連接的服務(wù)器和多個(gè)用戶端;
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,各所述用戶端根據(jù)接收到的所述鍵域,填充本地鍵值數(shù)據(jù)集,得到混淆后的鍵值數(shù)據(jù)集,包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,各所述用戶端按照預(yù)設(shè)概率從所述混淆后的鍵值數(shù)據(jù)集中抽取一個(gè)鍵值數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,各所述用戶端基于預(yù)設(shè)的評(píng)分函數(shù),根據(jù)接收到的所述鍵域、所述鍵擾動(dòng)隱私預(yù)算和所述值擾動(dòng)隱私預(yù)算,對(duì)抽取的鍵值數(shù)據(jù)進(jìn)行擾動(dòng),得到擾動(dòng)結(jié)果,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,擾動(dòng)為原始鍵的鍵擾動(dòng)概率表示為:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,
7.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所抽取的鍵值數(shù)據(jù)的鍵的頻率估計(jì)表示為:
8.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所抽取的鍵值數(shù)據(jù)的鍵的均值估計(jì)表示為:
9.一種鍵值數(shù)據(jù)安全采集系統(tǒng),其特征在于,包括通信連接的服務(wù)器和多個(gè)用戶端;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-8中任一所述的方法。