本發(fā)明屬于隱私保護(hù)技術(shù)領(lǐng)域,涉及一種負(fù)調(diào)查重建正調(diào)查數(shù)據(jù)的方法,具體涉及一種傳統(tǒng)的重建算法出現(xiàn)不合理數(shù)據(jù)時(shí)的處理方法。
背景技術(shù):
信息大爆炸的時(shí)代,人們逐漸意識(shí)到個(gè)人隱私安全的重要性。為了滿足人們?nèi)找嬖鲩L的隱私保護(hù)的需求,越來越多的隱私保護(hù)的方法被提出,負(fù)調(diào)查就是其中的一種。負(fù)調(diào)查是信息負(fù)表示的一種應(yīng)用,與傳統(tǒng)調(diào)查相比,它可以有效的保護(hù)參與者的隱私,特別適用于敏感數(shù)據(jù)的收集。在傳統(tǒng)的正調(diào)查中,不論是否涉及到敏感數(shù)據(jù),參與者都需要選出符合自己實(shí)際情況的那個(gè)選項(xiàng),而負(fù)調(diào)查與傳統(tǒng)的正調(diào)查相反,參與者被要求在不符合自己實(shí)際情況的選項(xiàng)中選擇一項(xiàng)。
負(fù)調(diào)查收集到的數(shù)據(jù),并不是我們所需要的數(shù)據(jù),我們需要的是從負(fù)調(diào)查重建出來的正調(diào)查的數(shù)據(jù)。目前大多的重建算法都是針對(duì)均勻負(fù)調(diào)查提出的,均勻負(fù)調(diào)查是指算法假設(shè)參與者是以等概率的可能性選擇負(fù)選項(xiàng)。nstops重建算法是均勻負(fù)調(diào)查最基本的重建算法,但是nstops算法在重建的結(jié)果中可能出現(xiàn)負(fù)值,負(fù)值是不符合實(shí)際情況的,所以屬于是不合理的數(shù)據(jù)。隨后,針對(duì)負(fù)值問題,在nstops基礎(chǔ)上提出了兩種改進(jìn)算法,稱為nstops-i、nstops-ii。雖然這兩種算法可以很好的處理負(fù)值問題,但是nstops-i迭代速度慢,效率低,nstops-ii不適用于選擇概率為任意分布的負(fù)調(diào)查。
現(xiàn)實(shí)中的調(diào)查問卷往往是存在一些背景知識(shí)的,比如對(duì)于某些疾病的調(diào)查,醫(yī)院往往知道該疾病的發(fā)病概率等。若將背景知識(shí)引入到負(fù)調(diào)查中,采用傳統(tǒng)的重建算法,會(huì)出現(xiàn)與背景知識(shí)相違背的不合理數(shù)據(jù)。針對(duì)這類不合理數(shù)據(jù),nstops-bk算法被提出,該算法證明了合理的利用背景知識(shí)可以有效的提高數(shù)據(jù)重建的精度。
負(fù)調(diào)查要求隨機(jī)選擇一個(gè)不符合自己情況的選項(xiàng),調(diào)查過程中也可能存在人為偏好,這些都有可能造成負(fù)調(diào)查重建正調(diào)查數(shù)據(jù)時(shí)出現(xiàn)不合理的數(shù)據(jù)。顯然,這些不合理的數(shù)據(jù)會(huì)影響重建正調(diào)查數(shù)據(jù)的精度,所以,合理的處理重建算法中的不合理數(shù)據(jù)對(duì)于提高數(shù)據(jù)重建精度非常重要。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供了一種處理負(fù)調(diào)查中不合理數(shù)據(jù)的方法。
本發(fā)明所采用的技術(shù)方案是:一種處理負(fù)調(diào)查中不合理數(shù)據(jù)的方法,其特征在于,包括以下步驟:
步驟1:計(jì)算正調(diào)查的值;
步驟2:將不合理的數(shù)據(jù)進(jìn)行調(diào)整;
步驟3:對(duì)于調(diào)整后的數(shù)據(jù),計(jì)算由調(diào)整造成的差值分配到其他選項(xiàng)的比例;
步驟4:對(duì)于調(diào)整后得到的負(fù)調(diào)查的值,計(jì)算正調(diào)查的值。
作為優(yōu)選,步驟1中,采用傳統(tǒng)的nstops重建算法計(jì)算正調(diào)查的值為
作為優(yōu)選,步驟2中,將不合理的數(shù)據(jù)進(jìn)行調(diào)整,調(diào)整后負(fù)數(shù)據(jù)和正數(shù)據(jù)的關(guān)系為:
其中,ri表示負(fù)調(diào)查中每個(gè)選項(xiàng)的人數(shù)比例,xi表示調(diào)整后正調(diào)查的人數(shù)比例,并且r1+...+rc=1,x1+...+xc=1,△ri表示調(diào)整不合理的數(shù)據(jù)所帶來的差值,pij代表在正調(diào)查中選擇選項(xiàng)i的人在負(fù)調(diào)查中選擇了選項(xiàng)j的概率,i=1、2、...、c,j=1、2、...、c;
對(duì)于均勻負(fù)調(diào)查:
作為優(yōu)選,步驟3中,假設(shè)有n個(gè)選項(xiàng)是不合理的結(jié)果,將這n個(gè)選項(xiàng)的估計(jì)值
設(shè)負(fù)調(diào)查中選項(xiàng)i的比例為△ri,根據(jù)負(fù)調(diào)查的實(shí)施規(guī)則:
作為優(yōu)選,步驟4中,對(duì)于調(diào)整后得到的負(fù)調(diào)查的值,重新利用nstops算法計(jì)算正調(diào)查的值xi:
xi=1-(c-1)(ri+△ri)
進(jìn)一步得到計(jì)算xi的通式:
其中,
xs=xc+xc-1+…+xc-n+1,rs=rc+rc-1+…+rc-n+1。
本發(fā)明的有益效果在于:在負(fù)調(diào)查重建正調(diào)查數(shù)據(jù)的過程中,本發(fā)明既可以處理負(fù)值這一類不合理的數(shù)據(jù),也可以處理與背景知識(shí)相違背的不合理數(shù)據(jù),并且取得較高的重建精度。
附圖說明
圖1為本發(fā)明實(shí)施例的方法流程圖。
具體實(shí)施方式
為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
請(qǐng)見圖1,本發(fā)明提供的一種處理負(fù)調(diào)查中不合理數(shù)據(jù)的方法,包括以下步驟:
步驟1:采用傳統(tǒng)的nstops重建算法計(jì)算正調(diào)查的值;
假設(shè)參與調(diào)查的總?cè)藬?shù)為n,問題的選項(xiàng)個(gè)數(shù)為c,負(fù)調(diào)查中每個(gè)選項(xiàng)的人數(shù)比例為r={ri,ri,...,rc},相應(yīng)的正調(diào)查的每個(gè)選項(xiàng)的人數(shù)比例為t={t1,t2,...,tc},pij代表在正調(diào)查中選擇選項(xiàng)i的人在負(fù)調(diào)查中選擇了選項(xiàng)j的概率,pij組成了矩陣p,因此:
已有的正調(diào)查數(shù)據(jù)重建的方法以及本文的算法都是以均勻負(fù)調(diào)查為背景,即:
傳統(tǒng)的nstops重建方法,矩陣r,t,p滿足關(guān)系:
r=tp
因此,矩陣t可以采用如下式子計(jì)算:
t=rp-1
根據(jù)以上公式,正數(shù)據(jù)的估計(jì)值可以用下面的式子計(jì)算:
步驟2:將不合理的數(shù)據(jù)進(jìn)行調(diào)整;
本實(shí)施例以一個(gè)選項(xiàng)為例,即假設(shè)有一個(gè)選項(xiàng)的重建結(jié)果是不合理的數(shù)據(jù)。采用傳統(tǒng)的nstops方法計(jì)算每個(gè)選項(xiàng)的正調(diào)查估計(jì)值
步驟3:對(duì)于調(diào)整后的數(shù)據(jù),計(jì)算由調(diào)整造成的差值分配到其他選項(xiàng)的比例;
將差值△rc按相應(yīng)的比例分配到其他選項(xiàng)時(shí),首先計(jì)算△rc在正調(diào)查中其他選項(xiàng)的人數(shù)比例,設(shè)正調(diào)查中選項(xiàng)i的比例為
根據(jù)均勻負(fù)調(diào)查的生成規(guī)則,正調(diào)查中其他c-1個(gè)選項(xiàng)的
步驟4:對(duì)于調(diào)整后得到的負(fù)調(diào)查的值,重新利用nstops算法計(jì)算正調(diào)查的值。
使用調(diào)整后的負(fù)調(diào)查值重新采用nstops計(jì)算正調(diào)查的估計(jì)值:
xi=1-(c-1)(ri+△ri)
綜上可得,除選項(xiàng)c,其他各選項(xiàng)的重建結(jié)果計(jì)算如下:
以上實(shí)例為僅有一個(gè)不合理數(shù)據(jù)時(shí)算法的計(jì)算過程,本發(fā)明適用于多個(gè)不合理數(shù)據(jù)的處理,并且能夠取得較高的精確度。
應(yīng)當(dāng)理解的是,本說明書未詳細(xì)闡述的部分均屬于現(xiàn)有技術(shù)。
應(yīng)當(dāng)理解的是,上述針對(duì)較佳實(shí)施例的描述較為詳細(xì),并不能因此而認(rèn)為是對(duì)本發(fā)明專利保護(hù)范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護(hù)范圍之內(nèi),本發(fā)明的請(qǐng)求保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。