本發(fā)明屬于信息安全,尤其涉及一種保護(hù)查詢方隱私的模糊搜索方法。
背景技術(shù):
1、隱私信息檢索(privacy?information?retrieval,pir)是信息安全領(lǐng)域的一個重要分支,它專注于保護(hù)用戶在進(jìn)行數(shù)據(jù)查詢時的隱私。pir的主要目標(biāo)是在不泄露用戶查詢內(nèi)容的情況下,安全地檢索信息。傳統(tǒng)的技術(shù)主要支持精確查詢,即用戶必須準(zhǔn)確知道他們想要檢索的信息,這在很多實際應(yīng)用場景中是不切實際的。這些技術(shù)的核心在于保障數(shù)據(jù)的安全性和用戶查詢的隱私性,避免在數(shù)據(jù)傳輸或處理過程中泄露敏感信息。如醫(yī)療記錄、金融信息和個人身份數(shù)據(jù)。pir的主要目標(biāo)是在不泄露用戶查詢內(nèi)容的情況下,安全地檢索信息。這在醫(yī)療、金融和個人數(shù)據(jù)等領(lǐng)域尤為重要。
2、模糊搜索方法的技術(shù)是對傳統(tǒng)pir技術(shù)的重要擴展。這種方法不僅保護(hù)用戶隱私,還允許更靈活的查詢,即使用戶對他們想要的信息不完全確定。在許多情況下,用戶可能只記得部分信息或希望探索相關(guān)信息。模糊搜索允許這種非精確查詢,從而更好地服務(wù)于用戶的實際需求。在設(shè)計模糊搜索方法時,關(guān)鍵挑戰(zhàn)之一是在提供靈活性的同時保持高性能和隱私保護(hù)。這可能涉及復(fù)雜的算法和安全協(xié)議。
3、近年來,有研究開始探索將機器學(xué)習(xí)技術(shù)與pir相結(jié)合。這些研究嘗試提高pir系統(tǒng)的搜索效率和準(zhǔn)確性,同時保護(hù)用戶隱私。另外,隨著數(shù)據(jù)量的增加,對模糊匹配的需求也隨之增長。這些技術(shù)允許用戶基于部分或近似關(guān)鍵詞進(jìn)行搜索,但同時保持?jǐn)?shù)據(jù)的隱私性。最新的研究集中于提高pir系統(tǒng)的效率。例如,研究者們探索了不同的數(shù)據(jù)索引結(jié)構(gòu)和查詢優(yōu)化算法,以減少查詢時間和提高數(shù)據(jù)檢索的速度。
4、因此,存在一個顯著的技術(shù)挑戰(zhàn):如何在不犧牲用戶隱私的前提下,提高pir系統(tǒng)對模糊查詢的支持能力。這要求開發(fā)新的算法和方法,不僅能夠處理不精確或部分關(guān)鍵字的查詢,還要保持?jǐn)?shù)據(jù)安全性和響應(yīng)效率。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目標(biāo)是提出一種新型的模糊搜索方法,以解決傳統(tǒng)隱私信息檢索(pir)技術(shù)在處理模糊或部分匹配查詢時性能和效率不足的技術(shù)問題。為實現(xiàn)上述目的,本發(fā)明的具體技術(shù)方案如下:
2、一種保護(hù)查詢方隱私的模糊搜索方法,包括如下步驟:
3、步驟1、查詢方加密查詢關(guān)鍵字,加密后,查詢關(guān)鍵字送往數(shù)據(jù)方;
4、步驟2、數(shù)據(jù)方使用模糊匹配算法處理加密的查詢關(guān)鍵字;
5、步驟3、建立加密數(shù)據(jù)索引;
6、步驟4:返回加密的搜索結(jié)果;
7、步驟5:解密搜索結(jié)果并展示。
8、進(jìn)一步的,在步驟1中,查詢方采用同態(tài)加密技術(shù)加密查詢關(guān)鍵字。
9、進(jìn)一步的,在步驟2中,數(shù)據(jù)方通過設(shè)計同態(tài)加密模糊匹配評分系統(tǒng)來估計加密數(shù)據(jù)項與加密查詢關(guān)鍵字之間的相似度,設(shè)計所述同態(tài)加密模糊匹配評分系統(tǒng)的步驟如下:
10、步驟2.1、選擇基于學(xué)習(xí)有誤差問題的同態(tài)加密模型;
11、步驟2.2、對所述同態(tài)加密模型產(chǎn)生的特征向量進(jìn)行加密和參數(shù)配置,參數(shù)包括密鑰大小和誤差率;
12、對于查詢方要查詢的隱私數(shù)據(jù)d中的每個元素,計算其特征向量f→(d),特征向量f→(d)包括詞頻和上下文;
13、應(yīng)用學(xué)習(xí)有誤差問題的同態(tài)加密模型得到加密特征向量enc(f→(d)),確保加密特征向量enc(f→(d))保留了能夠用于后續(xù)同態(tài)操作的數(shù)學(xué)屬性;
14、步驟2.3、構(gòu)建索引與查詢加密:
15、使用b樹或哈希表這些數(shù)據(jù)結(jié)構(gòu)來索引加密特征向量;
16、查詢時,將查詢關(guān)鍵字q轉(zhuǎn)換為加密特征向量enc(f→(q));
17、步驟2.4、同態(tài)加密相似度計算:
18、設(shè)計同態(tài)相似度函數(shù)h,同態(tài)相似度函數(shù)h能夠?qū)nc(f→(d))和enc(f→(q))進(jìn)行操作,生成加密相似度得分enc(s);
19、步驟2.5、評分系統(tǒng)實現(xiàn):
20、引入加密閾值enc(t)以過濾得分,只有高于此閾值的得分enc(s)才會被考慮;
21、運用學(xué)習(xí)有誤差問題模型中的同態(tài)性質(zhì)進(jìn)行加密分?jǐn)?shù)的線性組合和比較;
22、步驟2.6、加密結(jié)果排序:
23、利用同態(tài)屬性構(gòu)建排序協(xié)議,使排序協(xié)議能夠在不解密情況下對加密得分進(jìn)行排序;
24、步驟2.7、加密結(jié)果的解密與展示:
25、查詢方使用其私鑰對返回的加密得分進(jìn)行解密,得到最終的相似度得分列表;顯示解密后的結(jié)果,按得分從高到低排序。
26、進(jìn)一步的,步驟3具體包括:
27、步驟3.1、從數(shù)據(jù)庫中的每個項中提取固定的特征集;
28、步驟3.2、使用線性同態(tài)加密方案對每個特征向量進(jìn)行加密,得到的同態(tài)加密特征向量enc(f→(d))能夠用于后續(xù)的加密操作;
29、步驟3.3、基于kd樹的結(jié)構(gòu)增加多維數(shù)據(jù)處理,通過修改達(dá)到支持加密數(shù)據(jù)的處理能力;使用基于學(xué)習(xí)有誤差問題的線性同態(tài)加密方案對數(shù)據(jù)庫中每個數(shù)據(jù)項的特征向量進(jìn)行加密;
30、從加密的特征向量集合中選擇一個加密向量作為根節(jié)點,按照固定或預(yù)定義的維度順序遞歸地選擇分割點,將數(shù)據(jù)分為兩部分,分別構(gòu)建子樹,對于每個加密特征向量,根據(jù)其在選定維度的值與節(jié)點的比較結(jié)果,確定其應(yīng)該插入的子樹,遞歸進(jìn)行直至找到合適的插入位置;
31、步驟3.4、將每個數(shù)據(jù)項的同態(tài)加密特征向量插入到索引結(jié)構(gòu)中;
32、步驟3.5、通過算法比較查詢向量和索引中的加密向量;
33、步驟3.6、當(dāng)接收到加密查詢向量時,遍歷索引結(jié)構(gòu)找到最相似的數(shù)據(jù)項,通過在索引結(jié)構(gòu)中比較加密查詢向量和數(shù)據(jù)項的加密特征向量來完成搜索;
34、步驟3.7、根據(jù)搜索出的加密相似度評分對結(jié)果進(jìn)行同態(tài)加密排序。
35、進(jìn)一步的,在步驟4中,將排序后的加密結(jié)果發(fā)送給查詢方,查詢方利用私鑰對結(jié)果進(jìn)行解密,獲取相似度評分和數(shù)據(jù)項。
36、進(jìn)一步的,在步驟5中,查詢方收到加密的搜索結(jié)果后,使用私鑰對加密的搜索結(jié)果進(jìn)行解密。
37、本發(fā)明具有以下優(yōu)點:
38、高度隱私保護(hù):通過全程加密處理,確保用戶查詢不被泄露,同時保證服務(wù)器無法訪問未加密的用戶數(shù)據(jù)。
39、高效數(shù)據(jù)處理:利用優(yōu)化的加密算法和索引結(jié)構(gòu),顯著提升處理模糊或部分匹配查詢的速度和準(zhǔn)確性。
40、靈活性與擴展性:支持多種類型的模糊查詢,包括拼寫錯誤和同義詞處理,適用于多種商業(yè)和科研場景。
41、本發(fā)明不僅提高了數(shù)據(jù)檢索的效率和效果,也為查詢方的隱私提供了強有力的保護(hù),推動了隱私保護(hù)技術(shù)在數(shù)據(jù)檢索領(lǐng)域的應(yīng)用和發(fā)展。本發(fā)明能夠在不泄露用戶查詢內(nèi)容的情況下,安全地檢索信息。本發(fā)明主要通過同態(tài)加密技術(shù)和模糊匹配算法來實現(xiàn)高性能的模糊搜索。在本發(fā)明中,查詢方的搜索關(guān)鍵詞始終處于加密狀態(tài),確保了用戶隱私的安全。同時,通過特殊設(shè)計的數(shù)據(jù)索引和加密搜索結(jié)果返回機制,既保證了搜索的效率也確保了數(shù)據(jù)內(nèi)容的安全性。此外,本發(fā)明還解決了傳統(tǒng)隱私信息檢索技術(shù)在處理模糊查詢時的局限性,提高了搜索系統(tǒng)的應(yīng)用靈活性和實際應(yīng)用范圍。