專利名稱:一種數(shù)據(jù)存取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)存取技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)存取方法。
背景技術(shù):
存儲方式的發(fā)展經(jīng)過了內(nèi)置存儲時代、直連存儲時代、網(wǎng)絡(luò)存儲時代一直到集群存儲時代的變遷。其中在網(wǎng)絡(luò)存儲時代涌現(xiàn)出了 NAS(網(wǎng)絡(luò)連接存儲)、SAN(存儲區(qū)域網(wǎng)絡(luò))等存儲技術(shù),而在現(xiàn)如今的集群存儲時代,高可用性集群、負(fù)載均衡集群、高性能集群等各種類型的集群也各具特點和優(yōu)勢,同時分布式存儲的方式也逐漸流行開來。分布式的存儲方式一般可以根據(jù)存儲的數(shù)據(jù)類型劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的存儲;或者根據(jù)存儲系統(tǒng)的體系架構(gòu)劃分為主從式和對等式(即P2P形式)的存儲。主從式的存儲系統(tǒng)也有結(jié)構(gòu)化的如Oracle集群等,半結(jié)構(gòu)化的如BigTable (由Google開發(fā)的半結(jié)構(gòu)化分布式存儲系統(tǒng))、Hbase (BigTable的開源實現(xiàn)版本)等,非結(jié)構(gòu)化的如GFS(Google File System,由Google開發(fā)的分布式文件系統(tǒng),主要針對非結(jié)構(gòu)化的數(shù)據(jù))和HDFS(Hadoop Distributed File System,GFS的開源實現(xiàn)版本)等。但這些分布式存儲系統(tǒng)往往在私密性和可用性上存在一些問題。眾多周知,數(shù)據(jù)存儲過程中的數(shù)據(jù)私密性非常重要,原始數(shù)據(jù)泄漏對用戶的損害極大,同時由于服務(wù)器宕機等原因造成的存儲節(jié)點拒絕服務(wù)或者數(shù)據(jù)損壞造成的無法讀取等問題將嚴(yán)重影響用戶數(shù)據(jù)的可用性。所以,數(shù)據(jù)存儲的私密性和可用性是存儲方法和存儲系統(tǒng)必須重點關(guān)注的兩個問題。針對以上兩點,目前比較常見的策略是一種顯式安全策略,一般是將數(shù)據(jù)存儲在單一的服務(wù)器上,并且進(jìn)行適當(dāng)?shù)膫浞?。在這種情況下,用戶只需要錄入密碼進(jìn)行安全認(rèn)證來獲取數(shù)據(jù)。因此,需要密碼具有較高的復(fù)雜程度以防破解,并且一般需要用戶頻繁的更換密碼。但是用戶往往希望自己的密碼簡單好記,如此反而容易成為攻擊者的目標(biāo)。另外,由于目前大多數(shù)存儲系統(tǒng)不提供數(shù)據(jù)加密模塊,所以需要用戶在向存儲系統(tǒng)提交數(shù)據(jù)之前自己進(jìn)行加密。常用的加密算法如MD5 (Message-Digest Algorithm 5,信息-摘要算法5)、PGP (Secure Hash Algorithm,安全哈希算法)、RSA (基于數(shù)論的非對稱性加密算法)等。這種方式對用戶要求較高,也增加了用戶使用的時間成本等。并且用戶數(shù)據(jù)往往需要長期在線存儲,這種情況下,目前能夠為數(shù)據(jù)提供足夠安全性的密鑰可能在一段時間之后就不再可靠?;谝陨戏N種原因,對數(shù)據(jù)的在線存儲服務(wù)來說,以顯式安全策略為基礎(chǔ)的安全體系在很大程度上已經(jīng)不再適用。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)所存在的上述技術(shù)缺陷,本發(fā)明提供了一種數(shù)據(jù)存取方法,兼具高私密性和高可用性。一種數(shù)據(jù)存取方法,包括如下步驟數(shù)據(jù)存儲(I)將用戶輸入的數(shù)據(jù)的每個字節(jié)通過根式拆分轉(zhuǎn)換成k維特征向量;k為大于I的自然數(shù);(2)構(gòu)建nXk維的中間矩陣,根據(jù)中間矩陣使所述的k維特征向量擴充為n維冗余向量,并保存中間矩陣;n為自然數(shù)且n大于k ;(3)將每個字節(jié)對應(yīng)n維冗余向量中的n個元素值分別寫入n個文本文檔中,進(jìn)而將這n個寫有m個元素值的文本文檔分別存儲于n個服務(wù)器中,m為輸入數(shù)據(jù)的字節(jié)個數(shù);數(shù)據(jù)讀取(a)從n個服務(wù)器中任選k個服務(wù)器,并從中獲取對應(yīng)的k個文本文檔;讀取這k個文本文檔中的每個元素值,重建得到m個與字節(jié)對應(yīng)的k維中間向量;(b)根據(jù)所述的k維中間向量和中間矩陣,構(gòu)建kXk維的還原矩陣;根據(jù)還原矩陣使所述的k維中間向量還原成k維字節(jié)向量;(C)依次對每個字節(jié)對應(yīng)的k維字節(jié)向量進(jìn)行模合并,得到每個字節(jié)的字節(jié)值,從而還原得到用戶輸入的數(shù)據(jù)。所述的步驟(I)中,將每個字節(jié)通過根式拆分轉(zhuǎn)換成k維特征向量的方法為首先,構(gòu)建k次多項式如下
權(quán)利要求
1.一種數(shù)據(jù)存取方法,包括如下步驟 數(shù)據(jù)存儲 (1)將用戶輸入的數(shù)據(jù)的每個字節(jié)通過根式拆分轉(zhuǎn)換成k維特征向量;k為大于I的自然數(shù); (2)構(gòu)建nXk維的中間矩陣,根據(jù)中間矩陣使所述的k維特征向量擴充為η維冗余向量,并保存中間矩陣,η為自然數(shù)且η大于k ; (3)將每個字節(jié)對應(yīng)η維冗余向量中的η個元素值分別寫入η個文本文檔中,進(jìn)而將這η個寫有m個元素值的文本文檔分別存儲于η個服務(wù)器中,m為輸入數(shù)據(jù)的字節(jié)個數(shù); 數(shù)據(jù)讀取 (a)從η個服務(wù)器中任選k個服務(wù)器,并從中獲取對應(yīng)的k個文本文檔;讀取這k個文本文檔中的每個元素值,重建得到m個與字節(jié)對應(yīng)的k維中間向量; (b)根據(jù)所述的k維中間向量和中間矩陣,構(gòu)建kXk維的還原矩陣;根據(jù)還原矩陣使所述的k維中間向量還原成k維字節(jié)向量; (c)依次對每個字節(jié)對應(yīng)的k維字節(jié)向量進(jìn)行模合并,得到每個字節(jié)的字節(jié)值,從而還原得到用戶輸入的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(I)中,將每個字節(jié)轉(zhuǎn)換成k維特征向量的方法為首先,構(gòu)建k次多項式如下 xk+ak_1xk i+ak_2xk 2+··· +ajX+ag = O 然后,將以上k次多項式轉(zhuǎn)化為以下表達(dá)式 (XT1) (x-r2)... (x-rk) = O 其中,r! rk為該k次多項式的k個根,則!T1Xr2X. . · Xrk = aQ ; 最后,令任一字節(jié)的字節(jié)值為a。,并隨機生成rl Iv1的值,進(jìn)而求得rk ;使;T1 rk為向量的k個元素,則得到的向量即為該字節(jié)對應(yīng)的k維特征向量;依此遍歷數(shù)據(jù)的每個字節(jié)。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(2)中,構(gòu)建nXk維的中間矩陣的方法為建立一 nXk維的矩陣,隨機生成該矩陣中的每個元素值,且保證該矩陣的各行向量線性無關(guān),則該矩陣即為中間矩陣。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的中間矩陣采用Vandermonde 矩陣。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(2)中,通過公式C=AR使k維特征向量擴充為η維冗余向量;其中,C為η維冗余向量,R為k維特征向量,A為nXk維的中間矩陣。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(3)中,將每個字節(jié)對應(yīng)η維冗余向量中的η個元素值分別寫入η個文本文檔中的方法為對于數(shù)據(jù)中的第i字節(jié),將該字節(jié)對應(yīng)η維冗余向量中的η個元素值分別寫入η個文本文檔中的第i輸入位;依此按數(shù)據(jù)中字節(jié)的順序,遍歷每個字節(jié)對應(yīng)的η維冗余向量,得到η個寫有m個元素值的文本文檔,i為自然數(shù)且I < i < m。
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(a)中,讀取k個文本文檔中的每個元素值,重建m個k維中間向量的過程如下對于數(shù)據(jù)中的第i字節(jié),讀取k個文本文檔中該字節(jié)對應(yīng)輸入位上的k個元素值,使這k個元素值為向量的k個元素,則得到的向量即為第i字節(jié)對應(yīng)的k維中間向量;依此遍歷文本文檔中每個輸入位上的元素值,得到m個與字節(jié)對應(yīng)的k維中間向量。
8.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(b)中,構(gòu)建kXk維的還原矩陣的方法為從中間矩陣中提取k個行向量,所述的k個行向量與k維中間向量中的k個元素--對應(yīng);根據(jù)k維中間向量中k個元素的順序,將這k個行向量組合成kXk維的還原矩陣。
9.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(b)中,通過公式S=B-1D使k維中間向量還原成k維字節(jié)向量;其中,D為k維中間向量,S為k維字節(jié)向量,B為kXk維的還原矩陣。
10.根據(jù)權(quán)利要求1所述的數(shù)據(jù)存取方法,其特征在于所述的步驟(c)中,對每個字節(jié)對應(yīng)的k維字節(jié)向量進(jìn)行模合并的方法為對于任一字節(jié)對應(yīng)的k維字節(jié)向量,使該k維字節(jié)向量中的k個元素值相乘,得到的數(shù)值即為該字節(jié)的字節(jié)值。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)存取方法,該方法以字節(jié)為單位處理原始數(shù)據(jù),根據(jù)需要靈活拆分其字節(jié)值,假設(shè)拆分為k(k>1)份;引入數(shù)據(jù)冗余策略進(jìn)一步處理拆分后的數(shù)據(jù),使得k份數(shù)據(jù)最終轉(zhuǎn)換為n(n>k)份冗余拆分?jǐn)?shù)據(jù),支持分布式存儲;需要訪問原始數(shù)據(jù)時,本方法能夠以n份拆分?jǐn)?shù)據(jù)中的任取k份重建原始數(shù)據(jù),保證數(shù)據(jù)的完整和準(zhǔn)確,同時數(shù)據(jù)冗余的存在也有效解決了某些拆分?jǐn)?shù)據(jù)發(fā)生損壞等因素導(dǎo)致的不可用問題。此外,重建原始數(shù)據(jù)至少需要獲得k份拆分?jǐn)?shù)據(jù),并且獲悉算法和相關(guān)參數(shù),使得來自外部攻擊者或者存儲服務(wù)提供商的安全威脅被極大降低;故本發(fā)明能夠有效提高數(shù)據(jù)存儲的私密性和可用性,且非常適用于現(xiàn)下廣泛的分布式存儲模式。
文檔編號G06F21/60GK103034814SQ201210538809
公開日2013年4月10日 申請日期2012年12月11日 優(yōu)先權(quán)日2012年12月11日
發(fā)明者馬然, 姜曉紅, 吳朝暉 申請人:浙江大學(xué)