專利名稱:未殘缺jpeg文件碎片重組的方法
技術領域:
本發(fā)明涉及一種計算機硬盤或其他可移動存儲介質的磁盤碎片數(shù)據(jù)的重組方法,特別是涉及一種未殘缺JPEG文件碎片重組的方法。
背景技術:
隨著信息技術的不斷發(fā)展,計算機越來越多的參與到人們?nèi)粘5墓ぷ骱蜕钪?,伴隨而來的是與計算機相關的法庭案件也不斷發(fā)生。因此,這種新的存在于計算機、數(shù)碼產(chǎn)品及網(wǎng)絡設備等的電子數(shù)據(jù)成為了訴訟中合法的證據(jù)形式之一。這些證據(jù)包括網(wǎng)絡日志、文本、視頻、圖像等,然而這些電子證據(jù)卻非常容易形成碎片文件(當前文件被分割成為多 個數(shù)據(jù)不連續(xù)的部分,即不是以連續(xù)存放形式的或數(shù)據(jù)殘缺的文件,這樣的文件稱為碎片文件),在沒有文件系統(tǒng)信息的情況下很難恢復這些文件。文件系統(tǒng)在存儲數(shù)據(jù)到磁盤時以簇或塊為單位,分散保存到整個磁盤的不同地方,在現(xiàn)有技術中,將這些分散保存到磁盤的不同地方一個文件的不同部分稱為文件碎片,也即一個文件被分割成為多個數(shù)據(jù)不連續(xù)的部分,每個部分成為一個文件碎片。這些文件碎片會導致系統(tǒng)性能降低,使得運行速度下降,因而,通過傳統(tǒng)的磁盤碎片整理程序來處理碎片,磁盤碎片整理程序可以分析硬盤中的磁盤碎片,移動并合并文件碎片,使每個文件都可以占用硬盤上單獨而連續(xù)的儲存空間,從而提高磁盤使用空間的使用率,提高磁盤讀取文件的速度。雖然磁盤中的碎片數(shù)據(jù)通常是不完整、易被覆蓋和易被忽略的,但往往是司法取證中須提取的關鍵數(shù)據(jù),在一些案件的處理過程中具有至關重要的作用。特別是,當磁盤的文件索引丟失或未分配使用的扇區(qū)中有隱藏的數(shù)據(jù)時,如何依據(jù)法律的要求提取碎片數(shù)據(jù),并進行分析與重構,為起訴提供證據(jù),為法庭重現(xiàn)犯罪行為是當前亟須解決的問題。因此,需要一種針對磁盤碎片數(shù)據(jù)的重組的方法,為司法裁決過程提供非常重要的信息。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題在于,針對現(xiàn)有技術的不足提供一種用以重組JPEG文件碎片數(shù)據(jù)的方法,即一種未殘缺JPEG文件碎片重組的方法。本發(fā)明所要解決的技術問題是通過如下技術方案實現(xiàn)的一種未殘缺JPEG文件碎片重組方法,包括以下步驟步驟I :在存儲介質上提取并確定出JPEG文件碎片數(shù)據(jù);步驟2 :獲得JPEG文件頭信息,并根據(jù)所述JPEG文件頭信息對所述JPEG文件碎片數(shù)據(jù)按照JPEG的文件類型進行解碼,得到多個待分析的JPEG文件碎片數(shù)據(jù)塊;步驟3 :利用相似度模型的公式(I)得到兩個數(shù)據(jù)塊的相似度,根據(jù)相似度將相鄰的數(shù)據(jù)塊連接起來形成JPEG文件;
Ciiffpix = ^Rd2+Gd2+Bd2 ^ (I)其中,別為兩個相鄰數(shù)據(jù)塊邊緣的像素R、G、B之間的差值,其中,diffpix為邊緣像素的相似度;步驟4 :利用每個數(shù)據(jù)塊的MCU差異度也打_判斷該數(shù)據(jù)塊是否屬于當前的JPEG文件,如果不屬于,刪除,如果屬于,則保留,保留下來的連接在一起的多個數(shù)據(jù)塊組成了一個完整的JPEG文件。本發(fā)明在磁盤的文件索引丟失 或未分配使用的扇區(qū)中有隱藏的數(shù)據(jù)時,可應用本發(fā)明提供的未殘缺JPEG文件碎片重組的方法得到完整的JPEG文件,使其成為起訴所需要的證據(jù)。下面結合附圖和具體實施例對本發(fā)明的技術方案進行詳細地說明。
圖I為本發(fā)明JPEG文件碎片重組的方法總體流程圖;圖2為圖I中步驟S107的詳細流程圖。
具體實施例方式數(shù)據(jù)塊指文件系統(tǒng)中存放數(shù)據(jù)的最小單元,如扇區(qū)或扇區(qū)的整數(shù)倍,具體是多少,與文件系統(tǒng)有關,一般為文件系統(tǒng)分配數(shù)據(jù)的最小單元,如NTFS的數(shù)據(jù)塊即為簇,本發(fā)明中提到的分析數(shù)據(jù)都是以數(shù)據(jù)塊的形式存放。圖I為本發(fā)明JPEG文件碎片重組的方法總體流程圖,如圖I所示,步驟SlOl,數(shù)據(jù)預處理在開始重組JPEG文件碎片之前要進行準備工作,在將要調查分析的存儲設備上,對其進行鏡像處理。針對所獲得的鏡像文件,將所述鏡像文件中的數(shù)據(jù)所在的扇區(qū)中的每個扇區(qū)號存入分析數(shù)據(jù)庫,建立扇區(qū)分析列表。步驟S102,碎片選擇首先,針對所獲得的鏡像文件,采用傳統(tǒng)數(shù)據(jù)恢復的方法(例如,利用文件系統(tǒng)信息進行恢復),獲得能夠成功恢復的數(shù)據(jù)。然后選擇每個成功恢復的數(shù)據(jù)所在扇區(qū)號,將其從所述扇區(qū)分析列表中剔除;其次,利用文件自身格式信息,采用頭尾信息截取、文件內(nèi)部信息驗證的方法進一步抽取在存儲介質上連續(xù)存放的數(shù)據(jù),獲得這些數(shù)據(jù)所在扇區(qū)編號,將其從所述扇區(qū)分析列表中剔除;而后,再采用相對穩(wěn)定的數(shù)據(jù)類型分類方法,剔除相關無用扇區(qū)編號,所述相關無用扇區(qū)包括由可打印字符組成的扇區(qū)、空數(shù)據(jù)扇區(qū)(全O、或全I)等。在本發(fā)明所采用的方法中,運用了排除法,將可成功恢復的數(shù)據(jù)所在扇區(qū)的編號和連續(xù)存放的數(shù)據(jù)所在扇區(qū)的編號及一些無用的扇區(qū)的編號在扇區(qū)列表中剔除,則剩下扇區(qū)中的數(shù)據(jù)將包括待重組的JPEG文件的碎片數(shù)據(jù)。步驟S103,獲取JPEG文件頭信息從扇區(qū)分析列表中搜索JPEG的文件頭信息所在的扇區(qū)編號,從而獲取JPEG文件頭信息。具體地,由于特征碼FFD8為JPEG文件開始標記,因此,搜索到以特征碼FFD8開始的扇區(qū),即可以得到所有的JPEG文件頭所在扇區(qū)編號。得到JPEG文件頭所在扇區(qū)編號后,解碼放在FFD8開始的文件頭部分的數(shù)據(jù),即可以得到JPEG文件頭信息,所述文件頭信息包括哈弗曼編碼表、抽樣率等。
步驟S104,根據(jù)獲得的JPEG文件頭信息,獲得JPEG文件的量化表、哈弗曼編碼表等解碼JPEG文件數(shù)據(jù)所需的信息。步驟S105,根據(jù)JPEG文件頭信息的量化表、哈弗曼編碼表,將步驟S102得到的數(shù)據(jù)按照JPEG文件類型進行解碼,獲得多個待分析JPEG文件碎片數(shù)據(jù)塊。步驟S106,對步驟4中得到的待分析JPEG文件碎片的數(shù)據(jù)塊進行相似度比較和連接利用相似度模型得到兩個數(shù)據(jù)塊的相似度,并且根據(jù)相似度將相鄰的數(shù)據(jù)塊連接。由于一個JPEG文件碎片數(shù)據(jù)塊由多個像素組成,在分析待分析JPEG文件碎片數(shù)據(jù)塊的相似度時,只需要匹配兩個相鄰待分析JPEG文件碎片數(shù)據(jù)塊的邊緣像素的相似程
度即可,具體地,通過相似度模型公式(I)
權利要求
1.ー種未殘缺JPEG文件碎片重組方法,其體征在于包括以下步驟 步驟I :在存儲介質上提取并確定出JPEG文件碎片數(shù)據(jù); 步驟2 :獲得JPEG文件頭信息,井根據(jù)所述JPEG文件頭信息對所述JPEG文件碎片數(shù)據(jù)按照JPEG的文件類型進行解碼,得到多個待分析的JPEG文件碎片數(shù)據(jù)塊; 步驟3 :利用相似度模型的公式⑴得到兩個數(shù)據(jù)塊的相似度,根據(jù)相似度將相鄰的數(shù)據(jù)塊連接起來形成JPEG文件;
2.如權利要求I所述的未殘缺JPEG文件碎片重組方法,其特征在于 步驟4中的利用每個數(shù)據(jù)塊的MCU差異度diff_判斷該數(shù)據(jù)塊是否屬于當前的JPEG文件具體包括以下步驟 步驟41,通過公式(2)計算該數(shù)據(jù)塊的MCU的差異度diff_,
3.如權利要求2所述的未殘缺JPEG文件碎片重組方法,其特征在干所述閥值δ+、閥值δ —為通過實驗確定的預設值。
4.如權利要求I或2或3所述的未殘缺JPEG文件碎片重組方法,其特征在于在步驟I中,具體包括如下步驟 步驟11,對將要調查分析的存儲設備進行鏡像處理,得到鏡像文件; 步驟12,針對所獲得的鏡像文件,將所述鏡像文件中的數(shù)據(jù)所在扇區(qū)中的每個扇區(qū)號存入ー分析數(shù)據(jù)庫,建立扇區(qū)分析列表; 步驟13,從所述扇區(qū)分析列表中剔除能夠成功恢復的數(shù)據(jù)所在扇區(qū)的編號、連續(xù)存放的數(shù)據(jù)所在扇區(qū)的編號及無用的扇區(qū)的編號,剩下扇區(qū)中的數(shù)據(jù)為包括待重組的JPEG文件的碎片數(shù)據(jù)。
5.如權利要求4所述的未殘缺JPEG文件碎片重組方法,其特征在于 步驟2中的JPEG文件頭信息通過以下步驟獲得 步驟21,在扇區(qū)分析列表中搜索以特征碼FFD8開始的扇區(qū),得到所有的JPEG文件頭所在扇區(qū)編號; 步驟22,解碼JPEG文件頭部分的數(shù)據(jù),得到所述JPEG文件頭信息。
6.如權利要求4所述的未殘缺JPEG文件碎片重組方法,其特征在于還包括步驟5 步驟5,將完整的重組JPEG文件的扇區(qū)編號存入一數(shù)據(jù)庫。
全文摘要
本發(fā)明公開了一種未殘缺JPEG文件碎片重組方法,首先,在存儲介質上提取并確定出JPEG文件碎片數(shù)據(jù);然后獲得JPEG文件頭信息,并根據(jù)所述JPEG文件頭信息對所述JPEG文件碎片數(shù)據(jù)按照JPEG的文件類型進行解碼,得到多個待分析的JPEG文件碎片數(shù)據(jù)塊;之后,利用相似度模型得到兩個數(shù)據(jù)塊的相似度,根據(jù)相似度將相鄰的數(shù)據(jù)塊連接起來形成JPEG文件;最后利用每個數(shù)據(jù)塊的MCU差異度diffmcu判斷該數(shù)據(jù)塊是否屬于當前的JPEG文件,如果不屬于,刪除,如果屬于,則保留,保留下來的連接在一起的多個數(shù)據(jù)塊組成了一個完整的JPEG文件。通過上述方法可以準確地將文件碎片重組為完整的JPEG文件。
文檔編號G06F17/30GK102682024SQ201110062119
公開日2012年9月19日 申請日期2011年3月11日 優(yōu)先權日2011年3月11日
發(fā)明者劉寶旭, 楊澤明, 肖騰 申請人:中國科學院高能物理研究所