專利名稱::一種電子郵件數(shù)據(jù)恢復(fù)方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機取證領(lǐng)域,特別是涉及一種電子郵件數(shù)據(jù)恢復(fù)方法及裝置。技術(shù)背景電子郵件是在20世紀70年代發(fā)明的,在80年代才得以興起。70年代的沉寂主要是由于當(dāng)時使用Arpanet網(wǎng)絡(luò)的人太少,網(wǎng)絡(luò)的速度也僅為目前56Kbps標準速度的二十分之一。受網(wǎng)絡(luò)速度的限制,那時的用戶只能發(fā)送些簡短的信息,根本別想象現(xiàn)在那樣發(fā)送大量照片;到80年代中期,個人電腦興起,電子郵件開始在電腦迷以及大學(xué)生中廣泛傳播開來;從90年代中期起,互聯(lián)網(wǎng)瀏覽器誕生,全球網(wǎng)民人數(shù)激增,電子郵件被廣為使用。它已成為人類日常工作及情感交流的重要通訊工具。隨時互聯(lián)網(wǎng)的普及,全球郵件服務(wù)器日益增多,采用的服務(wù)端軟件種類繁多,有kndmail、Qmai1,IMai1,微軟ExchangeServer、LotusNotes等,各種郵件服務(wù)器之間通常采用了標準的郵件傳輸協(xié)議SMTP,郵件服務(wù)器之間電子郵件數(shù)據(jù)內(nèi)容的傳輸早期采用RFC822報文協(xié)議,然而由于其局限性,現(xiàn)在逐步采用了多用途hternet報文擴展,S卩MIME(MultipurposeInternetMailExtensions),MIME報文通常使用BASEM、Quoted-Printable來進行郵件內(nèi)容的編碼,以便能將非英文郵件正文及多媒體、圖片等類型文件進行傳輸,通常附件均采用BASE64編碼。電子郵件可能存在于服務(wù)器的存儲介質(zhì),也可能存在于普通用戶的計算機中的磁盤。然而一旦電子郵件服務(wù)器數(shù)據(jù)遭受破壞(如服務(wù)器的磁盤陣列出現(xiàn)故障)或用戶有意或無意地在電子郵件客戶端(如R)xmail、0utlOOkExpress)中刪除了電子郵件,已刪除的電子郵件數(shù)據(jù),甚至是郵件正文片段、附件通常沒有一種有效的數(shù)據(jù)恢復(fù)方法和工具?,F(xiàn)有電子郵件數(shù)據(jù)恢復(fù)技術(shù)主要存在如下不足一、針對電子郵件數(shù)據(jù)恢復(fù)的恢復(fù)軟件缺乏,目前全球多種數(shù)據(jù)恢復(fù)軟件(如EasyRecovery、FinalData)均無法恢復(fù)出電子郵件正文碎片內(nèi)容或郵件附件。二、數(shù)據(jù)恢復(fù)軟件的恢復(fù)能力有限。在電子郵件結(jié)構(gòu)體相對完整,有些軟件(如WinHex,EnCase)可自定義文件簽名,如郵件頭中的特征關(guān)鍵特征信息“From:”來實現(xiàn)一定程度的郵件數(shù)據(jù)恢復(fù),然而郵件通常沒有相對固定的尾部特征,因此這種方式的郵件恢復(fù)只能根據(jù)設(shè)定的恢復(fù)數(shù)據(jù)的長度進行恢復(fù),通?;謴?fù)出來的郵件內(nèi)容不完整或多了較多其它不相關(guān)數(shù)據(jù),因此其效果并不令人滿意,需要較多的人工后續(xù)處理。三、數(shù)據(jù)恢復(fù)存在一定的缺陷,通常不對不連續(xù)的電子郵件碎片數(shù)據(jù)進行分析處理。電子郵件在磁盤中存儲往往不一定是連續(xù)存儲的,那么這些碎片數(shù)據(jù)之間可能夾雜其它數(shù)據(jù),需要進一步有效地分析和處理,去除不相關(guān)的數(shù)據(jù)。四是目前國內(nèi)外尚未公開能針對已經(jīng)殘缺了郵件頭及郵件正文,僅剩附件的電子郵件碎片數(shù)據(jù)進行自動智能恢復(fù)的方法或工具。
發(fā)明內(nèi)容本發(fā)明公開了一種電子郵件數(shù)據(jù)恢復(fù)方法,包括加載郵件關(guān)鍵特征信息庫,所述信息庫包含了郵件結(jié)構(gòu)體特征信息及郵件附件的文件頭部特征信息;根據(jù)所述郵件關(guān)鍵特征信息庫中的關(guān)鍵特征信息,對磁盤進行匹配掃描;如果在磁盤中發(fā)現(xiàn)和所述關(guān)鍵特征信息匹配的信息,記錄其在磁盤中的存儲位置偏移量;根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行重組;根據(jù)郵件編碼特征對所述郵件編碼后信息解碼,輸出郵件相關(guān)信息。優(yōu)選地,所述根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行重組中,所述根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,具體為根據(jù)郵件結(jié)構(gòu)體編碼特征,判斷郵件結(jié)構(gòu)體數(shù)據(jù)是否存在;如果郵件結(jié)構(gòu)體存在,根據(jù)郵件結(jié)構(gòu)體特征定位解析出郵件編碼后信息,包括郵件頭、郵件正文及附件編碼后信息;根據(jù)郵件附件特征解析出郵件附件編碼后信息。優(yōu)選地,如果不存在郵件結(jié)構(gòu)體數(shù)據(jù),判斷是否存在郵件附件參考信息;如果存在郵件附件參考信息,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名。優(yōu)選地,所述如果存在郵件附件參考信息,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名,具體為通過特征庫中的關(guān)鍵特征信息定位文件頭,并往后讀取數(shù)據(jù),搜索郵件關(guān)鍵特征;根據(jù)搜索到的關(guān)鍵特征判斷出郵件編碼方式和郵件附件編碼后文件名;對附件文件名稱進行解碼,解碼成可識別文字的文件名。優(yōu)選地,如果不存在郵件附件參考信息,查詢特征庫中郵件附件關(guān)鍵特征信息,直接對附件內(nèi)容進行解碼,根據(jù)附件關(guān)鍵特征信息類型定義自動存儲為相應(yīng)文件類型的擴展名。優(yōu)選地,所述根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行重組中,如果從所述數(shù)據(jù)中解析郵件編碼后信息不連續(xù),還對所述信息進行去雜處理。本發(fā)明還公開了一種電子郵件數(shù)據(jù)恢復(fù)裝置,包括特征庫管理模塊,用于管理該裝置所需的郵件關(guān)鍵特征庫信息;所述關(guān)鍵特征信息主要包括郵件結(jié)構(gòu)體特征信息及各類型的郵件附件的文件頭部特征信息;掃描處理模塊,與所述特征庫管理模塊相連,主要包括自動掃描單元和位置偏移量存儲單元;自動掃描單元用于根據(jù)特征庫管理模塊中的關(guān)鍵特征信息,對存儲介質(zhì)區(qū)域進行自動匹配掃描,發(fā)現(xiàn)和關(guān)鍵特征信息匹配的信息后,通過所述位置偏移量存儲單元記錄其在磁盤中的存儲位置偏移量信息;分析處理模塊,與所述掃描處理模塊相連,用于根據(jù)存儲位置偏移量,定位到郵件的相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對不連續(xù)存儲的郵件編碼后信息進行重組和去雜質(zhì)處理,形成連續(xù)的郵件正文編碼后信息;數(shù)據(jù)挖掘及編碼轉(zhuǎn)化模塊,與所述分析處理模塊相連,用于根據(jù)郵件編碼特征對所述分析處理模塊生成的郵件編碼后信息進行解碼,輸出郵件內(nèi)容或郵件附件內(nèi)容等郵件相關(guān)信息。優(yōu)選地,所述分析處理模塊包括定位解析單元、判斷單元、去雜重組單元;所述判斷單元用于根據(jù)郵件結(jié)構(gòu)體編碼特征,判斷郵件結(jié)構(gòu)體數(shù)據(jù)和郵件附件參考信息是否存在;所述定位解析單元與所述判斷單元相連,用于當(dāng)判斷單元判斷到郵件結(jié)構(gòu)體存在時,根據(jù)郵件結(jié)構(gòu)體特征定位解析出郵件的數(shù)據(jù)內(nèi)容,包括郵件頭、郵件正文及附件信息,并根據(jù)郵件附件特征解析出郵件附件編碼后信息;還用于當(dāng)判斷單元判斷到郵件附件參考信息存在時,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名;還用于當(dāng)判斷單元判斷到不存在郵件附件參考信息存在時,查詢特征庫中郵件附件關(guān)鍵特征信息,直接對附件內(nèi)容進行解碼,根據(jù)附件關(guān)鍵特征信息類型定義自動存儲為相應(yīng)文件類型的擴展名;所述去雜重組單元,與定位解析單元相連,用于定位解析單元遇到不連續(xù)存儲的郵件信息碎片時,對不連續(xù)部分進行去雜處理,重組郵件信息碎片成連續(xù)的郵件編碼后信肩、ο本發(fā)明的有益效果是,由于采用了特征庫模塊,大大提高了對電子郵件碎片數(shù)據(jù)的識別能力,最大程度地恢復(fù)殘缺的電子郵件正文及附件,挖掘出更多的數(shù)據(jù)。其次分析處理模塊根據(jù)電子郵件結(jié)構(gòu)及編碼的特點,可智能定位到文件殘余部分,能有效智能截斷尾部,消除了現(xiàn)有技術(shù)只能根據(jù)設(shè)定的大小進行截斷導(dǎo)致的郵件內(nèi)容或附件不完整,或多出大量無效數(shù)據(jù)的問題。此外,分析處理模塊能根據(jù)郵件編碼(BASE64、Qu0ted-Printable等編碼)的特點進行對不連續(xù)存儲的郵件附件進行重組,去除冗余或無效數(shù)據(jù),然后通過數(shù)據(jù)挖掘及編碼轉(zhuǎn)化模塊進行數(shù)據(jù)的解碼并導(dǎo)出,可大大提高導(dǎo)出的郵件內(nèi)容的有效性,無需進行額外的手工數(shù)據(jù)處理,大大降低了人力和時間投入。圖1為本發(fā)明的一種電子郵件數(shù)據(jù)恢復(fù)方法示意圖2為本發(fā)明的一種電子郵件數(shù)據(jù)恢復(fù)方法中細化流程示意圖3為本發(fā)明中的附件編碼內(nèi)容前包含郵件的附件的信息存儲結(jié)構(gòu)圖。圖4為本發(fā)明中的不連續(xù)的郵件碎片去雜前示意圖5為本發(fā)明中的不連續(xù)的郵件碎片去雜后示意圖6為本發(fā)明中的郵件關(guān)鍵特征信息庫中郵件結(jié)構(gòu)體特征示意圖7為本發(fā)明的一種電子郵件數(shù)據(jù)恢復(fù)裝置結(jié)構(gòu)圖8郵件編碼(Base64、Quoted-Printable)特征示意圖。具體實施方式本發(fā)明的目的在于克服現(xiàn)有技術(shù)之不足,提供一種電子郵件碎片數(shù)據(jù)恢復(fù)方法及裝置,采用了自動掃描、自動分析判斷、自動數(shù)據(jù)挖掘及編碼解碼等技術(shù)手段進行數(shù)據(jù)的恢復(fù),整個恢復(fù)過程不依賴于操作人員的技術(shù)水平,具有自動化、智能化、簡單易用高效等優(yōu)點ο本發(fā)明第一個實施例提供了一種電子郵件碎片數(shù)據(jù)恢復(fù)方法,如圖1所示,主要包括如下步驟步驟1,加載郵件關(guān)鍵特征信息庫,該信息庫包含了郵件結(jié)構(gòu)體特征信息(參見圖6)及各類型的郵件附件的文件頭部特征信息(參見表1)。補充說明郵件結(jié)構(gòu)體信息主要是郵件包含的常見關(guān)鍵詞有·From:·To·Subject:·Date·Content-Type:·Content-Transfer-Encoding:·Content-Disposition:·......將待取證分析硬盤通過寫保護設(shè)備(如只讀鎖或只讀設(shè)備)與分析計算機相連接,選擇要進行數(shù)據(jù)恢復(fù)的磁盤(即通過只讀鎖連接的帶分析硬盤)。這里,采用寫保護設(shè)備進行數(shù)據(jù)恢復(fù),目的是為了防止對原有的磁盤造成進一步的數(shù)據(jù)破壞。分析計算機把特征庫加載到運行系統(tǒng)中。步驟2,根據(jù)特征庫中的關(guān)鍵特征信息,對指定磁盤區(qū)域進行匹配掃描。本步驟中,遍歷使用所有的關(guān)鍵特征信息(1,2,...n),然后根據(jù)用戶的設(shè)置(全盤、指定分區(qū)、指定磁盤區(qū)域)對磁盤進行掃描。步驟3,如果在磁盤發(fā)現(xiàn)和關(guān)鍵特征信息匹配的信息后,記錄其在磁盤中的存儲位置偏移量。步驟4,根據(jù)存儲位置偏移量信息,定位到郵件的相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征(參見圖6)從所述數(shù)據(jù)中解析郵件編碼后信息(包含正文和附件),并根據(jù)郵件編碼(主要包括BASE64、Quoted-Printable等)特征對不連續(xù)存儲的郵件編碼后信息(包含正文和附件)進行重組和去雜質(zhì)處理,形成連續(xù)的郵件編碼后信息(包括郵件正文和附件的編碼后信息)。本實施例步驟3處理后的結(jié)果即存儲位置偏移量信息作為本步驟操作依據(jù),根據(jù)該信息,找到郵件存儲位置。根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,具體流程如圖2所示,包括如下步驟步驟401,根據(jù)郵件結(jié)構(gòu)體編碼特征,判斷郵件結(jié)構(gòu)體數(shù)據(jù)是否存在。步驟402,如果郵件結(jié)構(gòu)體存在,根據(jù)郵件結(jié)構(gòu)體特征定位出郵件的數(shù)據(jù)內(nèi)容,包括郵件頭、郵件正文及附件信息。本步驟中,郵件正文部分內(nèi)容根據(jù)郵件結(jié)構(gòu)體的關(guān)鍵特征信息進行分析,對使用BASE64編碼的郵件附件進行去除雜質(zhì)處理,將非BASE64字符去除,并做完整性校驗,通常郵件在存儲時每行為76個BASE64范圍內(nèi)的字符,以“=”符號作為結(jié)束符。郵件正文分析及處理具體包括兩種情況第一種情況,在郵件結(jié)構(gòu)體中的關(guān)鍵特征信息特征定位到后,根據(jù)其特征進行分析,直至遇到超過1個扇區(qū)的數(shù)據(jù)(即512字節(jié))中不包含郵件結(jié)構(gòu)體的各個特征關(guān)鍵特征信息后,截斷數(shù)據(jù)。第二種情況,在缺失郵件結(jié)構(gòu)體信息的情況下,只能定位到的數(shù)據(jù)起始位置是郵件附件頭部,原有的郵件正文部分已經(jīng)無法獲得,那么直接把該位置作為郵件附件起始位置,并進行逐扇區(qū)分析,直至不包含連續(xù)BASE64字符的扇區(qū),去除非BASE64字符后,并將該扇區(qū)作為附件尾部(注扇區(qū)中連續(xù)的BASE64字符少于M個字符才認定為附件尾部,該長度為參考值,系統(tǒng)可以根據(jù)用戶的需求進行設(shè)定)郵件編碼(BASE64、Quoted-Printable)特征說明Base64編碼特征電子郵件BASE64編碼的原理是將數(shù)據(jù)流轉(zhuǎn)化為用64個字符可表示的信息,64個字符分別為大小字母A-Z,小寫字母a-z,數(shù)字0-9,還有“+”,“/”符號。因此在處理BASE64編碼特征時,只要不在64個字符范圍內(nèi),那么就不屬于BASE64編碼。具體表現(xiàn)形式可參見圖8中紅色框中的編碼。Quoted-Printable編碼特征如郵件正文中包含中文字符,那么在經(jīng)過Quoted-Printable編碼轉(zhuǎn)化后將可以看到大量以“=”符號起始的,后跟2個十六進制字符,如“=DE=EO=Fl=B3”,具體表現(xiàn)形式可參見圖8中藍色框中的編碼。步驟403,根據(jù)郵件附件特征解析出郵件附件編碼后信息。步驟404,如果不存在郵件結(jié)構(gòu)體數(shù)據(jù),則判斷是否存在郵件附件參考信息。本步驟中,由于郵件數(shù)據(jù)已經(jīng)殘缺,不完整,因此無法定位到郵件結(jié)構(gòu)體(郵件頭,郵件正文),但仍殘存郵件附件及部分附件描述信息(郵件附件參考信息)。遇到不連續(xù)存儲的郵件附件碎片的處理方法,可繼續(xù)執(zhí)行步驟404的去雜方法。信息4件附件特征解析出郵件附件名或文件類型對應(yīng)的擴展名據(jù)的展示步驟405,如果存在郵件附件參考信息,則根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名,遇到不連續(xù)存儲的郵件附件碎片的處理方法,可繼續(xù)執(zhí)行步驟404的去雜方法。以下以電子郵件碎片附件為例,附件不采用Quoted-Printable編碼,而是采用BASE64編碼。根據(jù)郵件編碼特征(參見圖8及其補充說明),以及郵件結(jié)構(gòu)體特征(如Content-Type,Content-Transfer-Encoding,Content-Disposition:attachment))(寸由件碎片進行分析處理。附件編碼內(nèi)容前包含郵件的附件參考信息的存儲結(jié)構(gòu)如圖3所示,本步驟具體包括如下幾個步驟步驟4051,通過特征庫中的關(guān)鍵特征信息定位文件頭,并往后讀取數(shù)據(jù),搜索郵件關(guān)鍵特征。本步驟中,通過特征庫中的關(guān)鍵特征信息定位到文件頭(以0M8R4K為例)后,往前讀取數(shù)行數(shù)據(jù),搜索Content-Type(文件類型)、Content-Transfer-Encoding(數(shù)據(jù)采用的編碼方式,通常郵件附件為BASE64)、Content-Disposition:attachment(說明以下編碼是郵件的附件內(nèi)容)等特征。步驟4052,根據(jù)搜索到的關(guān)鍵特征判斷出郵件編碼方式和郵件附件文件名。本步驟中,Content-Type、Content-Transfer-Encoding、Content-Disposition!attachmentsfilenameBWΡ#W^^^^iii^fflBASE64編碼。步驟4053,對附件文件名稱進行解碼,解碼成可識別文字。本步驟中,如圖3所示,附件文件名被翻譯轉(zhuǎn)化為“真的難嗎.doc”。步驟406、如果不存在郵件附件參考信息,查詢特征庫中郵件附件關(guān)鍵特征信息,直接對附件內(nèi)容進行解碼(BASE64編碼還原),根據(jù)附件關(guān)鍵特征信息類型定義自動存儲為相應(yīng)文件類型的擴展名。步驟407,根據(jù)郵件編碼特征(BASE64、Quoted-Printable編碼)對郵件頭、郵件正文及附件編碼后信息碎片進行重組和去雜處理。本步驟中,去雜質(zhì)處理具體方法為通常較多軟件在存儲郵件附件都采用BASE64編碼,由于附件較大,在恢復(fù)過程中經(jīng)常碰到夾雜其他非BASE64編碼的內(nèi)容,因此需進行額外的編碼去雜質(zhì)處理,通常每行76個BASE64字符,通過去除雜質(zhì)后,將兩段不完整的BASE64數(shù)據(jù)進行拼合后,對數(shù)據(jù)長度進行計算,如果剛好等于76個字符,那么可以認定組合正確,如果出現(xiàn)長度不等于76字符,那么繼續(xù)撤銷拼合,繼續(xù)后續(xù)的編碼處理,最后導(dǎo)出數(shù)據(jù)時,增加一個標識,表明該數(shù)據(jù)不可能不完整,供分析人員查看。去雜前后的效果分別如圖4和圖5所示。本步驟中,附件編碼內(nèi)容前未找到郵件的附件描述信息,則查詢特征庫中該附件頭部特征關(guān)鍵特征信息對應(yīng)的文件類型,直接根據(jù)規(guī)則命名文件名,并增加相應(yīng)的文件擴展名。因無任何參考信息,無法得知文件具體類型和文件名,所以通過查詢特征庫中該附件頭部特征關(guān)鍵特征信息對應(yīng)的文件類型,例如JPEG類型,RAR類型,Zip類型,然后直接根據(jù)規(guī)則命名文件名,并自動增加相應(yīng)的文件擴展名。步驟5,將步驟4處理后的結(jié)果進行統(tǒng)一處理,根據(jù)郵件編碼特征對所述郵件正文及附件進行分別解碼,輸出郵件內(nèi)容或郵件附件內(nèi)容等郵件相關(guān)信息。相關(guān)信息可以導(dǎo)出,導(dǎo)出后的郵件附件可直接在Windows用相應(yīng)的查看軟件進行打開,郵件正文可用Word或?qū)懽职宓却蜷_。本發(fā)明第二個實施例提供了一種電子郵件數(shù)據(jù)恢復(fù)裝置,如圖7所示,該裝置包括如下幾個組成部分特征庫管理模塊1,用于管理該裝置所需的郵件關(guān)鍵特征庫信息。關(guān)鍵特征信息主要包括郵件結(jié)構(gòu)體特征信息(參見圖6,紅色劃線部分屬郵件結(jié)構(gòu)體的特征)及各類型的郵件附件的文件頭部特征信息(參見表1)。該模塊由郵件結(jié)構(gòu)體特征信息存儲單元和郵件附件文件頭部特征信息存儲單元構(gòu)成。郵件附件文件頭部特征信息存儲單元用于存儲郵件結(jié)構(gòu)體特征信息,郵件附件文件頭部特征信息存儲單元用于存儲郵件附件文件頭部特征信息,這些信息標識各種郵件附件類型,如JPEG、Word、Excel、PowerPoint、PDF、RAR、Zip等類型的文件頭部特征信息,參見表1。表1郵件關(guān)鍵特征信息庫中各類郵件附件類型的特征信息權(quán)利要求1.一種電子郵件數(shù)據(jù)恢復(fù)方法,其特征在于,包括加載郵件關(guān)鍵特征信息庫,所述信息庫包含了郵件結(jié)構(gòu)體特征信息及郵件附件的文件頭部特征信息;根據(jù)所述郵件關(guān)鍵特征信息庫中的關(guān)鍵特征信息,對磁盤進行匹配掃描;如果在磁盤中發(fā)現(xiàn)和所述關(guān)鍵特征信息匹配的信息,記錄其在磁盤中的存儲位置偏移量;根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行重組;根據(jù)郵件編碼特征對所述郵件編碼后信息解碼,輸出郵件相關(guān)信息。2.根據(jù)權(quán)利要求1所述的一種電子郵件數(shù)據(jù)恢復(fù)方法,其特征在于,所述根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行碎片重組中,所述根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,具體為根據(jù)郵件結(jié)構(gòu)體編碼特征,判斷郵件結(jié)構(gòu)體數(shù)據(jù)是否存在;如果郵件結(jié)構(gòu)體存在,根據(jù)郵件結(jié)構(gòu)體特征定位解析出郵件編碼后信息,包括郵件頭、郵件正文及附件編碼后信息;根據(jù)郵件附件特征解析出郵件附件編碼后信息。3.根據(jù)權(quán)利要求2所述的一種電子郵件數(shù)據(jù)恢復(fù)方法,其特征在于,如果不存在郵件結(jié)構(gòu)體數(shù)據(jù),判斷是否存在郵件附件參考信息;如果存在郵件附件參考信息,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名。4.根據(jù)權(quán)利要求3所述的一種電子郵件數(shù)據(jù)恢復(fù)方法,其特征在于,所述如果存在郵件附件參考信息,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名,具體為通過特征庫中的郵件結(jié)構(gòu)體特征信息(Content-Disposition:,Content-Type:,Content-Transfer-Encoding)定位到附件郵件參考信息,讀取參考信息中的數(shù)據(jù),搜索郵件關(guān)鍵特征;根據(jù)搜索到的關(guān)鍵特征判斷出郵件編碼方式和郵件附件編碼后文件名;對附件文件名稱進行解碼,將郵件附件解碼為可閱讀的原始文件名。5.根據(jù)權(quán)利要求3所述的一種電子郵件數(shù)據(jù)恢復(fù)方法,其特征在于,如果不存在郵件附件參考信息,則直接對附件內(nèi)容進行解碼,并查詢特征庫中各類郵件附件類型的特征信息,根據(jù)附件關(guān)鍵特征信息類型定義進行比對,然后將解碼后的數(shù)據(jù)內(nèi)容自動存儲為相應(yīng)文件類型的擴展名。(因無郵件附件參考信息數(shù)據(jù),郵件附件的原始文件名無法恢復(fù))6.根據(jù)權(quán)利要求1-5所述的方法,其特征在于,所述根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行重組中,如果從所述數(shù)據(jù)中解析郵件編碼后信息不連續(xù),還對所述信息進行去雜處理。7.一種電子郵件數(shù)據(jù)恢復(fù)裝置,其特征在于,包括特征庫管理模塊,用于管理該裝置所需的郵件關(guān)鍵特征庫信息;所述關(guān)鍵特征信息主要包括郵件結(jié)構(gòu)體特征信息及各類型的郵件附件的文件頭部特征信息;掃描處理模塊,與所述特征庫管理模塊相連,主要包括自動掃描單元和位置偏移量存儲單元;自動掃描單元用于根據(jù)特征庫管理模塊中的關(guān)鍵特征信息,對存儲介質(zhì)區(qū)域進行自動匹配掃描,發(fā)現(xiàn)和關(guān)鍵特征信息匹配的信息后,通過所述位置偏移量存儲單元記錄其在磁盤中的存儲位置偏移量信息;分析處理模塊,與所述掃描處理模塊相連,用于根據(jù)存儲位置偏移量,定位到郵件的相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對不連續(xù)存儲的郵件編碼后信息進行重組和去雜質(zhì)處理,形成連續(xù)的郵件正文編碼后信息;數(shù)據(jù)挖掘及編碼轉(zhuǎn)化模塊,與所述分析處理模塊相連,用于根據(jù)郵件編碼特征對所述分析處理模塊生成的郵件編碼后信息進行解碼,輸出郵件內(nèi)容或郵件附件內(nèi)容等郵件相關(guān)fn息ο8.根據(jù)權(quán)利要求7所述的一種電子郵件數(shù)據(jù)恢復(fù)裝置,其特征在于,所述分析處理模塊包括定位解析單元、判斷單元、去雜重組單元;所述判斷單元用于根據(jù)郵件結(jié)構(gòu)體編碼特征,判斷郵件結(jié)構(gòu)體數(shù)據(jù)和郵件附件參考信息是否存在;所述定位解析單元與所述判斷單元相連,用于當(dāng)判斷單元判斷到郵件結(jié)構(gòu)體存在時,根據(jù)郵件結(jié)構(gòu)體特征定位解析出郵件的數(shù)據(jù)內(nèi)容,包括郵件頭、郵件正文及附件信息,并根據(jù)郵件附件特征解析出郵件附件編碼后信息;還用于當(dāng)判斷單元判斷到郵件附件參考信息存在時,根據(jù)郵件附件參考信息識別出附件類型,解析郵件附件的原始文件名;還用于當(dāng)判斷單元判斷到不存在郵件附件參考信息存在時,查詢特征庫中郵件附件關(guān)鍵特征信息,直接對附件內(nèi)容進行解碼,根據(jù)附件關(guān)鍵特征信息類型定義自動存儲為相應(yīng)文件類型的擴展名;所述去雜重組單元,與定位解析單元相連,用于定位解析單元遇到不連續(xù)存儲的郵件信息碎片時,對不連續(xù)部分進行去雜處理,重組郵件信息碎片成連續(xù)的郵件編碼后信息。全文摘要本發(fā)明公開了一種電子郵件數(shù)據(jù)恢復(fù)方法,包括加載郵件關(guān)鍵特征信息庫,所述信息庫包含了郵件結(jié)構(gòu)體特征信息及郵件附件的文件頭部特征信息;根據(jù)所述郵件關(guān)鍵特征信息庫中的關(guān)鍵特征信息,對磁盤進行匹配掃描;如果在磁盤中發(fā)現(xiàn)和所述關(guān)鍵特征信息匹配的信息,記錄其在磁盤中的存儲位置偏移量;根據(jù)所述存儲位置偏移量信息,定位到相應(yīng)磁盤位置的數(shù)據(jù),根據(jù)郵件結(jié)構(gòu)體特征從所述數(shù)據(jù)中解析郵件編碼后信息,并根據(jù)郵件編碼特征對所述郵件編碼后信息進行碎片重組。根據(jù)郵件編碼特征對所述郵件編碼后信息解碼,輸出郵件相關(guān)信息。文檔編號H04L12/58GK102045268SQ20101055675公開日2011年5月4日申請日期2010年11月18日優(yōu)先權(quán)日2010年11月18日發(fā)明者吳世雄,張雪峰,徐志強申請人:廈門市美亞柏科信息股份有限公司