專利名稱:一種基于字符打印特征的打印機(jī)取證方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信號(hào)與信息處理技術(shù)領(lǐng)域,涉及到文檔的安全,特別涉及到一種基于字符打印特征的打印機(jī)取證方法。
背景技術(shù):
激光打印機(jī)已成為政府、公司和個(gè)人等組織和機(jī)構(gòu)廣泛使用的日常辦公設(shè)備,而且打印文件是公文、票據(jù)和各種憑證的主要形式。為了達(dá)到各種利益目的,利用打印機(jī)進(jìn)行違法犯罪活動(dòng)呈逐年上升趨勢(shì),例如制作假合同、假發(fā)票、假稅票、假證件,發(fā)表反動(dòng)言論文章等等。這些犯罪活動(dòng)不僅可能會(huì)引起公司之間的經(jīng)濟(jì)糾紛,而且可能會(huì)影響到政府部門正常的安全事務(wù),甚至是國(guó)家的安全等一系列問題。此外,在日常生活中,普通用戶也同樣需要真實(shí)的打印文件,因?yàn)橛蓚卧斓拇蛴∥募鸬拿袷掳讣图m紛也屢屢發(fā)生。諸如此類問題都需要從司法角度對(duì)打印文件進(jìn)行檢驗(yàn),使之成為有效的法律證據(jù)。但是利用現(xiàn)代化的設(shè)備偽造的打印文件不僅具有一定的隱蔽性,發(fā)現(xiàn)難度大;而且對(duì)偽造文件的檢驗(yàn)需要進(jìn)行綜合性、系統(tǒng)性分析,檢驗(yàn)難度大。因此,研究打印機(jī)識(shí)別的文件檢驗(yàn)技術(shù)具有非常重要的現(xiàn)實(shí)意義。
傳統(tǒng)的文件檢驗(yàn)主要是采用人工借助儀器的手段,存在分析儀器價(jià)格高,操作專業(yè)性,人工操作憑經(jīng)驗(yàn),有一定的主觀性等特點(diǎn),已嚴(yán)重滯后于當(dāng)前形勢(shì)的發(fā)展。已有的利用計(jì)算機(jī)等常用電子設(shè)備進(jìn)行打印機(jī)取證的研究主要是利用數(shù)字水印的主動(dòng)取證技術(shù)。國(guó)外已有文獻(xiàn)利用數(shù)字圖像處理技術(shù)進(jìn)行打印機(jī)的被動(dòng)取證研究,但目前尚處于實(shí)驗(yàn)階段,尤其是對(duì)于打印輸出相對(duì)較多的文本文件的被動(dòng)取證工作才剛剛開始。美國(guó)的普度大學(xué)是現(xiàn)在打印機(jī)取證技術(shù)的主要研究機(jī)構(gòu)之一,發(fā)表文獻(xiàn)中有很好的實(shí)驗(yàn)結(jié)果。
文獻(xiàn)(G.N.Ali,P.-J.Chiang,A.K.Mikkilineni,G.T.-C.Chiu,E.J.Delp,and J.P.Allebach,“Application of principal components analysis and gaussian mixturemodels to printer identification,”Proceedings of the IS&T’s NIP20InternationalConference on Digital Printing Technologies,vol.20,Salt Lake City,UT,October/November 2004,pp.301-305.)認(rèn)為打印機(jī)分類與各種模式識(shí)別技術(shù)相近,基本思想都是從打印文件中找到每臺(tái)打印機(jī)特有的特征,然后進(jìn)行分類。于是作者利用PCA技術(shù)把從字符得到的特征進(jìn)行降維,然后用混合高斯模型和樹型分類的方法來區(qū)分打印機(jī),但是實(shí)驗(yàn)結(jié)果表明5臺(tái)打印機(jī)判決正確4臺(tái),而且字符識(shí)別正確率較低。文獻(xiàn)(Mikkilineni AK,Chiang P-J,Ali GN,Chiu GT-C,Allebach JP Delp EJ.Printer identification based on graylevel co-occurrence featuresfor security and forensic applications.InProceedings of the SPIE InternationalConference on Security,Steganography,and Watermarking of Multimedia ContentsVII,vol.5681.San Jose,CA;March 2005.p.430-40;A.K.Mikkilineni,O.Arslan,P.-J.Chiang,R.M.Kumontoy,J.P.Allebach,G.T.-C.Chiu,and E.J.Delp,“Printerforensics using svm techniques,”Proceedings of the IS&T’s NIP21InternationalConference on Digital Printing Technologies,vol.21,Baltimore,MD,October 2005,pp.223-226.)利用共生矩陣對(duì)字符“e”進(jìn)行紋理描述,提取其統(tǒng)計(jì)特征作為分類的依據(jù)。作者嘗試用紋理描述的手段抓住每臺(tái)打印機(jī)獨(dú)有的“條帶”頻率特性,從而區(qū)分不同的打印機(jī)。實(shí)驗(yàn)結(jié)果表明,10臺(tái)打印機(jī)都能判決正確,平均字符識(shí)別正確率為93.2%。
但是上述文獻(xiàn)所提方法特征提取計(jì)算復(fù)雜度高,而且只能針對(duì)特定的字符,比如對(duì)于英文文檔只能對(duì)字符“e”進(jìn)行特征提取,作為判決的依據(jù);如果擴(kuò)展到中文,就只能針對(duì)漢字“的”這樣頻率出現(xiàn)高的字符。所以當(dāng)待測(cè)打印文件所含字符較少或沒有原先訓(xùn)練所用的高頻字符(比如字符“e”)時(shí),這種方法就會(huì)失效。以上不足制約了其實(shí)用性和擴(kuò)展性。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供了一種基于字符打印特征的打印機(jī)取證方法。該方法通過對(duì)待測(cè)打印文本文件,分割提取單個(gè)字符,并對(duì)每一個(gè)字符提取特征,然后用支持向量機(jī)分類識(shí)別得到混淆矩陣,最后采用投票的原則判定測(cè)試文檔的源打印機(jī),即追查到此打印文本文件的來源。本方法把待測(cè)文檔中的任意字符都作為判決單元,解決了目前基于特定字符的打印機(jī)取證方法在文檔字符較少或沒有訓(xùn)練的字符時(shí)會(huì)失效的問題。
為了達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是一種基于字符打印特征的打印機(jī)取證方法,包括以下步驟 步驟1對(duì)需要取證的每臺(tái)打印機(jī)打印相同的樣本一頁由50個(gè)一級(jí)常用漢字組成的約1400個(gè)字符的文檔,用于訓(xùn)練;7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔,用于測(cè)試計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率。
步驟2對(duì)每一個(gè)樣本掃描,提取單個(gè)字符所有樣本都是用同一臺(tái)掃描儀掃描成數(shù)字圖像,分辨率為600dpi,保存為灰度BMP圖;提取的字符盡量沒有傾斜,邊框邊緣盡量與字符邊緣相切。
步驟3對(duì)每一個(gè)字符提取特征量字符打印區(qū)域平均能量、字符打印區(qū)域的灰度值熵、字符打印區(qū)域的灰度值方差、字符噪聲圖像的一階矩均值、字符噪聲圖像的二階矩均值、字符模糊度。
步驟4用支持向量機(jī)(SVM)訓(xùn)練得到最優(yōu)模型對(duì)一頁由50個(gè)一級(jí)常用漢字組成的約1400個(gè)字符的文檔進(jìn)行訓(xùn)練;通過網(wǎng)格搜索和交叉校驗(yàn)得到SVM最優(yōu)分類參數(shù)C和γ,利用最優(yōu)分類參數(shù)得到最優(yōu)模型。
步驟5對(duì)設(shè)計(jì)的樣本進(jìn)行測(cè)試,得到每臺(tái)打印機(jī)的平均字符分類正確率對(duì)7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔進(jìn)行測(cè)試;測(cè)試得到混淆矩陣后計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率。
步驟6計(jì)算每臺(tái)打印機(jī)取證需要的最少字符數(shù)用需要取證的每臺(tái)打印機(jī)平均字符分類正確率計(jì)算每臺(tái)打印機(jī)取證需要的最少字符數(shù)。具體計(jì)算過程為設(shè)一張紙上有n個(gè)字符,每個(gè)字符的平均判斷正確的概率為p,當(dāng)一張紙上有一半以上的字符判斷正確時(shí),我們認(rèn)為這張紙就是判斷正確的,這樣一張紙 最終判斷正確的概率為這樣得到每一張紙正確判斷需要的 理想最少字符數(shù),即當(dāng)時(shí),m的最小值。
步驟7對(duì)待測(cè)文檔提取最少字符數(shù),用SVM進(jìn)行預(yù)測(cè),判定此文檔的來源測(cè)試文檔提取的字符中有一半以上判斷為訓(xùn)練集合中的A打印機(jī)打印,則認(rèn)為此文檔來源于A打印機(jī)。
本發(fā)明的效果和益處是,采用本發(fā)明所述的方法,只要對(duì)待測(cè)文檔提取少量任意中文字符就能正確判決此文檔的源打印機(jī),可以大大減少取證時(shí)間;而且本發(fā)明所提字符特征使每臺(tái)打印機(jī)的字符分類正確率非常高,從而增強(qiáng)了取證的可靠性。
本發(fā)明所述方法可以應(yīng)用于司法部門在特定范圍內(nèi)追查打印文本文檔的來源,具有較高的實(shí)用價(jià)值。
圖1是中文字符打印掃描圖。
圖2是中文字符由二值化閾值限定的ROI圖。
圖3是中文字符由二值化閾值限定的ROB圖。
圖4是打印機(jī)取證的系統(tǒng)框圖。
具體實(shí)施例方式 以下結(jié)合技術(shù)方案和附圖,詳細(xì)敘述本發(fā)明的具體實(shí)施方式
。
如圖4所示,一種基于字符打印特征的打印機(jī)取證方法,包括以下步驟 1.對(duì)需要取證的每臺(tái)打印機(jī)打印相同的樣本 每臺(tái)打印機(jī)打印一頁由50個(gè)一級(jí)常用漢字均勻分布組成的約1400個(gè)字符的文檔用于訓(xùn)練,這50個(gè)漢字可以從3375個(gè)一級(jí)常用漢字中隨機(jī)挑選得到;7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔,用于測(cè)試計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率。7頁測(cè)試文檔中3375個(gè)一級(jí)常用字符平均分布,每個(gè)字出現(xiàn)頻率為3次。這8頁設(shè)計(jì)的樣本需要每臺(tái)打印機(jī)相同設(shè)置模式下一次正常打印輸出,中間沒有其他打印輸出。樣本的字體,字號(hào)需要與待測(cè)文本文檔一樣,比如都是宋體,小四。每臺(tái)打印機(jī)采用相同類型的紙張用于樣本打印,而且盡量與待測(cè)文檔質(zhì)量相近的紙張類型。
2.對(duì)每一個(gè)樣本掃描,提取單個(gè)字符 所有的樣本和待測(cè)文檔都是用同一臺(tái)掃描儀掃描生成數(shù)字圖像,分辨率設(shè)置為600dpi,保存為灰度BMP圖。掃描時(shí)盡量保證紙張沒有傾斜,提取的單個(gè)字符邊框盡量與字符邊緣相切。
3.對(duì)每一個(gè)字符提取特征量 圖1給出的是打印掃描后一個(gè)中文字符例子。圖2為圖1經(jīng)過處理得到的圖像,其中灰色部分為感興趣區(qū)域ROI,也即為提取特征的區(qū)域,由自適應(yīng)二值化閾值限定,注意對(duì)原始圖像進(jìn)行二值化是為找到理想字符的打印邊界,得到的圖2是圖1的一部分,而不是二值化后的圖像。這里定義圖2為圖像I,ROI區(qū)域像素總數(shù)為N。圖3為圖1去掉圖2以后剩余部分,其中灰色區(qū)域?yàn)槟:齾^(qū)域ROB。
a.字符打印區(qū)域平均能量 b.字符打印區(qū)域的灰度值熵 其中m為像素灰度值。
c.字符打印區(qū)域的灰度值方差 其中μ為ROI區(qū)域灰度的均值, d.對(duì)字符圖像進(jìn)行3×3高斯濾波,計(jì)算噪聲圖像的一階矩均值和二階矩均值。Iorig表示原始圖像(圖1),If表示濾波后的圖像,此時(shí)字符圖像中的感興趣區(qū)域ROI′為Iorigij<255像素集合,則噪聲圖像的一階矩均值為 同理噪聲圖像的二階矩均值為 其中 e.字符模糊度 4.用支持向量機(jī)(SVM)訓(xùn)練得到最優(yōu)模型 針對(duì)由50個(gè)一級(jí)常用漢字組成的約1400字符的文檔,以支持向量機(jī)(SVM)為分類器,輸入每一個(gè)字符的特征向量進(jìn)行訓(xùn)練。這里我們使用的是LIBSVM,選擇C-SVC,非線性的徑向基函數(shù)(RBF)作為核函數(shù),通過網(wǎng)格搜索和交叉校驗(yàn)得到最優(yōu)分類參數(shù)C和γ,利用最優(yōu)分類參數(shù)得到最優(yōu)模型,其中參數(shù)C的網(wǎng)格搜索范圍為{2-5,2-4,…,25},參數(shù)γ的網(wǎng)格搜索范圍為{2-5,2-4,…,23},交叉校驗(yàn)的v=5。
5.對(duì)設(shè)計(jì)的樣本進(jìn)行測(cè)試,得到每臺(tái)打印機(jī)的平均字符分類正確率 用上一步得到的SVM最優(yōu)模型對(duì)7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔進(jìn)行測(cè)試,測(cè)試得到混淆矩陣后計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率。在用SVM訓(xùn)練和測(cè)試時(shí),需要對(duì)特征向量數(shù)據(jù)進(jìn)行歸一化。
6.計(jì)算每臺(tái)打印機(jī)取證需要的最少字符數(shù) 具體計(jì)算過程為設(shè)一張紙上有n個(gè)字符,每個(gè)字符的平均判斷正確的概率為p,當(dāng)一張紙上有一半以上的字符判斷正確時(shí),我們認(rèn)為這張紙就是判斷正確的,這樣一張紙最終判斷正確的概率為這樣得到每一張紙正確判斷需要的理想最少字符數(shù),即當(dāng)時(shí),m的最小值。
7.對(duì)待測(cè)文檔提取最少字符數(shù),用SVM進(jìn)行預(yù)測(cè),判定此文檔的來源 經(jīng)過步驟(6)每臺(tái)打印機(jī)部可以計(jì)算得到一個(gè)m值,即正確判斷一張紙需要的理想最少字符數(shù)。設(shè)這些m值中,最大的m值為mmax,對(duì)待測(cè)文檔提取mmax個(gè)字符用于SVM預(yù)測(cè)。依據(jù)投票原則,這些預(yù)測(cè)的字符中有一半以上判決為A打印機(jī),則我們認(rèn)為此待測(cè)文檔為A打印機(jī)所打印。理想情況下對(duì)待測(cè)文檔提取mmax個(gè)字符就能判斷正確,但是為了取證的可靠性,一般情況下還是提取盡可能多的字符作為判決的依據(jù),這是取證可靠性和取證效率的一個(gè)折中。我們提出的mmax,是在盡可能保證取證可靠性的前提下,減少取證的時(shí)間。
上述步驟只是一個(gè)優(yōu)選的實(shí)施方案。本領(lǐng)域技術(shù)人員不難得出其他的實(shí)施方法而不違背本發(fā)明的總體思想。
其中,對(duì)于訓(xùn)練樣本可以選擇更多的漢字等。
權(quán)利要求
1.一種基于字符打印特征的打印機(jī)取證方法,其特征是對(duì)需要取證的每臺(tái)打印機(jī)打印相同的樣本;對(duì)每一個(gè)樣本掃描,提取單個(gè)字符;對(duì)每一個(gè)字符提取特征量;用支持向量機(jī)(SVM)訓(xùn)練得到最優(yōu)模型;對(duì)設(shè)計(jì)的樣本進(jìn)行測(cè)試,得到每臺(tái)打印機(jī)的平均字符分類正確率;計(jì)算每臺(tái)打印機(jī)取證需要的最少字符數(shù);對(duì)待測(cè)文檔提取最少字符數(shù),用SVM進(jìn)行預(yù)測(cè),判定此文檔的來源。
2.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是每臺(tái)打印機(jī)打印相同的訓(xùn)練樣本一頁由50個(gè)一級(jí)常用漢字組成的約1400個(gè)字符的文檔,用于訓(xùn)練;7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔,用于測(cè)試計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率;7頁測(cè)試文檔中3375個(gè)一級(jí)常用字符平均分布,每個(gè)字出現(xiàn)頻率為3次;樣本文檔都是相同字體,相同字號(hào);而且是一次正常打印輸出。
3.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是所有的樣本和待測(cè)文檔都是用同一臺(tái)掃描儀掃描生成數(shù)字圖像,分辨率設(shè)置為600dpi,保存為灰度BMP圖。
4.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是對(duì)每個(gè)字符提取以下6個(gè)特征量
S4-1.字符打印區(qū)域的平均能量N為圖像I(圖2)ROI區(qū)域像素總數(shù);
S4-2.字符打印區(qū)域的灰度熵其中m為像素灰度值;
S4-3.字符打印區(qū)域的灰度值方差其中μ為均值,
S4-4.對(duì)字符圖像進(jìn)行高斯濾波,計(jì)算噪聲圖像的一階矩均值和二階矩均值I表示原始圖像,If表示濾波后的圖像,此時(shí)字符圖像中感興趣區(qū)域ROI′為Iij<255像素集合,則噪聲圖像的一階矩均值為同理噪聲圖像的二階矩均值為其中
S4-5.字符模糊度即非正常打印區(qū)域像素個(gè)數(shù)占打印像素的比率,ROB為圖3中灰色區(qū)域。
5.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是針對(duì)由50個(gè)一級(jí)常用漢字組成的約1400字符的文檔,以SVM為分類器,輸入每一個(gè)字符的特征向量進(jìn)行訓(xùn)練,通過網(wǎng)格搜索和交叉校驗(yàn)得到最優(yōu)分類參數(shù)C和γ,利用最優(yōu)分類參數(shù)得到最優(yōu)模型。
6.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是用權(quán)利要求5得到的SVM最優(yōu)模型對(duì)7頁由所有一級(jí)常用漢字組成的約10000個(gè)字符的文檔進(jìn)行測(cè)試,測(cè)試得到混淆矩陣后計(jì)算每臺(tái)打印機(jī)的平均字符分類正確率。
7.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是計(jì)算每臺(tái)打印機(jī)取證需要的最少字符數(shù),具體計(jì)算過程為設(shè)一張紙上有n個(gè)字符,每個(gè)字符的平均判斷正確的概率為p,當(dāng)一張紙上有一半以上的字符判斷正確時(shí),則這張紙就是判斷正確的,這樣一張紙最終判斷正確的概率為這樣得到每一張紙正確判斷需要的理想最少字符數(shù),即
當(dāng)時(shí),m的最小值。
8.根據(jù)權(quán)利要求1所述的一種基于字符打印特征的打印機(jī)取證方法,其特征是對(duì)待測(cè)文檔提取最少字符數(shù),用SVM進(jìn)行預(yù)測(cè),判定此文檔的來源;由權(quán)利要求7所述,每臺(tái)打印機(jī)都可以計(jì)算得到一個(gè)m值,即正確判斷一張紙需要的理想最少字符數(shù);設(shè)這些m值中,最大的m值為mmax,對(duì)待測(cè)文檔提取mmax個(gè)字符用于SVM預(yù)測(cè),依據(jù)投票原則,這些預(yù)測(cè)的字符中有一半以上判決為A打印機(jī),則此待測(cè)文檔為A打印機(jī)所打印。
全文摘要
本發(fā)明屬于信號(hào)與信息處理技術(shù)領(lǐng)域,涉及到一種基于字符打印特征的打印機(jī)取證方法。其特征在于通過對(duì)待測(cè)文檔提取計(jì)算得到的一頁紙判斷正確時(shí)需要的最少字符數(shù),并對(duì)字符提取特征,用支持向量機(jī)進(jìn)行分類識(shí)別,最終用投票的方法判決此文檔的來源。本發(fā)明的效果和益處是只要對(duì)待測(cè)文檔提取少量任意中文字符就能正確判決此文檔的源打印機(jī),可以大大減少取證時(shí)間;而且本發(fā)明所提字符特征使每臺(tái)打印機(jī)的字符分類正確率非常高,從而增強(qiáng)了取證的可靠性,可以有效地追查打印文本文檔的來源。本發(fā)明適用于信息安全領(lǐng)域。
文檔編號(hào)G06K9/46GK101118592SQ20071001258
公開日2008年2月6日 申請(qǐng)日期2007年8月22日 優(yōu)先權(quán)日2007年8月22日
發(fā)明者孔祥維, 沈林杰 申請(qǐng)人:大連理工大學(xué)