本發(fā)明屬于計算機視覺、文字提取與識別技術領域,具體涉及一種基于特征壓縮與特征選擇的歪斜場景文字識別方法。
背景技術:近年來,隨著內置相機的移動設備的增加,各類在自然場景中拍攝的照片數量成爆炸性增長。很多非常有價值的應用,例如:基于文字信息的圖片查詢、智能駕駛輔助、視力障礙人員的閱讀輔助和場景的理解等,都依賴于從圖片中獲取文字信息的方法。因此,自然場景中的文字提取與識別作為處理這種新數據來源的核心問題,成為近年來計算機視覺研究的熱點話題。在文字檢測算法將場景圖片中文字區(qū)域提取出來之后,需要一套針對場景文字識別的算法。場景文字由于模糊、光照不均、低分辨率等原因不容易被識別。而且,由于這些場景照片多為手持設備拍攝,所以其中文字常常是傾斜的。由于這些原因,傳統的傾斜校正方法在場景圖片文字上并不能奏效。因此,雖然傳統的光學文字識別系統(OCR)已經非常成熟,但是為了識別場景文字依然有必要開發(fā)有針對性的識別系統。在文字檢測算法檢測出含有文字的區(qū)域后,可以通過一些矯正方法來獲得高質量的文字形狀信息。這些方法通過分析文字形狀以及假設文字存在于水平文本行中來對檢測到的文字區(qū)域進行矯正,然后再識別。然而,場景圖片中的文字由于受到前面提到的干擾,其形狀往往不能被有效的提取。研究表明傳統的二值化方法,邊緣檢測方法以及最穩(wěn)定機制區(qū)域法均無法分離出可供傳統OCR系統識別的二值化掩模(Mishra,A.,Alahari,K.,Jawahar,C.:Top-downandbottom-upcuesforscenetextrecognition.In:CVPR.(2012))。另外,由于目前針對場景文字檢測開發(fā)的算法主要解決的都是無歪斜的識別問題,對有歪斜的場景文字的識別還有待研究?,F有的歪斜文字識別算法是通過密集特征提取實現的。由于場景圖片中的文字區(qū)域較小,而且圖片質量不高,所以特征點檢測方法常常失效。因此,有必要在圖片上密集地提取特征?,F有的歪斜文字識別方法采用128維的ScaleInvariantFeatureTransform(SIFT)作為單個字符區(qū)域的特征描述符,在規(guī)范化后的圖像上每隔兩個像素提取一個SIFT特征。將所有訓練樣本上提取出的所有特征匯集成一個特征集,然后通過聚類的方法降維,最終生成一個視覺特征詞典。然后找出所有與訓練樣本中的特征最相近的詞匯,并生成最終的Bag-of-Words(BoG)直方圖描述符。在新樣本上測試時,使用相同的方法提取特征并矢量化。由于使用密集的特征提取來表示單個字符,隨著詞典中詞匯量的增大,計算復雜度將成倍增加。
技術實現要素:本發(fā)明的目的在于設計并實現一種基于特征壓縮與特征選擇的歪斜場景文字識別方法。同樣使用具有類似于SIFT特征的旋轉不變特征作為描述字符圖片的底層特征,然后使用字符級聚類和視覺特征詞典聚類兩次聚類對原始的密集特征進行壓縮,以達到借助于密集特征提取獲取更強的字符間區(qū)分能力,以及克服特征點檢測法失效的同時,保持高速、高效。最后,通過對壓縮過的特征進行評級,將對字符間區(qū)分作用不大的特征過濾掉。最后訓練出的分類器不但速度快,而且可以保證很高的識別準確率和召回率。為實現上述目的,本發(fā)明采用如下技術方案:一種基于特征壓縮與特征選擇的歪斜場景文字識別方法,其步驟包括:1)在文字區(qū)域的每個像素點上提取CHOG(Circular-FourierHistogramofOrientedGradient)特征;2)根據提取出的不同像素上的CHOG特征的差異程度確定字符級的聚類數量;3)在確定聚類數量后,對CHOG特征進行聚類以得到壓縮后的字符級特征...