基于圖像異構(gòu)計算的實時視頻流文字定位方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于機器視覺技術(shù)領(lǐng)域,涉及嵌入式異構(gòu)計算、數(shù)字圖像處理和實時用戶交互技術(shù)。
【背景技術(shù)】
[0002]在人們的日常生活中,總是遇到類似如下的場景:在翻閱繁復的資料時,想要快速的找到其中包含特定關(guān)鍵字的相關(guān)資料,抑或,當一個人來到了一個完全陌生的場景,要在這樣一個陌生的環(huán)境里,找到其所急切需要的信息,運用傳統(tǒng)方法是極其困難且效果不佳的。
[0003]比如光學字符識別(OCR)技術(shù),將視頻或者靜態(tài)圖中的文字位圖提取出,并轉(zhuǎn)化為可以被計算機識別的文本串流,這樣以后,通過比對用戶需要查找的文本來篩選出特定的信息。然而該方法存在以下弊端:
[0004](I) OCR的計算量非常之大,現(xiàn)在以及今后很長一段時間內(nèi),憑借尖端硬件設(shè)備,都無法做到可以實用的實時性;
[0005](2)0CR技術(shù)的準確性只能滿足于幫助錄入文本,對于查找特定的文本,不穩(wěn)定的準確率和誤識別率使得效果不佳;
[0006](3)0CR對于圖像的扭曲和傾斜的情況,幾乎可以說是無能為力,無法識別大部分文本內(nèi)容。
[0007]近些年,又有一種新的查找文本的技術(shù)流派產(chǎn)生了,這種流派基于21世紀初誕生的以尺度不變特征轉(zhuǎn)換(SIFT)算法為代表圖像匹配技術(shù);這種技術(shù)簡而言之,主要由以下幾個步驟組成:通過將在不同視覺尺度上的得到的圖像特征向量進行優(yōu)選和組合,用來描述以圖像局部的特征,在這個基礎(chǔ)上,通過將兩幅圖像進行交叉匹配,用特征向量匹配數(shù)目的多少描述兩幅圖像的局部相似度。然而這種方法亦不適用于空間文字定位的場景,原因有以下幾點:
[0008](I)圖像匹配技術(shù)需要的計算量遠大于OCR技術(shù),因而更不可能做到實時性;
[0009](2)現(xiàn)有的圖像匹配技術(shù),對于色彩各異形狀不同的實物物體的鑒別效果不俗,然而對于黑白兩值,由細曲線構(gòu)成的文字,鑒別能力不足,往往不能產(chǎn)生足夠多有效的描述信息來表征文字的特性;
[0010](3)要應用圖像匹配技術(shù)用于文字定位,必須建立數(shù)以百計的圖像數(shù)據(jù)庫,這是非常不切實際的,但使運用即時演算技術(shù),其時間、空間復雜度也不亞于匹配技術(shù)本身。
[0011]可見,在當前生產(chǎn)生活中,都會普通使用視頻采集并進行數(shù)字圖像處理,在這些海量的視頻串流中提取出有價值的信息則成了當今的一個研宄熱點。傳統(tǒng)的0CR(光學字符識別)技術(shù)不僅需要消耗巨大的計算性能無法做到實時性;并且,對于更普遍的類似于在交通監(jiān)控視頻串流中定位找到某一特定車牌號碼的文字定位的應用場景也有很大難度。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的目的是提供一種基于圖像異構(gòu)計算的實時視頻流文字定位方法,可以實時計算并且在視頻串流中標定出所需要查找文字。
[0013]為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0014]構(gòu)建x86異構(gòu)計算平臺,包括中央處理器單元和用于并行計算的通用計算顯卡的確定,選購符合要求的Webcam攝像頭。算法與所用平臺相關(guān)性微乎其微,本發(fā)明以主流x86平臺為例。
[0015]安裝操作系統(tǒng)和相關(guān)必要軟件、驅(qū)動程序。
[0016]建立標準字庫,將字符集中的所有字符降采樣至12X12點陣,存儲至數(shù)據(jù)庫。點陣尺寸越大,算法效果越好,但消耗計算資源越多,采用12X12的點陣已經(jīng)能夠滿足要求。
[0017]抽象數(shù)字圖像處理的計算步驟,構(gòu)建并行計算API接口。
[0018]從攝像頭捕獲一幀圖像,轉(zhuǎn)換成灰度圖。
[0019]按照固定大小分塊,根據(jù)分塊對比度進行直方圖均衡和黑白二值化。
[0020]將原圖進行模糊,按固定寬度將原圖分割成豎條狀,得到每個豎條的每一行的起始和終止位置。
[0021]將得到的位置進行進行擬合計算其斜率,本發(fā)明采用最小二乘法。
[0022]將斜率和歷史計算值加權(quán),對此時的圖像進行傾斜校正。
[0023]按行求和,對結(jié)果進行統(tǒng)計,模糊,以前5%為基準線,作為行劃分的依據(jù),取5%
效果最佳。
[0024]按列求和,對結(jié)果進行統(tǒng)計,模糊,并依次估計字符平均寬度。
[0025]以平均字寬為依據(jù),進行單詞的劃分。
[0026]按照平均為依據(jù),對單詞進行劃分為單個字符。對于沒有充分劃分依據(jù)的單字進行標定。
[0027]以詞為單位,取出和待查找的字符串進行匹配,求出誤差矩陣的平方和,定義為其與目標字符串的相似度。
[0028]將所有單詞的相似度從大到小排列,與歷史結(jié)果加權(quán),將前5%的單詞標定作為搜索結(jié)果,取5%效果最佳。
[0029]由于采用上述方案,本發(fā)明的有益效果是:
[0030]本發(fā)明相比較傳統(tǒng)技術(shù)而言,有明顯的以下幾處優(yōu)勢:
[0031](I)計算步驟雖然繁復,然而在計算過程中,計算量反而要遠遠小于傳統(tǒng)技術(shù);
[0032](2)有非常強的對抗抖動、傾斜、光照不均等不利因素,這些因素是實際使用過程不可避免的情況,相比較于傳統(tǒng)技術(shù)面對這些棘手問題的束手無策,本發(fā)明顯得游刃有余;
[0033](3)計算結(jié)果準確,本發(fā)明用的方法運用了模糊匹配的思想,因而對于各種抖動和不穩(wěn)定情況都有著良好的包容性。
【附圖說明】
[0034]圖1為本發(fā)明實施例從視頻文件中抽取的一幀用于二值化示例的示意圖像。
[0035]圖2為經(jīng)過圖1經(jīng)過灰度處理的圖像。
[0036]圖3為第一個小范圍模糊卷積核。
[0037]圖4為第二格大范圍模糊卷積核。
[0038]圖5為經(jīng)過第一個卷積核卷積后的圖像。
[0039]圖6為經(jīng)過第二格卷積核卷積后的圖像。
[0040]圖7為將圖像分割成若干正方形,并分別求灰度平均值后的圖像。
[0041]圖8為原圖像二值化的判斷條件。
[0042]圖9為兩個經(jīng)過不同卷積核卷積后圖像的差值圖。
[0043]圖10為應用二值化后的圖像。
[0044]圖11為用于傾斜校正示例的普通圖像及其二值化圖。
[0045]圖12為行高信息矩陣二值化的判斷條件。
[0046]圖13為切片并按列二值化后的行高信息矩陣。
[0047]圖14為一個正確行的示意圖。
[0048]圖15為按照計算所得傾斜斜率逆向校正過的二值化圖像。
[0049]圖16為二值化圖像的行劃分結(jié)果。
[0050]圖17為示意圖像字間距統(tǒng)計結(jié)果。
[0051]圖18為示意圖像單字間距圖。
[0052]圖19為對示意圖像按照單詞劃分的結(jié)果。
[0053]圖20為部分標準Arial字庫。
[0054]圖21為標準字母A和示意圖像中的一個字母A對照圖。
[0055]圖22為用于二值化傾斜校正文字搜索后的示意圖。
[0056]圖23為文字搜索結(jié)果示意圖。
【具體實施方式】
[0057]以下結(jié)合附圖所示實施例對本發(fā)明作進一步的說明。
[0058]應用實例:
[0059]視頻流文字提取
[0060]I 二值化
[0061]為了使輸入的視頻流中的一幀圖像更加易于處理并且使得局部特征更加鮮明,首先將彩色圖像轉(zhuǎn)化為灰度圖,然后分塊分別進行直方圖均衡,最后再選取閾值進行二值化。
[0062]1.1彩色位圖轉(zhuǎn)灰度位圖
[0063]對于一副采用RGB編碼的彩色圖像,選取以下心理學公式來計算灰度值。
[0064]Gray = R*0.299+G*0.587+B*0.114
[0065]對于一副采用YUV編碼的彩色圖像,直接將亮度信號Y分量取出,視作灰度值
[0066]Gray = Y
[0067]如圖1和圖2所示。
[0068]注:文字圖轉(zhuǎn)灰度圖示意不明顯,故增加數(shù)字圖像處理中被廣泛使用的標準Lena灰度圖
[0069]1.2抗尺度抖動
[0070]為了對抗尺度不同帶來的抖動,本發(fā)明采用了以下兩個不同大小的卷積核(圖3和圖4所示)來對生成圖像不同尺度的模糊(如圖5和圖6所示)。
[0071]卷積核的大小應當適配于獲取圖像的景深和分辨率,景深越遠,卷積核應減小,分辨率越清晰,卷積核應增大。
[0072]1.3抗光照強度變化
[0073]考慮到圖像不同區(qū)域光照強度的不同,本發(fā)明將一副圖像經(jīng)過第二個卷積核后的模糊圖像切片成數(shù)塊,每一區(qū)塊圖像的大小為50 X 50,并計算每個區(qū)塊的灰度平均值,并將每個像素點與所在區(qū)塊的灰度平均值的差值作為后續(xù)二值化操作時的依據(jù)。(如圖7所示)
[0074]對于處于圖像邊緣無法構(gòu)成50X50區(qū)塊的像素點,則直接采用鄰近區(qū)塊的平均值作為其平均值。
[0075]1.4 二值化
[0076]基于上述1.2和1.3的結(jié)果,如圖8所示,本發(fā)明給出了每一個像素點二值化的判斷準則:
[0077]條件一:經(jīng)過第一個和第二個卷積核之后,該像素點對應的兩個灰度的差值(用經(jīng)過第一個