基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于圖像識(shí)別【技術(shù)領(lǐng)域】,尤其涉及一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法及系統(tǒng)。本發(fā)明從文本視覺(jué)屬性的角度出發(fā),通過(guò)顏色極性差異變換和邊緣鄰域末端粘合,檢測(cè)出豐富的封閉邊緣,以得到充裕的候選連通元,然后經(jīng)過(guò)文字筆畫(huà)屬性特征和文本群落屬性特征篩選,從候選連通元中提取出屬于文字的連通元,然后通過(guò)多通道融合及去除重復(fù)連通元的方法定位出最終的文本。本發(fā)明所采用的方法魯棒性強(qiáng),適應(yīng)文字語(yǔ)言類別混雜、字體風(fēng)格多樣、排列方向隨機(jī)及背景存在干擾等多種情形,定位出的文本可直接提供給OCR軟件進(jìn)行識(shí)別,并可提高OCR軟件識(shí)別率。本發(fā)明可應(yīng)用在圖像視頻檢索、垃圾信息攔截、輔助視覺(jué)導(dǎo)航、街景地圖定位、工業(yè)裝備自動(dòng)化等諸多領(lǐng)域。
【專利說(shuō)明】基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像識(shí)別【技術(shù)領(lǐng)域】,尤其涉及一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 圖像及視頻中的文本所包含的語(yǔ)義信息是理解圖像及視頻內(nèi)容的重要線索,可廣 泛應(yīng)用于圖像及視頻檢索、輔助視覺(jué)導(dǎo)航、工業(yè)裝備自動(dòng)化等諸多領(lǐng)域。然而,復(fù)雜背景下 文本的0CR(0ptical Character Recognition,光學(xué)文字識(shí)別)識(shí)別率卻不高,通用且高效 的文本區(qū)域定位與文字分割方法依然是當(dāng)前急需解決的技術(shù)難題。
[0003] 對(duì)于復(fù)雜背景下的文本圖像,必須在進(jìn)行OCR識(shí)別之前對(duì)文本進(jìn)行定位、文字分 割及透視校正等處理,才能較好地完成文本信息的提取。這其中,文本定位技術(shù)作為OCR識(shí) 別前的關(guān)鍵一步,順理成章地受到了人們的廣泛關(guān)注和長(zhǎng)期研究。然而,代表了當(dāng)前最高技 術(shù)水平的文本定位算法也只能使OCR識(shí)別率達(dá)到約75%,遠(yuǎn)未達(dá)到人們的期望及可以廣泛 應(yīng)用的程度。
[0004] 圖像分割是進(jìn)行文本定位所普遍采用的方法,通過(guò)圖像分割可以區(qū)分出文本區(qū)域 與背景區(qū)域,以便進(jìn)行文本定位。而邊緣檢測(cè)又是圖像分割所采用的常用技術(shù)手段,在以圖 像分割為目的的邊緣檢測(cè)中,需要檢測(cè)出的邊緣盡可能封閉,因此,在邊緣檢測(cè)算子末端需 要進(jìn)行邊緣生長(zhǎng)、粘合等處理,使邊緣盡量封閉,從而分割出整體。然而,如果邊緣形狀過(guò)于 復(fù)雜,比如具有復(fù)雜背景的文本的邊緣圖像,由于復(fù)雜背景的存在,給文本的邊緣圖像帶來(lái) 了大量噪聲,容易造成邊緣的錯(cuò)誤粘合,使分割出的文本與真實(shí)文本之間誤差較大,并且粘 合速度慢、效率低。
[0005] 當(dāng)前主流的文本定位方法,從處理對(duì)象的角度看,可分為基于連通元的方法 (Connected Component-based Methods)、基于紋理的方法(Texture-based Methods)和基 于邊緣的方法(Edge-based Methods)三大類型。
[0006] 基于連通元的方法是利用圖像中的處于同一局部區(qū)域的文本文字具有相似的顏 色、大小、寬高比等幾何特征,應(yīng)用顏色聚類和連通域分析等技術(shù)將可能屬于同一文字的像 素進(jìn)行聚類合并以得到候選文本區(qū)域,最后結(jié)合處于同一語(yǔ)義文本文字在圖像中的排列特 征,定位出文本?;谶B通元的方法執(zhí)行時(shí)間短,并且定位精度較高,但是當(dāng)背景復(fù)雜或文 本區(qū)域與顏色相近的背景區(qū)域連接時(shí),該方法的準(zhǔn)確度就會(huì)大大降低。
[0007] 基于紋理的方法是將文字看作是具有某種特殊的圖像紋理,通過(guò)對(duì)圖像進(jìn)行一定 的變換從而提取圖像中的這類紋理信息,并結(jié)合分類器技術(shù)判定該窗口區(qū)域是否為文本, 從而得到候選文本區(qū)域,最后對(duì)二值圖像進(jìn)行形態(tài)學(xué)處理,濾除噪聲點(diǎn)以及連接斷裂的文 本區(qū)域?;诩y理的方法具有良好的通用性,對(duì)于不同語(yǔ)言、不同尺寸的文字都能獲得較高 的檢測(cè)率,方法魯棒性強(qiáng)。但是該類算法計(jì)算復(fù)雜度高,計(jì)算時(shí)間長(zhǎng),同時(shí)如何選取通用有 效的紋理特征實(shí)現(xiàn)文字區(qū)域的分類是該類算法的難點(diǎn),難以準(zhǔn)確把握。
[0008] 基于邊緣的方法通常首先使用邊緣檢測(cè)技術(shù)對(duì)整幅圖像進(jìn)行邊緣檢測(cè),常用的有 梯度算子Sobel算子、Canny算子、以及一些特殊的邊緣檢測(cè)算子,然后根據(jù)邊緣密度,結(jié)合 文本行的幾何結(jié)構(gòu)特征,制定啟發(fā)式約束條件實(shí)現(xiàn)文本區(qū)域的檢測(cè)定位?;谶吘壍姆椒?的優(yōu)點(diǎn)是時(shí)間復(fù)雜度低,可以滿足實(shí)時(shí)應(yīng)用的需要,而且受文本顏色的影響較小,但是當(dāng)背 景紋理復(fù)雜時(shí)誤檢率就會(huì)提高,比如背景中存在某些規(guī)則排列的物體時(shí)容易被誤檢成文字 區(qū)域。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明所要解決的技術(shù)問(wèn)題是,提供一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法及系 統(tǒng),可從復(fù)雜的背景中準(zhǔn)確定位出文本,從而提高后續(xù)文字識(shí)別的準(zhǔn)確率。本發(fā)明是這樣實(shí) 現(xiàn)的:
[0010] 一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,包括如下步驟:
[0011] RGB顏色極性差異變換:對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到變換后的圖 像;
[0012] 邊緣檢測(cè):將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè)顏色通道 的邊緣圖像;同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像;
[0013] 構(gòu)建連通元:檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一目標(biāo), 且未連通的邊緣連通成一封閉邊緣,并將所述封閉邊緣所圍成的區(qū)域作為一連通元,據(jù)此 在每一幅邊緣圖像中形成若干連通元;
[0014] 連通元筆畫(huà)屬性分析:對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性分析,將各 連通元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊緣圖像中提 取出符合文字筆畫(huà)屬性的連通元;
[0015] 連通元群落屬性分析:對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà)屬性的連通 元進(jìn)行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比較,并根據(jù)比 較結(jié)果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元;
[0016] 圖像融合及文本定位:將從三幅邊緣圖像中提取出的符合文字筆畫(huà)屬性及文本群 落屬性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元,將融合后的 邊緣圖像中的各連通元作為文本。
[0017] 進(jìn)一步地,對(duì)原始圖像中的每一像素,設(shè)其R、G、B三個(gè)通道的原始亮度值分別為 Rp Gp B1,經(jīng)過(guò)顏色極性差異變換后的亮度值分別為R2、G2、B2 ;則顏色極性差異變換公式 為:
[0018] R2 = 0· 5x [max (0, R1-G1) +max (0, R1-B1)];
[0019] G2 = 0. 5x [max (0, G1-R1) +max (0, G1-B1)];
[0020] B2 = 0· 5x [max (0, B1-R1) +max (0, B1-G1)]。
[0021] 進(jìn)一步地,檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一目標(biāo),且 未連通的邊緣連通成一封閉邊緣的方法具體為:
[0022] 通過(guò)N*N大小的子窗口遍歷每一幅邊緣圖像;N的取值以使該子窗口內(nèi)所檢測(cè)到 的邊緣從屬于同一目標(biāo)為原則;在子窗口移動(dòng)的過(guò)程中,對(duì)子窗口內(nèi)檢測(cè)到的邊緣缺口進(jìn) 行粘合。
[0023] 進(jìn)一步地,所述連通元筆畫(huà)屬性分析的步驟包括:
[0024] 分析每一幅邊緣圖像中各連通元的筆畫(huà)屬性;所述筆畫(huà)屬性包括:
[0025] 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比 值;
[0026] 回環(huán)筆畫(huà)的嵌套深度:連通元中回環(huán)筆畫(huà)的層數(shù);
[0027] 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量;
[0028] 判斷每一連通元的筆畫(huà)屬性是否同時(shí)滿足以下三個(gè)條件,如果滿足,則該連通元 符合文字筆畫(huà)屬性;
[0029] 該連通元的寬高比在預(yù)設(shè)的第一范圍內(nèi);
[0030] 該連通元的回環(huán)筆畫(huà)的嵌套深度不大于預(yù)設(shè)的第一閾值;
[0031] 該連通元的孔洞數(shù)量不大于預(yù)設(shè)的第二閾值。
[0032] 進(jìn)一步地,所述連通元群落屬性分析的步驟包括:
[0033] 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)以下步驟分析每一對(duì) 相鄰連通元之間的近鄰相似度:
[0034] 分析該對(duì)相鄰連通元之間的以下參數(shù):
[0035] 近鄰特征相似度:當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二范 圍內(nèi)時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為〇 ;
[0036] 尺寸相似度:相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度;
[0037] 顏色相似度:相鄰連通元之間的顏色相似度;
[0038] 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度;
[0039] 中心緊密度相似度:中心緊密度是指連通元中心區(qū)域非空面積與該中心區(qū)域面積 的比值;當(dāng)相鄰連通元的中心緊密度都高于預(yù)設(shè)的第三閾值時(shí),該對(duì)相鄰連通元之間的中 心緊密度相似度的值取為1,否則取為〇 ;
[0040] 根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、顏 色相似度、筆畫(huà)寬度相似度及中心緊密度相似度進(jìn)行融合處理,得到該對(duì)相鄰連通元之間 的近鄰相似度;
[0041] 將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等 級(jí);
[0042] 以各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖;
[0043] 搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并以該連通元對(duì)中兩個(gè)連通元的最小包 絡(luò)矩形框的中心確定一條直線,并以該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或 等于中且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件;
[0044] 提取以近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元;
[0045] 對(duì)于以近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如果擴(kuò)展的 連通元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。
[0046] 一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),包括:
[0047] RGB顏色極性差異變換模塊,用于對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到變 換后的圖像;
[0048] 邊緣檢測(cè)模塊,用于將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè) 顏色通道的邊緣圖像;同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像;
[0049] 連通元構(gòu)建模塊,用于檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于 同一目標(biāo),且未連通的邊緣連通成一封閉邊緣,并將所述封閉邊緣所圍成的區(qū)域作為一連 通元,據(jù)此在每一幅邊緣圖像中形成若干連通元;
[0050] 連通元筆畫(huà)屬性分析模塊,用于對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性分 析,將各連通元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊緣 圖像中提取出符合文字筆畫(huà)屬性的連通元;
[0051] 連通元群落屬性分析模塊,用于對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà)屬 性的連通元進(jìn)行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比較, 并根據(jù)比較結(jié)果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元;
[0052] 圖像融合及文本定位模塊,用于將從三幅邊緣圖像中提取出的符合文字筆畫(huà)屬性 及文本群落屬性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元,將 融合后的邊緣圖像中的各連通元作為文本。
[0053] 進(jìn)一步地,對(duì)原始圖像中的每一像素,設(shè)其R、G、B三個(gè)通道的原始亮度值分別為 Rp Gp B1,經(jīng)過(guò)顏色極性差異變換后的亮度值分別為R2、G2、B2 ;則顏色極性差異變換公式 為:
[0054] R2 = 0· 5x [max (0, R1-G1) +max (0, R1-B1)];
[0055] G2 = 0. 5x [max (0, G1-R1) +max (0, G1-B1)];
[0056] B2 = 0· 5x [max (0, B1-R1) +max (0, B1-G1)]。
[0057] 進(jìn)一步地,所述連通元筆畫(huà)屬性分析模塊根據(jù)如下方式分析各連通元的筆畫(huà)屬 性:
[0058] 分析每一幅邊緣圖像中各連通元的筆畫(huà)屬性;所述筆畫(huà)屬性包括:
[0059] 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比 值;
[0060] 回環(huán)筆畫(huà)的嵌套深度:連通元中回環(huán)筆畫(huà)的層數(shù);
[0061] 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量;
[0062] 判斷每一連通元的筆畫(huà)屬性是否同時(shí)滿足以下三個(gè)條件,如果滿足,則該連通元 符合文字筆畫(huà)屬性;
[0063] 該連通元的寬高比在預(yù)設(shè)的第一范圍內(nèi);
[0064] 該連通元的回環(huán)筆畫(huà)的嵌套深度不大于預(yù)設(shè)的第一閾值;
[0065] 該連通元的孔洞數(shù)量不大于預(yù)設(shè)的第二閾值。
[0066] 進(jìn)一步地,所述連通元群落屬性分析模塊根據(jù)如下方式分析各連通元的群落屬 性:
[0067] 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)以下步驟分析每一對(duì) 相鄰連通元之間的近鄰相似度:
[0068] 分析該對(duì)相鄰連通元之間的以下參數(shù):
[0069] 近鄰特征相似度:當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二范 圍內(nèi)時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為〇 ;
[0070] 尺寸相似度:相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度;
[0071] 顏色相似度:相鄰連通元之間的顏色相似度;
[0072] 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度;
[0073] 中心緊密度相似度:中心緊密度是指連通元中心區(qū)域非空面積與該中心區(qū)域面積 的比值;當(dāng)相鄰連通元的中心緊密度都高于預(yù)設(shè)的第三閾值時(shí),該對(duì)相鄰連通元之間的中 心緊密度相似度的值取為1,否則取為〇 ;
[0074] 根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、顏 色相似度、筆畫(huà)寬度相似度及中心緊密度相似度進(jìn)行融合處理,得到該對(duì)相鄰連通元之間 的近鄰相似度;
[0075] 將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等 級(jí);
[0076] 以各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖;
[0077] 搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并以該連通元對(duì)中兩個(gè)連通元的最小包 絡(luò)矩形框的中心確定一條直線,并以該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或 等于中且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件;
[0078] 提取以近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元;
[0079] 對(duì)于以近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如果擴(kuò)展的 連通元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。
[0080] 進(jìn)一步地,所述基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng)還包括:
[0081] 圖像縮放模塊,用于對(duì)所述三幅邊緣圖像進(jìn)行同等比例縮放,獲得多個(gè)尺度下的 二幅邊緣圖像;
[0082] 所述RGB顏色極性差異變換模塊、邊緣檢測(cè)模塊、連通元構(gòu)建模塊、連通元筆畫(huà)屬 性分析模塊、連通元群落屬性分析模塊及圖像融合及文本定位模塊用于在每個(gè)尺度下,按 照權(quán)利要求6所述的方式提取文本;
[0083] 所述圖像融合及文本定位模塊還用于將各尺度下提取的文本進(jìn)行融合,得到最終 的文本。
[0084] 與現(xiàn)有技術(shù)相比,本發(fā)明從文本視覺(jué)屬性的角度出發(fā),通過(guò)顏色極性差異變換和 邊緣鄰域末端粘合,檢測(cè)出豐富的封閉邊緣,以得到充裕的候選連通元,然后經(jīng)過(guò)文字筆畫(huà) 屬性特征和文本群落屬性特征篩選,從候選連通元中提取出屬于文字的連通元,然后通過(guò) 多通道融合及去除重復(fù)連通元的方法定位出最終的文本。本發(fā)明所采用的方法魯棒性強(qiáng), 適應(yīng)文字語(yǔ)言類別混雜、字體風(fēng)格多樣、排列方向隨機(jī)及背景存在干擾等多種情形,定位出 的文本可直接提供給OCR軟件進(jìn)行識(shí)別,并可提高OCR軟件識(shí)別率。本發(fā)明可應(yīng)用在圖像 視頻檢索、垃圾信息攔截、輔助視覺(jué)導(dǎo)航、街景地圖定位、工業(yè)裝備自動(dòng)化等諸多領(lǐng)域。
【專利附圖】
【附圖說(shuō)明】
[0085] 圖1 :本發(fā)明實(shí)施例提供的基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法流程示意圖;
[0086] 圖2:本發(fā)明實(shí)施例中文本的邊緣缺口示意圖;
[0087] 圖3 :本發(fā)明實(shí)施例提供的基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0088] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。
[0089] 本發(fā)明主要目的在于從復(fù)雜背景下提取出文本,以為后續(xù)的識(shí)別做好前期處理, 從而提高識(shí)別率。本發(fā)明從文本視覺(jué)屬性的角度出發(fā),通過(guò)顏色極性差異變換和邊緣鄰域 末端粘合,檢測(cè)出豐富的封閉邊緣,以得到充裕的候選連通元,然后經(jīng)過(guò)文字筆畫(huà)屬性特征 和文本群落屬性特征篩選,從候選連通元中提取出屬于文字的連通元,然后通過(guò)多通道融 合及去除重復(fù)連通元的方法定位最終的文本。該文本可通過(guò)后續(xù)的透視形變校正、文字二 值化等處理后通過(guò)Tesseract-OCR軟件進(jìn)行識(shí)別。視覺(jué)結(jié)構(gòu)屬性在本文中是指文本在視覺(jué) 上的結(jié)構(gòu)屬性特征,或者說(shuō)文本在視覺(jué)上所具有的結(jié)構(gòu)方面的特征。
[0090] 如圖1所示,本發(fā)明實(shí)施例提供了一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,包括 如下步驟:
[0091] RGB顏色極性差異變換:對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到變換后的圖 像;
[0092] 邊緣檢測(cè):將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè)顏色通道 的邊緣圖像;同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像;
[0093] 構(gòu)建連通元:檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一目標(biāo), 且未連通的邊緣連通成一封閉邊緣,并將封閉邊緣所圍成的區(qū)域作為一連通元,據(jù)此在每 一幅邊緣圖像中形成若干連通元;
[0094] 連通元筆畫(huà)屬性分析:對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性分析,將各 連通元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊緣圖像中提 取出符合文字筆畫(huà)屬性的連通元;
[0095] 連通元群落屬性分析:對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà)屬性的連通 元進(jìn)行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比較,并根據(jù)比 較結(jié)果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元;
[0096] 圖像融合及文本定位:將從三幅邊緣圖像中提取出的符合文字筆畫(huà)屬性及文本群 落屬性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元,將融合后的 邊緣圖像中的各連通元作為文本。
[0097] 以下對(duì)上述各步驟進(jìn)行詳細(xì)描述:
[0098] RGB顏色極性差異變換的目的主要是為了克服文本圖像存在的陰影、反射、及光照 不均等復(fù)雜情況造成彩色轉(zhuǎn)灰度時(shí)造成邊緣損失及后續(xù)檢測(cè)出的邊緣圖像中文字部分邊 緣缺口過(guò)大,難以粘合的缺陷。眾所周知,對(duì)于每一種顏色,紅、綠、藍(lán)的構(gòu)成比例關(guān)系基本 保持不變,并且,除灰色以外,每種顏色的紅、綠、藍(lán)三個(gè)通道中總會(huì)有一個(gè)通道的顏色作為 主導(dǎo)色,而其他兩個(gè)通道的顏色作為輔色,從而混合成該種顏色。如果將R、G、B三個(gè)顏色 通道視為三極,那么三極各自所形成的雷達(dá)圖之間將會(huì)存在差異,這就是極性差異,由此我 們便可輕易地區(qū)分出不同顏色的物體。盡管由于諸如環(huán)境影響、設(shè)備因素等獲取手段限制, 我們所得到的顏色值不可避免地會(huì)產(chǎn)生偏差,但這種大致的極性差異關(guān)系還是能夠得以保 持。RGB顏色極性差異變換就是基于上述原理而提出的,其變換的基本思路是:對(duì)原始圖像 中的每一像素,將其三個(gè)顏色通道中的最低亮度值置零,其他兩個(gè)通道的亮度值各自保留 其相對(duì)亮度強(qiáng)度。具體而言,對(duì)于原始圖像中的每一像素,將其紅、綠、藍(lán)三個(gè)通道中的每個(gè) 通道與其它兩個(gè)通道做比較,高出的亮度值作為差異性優(yōu)勝?gòu)?qiáng)度;如果亮度差為負(fù),則置為 零。這種處理方式利用非線性亮度變換,可以在很大程度上克服光照的不均衡和微弱邊緣, 增加算法的適應(yīng)性??梢圆捎萌缦鹿綄?duì)原始圖像中的每一像素進(jìn)行RGB顏色極性差異變 換:
[0099] R2 = 0· 5x [max (0, R1-G1) +max (0, R1-B1)];
[0100] G2 = 0. 5x [max (0, G1-R1) +max (0, G1-B1)];
[0101] B2 = 0· 5x [max (0, B1-R1) +max (0, B1-G1)]。
[0102] 上式中,RpGpB1為原彩圖中的各分量,R2、G 2、B2為變換后新彩圖中的各分量。
[0103] 從RGB顏色極性差異變換的過(guò)程可以看出,一方面,相鄰不同實(shí)物間極性差異不 同,直接使得它們交界處的邊緣容易得到檢出;另一方面,由于保留了它們之間的亮度差, 原始圖像各像素的各通道間的亮度大小關(guān)系在變換后的圖像中還是得以保持。再進(jìn)一步 地,由于色彩極性差異變換中帶有"此消彼長(zhǎng)"的功能,文字的邊緣應(yīng)存在于三個(gè)通道里任 意兩個(gè)中,因此在提取連通單元時(shí)只需要選擇兩個(gè)通道即可。對(duì)于紅綠藍(lán)三個(gè)通道亮度比 重基本接近的圖像,由于各通道間亮度差異程度較小,因此,這類圖像經(jīng)過(guò)顏色極性差異變 換后各通道的邊緣圖像中邊緣就會(huì)不明顯,但直接對(duì)這類圖像進(jìn)行邊緣檢測(cè)獲得的邊緣圖 像中卻多有這類邊緣。因此,有必要將原始圖像各通道的邊緣圖像與原始圖像的邊緣圖像 相結(jié)合,以確保檢測(cè)出盡可能多的邊緣。根據(jù)后續(xù)對(duì)不同通道融合模式下封閉邊緣的覆蓋 率的測(cè)試發(fā)現(xiàn),將原始圖像的灰度圖像的邊緣圖像、原始圖像經(jīng)變換后的R通道的邊緣圖 像、原始圖像經(jīng)變換后的B通道的邊緣圖像三者相融合時(shí),封閉邊緣的覆蓋率最好,因此, 優(yōu)先選擇將變換后的圖像的R、B兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè)顏色通道的邊緣 圖像,同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像,以為后續(xù)步驟做準(zhǔn)備。
[0104] 本發(fā)明所涉及的文本定位方法是基于連通元的,其理論依據(jù)是:文本各文字的每 個(gè)筆畫(huà)是作為一個(gè)整體的,因此,在文本的邊緣圖像中,每個(gè)筆畫(huà)的邊緣應(yīng)當(dāng)是連通成一封 閉邊緣的,該封閉邊緣所圍成的區(qū)域就是該筆畫(huà)。此處對(duì)筆畫(huà)的定義為:一個(gè)文字中所有 粘連在一起的部分稱為該文字的一個(gè)筆畫(huà)。然而,由于算法局限性及圖像的復(fù)雜性,檢測(cè)出 的邊緣經(jīng)常會(huì)出現(xiàn)視覺(jué)上應(yīng)當(dāng)連通而檢測(cè)結(jié)果未能連通的情況。圖2所示為通過(guò)邊緣檢測(cè) 得到的單詞"ki I Is"的邊緣圖像,根據(jù)圖中各圓圈所指示的區(qū)域可以看出,單詞"kills" 上從左至右共有5處邊緣未連通的地方(即邊緣缺口),單詞"kills"下方各圓圈所指示 的區(qū)域分別為上述5處邊緣缺口的放大圖。根據(jù)之前的描述可知,文本圖像可能存在的陰 影、反射、及光照不均等復(fù)雜情況,這些因素可能造成檢測(cè)出的文本的邊緣圖像出現(xiàn)視覺(jué)上 應(yīng)當(dāng)連通卻未連通的邊緣。所謂視覺(jué)上應(yīng)當(dāng)連通是指,對(duì)于一幅圖上在視覺(jué)上是一個(gè)整體 的目標(biāo)(本文所指目標(biāo)均是這種類型),例如,文字的一個(gè)筆畫(huà),那么檢測(cè)出的該幅圖的邊 緣圖像中,從屬于該目標(biāo)的所有邊緣應(yīng)該完全連通成為一個(gè)封閉的邊緣,該封閉的邊緣所 圍成的區(qū)域就是該目標(biāo)的區(qū)域。以單詞"kills"的邊緣圖像舉例來(lái)說(shuō),根據(jù)對(duì)筆畫(huà)的定義, 單詞"kills"共有6個(gè)筆畫(huà),即字母的兩個(gè)部分、兩個(gè)"1"及"s",這6個(gè)筆畫(huà)各 自形成一個(gè)獨(dú)立的整體,即各自形成一個(gè)目標(biāo)。因此,從視覺(jué)上,從屬于這6個(gè)筆畫(huà)的邊緣 在單詞"kills"的邊緣圖像中應(yīng)當(dāng)是各自連通成為一個(gè)封閉的邊緣的。只是由于某些諸如 陰影、反射及光照等客觀因素,造成了檢測(cè)出的單詞"kills"的邊緣圖像出現(xiàn)了視覺(jué)上應(yīng)當(dāng) 連通實(shí)際卻未連通的邊緣,即5處邊緣缺口。這些邊緣缺口會(huì)影響到后續(xù)對(duì)文本的提取,因 此,應(yīng)當(dāng)將這些視覺(jué)上應(yīng)當(dāng)連通卻未連通的邊緣連通成一封閉邊緣。
[0105] 要將邊緣圖像中的這些視覺(jué)上應(yīng)當(dāng)連通卻未連通的邊緣連通成一封閉邊緣,首先 要確保擬連通的邊緣從屬于同一目標(biāo)。根據(jù)研究發(fā)現(xiàn),在邊緣圖像中,從屬于同一目標(biāo)的 邊緣缺口大多出現(xiàn)在該目標(biāo)的邊緣的拐點(diǎn)處,在邊緣的拐點(diǎn)處,由于鄰域極值抑制或邊緣 走向不一致極容易造成邊緣未能連接,而在其他地方則極少有這種情況發(fā)生。這類邊緣缺 口基本具有以下特點(diǎn):1、邊緣缺口不會(huì)太大;2、邊緣缺口的兩端處于邊緣的末端。基于這 類邊緣缺口的特點(diǎn),本發(fā)明提出"鄰域末端粘合"的方法,對(duì)從屬于同一目標(biāo)的邊緣上的缺 口進(jìn)行粘合,最終使從屬于同一目標(biāo)的邊緣連接成一封閉的邊緣,該封閉邊緣所圍成的區(qū) 域就是該目標(biāo)的區(qū)域。"鄰域末端粘合"的基本思路是,采用N*N大小的子窗口遍歷整幅邊 緣圖像,在子窗口移動(dòng)的過(guò)程中,如果檢測(cè)到子窗口內(nèi)有符合粘合條件的邊緣缺口,則將該 邊緣缺口粘合,使其連接,當(dāng)該子窗口遍歷完整個(gè)邊緣圖像時(shí),從屬于同一目標(biāo)的邊緣將各 自連接成一封閉邊緣。子窗口的大小的選擇主要是為確保子窗口內(nèi)的邊緣從屬于同一目 標(biāo),根據(jù)研究發(fā)現(xiàn),從屬于同一目標(biāo)的邊緣上的缺口大多不會(huì)超過(guò)某一值,通過(guò)對(duì)多幅邊緣 圖像中從屬于同一目標(biāo)的邊緣上的缺口的寬度檢測(cè)可以大致確定出這個(gè)值的大小,根據(jù)該 值,可以為子窗口設(shè)定一個(gè)合適寬度,使得在子窗口移動(dòng)的過(guò)程中,該邊緣缺口的兩端可能 同時(shí)出現(xiàn)在子窗口中,從而檢測(cè)到該邊緣缺口。子窗口的寬度不能太過(guò)小于這個(gè)值,這樣可 能檢測(cè)不出邊緣缺口,但子窗口的寬度也不能太過(guò)大于這個(gè)值,否則可能造成檢測(cè)出的邊 緣不從屬于同一目標(biāo),從而造成錯(cuò)誤粘合。在確保子窗口內(nèi)檢測(cè)出的邊緣從屬于同一目標(biāo) 的前提下,符合粘合條件就是指,子窗口中檢測(cè)出邊緣缺口了,只要檢測(cè)出邊緣缺口就需要 將其粘合。對(duì)于上述三幅邊緣圖像中的每一幅,都采用上述方法將邊緣圖像中從屬于同一 目標(biāo)的邊緣各自連接成為封閉邊緣。各幅邊緣圖像中,每個(gè)封閉邊緣所圍成的區(qū)域作為一 連通元,據(jù)此在該邊緣圖像中形成若干連通元。
[0106] 這些連通元中包括單層型連通元或嵌套型連通元。通過(guò)"鄰域末端粘合"的方法 對(duì)邊緣圖像處理后,就可以基于此邊緣圖像提取出單層型或者嵌套型的連通元。由于各通 道(原始圖像的灰度圖像的邊緣圖像、原始圖像經(jīng)變換后的R通道的邊緣圖像、原始圖像經(jīng) 變換后的B通道的邊緣圖像)中的邊緣的位置不能嚴(yán)格對(duì)應(yīng),如果將三通道的邊緣簡(jiǎn)單相 或之后再一次性提取連通元,則會(huì)嚴(yán)重?fù)p傷那些小文字的邊緣,對(duì)大文字也會(huì)產(chǎn)生疊邊,不 利于文字的提取。而且,由灰度圖像所得的邊緣圖像總會(huì)不那么完整、封閉,而基于顏色極 性差異變換所得的b、r通道可以作為灰度圖像得邊緣圖像的一個(gè)有力補(bǔ)充。分別從各通道 提取連通單元,可以從數(shù)量上進(jìn)行保證有較多候選者,然后將這三個(gè)通道融合可以提取出 更加豐富的候選連通元。因此,本發(fā)明實(shí)施例采用先分別從各通道提取連通元進(jìn)行后續(xù)處 理以確定出屬于文字的連通元,然后將各通道屬于文字的連通元進(jìn)行融合,從而定位出文 本的方法。
[0107] 得到的這些連通元中既包含屬于文字筆畫(huà)的連通元,也包含其他連通元,為檢測(cè) 出這些連通元中屬于文字筆畫(huà)的連通元,還需要對(duì)三幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬 性分析及群落屬性分析,以判斷各連通元是否符合文字筆畫(huà)屬性及文本群落屬性,只有同 時(shí)符合文字筆畫(huà)屬性及文本群落屬性的連通元才是文字筆畫(huà)。
[0108] 筆畫(huà)屬性分析所基于的原理是,不管什么文字,其語(yǔ)言符號(hào)系統(tǒng)都有著各自的本 質(zhì)特征,一般都會(huì)保持著較高的穩(wěn)定性,不會(huì)隨著用戶或者使用場(chǎng)景而發(fā)生改變。據(jù)此,可 以從分析文字筆畫(huà)構(gòu)成方式入手,總結(jié)其文字筆畫(huà)特征規(guī)律,然后用一組寬松閾值級(jí)聯(lián)分 類器的方法從這些連通元中篩選出符合文字筆畫(huà)特征規(guī)律的連通元。筆畫(huà)特征包括以下三 個(gè)參數(shù):
[0109] 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比 值。寬高比的這種定義可以適應(yīng)文字傾斜的情形。通常,在圖像中,文字的寬度和高度的最 小值不會(huì)同時(shí)小于3個(gè)像素,最大值也不會(huì)超過(guò)圖像寬度和高度中較大者的1/2。單個(gè)文字 的寬高比則更加穩(wěn)定,雖然字體變化時(shí)會(huì)引起一些變動(dòng),但大多數(shù)情況,單個(gè)文字的寬高比 還是在區(qū)間(1/6, 1)內(nèi)取值,并且位于區(qū)間(0.7, 1.0)的密度更大,也就是說(shuō),寬高比位于 此區(qū)間段的連通元可能是文字的概率會(huì)更大一些。根據(jù)文字的這些寬高比普遍特征,可以 預(yù)設(shè)一個(gè)比值范圍(第一范圍),并檢測(cè)各連通元的寬高比。如果連通元的寬高比處于第一 范圍內(nèi),則該連通元符合文字筆畫(huà)特征,否則,該連通元不符合文字筆畫(huà)特征。
[0110] 回環(huán)筆畫(huà)的嵌套深度:連通元中回環(huán)筆畫(huà)的層數(shù)。根據(jù)前文,文字中所有粘連在一 起的部分稱為一個(gè)筆畫(huà)。而在筆畫(huà)中如果有"孔",則稱該筆畫(huà)為回環(huán)筆畫(huà)。通過(guò)分析中英 文等文字發(fā)現(xiàn),英文文字中回環(huán)筆畫(huà)的最大嵌套深度為1,而中文文字的回環(huán)筆畫(huà)的最大嵌 套深度為2,例如"回"字。在實(shí)際情形中,文字的尺寸可能比較大,樹(shù)枝等干擾可能會(huì)以投 影或反射的形式疊加至文字上而加大其輪廓嵌套深度,因此,預(yù)設(shè)的回環(huán)筆畫(huà)的嵌套深度 的上限值應(yīng)當(dāng)在單純文字的回環(huán)筆畫(huà)的嵌套深度的上限值的基礎(chǔ)上適當(dāng)提高,以增強(qiáng)抗干 擾能力,提搞的程度根據(jù)經(jīng)驗(yàn)值設(shè)定。預(yù)設(shè)好回環(huán)筆畫(huà)的嵌套深度的上限值(第一閾值) 后,就可以對(duì)各連通元進(jìn)行回環(huán)筆畫(huà)的嵌套深度分析。如果連通元回環(huán)筆畫(huà)的嵌套深度不 高于該第一閾值,則該連通元符合文字筆畫(huà)特征,否則,該連通元不符合文字筆畫(huà)特征。對(duì) 應(yīng)地,在基于邊緣的輪廓體系中,因?yàn)橐粋€(gè)筆畫(huà)有兩側(cè)邊緣,每條邊緣又可區(qū)分為內(nèi)側(cè)輪廓 和外側(cè)輪廓,因此輪廓的嵌套深度在數(shù)值上是回環(huán)筆畫(huà)嵌套深度的4倍。
[0111] 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量。這一特征主要用于濾除雜草、樹(shù)葉 等邊緣豐富錯(cuò)亂的實(shí)物所占區(qū)域,卻能有效保留文字區(qū)域。這是因?yàn)?,一方面,即使是最?fù) 雜的中文文字體系,其筆畫(huà)中的孔洞數(shù)量的上限值也是遠(yuǎn)低于雜草、樹(shù)葉等實(shí)物邊緣所形 成的孔洞數(shù)量的。另一方面,文本區(qū)域一般很少與雜亂區(qū)域粘連。實(shí)踐研究發(fā)現(xiàn),自然場(chǎng)景 下出現(xiàn)的文本,其周邊一般會(huì)有一些"留白"做襯托,保證視覺(jué)效果上的簡(jiǎn)明和突出,以便準(zhǔn) 確快速的傳播其信息,同時(shí),在語(yǔ)言使用習(xí)慣上,文字與文字之間、文本行與文本行之間都 會(huì)存在一定間隙。因此,這些"留白"和間隙就可以有效保護(hù)文字區(qū)域不受粘連、清除。因 此,根據(jù)經(jīng)驗(yàn)可以設(shè)定孔洞數(shù)量的上限值(第二閾值),并檢測(cè)各連通元的孔洞數(shù)量。如果 連通元的孔洞數(shù)量不高于第二閾值,則該連通元符合文字筆畫(huà)特征,否則,該連通元不符合 文字筆畫(huà)特征。
[0112] 只有上述三個(gè)參數(shù)同時(shí)符合文字筆畫(huà)特征的連通元,才能被認(rèn)定為是符合文字筆 畫(huà)特征的連通元。
[0113] 對(duì)于符合文字筆畫(huà)特征的連通元,再進(jìn)一步對(duì)其進(jìn)行群落屬性分析。群落屬性分 析所基于的基本原理是,出于信息傳播的需要,文本多是成批地聚集出現(xiàn),并且處于同一區(qū) 域內(nèi)的文字之間一般有著多方面的相似性,這就是其近鄰相似的群落特征。尤其是,在文字 區(qū)域內(nèi),近鄰相似度通常比較高,可以有效區(qū)別于類似雜草樹(shù)葉等連通元集群。因此,可以 通過(guò)分析連通元之間的近鄰相似度來(lái)區(qū)分屬于文本的連通元與其他連通元。
[0114] 相似度有兩種類型,即數(shù)值相似度與數(shù)集相似度。設(shè)a、b為兩個(gè)不為零的數(shù)值,它 們之間的相似度為S(a,b),則
[0115] S (a, b) = min (a. b)/max (a, b)。
[0116] 設(shè)A、B為兩個(gè)數(shù)集,A、B的均值分別為MA、Mb,標(biāo)準(zhǔn)差分別為V A、Vb,它們之間的相 似度為S(A,B),則
[0117] S (A, B) = (mine-maxs) / (maxe-mins)。其中
[0118] max s = max (Ma-Va, Mb-Vb);
[0119] mins = min (Ma-Va, Mb-Vb);
[0120] maxe = max (MA+VA, Mb+VB);
[0121] mine = min (MA+VA, Mb+VB) 〇
[0122] 后續(xù)為便于表述,設(shè)X、Y、W、H分別代表一個(gè)聯(lián)通元的最小包絡(luò)矩形框的左邊緣X 坐標(biāo)值、上邊緣Y坐標(biāo)值、寬度W及高度H。對(duì)連通元進(jìn)行群落屬性分析的步驟包括:
[0123] 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)以下步驟分析每一對(duì) 相鄰連通元之間的近鄰相似度:
[0124] 分析該對(duì)相鄰連通元之間的以下參數(shù):
[0125] 1、近鄰特征相似度:當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二 范圍內(nèi)時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為0。
[0126] 設(shè)SA、Ea分別為一維數(shù)軸上線段A的起點(diǎn)和終點(diǎn)坐標(biāo),S B、Eb分別為該一維數(shù)軸上 線段B的起點(diǎn)和終點(diǎn)坐標(biāo),線段A、B之間的間距為d,則
[0127] d = max (SA,SB) -min (Ea,Eb)。
[0128] 當(dāng)d為負(fù)值時(shí),說(shuō)明這兩條線段有交疊。如果A、B為兩個(gè)連通元,對(duì)于這兩個(gè)連通 元的最小包絡(luò)矩形框之間的間距D,可以分別從X、Y方向進(jìn)行考慮,可得到如下關(guān)系式 :
[0129] D = -y/(max(0,dx)): + (max(0,dy))2,其中,dx為X方向上A、B兩個(gè)連通元的最小包 絡(luò)矩形框之間的距離,dy為Y方向上A、B兩個(gè)連通元的最小包絡(luò)矩形框之間的距離。
[0130] 兩個(gè)矩形框遠(yuǎn)近程度的度量方法,可以采取如下小中取大的方法得出參考基準(zhǔn) Dekf,再由D/DEKF的值來(lái)衡量:
[0131] Dekf = max (min (WA,WB),min (HA,Hb))。其中Wa表示連通元A的最小包絡(luò)矩形框的寬 度,W b表示連通元B的最小包絡(luò)矩形框的寬度,Ha表示連通元A的最小包絡(luò)矩形框的高度, Hb表示連通元B的最小包絡(luò)矩形框的高度。
[0132] D/DEKF的值越大,說(shuō)明兩個(gè)矩形框之間的間距越遠(yuǎn)。通常,在英文系統(tǒng)中,較大的間 距出現(xiàn)在單詞之間,且多數(shù)時(shí)候D/D EKF的值不會(huì)超過(guò)0. 8,而在中文系統(tǒng)中,尤其是文字量 相對(duì)較少的時(shí)候,比如道路牌上的文字,間距會(huì)比較大,但一般也不會(huì)超過(guò)1. 6。另一方面, 兩個(gè)字符之間也不會(huì)過(guò)于接近或遮擋,因此,如果兩個(gè)連通元的包絡(luò)矩形框發(fā)生交疊,應(yīng)當(dāng) 首先檢查它們之間是否發(fā)生嚴(yán)重遮擋,然后再檢查它們之間是否緊鄰無(wú)縫,如果有嚴(yán)重遮 擋或緊鄰無(wú)縫,那么這兩個(gè)連通元必定不是文字對(duì),不予收錄。具體實(shí)施時(shí),可對(duì)D/D EKF的 值設(shè)定一個(gè)參考范圍(即如上所述的第二范圍),如果計(jì)算得出兩個(gè)連通元的D/DEKF的值處 于該范圍,則表示該兩個(gè)連通元為文字對(duì),予以收錄,將該兩個(gè)連通元對(duì)之間的近鄰特征相 似度記為1,否則,不予收錄,將該兩個(gè)連通元對(duì)之間的近鄰特征相似度記為0。
[0133] 尺寸相似度:相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度。兩個(gè)相鄰連通元 的最小包絡(luò)矩形框之間的尺寸相似度包括兩個(gè)相鄰連通元的最小包絡(luò)矩形框之間的寬度 相似度及高度相似度,可通過(guò)前述計(jì)算數(shù)值相似度的方法計(jì)算矩形框之間的寬度相似度和 高度相似度。計(jì)算得出的兩個(gè)結(jié)果可通過(guò)一種融合規(guī)則融合為尺寸相似度,比如取兩個(gè)結(jié) 果的平均值等。
[0134] 顏色相似度:相鄰連通元之間的顏色相似度。本發(fā)明采集數(shù)集相似度的計(jì)算方法 計(jì)算兩個(gè)連通元之間的顏色相似度。也就是將各連通元所在區(qū)域的所有像素的每一顏色通 道的顏色值作為該連通元的一個(gè)顏色通道的顏色值集合,并采用前述數(shù)值相似度的計(jì)算方 法計(jì)算該相鄰連通元之間的各顏色通道的顏色相似度,然后將各顏色通道的顏色相似度的 中值作為該相鄰連通元之間的顏色相似度。
[0135] 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度。檢測(cè)筆畫(huà)寬度時(shí),對(duì)于一個(gè) 筆畫(huà),分別統(tǒng)計(jì)位于該筆畫(huà)的1/5、2/5、3/5、4/5高度上的筆畫(huà)寬度。筆畫(huà)寬度可采用四向 最小值法的方法提取。對(duì)于提取得到的相鄰連通元的多個(gè)筆畫(huà)寬度,可采用前述數(shù)集相似 度的計(jì)算方法計(jì)算該相鄰連通元之間的筆畫(huà)寬度相似度。
[0136] 中心緊密度相似度:中心緊密度是指連通元中心區(qū)域非空面積與該中心區(qū)域面積 的比值。在英文文字中,只有"i、1、1"等少數(shù)文字的中心緊密度偏高,大多數(shù)文字則能在 這中間區(qū)域表現(xiàn)出空隙來(lái),因此這個(gè)比率就會(huì)偏小一點(diǎn)。而在中文文字中,由于筆畫(huà)相對(duì)復(fù) 雜,顯得有些飽滿,比率會(huì)整體地上升一些,但也不會(huì)至于達(dá)到100%。因此,可根據(jù)經(jīng)驗(yàn)設(shè) 置第三閾值,當(dāng)相鄰連通元的中心緊密度都高于預(yù)設(shè)的第三閾值時(shí),該對(duì)相鄰連通元之間 的中心緊密度相似度的值取為1,否則取為0。如果相鄰的兩個(gè)連通元的中心緊密度都過(guò) 高,則會(huì)被認(rèn)為不是有效的文字對(duì),應(yīng)切斷其關(guān)聯(lián),亦即它們之間的相似度為0。上述各參數(shù) 分析完成后,根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、 顏色相似度、筆畫(huà)寬度相似度及中心緊密度相似度相融合,得到該對(duì)相鄰連通元之間的近 鄰相似度。將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等 級(jí)。具體可采用經(jīng)驗(yàn)統(tǒng)計(jì)值進(jìn)行劃分。
[0137] 劃分等級(jí)后,以各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖,然 后搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并以該連通元對(duì)中兩個(gè)連通元的最小包絡(luò)矩形 框的中心確定一條直線,并以該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或等于中 且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件。這里,連通元位于該條直 線上是指,該連通元的最小包絡(luò)矩形框的中心點(diǎn)位于該條直線上或位于該條直線兩側(cè),但 與該直線的距離小于設(shè)定距離。此時(shí),提取以近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得 到的所有連通元。對(duì)于以近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如 果擴(kuò)展的連通元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。在此模塊中,計(jì)算點(diǎn)線 關(guān)系時(shí),均以字符框的中心點(diǎn)坐標(biāo)代表該字符塊。
[0138] 提取出的這些連通元就是將要進(jìn)行識(shí)別的文本。可以通過(guò)一包絡(luò)框?qū)⑦@些提取出 的連通元圈出,以示對(duì)這些文本的定位。
[0139] 以上的步驟是在同一尺度下對(duì)三幅邊緣圖像進(jìn)行處理及融合來(lái)提取出文本的。為 能夠自適應(yīng)地、較完備地檢測(cè)出圖像中未知的、多種尺寸文字,還可進(jìn)一步采取多尺度策 略,在多個(gè)尺度下按照上述方法對(duì)三幅邊緣圖像進(jìn)行處理及融合來(lái)提取文本,然后將在多 個(gè)尺度下提取出的文本進(jìn)行再次融合。邊緣檢測(cè)算法對(duì)圖像分辨率較為敏感,分辨率過(guò)小 時(shí)文字筆畫(huà)本身就會(huì)相互粘連而缺少空隙,分辨率過(guò)大時(shí)筆畫(huà)邊緣容易受干擾產(chǎn)生偏向而 不能閉合,這些都會(huì)導(dǎo)致文字不能正常檢出,因此有需要對(duì)文本圖像進(jìn)行多尺度處理,以適 應(yīng)文字大小隨機(jī)變化。實(shí)驗(yàn)中發(fā)現(xiàn),縮放尺度取0. 7、I. 0、1. 5、I. 8、2. 4五種規(guī)格較為合適, 由此可組成0. 7、I. 0、1. 5和1. 5、I. 8、2. 4兩組小大三級(jí)尺度。如果小三級(jí)尺度下中心尺度 有檢測(cè)出文字,則使用小三級(jí)尺度,否則使用大三級(jí)尺度。另一方面,在文本圖像中,分辨率 上下變化時(shí),文字邊緣會(huì)表現(xiàn)出較好的穩(wěn)定性,而非文字邊緣則較容易走樣,憑此也可以將 部分非文字連通元濾除。
[0140] 如圖3所示,本發(fā)明還提供了一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),包括:
[0141] RGB顏色極性差異變換模塊1,用于對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到 變換后的圖像;
[0142] 邊緣檢測(cè)模塊2,用于將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè) 顏色通道的邊緣圖像;同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像;
[0143] 連通元構(gòu)建模塊3,用于檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于 同一目標(biāo),且未連通的邊緣連通成一封閉邊緣,并將封閉邊緣所圍成的區(qū)域作為一連通元, 據(jù)此在每一幅邊緣圖像中形成若干連通元;
[0144] 連通元筆畫(huà)屬性分析模塊4,用于對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性 分析,將各連通元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊 緣圖像中提取出符合文字筆畫(huà)屬性的連通元;
[0145] 連通元群落屬性分析模塊5,用于對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà) 屬性的連通元進(jìn)行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比 較,并根據(jù)比較結(jié)果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元;
[0146] 圖像融合及文本定位模塊6,用于將從三幅邊緣圖像中提取出的符合文字筆畫(huà)屬 性及文本群落屬性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元, 將融合后的邊緣圖像中的各連通元作為文本。
[0147] 對(duì)原始圖像中的每一像素,設(shè)其R、G、B三個(gè)通道的原始亮度值分別為R1A^B 1,經(jīng) 過(guò)顏色極性差異變換后的亮度值分別為R2、G2、B2 ;則顏色極性差異變換公式為:
[0148] R2 = 0· 5x [max (0, R1-G1) +max (0, R1-B1)];
[0149] G2 = 0. 5x [max (0, G1-R1) +max (0, G1-B1)];
[0150] B2 = 0· 5x [max (0, B1-R1) +max (0, B1-G1)]。
[0151] 兩個(gè)顏色通道分別為R通道和B通道。
[0152] 連通元構(gòu)建模塊3檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一 目標(biāo),且未連通的邊緣連通成一封閉邊緣的方法具體為:
[0153] 通過(guò)N*N大小的子窗口遍歷每一幅邊緣圖像;N的取值以使該子窗口內(nèi)所檢測(cè)到 的邊緣從屬于同一目標(biāo)為原則;在子窗口移動(dòng)的過(guò)程中,對(duì)子窗口內(nèi)檢測(cè)到的邊緣缺口進(jìn) 行粘合。
[0154] 連通元筆畫(huà)屬性分析模塊4根據(jù)如下方式分析各連通元的筆畫(huà)屬性:
[0155] 分析每一幅邊緣圖像中各連通元的筆畫(huà)屬性;筆畫(huà)屬性包括:
[0156] 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比 值;
[0157] 回環(huán)筆畫(huà)的嵌套深度:連通元中回環(huán)筆畫(huà)的層數(shù);
[0158] 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量;
[0159] 判斷每一連通元的筆畫(huà)屬性是否同時(shí)滿足以下三個(gè)條件,如果滿足,則該連通元 符合文字筆畫(huà)屬性;
[0160] 該連通元的寬高比在預(yù)設(shè)的第一范圍內(nèi);
[0161] 該連通元的回環(huán)筆畫(huà)的嵌套深度不大于預(yù)設(shè)的第一閾值;
[0162] 該連通元的孔洞數(shù)量不大于預(yù)設(shè)的第二閾值。
[0163] 連通元群落屬性分析模塊5根據(jù)如下方式分析各連通元的群落屬性:
[0164] 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)以下步驟分析每一對(duì) 相鄰連通元之間的近鄰相似度:
[0165] 分析該對(duì)相鄰連通元之間的以下參數(shù):
[0166] 近鄰特征相似度:當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二范 圍內(nèi)時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為〇 ;
[0167] 尺寸相似度:相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度;
[0168] 顏色相似度:相鄰連通元之間的顏色相似度;
[0169] 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度;
[0170] 中心緊密度相似度:中心緊密度是指連通元中心區(qū)域非空面積與該中心區(qū)域面積 的比值;當(dāng)相鄰連通元的中心緊密度都高于預(yù)設(shè)的第三閾值時(shí),該對(duì)相鄰連通元之間的中 心緊密度相似度的值取為1,否則取為〇 ;
[0171] 根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、顏 色相似度、筆畫(huà)寬度相似度及中心緊密度相似度進(jìn)行融合處理,得到該對(duì)相鄰連通元之間 的近鄰相似度;
[0172] 將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等 級(jí);
[0173] 以各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖;
[0174] 搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并以該連通元對(duì)中兩個(gè)連通元的最小包 絡(luò)矩形框的中心確定一條直線,并以該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或 等于中且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件;
[0175] 提取以近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元;
[0176] 對(duì)于以近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如果擴(kuò)展的 連通元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。
[0177] 系統(tǒng)還包括:
[0178] 圖像縮放模塊,用于對(duì)三幅邊緣圖像進(jìn)行同等比例縮放,獲得多個(gè)尺度下的三幅 邊緣圖像;
[0179] RGB顏色極性差異變換模塊1、邊緣檢測(cè)模塊2、連通元構(gòu)建模塊3、連通元筆畫(huà)屬 性分析模塊4、連通元群落屬性分析模塊5及圖像融合及文本定位模塊6用于在每個(gè)尺度 下,按照權(quán)利要求8的方式提取文本;
[0180] 圖像融合及文本定位模塊6還用于將各尺度下提取的文本進(jìn)行融合,得到最終的 文本。本系統(tǒng)各模塊的工作原理與前述基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法中各步驟相對(duì) 應(yīng),在此不再贅述。
[0181] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,其特征在于,包括如下步驟: RGB顏色極性差異變換;對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到變換后的圖像; 邊緣檢測(cè);將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè)顏色通道的邊 緣圖像桐時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像; 構(gòu)建連通元;檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一目標(biāo),且未 連通的邊緣連通成一封閉邊緣,并將所述封閉邊緣所圍成的區(qū)域作為一連通元,據(jù)此在每 一幅邊緣圖像中形成若干連通元; 連通元筆畫(huà)屬性分析:對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性分析,將各連通 元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊緣圖像中提取出 符合文字筆畫(huà)屬性的連通元; 連通元群落屬性分析;對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà)屬性的連通元進(jìn) 行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比較,并根據(jù)比較結(jié) 果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元; 圖像融合及文本定位:將從H幅邊緣圖像中提取出的符合文字筆畫(huà)屬性及文本群落屬 性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元,將融合后的邊緣 圖像中的各連通元作為文本。
2. 如權(quán)利要求1所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,其特征在于,對(duì)原始圖像 中的每一像素,設(shè)其R、G、BH個(gè)通道的原始亮度值分別為馬、61、81,經(jīng)過(guò)顏色極性差異變換 后的亮度值分別為R2、G2、B2 ;則顏色極性差異變換公式為: 尺2= 0. 5x [max (0, Ri_Gi) +max (0, Ri_Bi)]; G2= 0. 5x [max (0, Gi_Ri) +max (0, Gi_Bi)]; B2= 0. 5x虹ax化Bi_Ri) +max化Bi_Gi)]。
3. 如權(quán)利要求1所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,其特征在于,檢測(cè)每一幅 邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一目標(biāo),且未連通的邊緣連通成一封閉邊 緣的方法具體為: 通過(guò)N*N大小的子窗口遍歷每一幅邊緣圖像;N的取值W使該子窗口內(nèi)所檢測(cè)到的邊 緣從屬于同一目標(biāo)為原則;在子窗口移動(dòng)的過(guò)程中,對(duì)子窗口內(nèi)檢測(cè)到的邊緣缺口進(jìn)行粘 合。
4. 如權(quán)利要求1所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,其特征在于,所述連通元 筆畫(huà)屬性分析的步驟包括: 分析每一幅邊緣圖像中各連通元的筆畫(huà)屬性;所述筆畫(huà)屬性包括: 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比值; 回環(huán)筆畫(huà)的嵌套深度;連通元中回環(huán)筆畫(huà)的層數(shù); 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量; 判斷每一連通元的筆畫(huà)屬性是否同時(shí)滿足W下H個(gè)條件,如果滿足,則該連通元符合 文字筆畫(huà)屬性; 該連通元的寬高比在預(yù)設(shè)的第一范圍內(nèi); 該連通元的回環(huán)筆畫(huà)的嵌套深度不大于預(yù)設(shè)的第一闊值; 該連通元的孔洞數(shù)量不大于預(yù)設(shè)的第二闊值。
5. 如權(quán)利要求1所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位方法,其特征在于,所述連通元 群落屬性分析的步驟包括: 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)W下步驟分析每一對(duì)相鄰 連通元之間的近鄰相似度: 分析該對(duì)相鄰連通元之間的W下參數(shù): 近鄰特征相似度;當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二范圍內(nèi) 時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為0 ; 尺寸相似度;相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度; 顏色相似度;相鄰連通元之間的顏色相似度; 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度; 中也緊密度相似度;中也緊密度是指連通元中也區(qū)域非空面積與該中也區(qū)域面積的比 值;當(dāng)相鄰連通元的中也緊密度都高于預(yù)設(shè)的第H闊值時(shí),該對(duì)相鄰連通元之間的中也緊 密度相似度的值取為1,否則取為0 ; 根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、顏色相 似度、筆畫(huà)寬度相似度及中也緊密度相似度進(jìn)行融合處理,得到該對(duì)相鄰連通元之間的近 鄰相似度; 將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等級(jí); W各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖; 搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并W該連通元對(duì)中兩個(gè)連通元的最小包絡(luò)矩 形框的中也確定一條直線,并W該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或等于 中且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件; 提取W近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元; 對(duì)于W近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如果擴(kuò)展的連通 元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。
6. -種基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),其特征在于,包括: RGB顏色極性差異變換模塊,用于對(duì)原始圖像進(jìn)行RGB顏色極性差異變換,得到變換后 的圖像; 邊緣檢測(cè)模塊,用于將變換后的圖像的兩個(gè)顏色通道進(jìn)行邊緣檢測(cè),得到該兩個(gè)顏色 通道的邊緣圖像;同時(shí),對(duì)原始圖像進(jìn)行邊緣檢測(cè),得到原始圖像的邊緣圖像; 連通元構(gòu)建模塊,用于檢測(cè)每一幅邊緣圖像中從屬于同一目標(biāo)的邊緣,將從屬于同一 目標(biāo),且未連通的邊緣連通成一封閉邊緣,并將所述封閉邊緣所圍成的區(qū)域作為一連通元, 據(jù)此在每一幅邊緣圖像中形成若干連通元; 連通元筆畫(huà)屬性分析模塊,用于對(duì)每一幅邊緣圖像中的各連通元進(jìn)行筆畫(huà)屬性分析, 將各連通元的筆畫(huà)屬性與預(yù)存的文字筆畫(huà)屬性進(jìn)行比較,根據(jù)比較結(jié)果從每一幅邊緣圖像 中提取出符合文字筆畫(huà)屬性的連通元; 連通元群落屬性分析模塊,用于對(duì)從每一幅邊緣圖像中提取出的符合文字筆畫(huà)屬性的 連通元進(jìn)行群落屬性分析,將各連通元的群落屬性與預(yù)存的文本群落屬性進(jìn)行比較,并根 據(jù)比較結(jié)果從符合文字筆畫(huà)屬性的連通元中提取出符合文本群落屬性的連通元; 圖像融合及文本定位模塊,用于將從H幅邊緣圖像中提取出的符合文字筆畫(huà)屬性及文 本群落屬性的連通元融合到一幅邊緣圖像中,在融合的過(guò)程中去除重復(fù)的連通元,將融合 后的邊緣圖像中的各連通元作為文本。
7. 如權(quán)利要求5所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),其特征在于,對(duì)原始圖像 中的每一像素,設(shè)其R、G、BH個(gè)通道的原始亮度值分別為馬、61、81,經(jīng)過(guò)顏色極性差異變換 后的亮度值分別為R2、G2、B2 ;則顏色極性差異變換公式為: 尺2 = 0. 5x [max (0, Ri_Gi) +max (0, Ri_Bi)]; G2 = 0. 5x [max (0, Gi_Ri) +max (0, Gi_Bi)]; B2 = 0. 5x 虹ax 化 Bi_Ri) +max 化 Bi_Gi)]。
8. 如權(quán)利要求5所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),其特征在于,所述連通元 筆畫(huà)屬性分析模塊根據(jù)如下方式分析各連通元的筆畫(huà)屬性: 分析每一幅邊緣圖像中各連通元的筆畫(huà)屬性;所述筆畫(huà)屬性包括: 寬高比:連通元的最小包絡(luò)矩形框的寬度與高度兩者之中較小值與較大值的比值; 回環(huán)筆畫(huà)的嵌套深度;連通元中回環(huán)筆畫(huà)的層數(shù); 孔洞數(shù)量:連通元內(nèi)所包含的子連通元的數(shù)量; 判斷每一連通元的筆畫(huà)屬性是否同時(shí)滿足W下H個(gè)條件,如果滿足,則該連通元符合 文字筆畫(huà)屬性; 該連通元的寬高比在預(yù)設(shè)的第一范圍內(nèi); 該連通元的回環(huán)筆畫(huà)的嵌套深度不大于預(yù)設(shè)的第一闊值; 該連通元的孔洞數(shù)量不大于預(yù)設(shè)的第二闊值。
9. 如權(quán)利要求5所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),其特征在于,所述連通元 群落屬性分析模塊根據(jù)如下方式分析各連通元的群落屬性: 對(duì)符合文字筆畫(huà)屬性的連通元中的每一對(duì)相鄰連通元,通過(guò)W下步驟分析每一對(duì)相鄰 連通元之間的近鄰相似度: 分析該對(duì)相鄰連通元之間的W下參數(shù): 近鄰特征相似度;當(dāng)相鄰連通元的最小包絡(luò)矩形框之間的距離處于預(yù)設(shè)的第二范圍內(nèi) 時(shí),該對(duì)相鄰連通元之間的近鄰相似度的值取為1,否則取為0 ; 尺寸相似度;相鄰連通元的最小包絡(luò)矩形框之間的尺寸相似度; 顏色相似度;相鄰連通元之間的顏色相似度; 筆畫(huà)寬度相似度:相鄰連通元之間的筆畫(huà)寬度相似度; 中也緊密度相似度;中也緊密度是指連通元中也區(qū)域非空面積與該中也區(qū)域面積的比 值;當(dāng)相鄰連通元的中也緊密度都高于預(yù)設(shè)的第H闊值時(shí),該對(duì)相鄰連通元之間的中也緊 密度相似度的值取為1,否則取為0 ; 根據(jù)預(yù)設(shè)的融合規(guī)則將該對(duì)相鄰連通元之間的近鄰特征相似度、尺寸相似度、顏色相 似度、筆畫(huà)寬度相似度及中也緊密度相似度進(jìn)行融合處理,得到該對(duì)相鄰連通元之間的近 鄰相似度; 將各對(duì)相鄰連通元之間的近鄰相似度按相似度高低劃分為優(yōu)、良、中、差四個(gè)等級(jí); W各對(duì)相鄰連通元之間的近鄰相似度作為連接權(quán)值,構(gòu)建無(wú)向圖; 搜索出近鄰相似度為優(yōu)或良的連通元對(duì),并W該連通元對(duì)中兩個(gè)連通元的最小包絡(luò)矩 形框的中也確定一條直線,并W該連通元對(duì)為起點(diǎn),逐級(jí)向外擴(kuò)展近鄰相似度高于或等于 中且位于該條直線上的連通元,直到?jīng)]有新的連通元符合擴(kuò)展條件; 提取W近鄰相似度為優(yōu)的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元; 對(duì)于W近鄰相似度為良的連通元對(duì)為起點(diǎn)擴(kuò)展后得到的所有連通元,如果擴(kuò)展的連通 元個(gè)數(shù)大于或等于2,則全部提取,否則,全部不提取。
10.如權(quán)利要求5所述的基于視覺(jué)結(jié)構(gòu)屬性的文本定位系統(tǒng),其特征在于,還包括: 圖像縮放模塊,用于對(duì)所述H幅邊緣圖像進(jìn)行同等比例縮放,獲得多個(gè)尺度下的H幅 邊緣圖像; 所述RGB顏色極性差異變換模塊、邊緣檢測(cè)模塊、連通元構(gòu)建模塊、連通元筆畫(huà)屬性分 析模塊、連通元群落屬性分析模塊及圖像融合及文本定位模塊用于在每個(gè)尺度下,按照權(quán) 利要求6所述的方式提取文本; 所述圖像融合及文本定位模塊還用于將各尺度下提取的文本進(jìn)行融合,得到最終的文 本。
【文檔編號(hào)】G06K9/00GK104463138SQ201410804810
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月19日 優(yōu)先權(quán)日:2014年12月19日
【發(fā)明者】王娜, 李霞, 翟芳冬 申請(qǐng)人:深圳大學(xué)