文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明涉及一種文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)。提供了一種用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的方法。該方法包括:文本背景區(qū)域檢測(TBR)步驟,用于從所述圖像中檢測至少一個(gè)TBR;CC過濾步驟,用于對所述至少一個(gè)CC進(jìn)行過濾以保留至少一個(gè)候選文本CC;和CC組合步驟,用于基于TBR檢測步驟中檢測出的TBR,組合所述至少一個(gè)候選文本CC以形成至少一個(gè)CC組,并且基于所述至少一個(gè)CC組生成至少一個(gè)文本區(qū)域。根據(jù)本發(fā)明的方法可以快速地和/或精確地指出圖像中的文本位置,從而改進(jìn)文本檢測的性能?!緦@f明】文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本公開涉及文本檢測,更具體地說,本公開涉及文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)?!?br>背景技術(shù):
】[0002]檢測圖像中的文本,尤其是自然圖像中的文本,對于一些計(jì)算機(jī)視覺應(yīng)用,比如對于視覺受損人員和外國人的計(jì)算機(jī)輔助、圖像和視頻的自動(dòng)檢索,以及都市環(huán)境中的機(jī)器導(dǎo)航來說至關(guān)重要。[0003]但是,自然場景中的文本檢測是個(gè)困難的主題。與打印的頁面、傳真、名片的掃描不同,主要的挑戰(zhàn)在于文本的多樣性:字體、字號、斜角、由于傾斜造成的失真等。比如不均勻的照明和反光、較差光照條件以及復(fù)雜的背景之類的環(huán)境因素增加了更多復(fù)雜情況。[0004]在相關(guān)文獻(xiàn)中,用于檢測自然場景中的文本區(qū)域的文本檢測方法通常遵循圖1所示出的流程。圖1中的方法100開始于框110,從圖像生成分量。這里,分量例如可以是連通體(CC),連通體是具有相似顏色或灰度或筆劃寬度的像素集合。[0005]然后,在框120,從每個(gè)分量提取各種特征,并且基于這些特征濾除非文本分量,留下候選文本分量。[0006]然后,在框130,留下的候選文本分量被組合在一起以形成文本行或單詞,并且按照文本行或單詞的最小外接框(包含文本的最小多邊形,例如矩形)輸出文本區(qū)域。[0007]現(xiàn)有技術(shù)的一個(gè)普遍問題是它們試圖僅通過文本區(qū)域的特征,比如邊緣、角、筆劃、顏色和紋理,來檢測文本。但是忽略了文本周圍的上下文信息,而上下文信息在大多數(shù)情況下可能是有幫助的。結(jié)果,現(xiàn)有技術(shù)由于復(fù)雜的非文本區(qū)域而出現(xiàn)誤檢,并且由于自然場景中文本的較大差異性而出現(xiàn)漏檢。[0008]因此,需要一種改進(jìn)的利用文本區(qū)域周圍的上下文信息在圖像中進(jìn)行文本檢測的方式。[0009]一篇已發(fā)表論文“Scenerycharacterdetect1nwithenvironmentalcontext,,,作者YasuhiroKunishige,FengYaokai,SeiichiUchida,發(fā)表于Internat1nalConferenceonDocumentAnalysisandRecognit1n(ICDAR),ppl049-1053,2011,提出了一種使用上下文信息的理念的文本檢測方法。具體而言,該篇論文從目標(biāo)分量的擴(kuò)展區(qū)域提取上下文特征,其中擴(kuò)展區(qū)域是通過在目標(biāo)分量周圍增加10個(gè)像素的裕量而形成的。此外,該方法將分量分類到六種場景分量類別之一中:“天空”、“綠地”、“招牌”、“地面”、“建筑物”和“其它”。此方法的一個(gè)問題是,比如“天空”、“綠地”的普通類另IJ與文本檢測無關(guān),而“招牌”不覆蓋文本背景區(qū)域的所有種類,比如標(biāo)志、標(biāo)簽、名冊、海報(bào)等。此方法的另一問題是,上下文信息是從具有固定大小的裕量區(qū)域中提取的,這無法適應(yīng)場景變化。另一問題是,此方法不能獲得CC在空間中的關(guān)系,例如,哪些CC屬于一個(gè)招牌,而這種信息在CC組合中是有價(jià)值的?!?br/>發(fā)明內(nèi)容】[0010]需要解決以上問題中的至少一個(gè)。[0011]發(fā)明人發(fā)現(xiàn),為了易于被看到,自然場景中的大多數(shù)文本被印在與文本形成高對比度的相對均勻的背景區(qū)域上。這可以有助于文本檢測。[0012]因此,在本公開中提出了一種新的文本檢測方法和裝置,以改進(jìn)圖像中的文本檢測的性能,尤其是自然場景圖像中文本檢測的性能。在本公開中引入一個(gè)新的概念,即文本背景區(qū)域(TBR),以定義文本周圍的此典型背景區(qū)域。在自然場景圖像中,TBR通常作為招牌、標(biāo)志、標(biāo)簽、名冊、海報(bào)等存在,但是不限于這些形式。不是直接尋找文本區(qū)域,而是通過首先尋找TBR并且將分量分類為TBR內(nèi)的分量和所有TBR外即外部區(qū)域(OR)中的分量,來搜索文本。假設(shè)比起TBR外部,文本更有可能出現(xiàn)在TBR中。并且一個(gè)文本行/單詞很少跨越兩個(gè)區(qū)域(兩個(gè)TBR或TBR和0R)?;谠摷僭O(shè),可以在連通體過濾和/或連通體組合中使用TBR信息。[0013]根據(jù)本發(fā)明的第一方面,提供了一種用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的方法。該方法包括:文本背景區(qū)域(TBR)檢測步驟,用于從圖像中檢測至少一個(gè)TBR;CC過濾步驟,用于過濾該至少一個(gè)CC以保留至少一個(gè)候選文本CC;以及連通體組合步驟,用于基于TBR檢測步驟中檢測出的TBR,組合該至少一個(gè)候選文本CC以形成至少一個(gè)CC組,并且基于該至少一個(gè)CC組生成至少一個(gè)文本區(qū)域。[0014]根據(jù)本發(fā)明的第二方面,提供了一種用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的文本檢測裝置。該裝置包括:文本背景區(qū)域(TBR)檢測單元,被配置為從該圖像中檢測TBR;CC過濾單元,被配置為過濾該至少一個(gè)CC以保留至少一個(gè)候選文本CC;CC組合單元,被配置為基于TBR檢測單元中檢測出的TBR,組合該至少一個(gè)候選文本CC以形成至少一個(gè)CC組,并且基于該至少一個(gè)CC組生成至少一個(gè)文本區(qū)域。[0015]根據(jù)本發(fā)明的第三方面,提供了一種文本信息提取方法。該方法包括:使用根據(jù)本發(fā)明的第一方面的文本檢測方法檢測來自輸入圖像或輸入視頻的文本區(qū)域;從所檢測到的文本區(qū)域提取文本;以及識別所提取的文本以得到文本信息。[0016]根據(jù)本發(fā)明的第四方面,提供了一種文本信息提取系統(tǒng)。該系統(tǒng)包括:根據(jù)本發(fā)明的第二方面的文本檢測裝置,被配置用于檢測來自輸入圖像或輸入視頻的文本區(qū)域;被配置用于從所檢測到的文本區(qū)域提取文本的提取裝置;以及被配置用于識別所提取的文本以獲得文本信息的識別裝置。[0017]通過利用這些特征,根據(jù)本發(fā)明的方法、裝置和系統(tǒng)可以快速地和/或準(zhǔn)確地指出圖像中的文本位置,從而改進(jìn)文本檢測的性能。[0018]本發(fā)明的進(jìn)一步的特征和優(yōu)點(diǎn)將通過參考附圖的以下描述而明確?!緦@綀D】【附圖說明】[0019]并入說明書并且構(gòu)成說明書的一部分的附圖圖示了本發(fā)明的實(shí)施例,并且與描述一起用于說明本發(fā)明的原理。[0020]圖1是示出用于檢測圖像中的文本區(qū)域的現(xiàn)有技術(shù)方法的流程圖。[0021]圖2是示出能夠執(zhí)行本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)的示例性硬件配置的框圖。[0022]圖3是示出根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測方法的流程圖。[0023]圖4示出根據(jù)本發(fā)明的實(shí)施例的用于基于CC和其它TBR之間的關(guān)系確定CC是否是一個(gè)TBR的示例性過程。[0024]圖5是示出根據(jù)本發(fā)明的實(shí)施例的圖3中的CC過濾步驟的流程圖。[0025]圖6示出用于執(zhí)行圖3的CC組合步驟的示例性流程圖。[0026]圖7示出用于執(zhí)行圖6的組合步驟的示例性流程圖。[0027]圖8A-8F是指示使用根據(jù)本發(fā)明的文本檢測方法的各個(gè)處理結(jié)果的示例性圖像。[0028]圖9示出說明根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測裝置的框圖。[0029]圖10示出說明根據(jù)本發(fā)明的實(shí)施例的圖9中的CC組合單元的框圖。[0030]圖11示出說明根據(jù)本發(fā)明的實(shí)施例的圖10中的組合單元的框圖。[0031]圖12是示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取方法的流程圖。[0032]圖13是示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取系統(tǒng)的框圖?!揪唧w實(shí)施方式】[0033]以下將參考附圖描述本發(fā)明的實(shí)施例。被包括到說明書中構(gòu)成說明書一部分的附圖示出了本發(fā)明的實(shí)施例并且與描述部分一起用于解釋本發(fā)明的原理。[0034]請注意,類似的參考數(shù)字和字母指的是圖中的類似的項(xiàng)目,因而一旦在一幅圖中定義了一個(gè)項(xiàng)目,就不需要在之后的圖中討論了。[0035]還請注意,在本發(fā)明中,術(shù)語“第一”、“第二”等僅用于區(qū)分元件或步驟,而不旨在指示時(shí)間順序、偏好或重要性。[0036]圖2是示出能夠?qū)嵤┍景l(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)1000的硬件配置的框圖。[0037]如圖2中所示,計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)1110。例如,計(jì)算機(jī)1110可以是數(shù)字照相機(jī)或智能電話。計(jì)算機(jī)1100包括經(jīng)由系統(tǒng)總線1121連接的處理單元1120、系統(tǒng)存儲(chǔ)器1130、固定非易失性存儲(chǔ)器接口1140、可移動(dòng)非易失性存儲(chǔ)器接口1150、用戶輸入接口1160、網(wǎng)絡(luò)接口1170、視頻接口1190和輸出外圍接口1195。[0038]系統(tǒng)存儲(chǔ)器1130包括ROM(只讀存儲(chǔ)器)1131和RAM(隨機(jī)存取存儲(chǔ)器)1132。B1S(基本輸入輸出系統(tǒng))1133駐留在R0M1131中。操作系統(tǒng)1134、應(yīng)用程序1135、其它程序模塊1136和某些程序數(shù)據(jù)1137駐留在RAMl132中。[0039]諸如硬盤之類的固定非易失性存儲(chǔ)器1141連接到固定非易失性存儲(chǔ)器接口1140。固定非易失性存儲(chǔ)器1141例如可以存儲(chǔ)操作系統(tǒng)1144、應(yīng)用程序1145、其它程序模塊1146和某些程序數(shù)據(jù)1147。[0040]諸如閃存驅(qū)動(dòng)器1151和⑶-ROM驅(qū)動(dòng)器1155之類的一個(gè)或多個(gè)可移動(dòng)非易失性存儲(chǔ)器驅(qū)動(dòng)器連接到可移動(dòng)非易失性存儲(chǔ)器接口1150。例如,諸如SD卡的閃存1152可以被插入到閃存驅(qū)動(dòng)器1151中,以及⑶(壓縮盤)1156可以被插入到⑶-ROM驅(qū)動(dòng)器1155中。要處理的圖像可以存儲(chǔ)在非易失性存儲(chǔ)器中。[0041]諸如麥克風(fēng)1161和鍵盤1162之類的輸入設(shè)備被連接到用戶輸入接口1160。[0042]計(jì)算機(jī)1110可以通過網(wǎng)絡(luò)接口1170連接到遠(yuǎn)程計(jì)算機(jī)1180。例如,網(wǎng)絡(luò)接口1170可以經(jīng)由局域網(wǎng)1171連接到遠(yuǎn)程計(jì)算機(jī)1180?;蛘?,網(wǎng)絡(luò)接口1170可以連接到調(diào)制解調(diào)器(調(diào)制器一解調(diào)器)1172,以及調(diào)制解調(diào)器1172經(jīng)由廣域網(wǎng)1173連接到遠(yuǎn)程計(jì)算機(jī)1180。[0043]遠(yuǎn)程計(jì)算機(jī)1180可以包括諸如硬盤之類的存儲(chǔ)器1181,其存儲(chǔ)遠(yuǎn)程應(yīng)用程序1185。[0044]視頻接口1190連接到監(jiān)視器1191,該監(jiān)視器可以用于顯示根據(jù)本發(fā)明的實(shí)施例的一個(gè)或多個(gè)處理結(jié)果。[0045]輸出外圍接口1195連接到打印機(jī)1196和揚(yáng)聲器1197。[0046]圖2所示的計(jì)算機(jī)系統(tǒng)僅僅是說明性的并且決不意圖對本發(fā)明、其應(yīng)用或用途進(jìn)行任何限制。[0047]圖2所示的計(jì)算機(jī)系統(tǒng)可以被實(shí)施于任何實(shí)施例,可作為獨(dú)立計(jì)算機(jī),或者也可作為設(shè)備中的處理系統(tǒng),可以移除一個(gè)或更多個(gè)不必要的組件,也可以向其添加一個(gè)或更多個(gè)附加的組件。[0048]圖3是示出根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測方法300的流程圖。還將參考圖8A-8F進(jìn)行描述以示出使用根據(jù)本發(fā)明的文本檢測方法的處理結(jié)果。[0049]根據(jù)一個(gè)實(shí)施例,圖像包括至少一個(gè)連通體(CC)。CC是具有相似的顏色或灰度值的像素群。一個(gè)群中的像素可以在空間中以4鄰域方式或8鄰域方式相連。CC可以在TBR檢測步驟之前通過例如顏色聚類、自適應(yīng)二值化、形態(tài)學(xué)處理等從圖像生成。在其中一個(gè)實(shí)施例中,CC可以基于MSER方法從灰度圖像生成,MSER方法在J.Matas,0.Chum,Μ.Urban,和T.Pajdla的“Robustwidebaselinestereofrommaximallystableextremalreg1ns,,,Proc.0fBritishMachineVis1nConference,pp.384-396,2002中描述,該篇文獻(xiàn)通過引用被包括在此。在一個(gè)實(shí)施例中,為了檢測暗背景上的亮文本以及亮背景上的暗文本,CC生成可以應(yīng)用于兩個(gè)通道,一個(gè)通道用于原始圖像,另一個(gè)用于反色圖像。但是這不是必須的。[0050]作為一個(gè)例子,圖8A和圖8B分別示出一幅灰度圖像和該圖像中生成的CC。在圖SB中,每個(gè)黑線框指示一個(gè)CC,S卩,黑線框是CC的最小外接框(包含該CC的最小四邊形)。[0051]在框310中,執(zhí)行文本背景區(qū)域(TBR)檢測步驟以從輸入圖像檢測至少一個(gè)TBR。[0052]根據(jù)一個(gè)實(shí)施例,TBR檢測步驟可以基于該圖像中包括的CC來執(zhí)行。TBR可以是具有特殊性質(zhì)的一種Ce。根據(jù)一個(gè)實(shí)施例,TBR可以是該圖像中文本的周圍區(qū)域,具有規(guī)則的邊界和均勻的顏色或灰度。在自然場景圖像中,TBR通常作為招牌、標(biāo)志、標(biāo)簽、名冊、海報(bào)等存在,但是不限于這些形式。[0053]根據(jù)一個(gè)實(shí)施例,TBR可以從圖像中包含的CC中選擇??梢詸z查每個(gè)CC以確定它是否是TBR。在進(jìn)行確定時(shí)可以考慮三個(gè)方面的性質(zhì):該CC的特征、該CC中的成員CC的統(tǒng)計(jì)特征,以及該CC和其它TBR之間的關(guān)系。這些方面可以單獨(dú)地或以任何組合地使用以用于TBR檢測。這里,當(dāng)前CC中的成員CC是位于當(dāng)前CC的邊界內(nèi)的CC并且具有與當(dāng)前CC的高對比度。成員CC可以從當(dāng)前CC的相反通道提取。例如,暗CC的成員CC可以是該暗CC的區(qū)域中的亮CC,反之亦然。[0054]圖8C示出具有兩個(gè)檢測出的TBR的圖像,兩個(gè)檢測出的TBR以白線框表示。[0055]CC的特征[0056]可以基于CC的特征來檢查CC以確定它是否是TBR。CC的特征可以包括例如以下中的至少一項(xiàng):cc的顏色或灰度均勻性;cc的大小;cc的形狀;cc的邊界規(guī)則度;cc在圖像中的位置;cc的平均灰度值;以及CC的灰度值分布。[0057]注意到,TBR的尺寸通常相對較大。因此根據(jù)一個(gè)實(shí)施例,所有CC可以按照大小排序,而TBR可以從最大的前η個(gè)CC中選擇。[0058]還注意到,TBR通常位于圖像中顯著的位置,而不是圖像的邊緣區(qū)域。因此,根據(jù)另一個(gè)實(shí)施例,位于邊緣區(qū)域中的CC可以作為非TBR區(qū)域被過濾掉。例如,邊緣區(qū)域可以定義為圖像的外環(huán)區(qū)域,其具有特定的寬度,比如圖像寬度的Ι/m或圖像高度的1/m。[0059]根據(jù)另一個(gè)實(shí)施例,由于TBR通常具有規(guī)則邊界,因此可以在確定TBR時(shí)考慮CC的邊界規(guī)則度??梢酝ㄟ^CC密度(CC在最小外接框中所占的比例)、邊界比(邊界像素與CC像素的量的比),以及邊界對稱性(在四個(gè)象限中邊界的相似性,可以通過四個(gè)象限中的密度差來估計(jì)),來衡量邊界規(guī)則度。[0060]根據(jù)另一個(gè)實(shí)施例,可以使用多個(gè)特征來區(qū)分TBR與高曝光區(qū),因?yàn)門BR不應(yīng)是由高曝光造成的。注意到,高曝光通常具有較高的平均灰度值,中心的灰度值甚至比平均值更高。因此CC的平均灰度值和灰度值分布可以用于區(qū)分TBR和高曝光區(qū)。[0061]CC中的成員CC的統(tǒng)計(jì)信息[0062]可以基于CC中成員CC的統(tǒng)計(jì)信息檢查CC以確定它是否是TBR。這里,當(dāng)前CC的成員CC是位于當(dāng)前CC的邊界內(nèi)的CC并且具有相對于當(dāng)前CC的高對比度。成員CC的區(qū)域完全在當(dāng)前CC的邊界內(nèi)。成員CC可以從當(dāng)前CC的相反通道提取。例如,暗CC的成員CC可以是該暗CC的邊界內(nèi)的亮CC,反之亦然。[0063]成員CC的統(tǒng)計(jì)信息可以包括例如以下各項(xiàng)中的至少一個(gè):CC中的成員CC的數(shù)量;成員CC中的種子CC數(shù)量;CC中成員CC的平均文本置信度;以及CC中成員CC的總面積與CC的面積的比。[0064]為了說明,CC中的成員CC的數(shù)量優(yōu)選地高于一閾值。[0065]成員CC之中的種子CC的數(shù)量優(yōu)選地高于一閾值。這里,種子CC是指很有可能是文本分量的Ce。例如,種子CC可以是具有高于預(yù)定閾值的文本置信度的CC。為了選擇種子CC,可以從CC中提取一組特征以用于計(jì)算CC的文本置信度。[0066]作為實(shí)例,圖8D在白線框中示出一些種子CC。[0067]通常使用的用于種子CC選擇的特征可以包括:CC大小、CC寬度/高度比、CC密度(gp,CC像素在其最小外接框內(nèi)的占比)、CC筆劃寬度的統(tǒng)計(jì)特征、從CC區(qū)域提取的紋理特征。在一個(gè)實(shí)施例中,這些特征可以用作調(diào)整文本置信度的規(guī)則。在另一個(gè)實(shí)施例中,可以基于包括文本CC和非文本CC的訓(xùn)練集學(xué)習(xí)文本分類器。該分類器使用CC的特征作為輸入,并且輸出CC的文本置信度值。[0068]CC和其它TBR之間的關(guān)系[0069]可以基于CC與其它TBR的關(guān)系來檢查該CC以確定它是否是TBR。根據(jù)一個(gè)實(shí)施例,基于至少一個(gè)CC和其它TBR之間的關(guān)系來從CC中選擇TBR可以包括,如果CC不是任何先前確定的TBR中的成員CC并且與先前確定的TBR不具有相同的成員CC,則將該CC確定為TBR。換言之,TBR通常彼此不重疊或包含。[0070]作為實(shí)例,圖4示出用于基于CC和其它TBR之間的關(guān)系確定CC是否是TBR的過程400。[0071]在框410中,確定當(dāng)前CC是否是先前確定的TBR的成員CC。如果當(dāng)前CC是先前確定的TBR的成員CC,則將其標(biāo)識為不是TBR。否則,過程400前進(jìn)到框420,確定當(dāng)前CC是否與先前確定的TBR具有相同的成員CC。如果當(dāng)前CC與先前確定的TBR沒有任何相同的成員CC,則當(dāng)前CC被標(biāo)識為TBR。否則,過程400前進(jìn)到框430,確定當(dāng)前CC和該先前確定的TBR中的哪一個(gè)更有可能是TBR。如果當(dāng)前CC更有可能是TBR,則將先前確定的TBR從TBR集合中移除(框440)并且當(dāng)前CC被標(biāo)識為TBR。否則,當(dāng)前CC被標(biāo)識為不是TBR。[0072]在框430中可以存在各種方式來確定哪一個(gè)更有可能是TBR。例如,可以使用以上描述的一個(gè)或多個(gè)準(zhǔn)則,比如邊界規(guī)則度、CC密度、成員CC的平均文本置信度等。[0073]參考回圖3,已經(jīng)從圖像中檢測出TBR后,過程300前進(jìn)到框320。在框320,執(zhí)行CC過濾步驟以過濾至少一個(gè)CC,以保留至少一個(gè)候選文本CC。[0074]具體而言并且優(yōu)選地,在從CC選擇TBR之后,剩下的CC是非TBRCC,包括候選文本CC和非文本CC。在此步驟之后,候選文本CC被保留,而非文本CC被去除。[0075]根據(jù)一個(gè)實(shí)施例,使用TBR信息過濾CC。優(yōu)選地,TBR邊界內(nèi)的CC和不在任何TBR邊界內(nèi)的CC都基于相同的規(guī)則過濾。例如,TBR邊界內(nèi)的CC和不在任何TBR邊界內(nèi)的CC基于以下各項(xiàng)中的至少一項(xiàng)被過濾:CC的大小、CC的形狀;CC的最小外接框的寬高比;CC和其最小外接框的面積比;CC的周長和面積的比;以及CC的紋理特征。[0076]優(yōu)選地,當(dāng)過濾CC時(shí),CC的大小可以基于經(jīng)驗(yàn)值在預(yù)先確定的范圍內(nèi)選擇。CC的最小外接框的寬高比可以被選為小于預(yù)定閾值,因?yàn)槲谋綜C的寬高比通常不會(huì)太大。CC和其最小外接框的面積比不應(yīng)該太低并且應(yīng)該被選為高于根據(jù)經(jīng)驗(yàn)值的預(yù)定閾值。CC的周長和面積比可以低于預(yù)定閾值。這是為了去除噪聲CC,因?yàn)樵肼旵C的周長和面積比通常相對較大。從CC提取的紋理特征,比如小波、Gabor、LBP,可以用于計(jì)算文本置信度并因此可以在過濾CC時(shí)包括進(jìn)來。[0077]注意到文本更有可能出現(xiàn)在TBR中而不是TBR外。因此根據(jù)另一個(gè)實(shí)施例,可以在過濾CC時(shí)使用TBR信息以便進(jìn)一步改進(jìn)過濾的效率和精度。[0078]具體而言,例如,在CC過濾步驟中,對于不在任何TBR邊界內(nèi)的CC的過濾可以比對于在TBR邊界內(nèi)的CC的過濾更嚴(yán)格。例如,相比于在TBR邊界內(nèi)的CC,可以通過更多規(guī)則過濾不在任何TBR邊界內(nèi)的CC。[0079]這是由于,被確定為不在任何TBR邊界內(nèi)的CC具有相對較低的計(jì)算出的文本置信度并且因此傾向于是噪聲。因此可以執(zhí)行細(xì)過濾以去除非文本CC。[0080]優(yōu)選地,可以進(jìn)一步基于筆劃寬度統(tǒng)計(jì)信息和/或CC的邊界像素?cái)?shù)量與CC的像素?cái)?shù)量的比來過濾不在任何TBR邊界內(nèi)的CC。例如,筆劃寬度統(tǒng)計(jì)信息可以包括筆劃寬度的變化和平均筆劃寬度的比。[0081]作為實(shí)例,圖5是示出根據(jù)本發(fā)明的實(shí)施例的CC過濾步驟的流程圖。[0082]在圖5中,基于TBR信息以若干階段,比如兩個(gè)階段,執(zhí)行過濾。例如,兩個(gè)階段包括粗過濾和細(xì)過濾。所有非TBRCC都經(jīng)歷粗過濾,而僅僅不在任何TBR邊界內(nèi)的CC可經(jīng)歷細(xì)過濾??梢栽诖诌^濾中使用簡單的特征,而可以在細(xì)過濾中使用更復(fù)雜的特征。因此,對于不在任何TBR邊界內(nèi)的CC的過濾比對于TBR邊界內(nèi)的CC的過濾嚴(yán)格。如此,經(jīng)歷細(xì)過濾的CC的量減少,從而該方法的效率將改進(jìn)。[0083]在框510中,將非TBRCC分成兩組:CCik,即,在TBR邊界內(nèi)的CC,和CCqk,即不在任何TBR邊界內(nèi)的CC。[0084]在框520中,對所有非TBRCC執(zhí)行第一過濾步驟,比如粗過濾。具體而言,每個(gè)非TBRCC被確定為候選文本CC或非文本CC。[0085]可以基于每個(gè)非TBRCC的一個(gè)或多個(gè)第一特征執(zhí)行第一過濾步驟,以確定該CC是否是候選文本Ce。第一特征是從CC提取的并且可以是相對簡單的特征,包括但不限于:CC的大小、CC的形狀、CC的最小外接框的寬高比、CC密度(CC與其最小外接框的面積比)、CC的周長與面積之比,以及CC的紋理特征。作為實(shí)例,文本特征可以包括但不限于:局部二元模式、邊緣方向直方圖、梯度方向直方圖。[0086]第一特征可以用作級聯(lián)規(guī)則或被組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器。級聯(lián)規(guī)則或分類器的閾值可以從文本和非文本樣本學(xué)習(xí)。當(dāng)級聯(lián)規(guī)則用于過濾時(shí),每個(gè)輸入CC可以按照預(yù)定義的規(guī)則進(jìn)行檢查,并且不滿足規(guī)則中的至少一個(gè)的CC將被濾除。[0087]在框530中,對每個(gè)候選文本即由第一過濾步驟確定為候選文本CC的CCrai,執(zhí)行比如細(xì)過濾的第二過濾步驟,以進(jìn)一步確定候選文本CCtffi是否是候選文本CC。因?yàn)镃Crai即使在框520中被確定為候選文本CC,也傾向于是噪聲,因此第二過濾可以進(jìn)一步去除非文本CC。[0088]在第二過濾步驟中,可以對框520中使用的特征采用更嚴(yán)格的條件,和/或可使用一些其他特征用于過濾。其他特征可包括筆劃寬度統(tǒng)計(jì)信息(例如,筆劃寬度變化與平均筆劃寬度的比)和/或邊界像素?cái)?shù)量與CC像素?cái)?shù)量的比。[0089]類似于第一過濾步驟,用于第二過濾的特征可以用作級聯(lián)規(guī)則或被組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器。級聯(lián)規(guī)則或分類器的閾值可以從文本和非文本樣本學(xué)習(xí)。當(dāng)級聯(lián)規(guī)則用于過濾時(shí),每個(gè)輸入的CC可以由預(yù)定規(guī)則檢查,并且將濾除不滿足規(guī)則中的至少一個(gè)的CC。[0090]返回參見圖3,在獲得候選文本CC之后,過程300前進(jìn)到框330。在框330,執(zhí)行CC組合步驟以基于在TBR檢測步驟中檢測的TBR組合該至少一個(gè)候選文本CC,以形成至少一個(gè)CC組,并且基于該至少一個(gè)CC組生成至少一個(gè)文本區(qū)域。[0091]用于執(zhí)行CC組合步驟330的示例性流程圖示于圖6中。如圖6中所示,CC組合步驟330可以包括步驟610-630。[0092]CC組合步驟的輸入是候選文本CC。[0093]在步驟610中,候選文本CC被分配到各個(gè)文本背景區(qū)域中。不能分配到TBR中的候選文本CC被分配到外部區(qū)域中。[0094]步驟610類似于如圖5的框510中示出的步驟。因此省略對于步驟610的描述。應(yīng)注意,如果在步驟310中沒有檢測到TBR,則所有CC都在外部區(qū)域中。在分配候選文本CC之后,流程前進(jìn)到步驟620.[0095]在步驟620,每個(gè)TBR和外部區(qū)域中的CC分別被組合以形成CC組。[0096]在此步驟中,一個(gè)區(qū)域中的CC是基于它們的空間關(guān)系和外觀相似度而被組合的。在圖7中示出了用于執(zhí)行圖6的組合步驟620的示例性流程圖。[0097]如圖7中所示,組合步驟620可以包括步驟6201-6203。[0098]在步驟6201中,每個(gè)TBR和外部區(qū)域中的CC被劃分為暗區(qū)域中的亮CC集合和亮區(qū)域中的暗CC集合。[0099]在步驟6202中,分別在該亮CC集合和該暗CC集合內(nèi)生成CC組。[0100]根據(jù)優(yōu)選實(shí)施例,通過CC聚類生成CC組。CC聚類使用以下限制條件中的一個(gè)或多個(gè):符合特定方向的CC中心的排列;cc大小的相似度;cc形狀的相似度;cc顏色或灰度的相似度;cc筆劃寬度的相似度;和CC之間的距離。[0101]根據(jù)另一實(shí)施例,CC組首先通過霍夫變換生成。作為霍夫變換的結(jié)果,中心在一條線上的CC被組合在一起。然后,使用以上限制條件過濾所生成的CC組中包含的CC。[0102]在步驟6203中,在亮CC和暗CC在步驟6202中被分別組合之后,該亮CC集合和該暗CC集合基于它們的空間關(guān)系和/或外觀相似度被結(jié)合。[0103]在步驟6203中通常使用的用于結(jié)合CC組的特征包括例如:兩個(gè)特定組的最小外接框的重疊比例、大小相似度(大小差異優(yōu)選地小于兩個(gè)組的高度最大值),以及行方向相似度(方向差異優(yōu)選小于30度)。在實(shí)踐中可以使用以上特征中的一個(gè)或任何組合。[0104]在完成步驟6203之后,分別形成了每個(gè)TBR和外部區(qū)域中的CC組。流程前進(jìn)到圖6中的步驟630。[0105]在步驟630中,來自每個(gè)TBR和外部區(qū)域中不同區(qū)域的CC組被結(jié)合以生成文本區(qū)域。[0106]在此步驟中,來自不同區(qū)域的CC組基于以下中的至少一項(xiàng)被結(jié)合:行方向的一致性;cc的平均大小的相似度;CC的平均筆劃寬度的相似度;和CC的平均顏色或灰度的相似度。[0107]優(yōu)選地,用于結(jié)合來自不同區(qū)域的CC組的規(guī)則可以比用于組合來自一個(gè)區(qū)域的CC組的規(guī)則嚴(yán)格。由于來自不同區(qū)域的CC組不彼此重疊,可不使用最小外接框的重疊比。[0108]CC組合步驟330在步驟630完成時(shí)完成。[0109]圖8E示出CC組合步驟330的結(jié)果??蓮膱D8E中看出,候選文本CC已經(jīng)被組合為文本行/單詞,其中屬于相同字符串的CC使用白線連接。[0110]文本檢測方法300在CC組合步驟330完成時(shí)結(jié)束。[0111]圖8F示出文本檢測方法300的結(jié)果??梢钥闯鲆呀?jīng)從輸入圖像檢測出基于文本行/單詞的最小外接框的文本區(qū)域。最終檢測的文本區(qū)域由白線框指示。[0112]現(xiàn)在將參考圖9說明用于根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測裝置900的框圖。裝置900可以用于實(shí)現(xiàn)參考圖3-7描述的方法。為了簡潔,在此省略與參考圖3-7所描述的細(xì)節(jié)相似的一些細(xì)節(jié)。然而,應(yīng)意識到這些細(xì)節(jié)也可適用于裝置900。[0113]根據(jù)圖9中示出的實(shí)施例,文本檢測裝置900可包括文本背景區(qū)域(TBR)檢測單元910、CC過濾單元920和CC組合單元930。[0114]文本背景區(qū)域(TBR)檢測單元910可以被配置為從圖像中檢測TBR。[0115]CC過濾單元920可以被配置為過濾至少一個(gè)CC以保留至少一個(gè)候選文本CC。[0116]CC組合單元930可以被配置為基于在TBR檢測單元中檢測的TBR組合該至少一個(gè)候選文本CC以形成至少一個(gè)CC組,并且基于該至少一個(gè)CC組生成至少一個(gè)文本區(qū)域。[0117]在此,TBR可以定義為圖像中文本的周圍區(qū)域,并且具有規(guī)則的邊界和均勻的顏色或灰度。[0118]根據(jù)一個(gè)實(shí)施例,TBR檢測單元910可以被配置為基于以下各項(xiàng)中的至少一項(xiàng)從至少一個(gè)CC中選擇TBR:該至少一個(gè)CC的特征;該至少一個(gè)CC中的成員CC的統(tǒng)計(jì)信息,其中成員CC是位于該至少一個(gè)CC的邊界內(nèi)的CC并且具有與該至少一個(gè)CC的高對比度;以及該至少一個(gè)CC和其它TBR之間的關(guān)系。[0119]例如,該至少一個(gè)CC的特征可以包括以下中的至少一項(xiàng):CC的顏色或灰度均勻性;cc的大?。籆C的形狀;CC的邊界規(guī)則度;CC在圖像中的位置;CC的平均灰度值;以及CC的灰度值分布。[0120]例如,成員CC的統(tǒng)計(jì)信息可以包括以下中的至少一項(xiàng):CC中的成員CC的數(shù)量;成員CC的種子CC的數(shù)量,其中種子CC具有比第一預(yù)定閾值高的文本置信度;CC中成員CC的平均文本置信度;以及CC中成員CC的總面積與CC的面積的比。[0121]例如,基于該至少一個(gè)CC和其它TBR之間的關(guān)系來從該至少一個(gè)CC中選擇TBR可以包括響應(yīng)于CC不是任何先前確定的TBR中的成員CC以及不具有與先前確定的TBR相同的成員CC來將該CC確定為TBR。這可以通過由TBR檢測單元910執(zhí)行圖4中示出的流程圖來實(shí)現(xiàn)。[0122]根據(jù)一個(gè)實(shí)施例,在CC過濾單元920中,對于不在任何TBR邊界內(nèi)的CC的過濾可以比在TBR邊界內(nèi)的CC的過濾嚴(yán)格。[0123]根據(jù)一個(gè)實(shí)施例,CC過濾單元920被配置為基于以下各項(xiàng)中的至少一項(xiàng)過濾TBR邊界內(nèi)的CC和不在任何TBR邊界內(nèi)的CC:CC的大小、CC的形狀;CC的最小外接框的寬高比;CC和其最小外接框的面積比;CC的周長和面積的比;以及CC的紋理特征。優(yōu)選地,CC過濾單元920被配置為進(jìn)一步基于以下條件中的至少一項(xiàng)來過濾不在任何TBR內(nèi)的CC:筆劃寬度統(tǒng)計(jì)信息;和CC的邊界像素?cái)?shù)量與CC的像素?cái)?shù)量的比。[0124]圖10示出說明根據(jù)本發(fā)明的實(shí)施例的圖9中的CC組合單元930的框圖。[0125]根據(jù)一個(gè)實(shí)施例,CC組合單元930可以進(jìn)一步包括分配單元9301、組合單元9302,以及第一結(jié)合單元9303。[0126]分配單元9301可以被配置為將候選文本CC分配到各個(gè)文本背景區(qū)域中,并且將不能被分配到TBR中的候選文本CC分配到外部區(qū)域中。[0127]組合單元9302可以被配置為將每個(gè)TBR和外部區(qū)域中的CC分別組合形成CC組。[0128]第一結(jié)合單元9303可以被配置為結(jié)合來自每個(gè)TBR和外部區(qū)域中的不同區(qū)域的CC組以生成所述至少一個(gè)文本區(qū)域。[0129]根據(jù)一個(gè)實(shí)施例,第一結(jié)合單元9303可以被配置為基于以下條件中的至少一項(xiàng)結(jié)合來自不同區(qū)域的CC組:行方向的一致性;cc組的組最小外接框的重疊比;cc的平均大小的相似度;cc的平均筆劃寬度的相似度;和CC的平均顏色或灰度的相似度。[0130]圖11示出說明根據(jù)本發(fā)明的實(shí)施例的圖10中的組合單元9302的框圖。[0131]根據(jù)一個(gè)實(shí)施例,組合單元9302可以進(jìn)一步包括劃分單元9302-1、生成單元9302-2,以及第二結(jié)合單元9302-3。[0132]劃分單元9302-1可以被配置為將每個(gè)TBR和外部區(qū)域中的CC劃分為暗區(qū)域中的亮CC集合和亮區(qū)域中的暗CC集合。[0133]生成單元9302-2可以被配置為分別在該亮CC集合和該暗CC集合內(nèi)生成CC組。[0134]第二結(jié)合單元9302-3可以被配置為將該亮CC集合和該暗CC集合基于它們的空間關(guān)系和外觀相似度中的至少一項(xiàng)結(jié)合。[0135]根據(jù)一個(gè)實(shí)施例,在生成單元9302-2中,可以通過CC聚類生成CC組。CC聚類可以使用以下限制條件中的至少一項(xiàng):符合特定方向的CC中心的排列;cc大小的相似度;cc形狀的相似度;cc顏色或灰度的相似度;CC筆劃寬度的相似度;和CC之間的距離。[0136]根據(jù)一個(gè)實(shí)施例,生成單元9302-2可以進(jìn)一步被配置為:通過霍夫變換生成CC組;以及使用以下限制條件中的至少一項(xiàng)過濾所生成的CC組中包含的CC:符合特定方向的CC中心的排列;cc大小的相似度;cc形狀的相似度;cc顏色或灰度的相似度;cc筆劃寬度的相似度;和CC之間的距離。[0137]根據(jù)一個(gè)實(shí)施例,用于在第一結(jié)合單元9303中的結(jié)合的規(guī)則可以比用于在組合單元9302中的組合的規(guī)則嚴(yán)格。[0138]根據(jù)本發(fā)明的文本檢測方法和裝置具有多種用途。例如,其可以用在從照相機(jī)拍攝的圖像或視頻中自動(dòng)提取文本信息。[0139]圖12示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取方法。[0140]如圖12中所示,在框1210中,使用根據(jù)參考圖3-7描述的文本檢測方法的文本檢測方法檢測來自輸入圖像或輸入視頻的文本區(qū)域。[0141]在框1220中,可以從檢測出的文本區(qū)域提取文本??蛇x地,當(dāng)從輸入視頻中檢測文本區(qū)域時(shí),輸入視頻中的文本可以被跟蹤,如框1240中所示。[0142]在框1230中,可以對提取的文本執(zhí)行文本識別以獲取文本信息。[0143]現(xiàn)在參考圖13說明根據(jù)本發(fā)明的實(shí)施例的文本信息提取系統(tǒng)1300的框圖。系統(tǒng)1300可以用于實(shí)現(xiàn)參考圖12描述的方法。[0144]如圖13中所示,系統(tǒng)1300可以包括文本檢測裝置1310、提取裝置1320,和識別裝置1330.[0145]文本檢測裝置1310可以被配置用于從輸入圖像或輸入視頻中檢測文本區(qū)域并且可以與參考圖9描述的裝置910相同。[0146]提取裝置1320可以被配置用于從檢測出的文本區(qū)域提取文本。[0147]識別裝置1330可以被配置用于識別所提取的文本以獲取文本信息。[0148]可選地,系統(tǒng)1300可以進(jìn)一步包括跟蹤裝置1340。當(dāng)文本檢測裝置1310被配置為從輸入視頻中檢測文本區(qū)域時(shí),跟蹤裝置1340可以被配置為跟蹤輸入視頻中的文本。[0149]將意識到,關(guān)于圖9-11和圖13描述的單元和裝置是示例性的和/或優(yōu)選的模塊以用于實(shí)現(xiàn)各種步驟。這些模塊可以是硬件單元(比如處理器、專用集成電路等)和/或軟件模塊(比如計(jì)算機(jī)程序)。用于實(shí)現(xiàn)各種步驟的模塊未在以上窮盡地描述。然而,當(dāng)存在執(zhí)行特定處理的步驟時(shí),可能存在對應(yīng)的功能性模塊或單元(由硬件和/或軟件實(shí)現(xiàn))用于實(shí)現(xiàn)該處理。以上和以下描述的所有步驟組合和對應(yīng)于這些步驟的單元的技術(shù)方案包括在本申請的公開范圍中,只要它們構(gòu)成的技術(shù)方案是完整的并且可應(yīng)用的。[0150]此外,構(gòu)成各種單元的以上裝置和系統(tǒng)可以包括在比如計(jì)算機(jī)的硬件設(shè)備中作為功能性模塊。當(dāng)然,該計(jì)算機(jī)除了這些功能性模塊之外具有其他硬件或軟件組件。[0151]可以通過許多方式來實(shí)施本發(fā)明的方法、裝置和系統(tǒng)。例如,可以通過軟件、硬件、固件、或其任何組合來實(shí)施本發(fā)明的方法和裝置。上述的方法步驟的次序僅是說明性的,本發(fā)明的方法步驟不限于以上具體描述的次序,除非以其他方式明確說明。此外,在一些實(shí)施例中,本發(fā)明還可以被實(shí)施為記錄在記錄介質(zhì)中的程序,其包括用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而,本發(fā)明還覆蓋存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。[0152]雖然已通過示例詳細(xì)展示了本發(fā)明的一些具體實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述示例僅意圖是說明性的而不限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實(shí)施例可以被修改而不脫離本發(fā)明的范圍和實(shí)質(zhì)。本發(fā)明的范圍是通過所附的權(quán)利要求限定的。【權(quán)利要求】1.一種文本檢測方法,所述文本檢測方法用于檢測包括至少一個(gè)連通體的圖像中的文本區(qū)域,所述方法包括:文本背景區(qū)域檢測步驟(310),用于從所述圖像中檢測文本背景區(qū)域;連通體過濾步驟(320),用于對所述至少一個(gè)連通體進(jìn)行過濾,以保留至少一個(gè)候選文本連通體;和連通體組合步驟(330),用于基于文本背景區(qū)域檢測步驟中檢測出的文本背景區(qū)域,組合所述至少一個(gè)候選文本連通體以形成至少一個(gè)連通體組,并且基于所述至少一個(gè)連通體組生成至少一個(gè)文本區(qū)域。2.如權(quán)利要求1所述的方法,其中所述文本背景區(qū)域是所述圖像中的文本的周圍區(qū)域,并且具有規(guī)則的邊界以及均勻顏色或灰度。3.如權(quán)利要求1或2所述的方法,其中文本背景區(qū)域檢測步驟(310)包括基于以下至少之一從所述至少一個(gè)連通體中選擇文本背景區(qū)域:所述至少一個(gè)連通體的特征;所述至少一個(gè)連通體內(nèi)的成員連通體的統(tǒng)計(jì)信息,其中成員連通體是位于所述至少一個(gè)連通體的邊界內(nèi)、且相對于所述至少一個(gè)連通體具有高對比度的連通體;和所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系。4.如權(quán)利要求3所述的方法,其中所述至少一個(gè)連通體的特征包括以下至少一項(xiàng):連通體的顏色或灰度均勻性、連通體的大小、連通體的形狀、連通體的邊界規(guī)則度、連通體在圖像中的位置、連通體的平均灰度值,和連通體的灰度值分布。5.如權(quán)利要求3所述的方法,其中,所述成員連通體的統(tǒng)計(jì)信息包括以下至少一項(xiàng):所述連通體內(nèi)的成員連通體的數(shù)量;所述成員連通體中文本置信度高于第一預(yù)定義閾值的種子連通體的數(shù)量;所述連通體內(nèi)的成員連通體的平均文本置信度;和所述連通體內(nèi)的成員連通體的總面積與所述連通體的面積之比。6.如權(quán)利要求3所述的方法,其中,基于所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系來從所述至少一個(gè)連通體中選擇文本背景區(qū)域包括:響應(yīng)于該連通體不是先前已確定的文本背景區(qū)域內(nèi)的成員連通體并且與該先前已確定的文本背景區(qū)域不包含相同的成員連通體,將該連通體確定為文本背景區(qū)域。7.如權(quán)利要求1或2所述的方法,其中,在所述連通體過濾步驟(320)中,對不處于任何文本背景區(qū)域的邊界內(nèi)的連通體的過濾比對處于文本背景區(qū)域的邊界內(nèi)的連通體的過濾更嚴(yán)格。8.如權(quán)利要求1所述的方法,其中,在所述連通體過濾步驟(320)中,基于以下各項(xiàng)中的至少一項(xiàng)對處于文本背景區(qū)域的邊界內(nèi)的連通體和不處于任何文本背景區(qū)域的邊界內(nèi)的連通體進(jìn)行過濾:連通體的大??;連通體的形狀;連通體的最小外接框的寬高比;連通體與其最小外接框的面積比;連通體的周長與面積之比;以及連通體的紋理特征。9.如權(quán)利要求8所述的方法,其中進(jìn)一步基于以下各項(xiàng)中的至少一項(xiàng)對不處于任何文本背景區(qū)域內(nèi)的連通體進(jìn)行過濾:筆劃寬度統(tǒng)計(jì)信息;以及連通體邊界的像素?cái)?shù)與該連通體的像素?cái)?shù)之比。10.如權(quán)利要求1或2所述的方法,所述連通體組合步驟(330)進(jìn)一步包括:a)將所述候選文本連通體分配到各個(gè)文本背景區(qū)域中并且將不能分配到文本背景區(qū)域中的連通體分配到外部區(qū)域中(610);b)將每個(gè)文本背景區(qū)域和所述外部區(qū)域中的連通體各自組合在一起以形成連通體組(620);和c)將來自每個(gè)文本背景區(qū)域和所述外部區(qū)域中的不同區(qū)域的連通體組結(jié)合在一起以生成所述至少一個(gè)文本區(qū)域(630)。11.如權(quán)利要求10所述的方法,所述步驟b)進(jìn)一步包括:bl)將每個(gè)文本背景區(qū)域和所述外部區(qū)域中的連通體分為暗區(qū)域中的亮連通體集合和亮區(qū)域中的暗連通體集合(6201);b2)在所述亮連通體集合和所述暗連通體集合內(nèi)分別生成連通體組(6202);和b3)基于所述亮連通體集合和所述暗連通體集合的空間關(guān)系和外觀相似度中的至少一個(gè)將它們結(jié)合(6203)。12.如權(quán)利要求10所述的方法,其中,在所述步驟c)中,基于以下各項(xiàng)中的至少一項(xiàng)結(jié)合來自所述不同區(qū)域的連通體組:行方向的一致性;平均連通體大小的相似度;平均連通體筆劃寬度的相似度;以及平均連通體顏色或灰度的相似度。13.如權(quán)利要求11所述的方法,在所述步驟b2)中,所述連通體組是通過連通體聚類生成的,所述連通體聚類使用以下限制條件中的至少一項(xiàng):符合特定方向的連通體中心的對齊;連通體的大小的相似度;連通體的形狀的相似度;連通體的顏色或灰度的相似度;連通體的筆劃寬度的相似度;和連通體之間的距離。14.如權(quán)利要求11所述的方法,所述步驟b2)進(jìn)一步包括:通過霍夫變換生成連通體組;以及使用以下限制條件中的至少一項(xiàng)對生成的連通體組內(nèi)包含的連通體進(jìn)行過濾:符合特定方向的連通體中心的對齊;連通體的大小的相似度;連通體的形狀的相似度;連通體的顏色或灰度的相似度;連通體的筆劃寬度的相似度;和連通體之間的距離。15.如權(quán)利要求10所述的方法,其中,在步驟c)中用于所述結(jié)合的規(guī)則比在步驟b)中用于所述組合的規(guī)則更嚴(yán)格。16.一種文本檢測裝置,所述文本檢測方法用于檢測包括至少一個(gè)連通體的圖像中的文本區(qū)域,所述裝置包括:文本背景區(qū)域檢測單元,被配置為從所述圖像中檢測文本背景區(qū)域(910);連通體過濾單元,被配置為對所述至少一個(gè)連通體進(jìn)行過濾,以保留至少一個(gè)候選文本連通體(920);和連通體組合單元,被配置為基于文本背景區(qū)域檢測單元中檢測出的文本背景區(qū)域,組合所述至少一個(gè)候選文本連通體以形成至少一個(gè)連通體組,并且基于所述至少一個(gè)連通體組生成至少一個(gè)文本區(qū)域(930)。17.如權(quán)利要求16所述的裝置,其中所述文本背景區(qū)域是所述圖像中的文本的周圍區(qū)域,并且具有規(guī)則的邊界以及均勻的顏色或灰度。18.如權(quán)利要求16或17所述的裝置,其中文本背景區(qū)域檢測單元(910)被配置為基于以下至少之一從所述至少一個(gè)連通體中選擇文本背景區(qū)域:所述至少一個(gè)連通體的特征;所述至少一個(gè)連通體內(nèi)的成員連通體的統(tǒng)計(jì)信息,其中成員連通體是位于所述至少一個(gè)連通體的邊界內(nèi)、且相對于所述至少一個(gè)連通體具有高對比度的連通體;和所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系。19.如權(quán)利要求18所述的裝置,其中所述至少一個(gè)連通體的特征包括以下至少一項(xiàng):連通體的顏色或灰度均勻性、連通體的大小、連通體的形狀、連通體的邊界規(guī)則度、連通體在圖像中的位置、連通體的平均灰度值,和連通體的灰度值分布。20.如權(quán)利要求18所述的裝置,其中,所述成員連通體的統(tǒng)計(jì)信息包括以下至少一項(xiàng):所述連通體內(nèi)的成員連通體的數(shù)量;所述成員連通體中文本置信度高于第一預(yù)定義閾值的種子連通體的數(shù)量;所述連通體內(nèi)的成員連通體的平均文本置信度;和所述連通體內(nèi)的成員連通體的總面積與所述連通體的面積之比。21.如權(quán)利要求18所述的裝置,其中,基于所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系來從所述至少一個(gè)連通體中選擇文本背景區(qū)域包括:響應(yīng)于該連通體不是任何先前已確定的文本背景區(qū)域內(nèi)的成員連通體并且與該先前已確定的文本背景區(qū)域不包含相同的成員連通體,將該連通體確定為文本背景區(qū)域。22.如權(quán)利要求16或17所述的裝置,其中,在所述連通體過濾單元(920)中,對不處于任何文本背景區(qū)域的邊界內(nèi)的連通體的過濾比對處于文本背景區(qū)域的邊界內(nèi)的連通體的過濾更嚴(yán)格。23.如權(quán)利要求16所述的裝置,所述連通體過濾單元(920)被配置為基于以下各項(xiàng)中的至少一項(xiàng)對處于文本背景區(qū)域的邊界內(nèi)的連通體和不處于任何文本背景區(qū)域的邊界內(nèi)的連通體進(jìn)行過濾:連通體的大?。贿B通體的形狀;連通體的最小外接框的寬高比;連通體與其最小外接框的面積比;連通體的周長與面積之比;以及連通體的紋理特征。24.如權(quán)利要求23所述的裝置,其中所述連通體過濾單元(920)被配置為進(jìn)一步基于以下各項(xiàng)中的至少一項(xiàng)對不處于任何文本背景區(qū)域內(nèi)的連通體進(jìn)行過濾:筆劃寬度統(tǒng)計(jì)信息;以及連通體邊界的像素?cái)?shù)與該連通體的像素?cái)?shù)之比。25.如權(quán)利要求16或17所述的裝置,所述連通體組合單元(930)進(jìn)一步包括:分配單元(9301),被配置為將所述候選文本連通體分配到各個(gè)文本背景區(qū)域中并且將不能分配到文本背景區(qū)域中的候選文本連通體分配到外部區(qū)域中;組合單元(9302),被配置為將每個(gè)文本背景區(qū)域和所述外部區(qū)域中的連通體各自組合在一起以形成連通體組;和第一結(jié)合單元(9303),被配置為將來自每個(gè)文本背景區(qū)域和所述外部區(qū)域中的不同區(qū)域的連通體組結(jié)合在一起以生成所述至少一個(gè)文本區(qū)域。26.如權(quán)利要求25所述的裝置,所述組合單元(9302)進(jìn)一步包括:劃分單元(9302-1),被配置為將每個(gè)文本背景區(qū)域和所述外部區(qū)域中的連通體分為暗區(qū)域中的亮連通體集合和亮區(qū)域中的暗連通體集合;生成單元(9302-2),被配置為在所述亮連通體集合和所述暗連通體集合內(nèi)分別生成連通體組;和第二結(jié)合單元(9302-3),被配置為基于所述亮連通體集合和所述暗連通體集合的空間關(guān)系和外觀相似度中的至少一個(gè)將它們結(jié)合。27.如權(quán)利要求25所述的裝置,所述第一結(jié)合單元(9303)被配置為基于以下各項(xiàng)條件中的至少一項(xiàng)結(jié)合來自不同區(qū)域的連通體組:行方向的一致性;平均連通體大小的相似度;平均連通體筆劃寬度的相似度;以及平均連通體顏色或灰度的相似度。28.如權(quán)利要求26所述的裝置,其中,在所述生成單元(9302-2)中,所述連通體組是通過連通體聚類生成的,所述連通體聚類使用以下限制條件中的至少一項(xiàng):符合特定方向的連通體中心的對齊;連通體的大小的相似度;連通體的形狀的相似度;連通體的顏色或灰度的相似度;連通體的筆劃寬度的相似度;和連通體之間的距離。29.如權(quán)利要求26所述的裝置,所述生成單元(9302-2)進(jìn)一步被配置為:通過霍夫變換生成連通體組;以及使用以下各項(xiàng)限制條件中的至少一項(xiàng)對生成的連通體組內(nèi)包含的連通體進(jìn)行過濾:符合特定方向的連通體中心的對齊;連通體的大小的相似度;連通體的形狀的相似度;連通體的顏色或灰度的相似度;連通體的筆劃寬度的相似度;和連通體之間的距離。30.如權(quán)利要求25所述的裝置,其中,在所述第一結(jié)合單元(9303)中用于所述結(jié)合的規(guī)則比在所述組合單元(9302)中用于所述組合的規(guī)則更嚴(yán)格。31.一種文本信息提取方法,包括:使用如權(quán)利要求1一15中任意一項(xiàng)所述的文本檢測方法檢測輸入圖像或輸入視頻中的文本區(qū)域(1210);從所檢測到的文本區(qū)域提取文本(1220);以及識別所提取的文本以得到文本信息(1230)。32.如權(quán)利要求31所述的方法,進(jìn)一步包括:在使用如權(quán)利要求1一15中任意一項(xiàng)所述的文本檢測方法檢測輸入視頻中的文本區(qū)域時(shí),跟蹤所述輸入視頻中的文本(1240)。33.一種文本信息提取系統(tǒng),包括:如權(quán)利要求16-30中任意一項(xiàng)所述的文本檢測裝置(1310),被配置為檢測輸入圖像或輸入視頻中的文本區(qū)域;提取裝置(1320),被配置為從所檢測到的文本區(qū)域提取文本;以及識別裝置(1330),被配置為識別所提取的文本以得到文本信息。34.如權(quán)利要求33所述的系統(tǒng),其中在所述文本檢測裝置被配置為檢測輸入視頻中的文本區(qū)域時(shí),所述系統(tǒng)還包括:跟蹤裝置(1340),被配置為跟蹤所述輸入視頻中的文本。【文檔編號】G06K9/20GK104182744SQ201310196315【公開日】2014年12月3日申請日期:2013年5月24日優(yōu)先權(quán)日:2013年5月24日【發(fā)明者】麻文華,羅兆海申請人:佳能株式會(huì)社