專利名稱:視頻文本處理裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻圖像處理裝置,更具體地涉及用于電子教學(xué)視頻的文本圖像提取設(shè)備。文本變化幀檢測(cè)裝置找出包含文本信息的視頻幀。文本提取裝置從這些視頻幀中提取出文本信息,并把所提取的文本信息發(fā)送到光學(xué)字符識(shí)別(OCR)引擎進(jìn)行識(shí)別。
背景技術(shù):
在視頻和圖像中的文本提取是一項(xiàng)非常重要的技術(shù),并具有廣泛的應(yīng)用,例如應(yīng)用于減少存儲(chǔ)容量,視頻和圖像索引,以及數(shù)字圖書館等等。
本發(fā)明專注于一種特殊的視頻類型——電子教學(xué)視頻,其通常包含大量文本信息。為了有效地提取視頻中的文本內(nèi)容,需要兩種技術(shù)視頻中的文本變化幀檢測(cè)和從圖像中提取文本。文本變化幀是標(biāo)記視頻中文本內(nèi)容的變化的幀。第一種技術(shù)快速瀏覽視頻,并選擇那些包含文本區(qū)域的視頻幀。第二種技術(shù)則從那些視頻幀中提取文本信息,并把它們發(fā)送到OCR引擎進(jìn)行識(shí)別。
文本變化幀檢測(cè)技術(shù)可視為場(chǎng)景變化幀檢測(cè)技術(shù)的特殊情況。近年來(lái)對(duì)于從視頻中的多個(gè)幀中標(biāo)記視頻中內(nèi)容變化的檢測(cè)場(chǎng)景變化幀的技術(shù)的研究很活躍。一些方法專注于在幀之間的亮度差異,一些方法專注于色彩直方圖和紋理的差異。但是,這些方法不適合于視頻中,特別是在電子教學(xué)領(lǐng)域中的文本變化幀檢測(cè)。
以一種典型的電子教學(xué)視頻——演示視頻做個(gè)例子,其中視頻幀經(jīng)常包含幻燈片圖像?;脽羝瑘D像例子包括Powerpoint圖像和來(lái)自投影儀的膠片圖像。幻燈片內(nèi)容的變化不會(huì)導(dǎo)致色彩和結(jié)構(gòu)的顯著變化。此外,在演講期間在一個(gè)幻燈片圖像中視頻攝像機(jī)的焦距經(jīng)常四處移動(dòng),這將導(dǎo)致圖像移動(dòng)。當(dāng)演講人移動(dòng)他或她的幻燈片時(shí)也會(huì)出現(xiàn)圖像移動(dòng)。通過(guò)常規(guī)的方法這些內(nèi)容移位幀將被標(biāo)記為場(chǎng)景變化幀。常規(guī)方法另外一個(gè)缺點(diǎn)是它們不能直接判斷一個(gè)幀是否包含文本信息。
從視頻中提取文本變化幀的另外一種方法是對(duì)視頻中的每個(gè)幀執(zhí)行文本提取方法,并判斷內(nèi)容是否已經(jīng)變化。這種策略的問(wèn)題在于它將非常耗時(shí)。
在檢測(cè)到文本變化幀后,應(yīng)該使用文本提取方法從幀中提取文本行。提出了很多從視頻和靜態(tài)圖像中提取文本行的方法,例如V.Wu,R.Manmatha和E.M.Riseman,“TextFinderAn automaticSystem to Detect and Recognize Text in Images″IEEE Transactionson Pattern Analysis and Machine Intelligence,VOL.21,NO.11,pp.1224-1229,1999年11月。
T.Sato,T.Kanade,E.Hughes,M.Smith和S.Satoh,“Video OCRIndexing Digital News Libraries by Recognition of SuperimposedCaptions,”ACM Multimedia Systems Special Issue on Video Libraries,1998年2月。
此外,一些涉及本領(lǐng)域的專利也已經(jīng)公開了,例如美國(guó)專利No.6,366,699,5,465,304,5,307,422。
當(dāng)處理電子教學(xué)中的視頻幀時(shí),這些方法將遇到一些問(wèn)題。電子教學(xué)視頻圖像中的字符經(jīng)常具有非常小的尺寸,并且這些字符的邊界非常模糊,同時(shí)在文本區(qū)域周圍存在很多干擾,例如文本行的邊框,人體的陰影和遮擋等。
然而,在上述常規(guī)視頻圖像處理中存在下列問(wèn)題。
對(duì)視頻中的每個(gè)幀執(zhí)行文本提取方法并判斷內(nèi)容是否已經(jīng)變化是非常耗時(shí)的。
電子教學(xué)視頻圖像中的字符總是具有非常小的尺寸,并且這些字符的邊界非常模糊,同時(shí)在文本區(qū)域周圍存在很多干擾。因此,常規(guī)的文本提取方法將在最終的二值化圖像中留下很多偽字符筆劃,其將在后面的OCR階段給出錯(cuò)誤的識(shí)別結(jié)果。
發(fā)明內(nèi)容
本發(fā)明一個(gè)目的是在保持很高的恢復(fù)率的同時(shí),快速地從多個(gè)視頻幀中選擇侯選文本變化幀,這里恢復(fù)率定義為所提取的正確的文本變化幀與正確的文本變化幀的總量的比率。
本發(fā)明的另一目的是提供一種用于有效地檢測(cè)文本變化幀中的文本區(qū)域,盡可能多地去除偽字符筆劃,并為每個(gè)文本行提供二值化圖像的方案。
上述目的通過(guò)一種視頻文本處理裝置得以實(shí)現(xiàn),該裝置用于從視頻的所有幀中快速選擇出那些包含文本內(nèi)容的幀,標(biāo)記文本幀中每個(gè)文本行的區(qū)域,并以二值化形式輸出文本行,該視頻文本處理裝置包括用于在視頻中快速選擇文本幀的文本變化幀檢測(cè)裝置,以及用于在文本幀中提取文本行的文本提取裝置。二值化形式是,例如,由相應(yīng)于背景的黑像素和相應(yīng)于字符筆劃的白像素表示的。
第一文本變化幀檢測(cè)裝置包括第一幀去除裝置、第二幀去除裝置、第三幀去除裝置和輸出裝置,并從給定的視頻幀中選擇多個(gè)包含文本內(nèi)容的視頻幀。第一幀去除裝置從給定的視頻幀中除去多余的視頻幀。第二幀去除裝置從給定的視頻幀中除去不包含文本區(qū)域的視頻幀。第三幀去除裝置從給定的視頻幀中檢測(cè)并除去由圖像移動(dòng)導(dǎo)致的多余視頻幀。輸出裝置輸出其余的視頻幀作為候選文本變化幀。
第二文本變化幀檢測(cè)裝置包括圖像塊確認(rèn)裝置、圖像塊相似度測(cè)量裝置、幀相似性判斷裝置和輸出裝置,并從給定的視頻幀中選擇多個(gè)包含文本內(nèi)容的視頻幀。圖像塊確認(rèn)裝置確定在給定視頻幀的兩個(gè)視頻幀中處在相同位置的兩個(gè)圖像塊是否是能夠顯示圖像內(nèi)容變化的有效塊對(duì)。圖像塊相似度測(cè)量裝置計(jì)算有效塊對(duì)的兩個(gè)圖像塊的相似性,并確定兩個(gè)圖像塊是否相似。幀相似性判斷裝置利用相似的圖像塊的數(shù)目與有效塊對(duì)的總數(shù)的比率來(lái)確定兩個(gè)視頻幀是否相似。在去除相似的視頻幀后,輸出裝置輸出其余的視頻幀作為候選文本變化幀。
第三文本變化幀檢測(cè)裝置包括快速簡(jiǎn)易圖像二值化裝置、文本行區(qū)域確定裝置、重新二值化裝置、文本行確認(rèn)裝置、文本幀驗(yàn)證裝置和輸出裝置,并從給定的視頻幀中選擇多個(gè)包含文本內(nèi)容的視頻幀。快速簡(jiǎn)易圖像二值化裝置產(chǎn)生給定視頻幀中一個(gè)視頻幀的第一二值化圖像。文本行區(qū)域確定裝置利用第一二值化圖像的水平投影和垂直投影確定文本行區(qū)域的位置。重新二值化裝置產(chǎn)生每個(gè)文本行區(qū)域的第二二值化圖像。文本行確認(rèn)裝置利用在第一二值化圖像和第二二值化圖像之間的差異和在文本行區(qū)域中前景像素的數(shù)目與在文本行區(qū)域中像素的總數(shù)的填充比率來(lái)確定文本行區(qū)域的有效性。文本幀驗(yàn)證裝置利用在一組連續(xù)視頻幀中有效文本行區(qū)域的數(shù)目來(lái)確認(rèn)一組連續(xù)視頻幀是否是不包含文本區(qū)域的非文本幀。在去除該非文本幀后,輸出裝置輸出其余的視頻幀作為候選文本變化幀。
第四文本變化幀檢測(cè)裝置包括快速簡(jiǎn)易圖像二值化裝置、文本行垂直位置確定裝置、垂直移動(dòng)檢測(cè)裝置、水平移動(dòng)檢測(cè)裝置和輸出裝置,并從給定的視頻幀中選擇多個(gè)包含文本內(nèi)容的視頻幀??焖俸?jiǎn)易圖像二值化裝置產(chǎn)生給定視頻幀中的兩個(gè)視頻幀的二值化圖像。文本行垂直位置確定裝置利用這兩個(gè)視頻幀的二值化圖像的水平投影確定每個(gè)文本行區(qū)域的垂直位置。利用在水平投影之間的相關(guān)性,垂直移動(dòng)檢測(cè)裝置確定在兩個(gè)視頻幀之間的圖像移動(dòng)的垂直偏移,以及這兩個(gè)視頻幀在垂直方向的相似性。利用在兩個(gè)視頻幀的二值化圖像中的每個(gè)文本行垂直投影之間的相關(guān)性,水平移動(dòng)檢測(cè)裝置確定圖像移動(dòng)的水平移動(dòng)和兩個(gè)視頻幀在水平方向的相似性。在去除相似的視頻幀后,輸出裝置輸出其余的視頻幀作為候選文本變化幀。
在文本變化幀檢測(cè)裝置檢測(cè)到視頻中的候選文本變化幀之后,每個(gè)幀的圖像被發(fā)送到文本提取裝置進(jìn)行文本提取。
第一文本提取裝置包括邊緣圖像生成裝置、筆劃圖像生成裝置、筆劃過(guò)濾裝置、文本行區(qū)域形成裝置、文本行驗(yàn)證裝置、文本行二值化裝置和輸出裝置,并且從給定的圖像中提取至少一個(gè)文本行區(qū)域。邊緣圖像生成裝置產(chǎn)生給定的圖像的邊緣信息。筆劃圖像生成裝置利用邊緣信息產(chǎn)生給定的圖像中候選字符筆劃的二值化圖像。筆劃過(guò)濾裝置利用邊緣信息從二值化圖像除去偽筆劃。文本行區(qū)域形成裝置把多個(gè)筆劃合并到文本行區(qū)域中。文本行驗(yàn)證裝置從文本行區(qū)域中除去偽字符筆劃并重組文本行區(qū)域。文本行二值化裝置利用文本行區(qū)域的高度將文本行區(qū)域二值化。輸出裝置輸出文本行區(qū)域的二值化圖像。
第二文本提取裝置包括邊緣圖像生成裝置、筆劃圖像生成裝置、筆劃過(guò)濾裝置和輸出裝置,并從給定的圖像中提取至少一個(gè)文本行區(qū)域。邊緣圖像生成裝置產(chǎn)生給定的圖像的邊緣圖像。筆劃圖像生成裝置利用邊緣圖像產(chǎn)生給定圖像中候選字符筆劃的二值化圖像。筆劃過(guò)濾裝置通過(guò)邊緣圖像中指示邊緣的像素檢查在候選字符筆劃的二值化圖像中筆劃的輪廓的重疊率,如果重疊率大于預(yù)定的閾值,則確定筆劃是有效筆劃,而如果重疊率小于預(yù)定的閾值,則為無(wú)效筆劃,并且除去無(wú)效筆劃。輸出裝置輸出候選字符筆劃二值化圖像中其余的筆劃的信息。
在文本提取裝置提取文本行區(qū)域之后,發(fā)送文本行區(qū)域到OCR引擎進(jìn)行識(shí)別。
圖1顯示了根據(jù)本發(fā)明的視頻文本處理裝置的配置;圖2顯示了視頻文本處理裝置的處理流程圖;圖3顯示了根據(jù)本發(fā)明的文本變化幀檢測(cè)裝置的配置;圖4顯示了幀相似度測(cè)量單元的配置;圖5顯示了文本幀檢測(cè)和核查單元的配置;圖6顯示了圖像移動(dòng)檢測(cè)單元的配置;圖7顯示了具有文本內(nèi)容的第一幀;圖8顯示了具有文本內(nèi)容的第二幀;圖9顯示了幀相似度測(cè)量單元的處理結(jié)果;圖10顯示了幀相似度測(cè)量單元操作的流程圖;圖11顯示了確定兩個(gè)幀相似性的流程圖;
圖12顯示了圖像塊確認(rèn)單元的操作流程圖;圖13顯示了圖像塊相似度測(cè)量單元的操作流程圖;圖14顯示了用于文本幀檢測(cè)和核查的原始視頻幀;圖15顯示了由快速簡(jiǎn)易圖像二值化產(chǎn)生的第一二值化圖像;圖16顯示了水平投影的結(jié)果;圖17顯示了投影正則化的結(jié)果;圖18顯示了在每個(gè)候選文本行中垂直二值化投影的結(jié)果;圖19顯示了文本行區(qū)域確定結(jié)果;圖20顯示了兩個(gè)候選文本行區(qū)域的兩對(duì)二值化圖像;圖21顯示了檢測(cè)到的文本行區(qū)域;圖22顯示了文本幀檢測(cè)和核查單元的操作的流程圖(No.1);圖23顯示了文本幀檢測(cè)和核查單元的操作的流程圖(No.2);圖24顯示了快速簡(jiǎn)易圖像二值化單元的操作的流程圖;圖25顯示了Niblack圖像二值化方法的流程圖;圖26顯示了文本行區(qū)域確定單元的操作的流程圖;圖27顯示了水平圖像投影的流程圖;圖28顯示了投影平滑的流程圖;圖29顯示了投影正則化的流程圖;圖30顯示了在投影中最大和最小的例子;圖31顯示了文本行確認(rèn)單元的操作的流程圖;圖32顯示了圖像移動(dòng)檢測(cè)單元的操作流程圖(No.1);圖33顯示了圖像移動(dòng)檢測(cè)單元操作的流程圖(No.2);圖34顯示了根據(jù)本發(fā)明的文本提取裝置的配置;圖35顯示了邊緣圖像生成單元的配置;圖36顯示了筆劃圖像生成單元的配置;圖37顯示了筆劃過(guò)濾單元的配置;圖38顯示了文本行區(qū)域形成單元的配置;圖39顯示了文本行驗(yàn)證單元的配置;圖40顯示了文本行二值化單元的配置;
圖41顯示了用于文本提取的原始視頻幀;圖42顯示了邊緣圖像生成的結(jié)果;圖43顯示了筆劃生成的結(jié)果;圖44顯示了筆劃過(guò)濾的結(jié)果;圖45顯示了文本行區(qū)域形成的結(jié)果;圖46顯示了最終的二值化文本行區(qū)域;圖47顯示了邊緣圖像生成單元的操作流程圖(No.1);圖48顯示了邊緣圖像生成單元的操作流程圖(No.2);圖49顯示了像素I的鄰近排列;圖50顯示了邊緣強(qiáng)度計(jì)算單元的操作流程圖;圖51顯示了筆劃圖像生成單元的操作流程圖;圖52顯示了筆劃過(guò)濾單元的操作的流程圖;圖53顯示了筆劃邊緣覆蓋范圍驗(yàn)證單元的操作的流程圖;圖54顯示了文本行區(qū)域形成單元的操作的流程圖;圖55顯示了筆劃連接檢查單元的操作流程圖;圖56顯示了文本行確認(rèn)單元的操作的流程圖;圖57顯示了垂直偽筆劃?rùn)z測(cè)單元的操作流程圖;圖58顯示了多文本行檢測(cè)的流程圖;圖59顯示了水平偽筆劃?rùn)z測(cè)單元的操作流程圖;圖60顯示了第一偽筆劃;圖61顯示了第二偽筆劃;圖62顯示了文本行二值化單元的操作流程圖;圖63顯示了信息處理裝置的配置;以及圖64顯示了存儲(chǔ)介質(zhì)。
具體實(shí)施例方式
以下參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例。
圖1顯示了根據(jù)本發(fā)明的視頻文本處理裝置的配置。該裝置的輸入是現(xiàn)成的視頻數(shù)據(jù)101或來(lái)自電視(TV)攝像機(jī)102的現(xiàn)場(chǎng)視頻流,輸入的視頻數(shù)據(jù)首先通過(guò)視頻分解單元103分解為連續(xù)幀。然后使用文本變化幀檢測(cè)裝置104尋找視頻幀中的候選文本變化幀。文本變化幀檢測(cè)裝置將大大減少總處理時(shí)間。此后,將文本提取裝置105應(yīng)用于每個(gè)候選文本變化幀,以檢測(cè)幀中的文本行(文本區(qū)域),并輸出文本行的圖像到數(shù)據(jù)庫(kù)106進(jìn)行進(jìn)一步的OCR處理。
圖2顯示了圖1所示的視頻文本處理裝置的處理流程圖。視頻分解單元103執(zhí)行S201中的處理,文本變化幀檢測(cè)裝置104執(zhí)行S202到S204中的處理,文本提取裝置105執(zhí)行S205到S210中的處理。
首先將輸入視頻分解為連續(xù)幀(S201)。然后執(zhí)行幀相似度測(cè)量以測(cè)量?jī)蓚€(gè)鄰近的幀的相似性(S202)。如果兩個(gè)幀是相似的,則去除第二幀。執(zhí)行下一個(gè)文本幀檢測(cè)和確認(rèn)以判斷S202的處理中其余的幀是否包含文本行(S203)。如果幀不包含文本行,則去除該幀。進(jìn)一步執(zhí)行圖像移動(dòng)檢測(cè)以確定在兩個(gè)幀中是否存在圖像移動(dòng)(S204)。如果是,則去除第二幀。文本變化幀檢測(cè)裝置104的輸出是一組候選文本變化幀。
對(duì)每個(gè)候選文本變化幀,執(zhí)行邊緣圖像生成以產(chǎn)生幀的邊緣圖像(S205)。然后根據(jù)邊緣信息執(zhí)行筆劃生成以產(chǎn)生筆劃圖像(S206)。接下來(lái)基于邊緣信息執(zhí)行筆劃過(guò)濾以除去偽筆劃(S207)。進(jìn)一步執(zhí)行文本行區(qū)域形成以把各個(gè)筆劃連接成文本行(S208)。此后,執(zhí)行文本行核查以除去文本行中偽筆劃并重組文本行(S209)。最后,執(zhí)行文本行二值化以產(chǎn)生文本行最終的二值化圖像(S210)。最終的輸出是一系列二值化文本行圖像,它們將由OCR引擎處理以進(jìn)行識(shí)別。
圖3顯示了圖1所示的文本變化幀檢測(cè)裝置104的配置。輸入的視頻幀首先被發(fā)送到用于刪除重復(fù)幀的幀相似度測(cè)量單元301,然后使用文本幀檢測(cè)和核查單元302檢查幀是否包含文本信息。接下來(lái),使用圖像移動(dòng)檢測(cè)單元303除去圖像移動(dòng)導(dǎo)致的多余幀。幀相似度測(cè)量單元301、文本幀檢測(cè)和核查單元302以及圖像移動(dòng)檢測(cè)單元303分別相應(yīng)于第一、第二和第三幀去除裝置。文本變化幀檢測(cè)裝置104很適合于檢測(cè)在電子教學(xué)視頻中的文本變化幀。它可在保持較高的恢復(fù)率的同時(shí)快速除去重復(fù)的視頻幀、移動(dòng)視頻幀以及不包含文本區(qū)域的視頻幀。
圖4顯示了圖3所示的幀相似度測(cè)量單元301的配置。幀相似度測(cè)量單元301包括圖像塊確認(rèn)單元311、圖像塊相似度測(cè)量單元312以及幀相似性判斷單元313。圖像塊確認(rèn)單元311確定處在兩個(gè)視頻幀的相同位置的兩個(gè)圖像塊是否為有效塊對(duì)。有效塊對(duì)是能夠說(shuō)明圖像內(nèi)容變化的圖像塊對(duì)。圖像塊相似度測(cè)量單元312計(jì)算有效塊對(duì)的兩個(gè)圖像塊的相似性,并確定兩個(gè)圖像塊是否相似。利用相似的圖像塊的數(shù)目與有效塊對(duì)總數(shù)的比率,幀相似性判斷單元313確定兩個(gè)視頻幀是否相似。根據(jù)幀相似度測(cè)量單元301,可從視頻幀中有效地檢測(cè)并除去重復(fù)的幀。
圖5顯示了圖3所示的文本幀檢測(cè)和核查單元302的配置。文本幀檢測(cè)和核查單元302包括快速簡(jiǎn)易圖像二值化單元321、文本行區(qū)域確定單元322、重新二值化單元323、文本行確認(rèn)單元324以及文本幀驗(yàn)證單元325。快速簡(jiǎn)易圖像二值化單元321生成視頻幀的第一二值化圖像。文本行區(qū)域確定單元322利用第一二值化圖像的水平投影和垂直投影確定文本行區(qū)域的位置。重新二值化單元323產(chǎn)生每個(gè)文本行區(qū)域的第二二值化圖像。利用第一二值化圖像和第二二值化圖像之間的差異和在文本行區(qū)域中前景像素?cái)?shù)與文本行區(qū)域中像素總數(shù)的填充比率,文本行確認(rèn)單元324確定文本行區(qū)域的有效性。文本幀驗(yàn)證單元325利用在一組連續(xù)視頻幀中有效文本行區(qū)域的數(shù)目確認(rèn)一組連續(xù)視頻幀是否為不包含文本區(qū)域的非文本幀。根據(jù)文本幀檢測(cè)和核查單元302,從視頻幀中快速檢測(cè)并除去非文本幀。
圖6顯示了圖3所示的圖像移動(dòng)檢測(cè)單元303的配置。圖像移動(dòng)檢測(cè)單元303包括快速簡(jiǎn)易圖像二值化單元331、文本行垂直位置確定單元332和垂直移動(dòng)檢測(cè)單元333、水平移動(dòng)檢測(cè)單元334??焖俸?jiǎn)易像二值化單元331產(chǎn)生兩個(gè)視頻幀的二值化圖像。文本行垂直位置確定單元332利用二值化圖像的水平投影確定每個(gè)文本行區(qū)域的垂直位置。利用水平投影之間的相關(guān)性,垂直移動(dòng)檢測(cè)單元333確定在兩個(gè)視頻幀之間圖像移動(dòng)的垂直偏移和兩個(gè)視頻幀在垂直方向的相似性。利用在二值化圖像中每個(gè)文本行的垂直投影之間的相關(guān)性,水平移動(dòng)檢測(cè)單元334確定圖像移動(dòng)的水平偏移和兩個(gè)視頻幀在水平方向的相似性。根據(jù)圖像移動(dòng)檢測(cè)單元303,可從視頻幀中快速檢測(cè)并除去圖像移動(dòng)導(dǎo)致的多余幀。
圖7和8顯示了具有相同的文本內(nèi)容的兩個(gè)幀。圖9顯示了幀相似度測(cè)量單元301對(duì)這兩個(gè)幀的處理結(jié)果。在圖9中的白框標(biāo)出了所有包括在有效塊對(duì)中并能夠顯示內(nèi)容變化的有效圖像塊。實(shí)線框代表相似的圖像塊,而虛線框代表不相似的圖像塊。由于相似的圖像塊的數(shù)目與有效塊的數(shù)目的比率大于預(yù)定的閾值,這兩個(gè)圖像被認(rèn)為是相似的并且去除第二幀。
圖10顯示了圖4所示的幀相似度測(cè)量單元301的操作流程圖。在第0秒的第0幀開始比較(S501),當(dāng)前的第i幀與第j幀比較,其具有STEP幀的幀間隔(S502)。如果在兩個(gè)幀比較中,第i幀與第j幀相似(S503),則當(dāng)前幀跳到第j幀(S510),并重復(fù)S502和S503中的比較處理。
如果兩個(gè)幀不相同,從當(dāng)前幀之后的一個(gè)幀重新開始比較,即第k幀(S504和S505)。檢查k是否小于j(S506)。如果第k幀在第j幀之前,并且如果第i幀與第k幀相似(S511),則當(dāng)前幀被指定為第k幀(S512),并重復(fù)S502和S503中的比較處理。
如果第i幀不同于第k幀,則k增加1(S505),并檢查k是否小于j。如果k不小于j,那將意味著第j幀與先前的幀不同,第j幀標(biāo)記為新的候選文本變化幀(S507)。從第j幀開始新的搜索(S508)。如果當(dāng)前搜索幀的索引i和STEP的和大于輸入視頻幀的總數(shù)nFrame(S509),則結(jié)束搜索,并且把所找到的候選文本變化幀送到后面的單元302和303進(jìn)行進(jìn)一步處理。否則,繼續(xù)搜索。
幀間隔STEP的目的是減少搜索操作的總時(shí)間。如果STEP太大而且視頻內(nèi)容迅速變化,則性能會(huì)下降。如果STEP太小,總搜索時(shí)間也不會(huì)很短。例如,該幀間隔選為STEP=4幀。
圖11顯示了圖10所示的S503中確定兩個(gè)幀相似性的操作流程圖。通過(guò)在圖11中用k替換j可獲得S511中的處理的流程圖。
開始時(shí),圖像塊計(jì)數(shù)n、有效塊計(jì)數(shù)nValid和相似塊計(jì)數(shù)nSimilar都被設(shè)置為零(S513)。然后第i幀和第j幀被分成無(wú)重疊的尺寸為N×N的小圖像塊,并且圖像塊的數(shù)目被記錄為nBlock(S514)。例如,這里N=16。在兩個(gè)幀中相同的位置的兩個(gè)圖像塊被定義為圖像塊對(duì)。對(duì)每個(gè)圖像塊對(duì),圖像塊確認(rèn)單元311被用于檢查是否圖像塊對(duì)是有效塊對(duì)(S515)。通過(guò)檢測(cè)每個(gè)圖像塊對(duì)中的變化可以實(shí)現(xiàn)兩個(gè)幀之間變化的檢測(cè)。即使內(nèi)容已經(jīng)變化,幻燈片的背景部分通常不變化。因此在這些部分中的圖像塊對(duì)不應(yīng)被認(rèn)為是有效塊對(duì)。
如果塊對(duì)無(wú)效,則檢查下一個(gè)塊對(duì)(S519和S520)。如果塊對(duì)是有效塊對(duì),則有效塊計(jì)數(shù)nValid增加1(S516),而圖像塊相似度測(cè)量單元312被用于測(cè)量?jī)蓚€(gè)圖像塊的相似性(S517)。如果塊是相似的,則相似塊計(jì)數(shù)nSimilar增加1(S518)。當(dāng)比較了所有的塊對(duì)時(shí)(S519和S520),幀相似性判斷單元313被用于確定兩個(gè)幀是否相似(S521)。如果滿足下列條件(S522),則兩個(gè)幀被認(rèn)為是相似的nSimilar>nValid*simrate,例如,這里simrate=0.85。如果不滿足上面的條件,兩個(gè)幀被認(rèn)為是不相似的(S523)。
圖12顯示了圖11所示的圖像塊確認(rèn)單元311在S515中的操作的流程圖。首先,計(jì)算第n個(gè)圖像塊對(duì)的均值和方差(S524)。在第i幀中圖像塊的灰度的均值和方差分別由M(i)和V(i)表示。在第j幀中圖像塊的灰度的均值和方差分別由M(j)和V(j)表示。如果塊對(duì)的兩個(gè)方差V(i)和V(j)都小于預(yù)定的閾值Tv(S525),并且兩個(gè)均值M(i)和M(j)的絕對(duì)差也小于預(yù)定的閾值Tm(S526),則圖像塊對(duì)是無(wú)效塊對(duì)(S527)。否則,圖像塊對(duì)是有效塊對(duì)(S528)。
圖13顯示了圖11所示的S517中圖像塊相似度測(cè)量單元312的操作的流程圖。首先計(jì)算第n個(gè)圖像塊對(duì)的均值M(i)和M(j)(S529)。如果兩個(gè)均值M(i)和M(j)的絕對(duì)差大于預(yù)定的閾值Tm1(S530),則兩個(gè)圖像塊被認(rèn)為是不相似的圖像塊(S534)。否則,計(jì)算兩個(gè)圖像塊的相關(guān)性C(i,j)(S531)。如果相關(guān)性C(i,j)大于預(yù)定的閾值Tc(S532),則兩個(gè)圖像塊是相似的(S533),并如果相關(guān)性小于閾值Tc,則兩個(gè)圖像塊是不相似的(S534)。
圖14到21顯示了通過(guò)在圖5所示的文本幀檢測(cè)和核查單元302執(zhí)行處理的一些樣例結(jié)果。圖14顯示了原始視頻幀。圖15顯示了由快速簡(jiǎn)易圖像二值化產(chǎn)生的第一二值化圖像。圖16顯示了水平二值化投影的結(jié)果。圖17顯示了投影正則化的結(jié)果。圖18顯示了在每個(gè)候選文本行中垂直二值化投影的結(jié)果。圖19顯示了文本行區(qū)域確定結(jié)果?;疑匦沃甘竞蜻x文本行區(qū)域。
圖20顯示了圖19中以虛線標(biāo)記的兩個(gè)候選文本行區(qū)域的兩個(gè)二值化圖像對(duì)的結(jié)果。第一對(duì)二值化圖像包含文本信息。這兩個(gè)圖像之間的差異很小。因此這個(gè)文本行區(qū)域被視為真正的文本行區(qū)域。第二對(duì)二值化圖像有很大差異。由于不相同部分大于預(yù)定的閾值,所以該區(qū)域被認(rèn)為是非文本行區(qū)域。圖21顯示了檢測(cè)到的文本行區(qū)域。
圖22和23顯示了圖3所示的文本幀檢測(cè)和核查單元302的操作流程圖。首先,執(zhí)行連續(xù)候選幀部分檢測(cè)以將由幀相似度測(cè)量單元301輸出的候選文本幀分類成多個(gè)部分,每個(gè)部分包含一系列連續(xù)候選幀(S701)。這些部分的數(shù)目由nSection表示。從第一部分開始(S702),如果第i部分的連續(xù)候選幀M(i)的數(shù)目大于預(yù)定的閾值Tncf(S703),則快速簡(jiǎn)易圖像二值化單元321被用于獲得所有視頻幀的每個(gè)二值化圖像(S704)。然后使用文本行區(qū)域確定單元322確定文本行的區(qū)域(S705),文本行區(qū)域確定單元322使用二值化圖像的水平和垂直投影。
接下來(lái)從第一個(gè)檢測(cè)到的文本行區(qū)域開始(S706),使用重新二值化單元323產(chǎn)生文本行區(qū)域的第二二值化圖像(S707)。重新二值化單元323對(duì)每個(gè)檢測(cè)到的文本行的整個(gè)區(qū)域使用Niblack圖像二值化方法以獲得二值化圖像。通過(guò)文本行確認(rèn)單元324比較同一文本行區(qū)域的兩個(gè)二值化圖像(S708)。如果兩個(gè)二值化圖像是相似的,則第i部分的相似文本行計(jì)數(shù)nTextLine(i)增加1(S709)。對(duì)這M(i)個(gè)連續(xù)候選幀中的所有文本行重復(fù)此過(guò)程(S710和S711)。
有時(shí)非文本幀會(huì)被檢測(cè)為包含一些文本行,但是如果一系列候選幀不包含任何文本行,則在這些幀中檢測(cè)到的文本行的總數(shù)不太可能很大。因此文本幀驗(yàn)證單元325被用于確認(rèn)一系列候選文本幀是否是非文本幀。如果滿足下列條件,一系列候選文本幀被認(rèn)為是非文本幀(S712)nTextLine(i)≤αM(i),
并且錯(cuò)誤的候選文本幀被去除(S713)。這里,α是通過(guò)實(shí)驗(yàn)確定的正實(shí)數(shù)。通常它被設(shè)為α=0.8。對(duì)所有的連續(xù)候選幀部分重復(fù)此過(guò)程(S714和S715)。
圖24顯示了圖22所示的S704中快速簡(jiǎn)易二值化單元321的操作流程圖。幀圖像首先被分成具有N×N尺寸的無(wú)重疊的圖像塊,并且圖像塊的數(shù)目被記錄為nBlock(S716)。例如,這里N=16。從第一圖像塊開始(S717),使用Niblack圖像二值化方法對(duì)每個(gè)圖像塊進(jìn)行二值化(S718)。Niblack圖像二值化的參數(shù)k被設(shè)為k=-0.4。對(duì)所有的圖像塊重復(fù)該過(guò)程(S719和S720)。
圖25顯示了圖24所示的S718中Niblack圖像二值化方法的流程圖。輸入是一個(gè)M×N尺寸的灰度圖像。首先,計(jì)算圖像的均值Mean和方差Var(S721)。如果方差Var小于預(yù)定的閾值Tv(S722),則所有的像素在二值化圖像中被設(shè)為0。如果Var>Tv,則通過(guò)下列公式計(jì)算二值化閾值TT=Mean+k*Var。
對(duì)于每個(gè)圖像像素i,如果像素的灰度gray(i)大于T(S726),則在二值化圖像中像素bin(i)被設(shè)為0(S727),否則,像素被設(shè)為1(S728)。對(duì)二值化圖像中所有的像素重復(fù)此過(guò)程(S729和S730)。
圖26顯示了圖22所示的S705中文本行區(qū)域確定單元322的操作流程圖。此單元的輸入是來(lái)自S704的視頻幀的二值化圖像。首先計(jì)算水平圖像投影Prjh(S731)。該投影隨后被平滑(S732)和正則化(S733)。Prjh的正則化結(jié)果是Prjhr,它僅具有兩個(gè)值0或1。1意味著該位置具有大的投影值,0意味著該位置具有小的投影值。在Prjhr中的每個(gè)1的區(qū)域的起點(diǎn)和終點(diǎn)被分別記錄為sy(i)和ey(i)(S734)。對(duì)Prjhr中的每個(gè)1區(qū)域,計(jì)算垂直圖像投影Prjv(i)(S735)。Prjv(i)被平滑(S736)并且正則化為Prjvr(i)(S737)。如果Prjvr(i)中的兩個(gè)1區(qū)域之間的距離小于2*區(qū)域高度,則這兩個(gè)1區(qū)域被連接成一個(gè)區(qū)域,并且連接的區(qū)域的起始和終點(diǎn)被分別記錄為sx(i)和ex(i)(S738)。輸出sx(i),ex(i),sy(i)和ey(i)確定文本行的第i區(qū)域(S739)。
圖27顯示了圖26所示的S731中水平圖像投影的流程圖。從第一水平行開始(S740),通過(guò)下列公式計(jì)算第i水平行的投影(S741)prj(i)=Σj=0w-1I(i,j)]]>其中I(i,j)是第i行和第j列中的像素值,而w是圖像寬度。為圖像中的所有水平行重復(fù)這個(gè)計(jì)算,h作為圖像的高度(S742和S743)。
圖28顯示了圖26所示的S732中投影平滑的流程圖。從平滑窗的邊界δ開始(S744),通過(guò)下列公式計(jì)算在平滑投影prjs(i)中的第i點(diǎn)的值(S745)prjs(i)=12δ+1Σj=i-δi+δprj(j),]]>其中平滑窗口的長(zhǎng)度為2*δ+1。對(duì)平滑投影中所有的點(diǎn)重復(fù)這個(gè)計(jì)算,L作為平滑范圍(S746和S747)。
圖29顯示了圖26所示的S733中投影正則化的流程圖。首先,檢測(cè)在投影中所有的局部最大值(S748)。正則化投影Prjr的每個(gè)像素的值被設(shè)置為0(S749)。從第一局部最大值max(i)開始(S750),檢測(cè)兩個(gè)鄰近的局部最小值min1(i)和min2(i)(S751)。
圖30顯示了max(i)、min1(i)和min2(i)在投影曲線中的位置示意圖。有三個(gè)局部最大值。P2、P4和P6分別是max(1)、max(2)和max(3)。P1是max(1)的上部最小值min1(1),P3是max(1)的下部最小值min2(1)。P3也是max(2)的上部最小值min1(2)。類似的,P5是max(2)的下部最小值min2(2),也是max(3)的上部最小值min1(3)。P7是max(3)的下部最小值min2(3)。
如果min1(i)<max(i)/2,且min2(i)<max(i)/2(S752),則在min1(i)和min2(i)位置之間的正則化投影Prjr中的值被設(shè)為1(S753)。對(duì)每個(gè)局部最大值重復(fù)此過(guò)程(S754和S755)。
圖31顯示了圖22所示的S708中文本行確認(rèn)單元324的操作流程圖。此單元的輸入是同一文本行區(qū)域的兩個(gè)尺寸為wxh的二值化圖像I1和I2。首先計(jì)數(shù)值count1、count2和count被設(shè)為0(S756)。count表示在I1和I2中兩個(gè)相應(yīng)的像素的值都是1的像素的數(shù)目。count1表示在I1中相應(yīng)的像素值是1而在I2中是0的像素的數(shù)目。count2表示在I2中相應(yīng)的像素值是1而在I1中的值是0的像素的數(shù)目。
從兩個(gè)圖像中的第一位置開始,如果相應(yīng)的兩個(gè)像素I1(i)和I2(i)都是1,則count增加1(S757和S758)。否則,如果I1(i)是1,則count1增加1(S759和S760)。否則,如果I2(i)是1,則count2增加1(S761和S762)。在檢查所有的像素后(S763和S764),檢查是否滿足下列條件(S765和S766)count+count1<w*h/2,count+count2<w*h/2,count1<count*0.2,count2<count*0.2,填充率<0.5。
文本行區(qū)域的“填充率”定義為前景像素的數(shù)目與區(qū)域中的總像素?cái)?shù)的比率。如果滿足上面的條件,則在該文本行區(qū)域中兩個(gè)二值化圖像被認(rèn)為是相似的,且該文本行區(qū)域被認(rèn)為是有效文本行(S768)。如果不滿足這些條件其中之一,則文本行區(qū)域被認(rèn)為是無(wú)效文本行(S767)圖32和33顯示了圖6所示的圖像移動(dòng)檢測(cè)單元303的操作流程圖。對(duì)兩個(gè)連續(xù)幀,幀i和幀j,第一快速簡(jiǎn)易圖像二值化單元331被用于獲得兩個(gè)幀的二值化圖像(S801)。然后如圖26中的S731說(shuō)明的,文本行垂直位置確定單元332被用于執(zhí)行水平圖像投影,以分別獲得幀i和幀j的水平投影Prjyi和Prjyj(S802)。垂直移動(dòng)檢測(cè)單元333則被用于計(jì)算兩個(gè)投影的相關(guān)函數(shù)Cy(t)(S803)。
這里,兩個(gè)投影Prj1(x)和Prj2(x)的相關(guān)函數(shù)C(t)被定義為C(t)=1L*V1*V2Σ(Prj1(x)-M1)*(Prj2(x+t)-M2)]]>其中L是投影的長(zhǎng)度,而M1和M2分別是投影Prj1和Prj2的均值。V1和V2分別是Prj1和Prj2的方差。
如果Cy(t)的最大值小于90%(S804),則兩個(gè)圖像不是移動(dòng)圖像。否則,Cy(t)最大值的位置被記錄為垂直偏移offy(S805),然后執(zhí)行如S733中的投影正則化以獲得投影Prjyi的正則化投影Prjyir(S806)。如果幀j是幀i的移動(dòng)版本,則幀j的垂直移動(dòng)偏移由offy表示。在Prjyir中每個(gè)1區(qū)域被認(rèn)為是候選文本行區(qū)域,它可由起點(diǎn)和終點(diǎn)syi和eyi指示出來(lái)(S807)。候選文本行區(qū)域的數(shù)目被記為nCanTL。
從第一候選文本行區(qū)域開始,匹配計(jì)數(shù)nMatch被設(shè)置為0(S808)。假設(shè)在幀j中第c個(gè)相應(yīng)的移動(dòng)候選文本行區(qū)域用syj(c)=syi(c)+offy和eyj(c)=eyi(c)+offy表示(S809)。對(duì)兩個(gè)相應(yīng)的候選文本行區(qū)域,計(jì)算垂直投影(S810)。然后由于已經(jīng)計(jì)算出兩個(gè)垂直投影,使用水平移動(dòng)檢測(cè)單元334計(jì)算相關(guān)函數(shù)Cx(t),并且對(duì)于這兩個(gè)投影,Cx(t)的最大值位置被記為水平偏移offx(S811)。如果Cx(t)的最大值大于90%(S812),則兩個(gè)候選文本行區(qū)域被認(rèn)為是匹配的移動(dòng)文本行區(qū)域,并且匹配計(jì)數(shù)nMatch增加1(S813)。在檢查每個(gè)候選文本行對(duì)后(S814和S815),如果匹配的移動(dòng)文本行區(qū)域的數(shù)目大于候選文本行區(qū)域的數(shù)目的70%(S816),則幀j被視為是幀i的移動(dòng)版本(S817)。否則幀j不是幀i的移動(dòng)版本(S818)。
圖34顯示了圖1所示的文本提取裝置105的配置。文本提取裝置包括用于提取視頻幀的邊緣信息的邊緣圖像生成單元901;筆劃圖像生成單元902,其使用邊緣圖像產(chǎn)生候選字符筆劃的筆劃圖像;用于去除偽筆劃的筆劃過(guò)濾單元903;用于把鄰近的筆劃連接成文本行區(qū)域的文本行區(qū)域形成單元904;用于在文本行區(qū)域中刪除偽字符筆劃的文本行驗(yàn)證單元905;以及用于獲得文本行區(qū)域的最終的二值化圖像的文本行二值化單元906。該文本提取裝置的輸出是在幀中所有的文本行區(qū)域的二值化圖像的列表。根據(jù)文本提取裝置105,由于可盡可能多地檢測(cè)到并除去偽筆劃,可準(zhǔn)確地對(duì)文本行區(qū)域進(jìn)行二值化。
圖35顯示了圖34所示的邊緣圖像生成單元901的配置。邊緣圖像生成單元901包括邊緣強(qiáng)度計(jì)算單元911、第一邊緣圖像生成單元912、第二邊緣圖像生成單元913。邊緣強(qiáng)度計(jì)算單元911利用Sobel邊緣檢測(cè)器計(jì)算視頻幀中的每個(gè)像素的邊緣強(qiáng)度。第一邊緣圖像生成單元912通過(guò)把每個(gè)像素邊緣強(qiáng)度與預(yù)定的邊緣閾值進(jìn)行比較而產(chǎn)生第一邊緣圖像,并且如果邊緣強(qiáng)度大于閾值則把在第一邊緣圖像中相應(yīng)的像素值設(shè)為一個(gè)二值化值,如果邊緣強(qiáng)度小于閾值則設(shè)為另一個(gè)二值化值。例如,邏輯值“1”用作一個(gè)二值化值,它可指示白像素,而邏輯值“0”用作另一個(gè)二值化值,它可指示黑像素。通過(guò)將在以第一邊緣圖像中一個(gè)二值化值的每個(gè)像素的位置為中心的窗口中的每個(gè)像素的邊緣強(qiáng)度與窗口中像素的平均邊緣強(qiáng)度進(jìn)行比較,第二邊緣圖像生成單元913產(chǎn)生第二邊緣圖像,并且如果像素邊緣強(qiáng)度大于平均邊緣強(qiáng)度則把在第二邊緣圖像中的相應(yīng)的像素值設(shè)置為一個(gè)二值化值,如果像素邊緣強(qiáng)度小于平均邊緣強(qiáng)度則設(shè)為另一個(gè)二值化值。例如,大小為3×3的小窗口可被用于生成第二邊緣圖像。
圖36顯示了圖34所示的筆劃圖像生成單元902的配置。筆劃圖像生成單元902包括局部圖像二值化單元921。利用以在第二邊緣圖像中一個(gè)二值化值的每個(gè)像素的位置為中心的窗口,局部圖像二值化單元921以Niblack二值化方法對(duì)視頻幀的灰度圖像進(jìn)行二值化,以獲得候選字符筆劃的二值化圖像。例如,大小為11×11的窗口可被用于局部圖像二值化。
圖37顯示了圖34所示的筆劃過(guò)濾單元903的配置。筆劃過(guò)濾單元903包括筆劃邊緣覆蓋范圍驗(yàn)證單元931和長(zhǎng)直線檢測(cè)單元932。筆劃邊緣覆蓋范圍驗(yàn)證單元931利用第二邊緣圖像中一個(gè)二值化值的像素檢查在候選字符筆劃的二值化圖像中的筆劃輪廓的重疊率,如果重疊率大于預(yù)定的閾值,確定筆劃是有效筆劃,而如果重疊率小于預(yù)定的閾值則為無(wú)效筆劃,并且將無(wú)效筆劃作為偽筆劃除去。長(zhǎng)直線檢測(cè)單元932利用筆劃的寬度和高度把很大的筆劃作為偽筆劃除去。根據(jù)筆劃過(guò)濾單元903,從候選字符筆劃的二值化圖像中檢測(cè)到文本行區(qū)域不需要的偽筆劃并將其除去。
圖38顯示了圖34所示的文本行區(qū)域形成單元904的配置。文本行區(qū)域形成單元904包括筆劃連接檢查單元941。筆劃連接檢查單元941利用兩個(gè)筆劃高度的重疊率和兩個(gè)筆劃之間的距離檢查兩個(gè)鄰近的筆劃是否可連接。文本行區(qū)域形成單元904利用檢查的結(jié)果將筆劃合并到文本行區(qū)域中。
圖39顯示了圖34所示的文本行驗(yàn)證單元905的配置。文本行驗(yàn)證單元905包括垂直偽筆劃?rùn)z測(cè)單元951、水平偽筆劃?rùn)z測(cè)單元952以及文本行重組單元953。垂直偽筆劃?rùn)z測(cè)單元951檢查每個(gè)高度高于文本行區(qū)域中的筆劃平均高度的筆劃,并且如果筆劃把兩個(gè)水平文本行區(qū)域連接成一個(gè)大的文本行區(qū)域,則把那些筆劃標(biāo)記為偽筆劃。水平偽筆劃?rùn)z測(cè)單元952檢查每個(gè)寬度大于由文本行區(qū)域中筆劃的平均寬度確定的閾值的筆劃,并且如果在包含該筆劃的區(qū)域中的筆劃數(shù)小于預(yù)定的閾值,則把該筆劃標(biāo)記為偽筆劃。如果在文本行區(qū)域中檢測(cè)到偽筆劃,文本行重組單元953重新連接在文本行區(qū)域中除了偽筆劃之外的筆劃。根據(jù)文本行驗(yàn)證單元905,從文本行區(qū)域進(jìn)一步檢測(cè)并除去偽筆劃。
圖40顯示了圖34所示的文本行二值化單元906的配置。文本行二值化單元906包括自動(dòng)尺寸計(jì)算單元961和塊圖像二值化單元962。自動(dòng)尺寸計(jì)算單元961確定進(jìn)行二值化的窗口的尺寸。利用以在第二邊緣圖像中一個(gè)二值化值的每個(gè)像素的位置為中心的窗口,塊圖像二值化單元962以Niblack二值化方法將視頻幀的灰度圖像進(jìn)行二值化,以獲得文本行區(qū)域的二值化圖像。在去除偽筆劃后,根據(jù)這樣的文本行二值化,可精確地對(duì)文本行區(qū)域進(jìn)行二值化。
圖41到46顯示了文本提取裝置的一些結(jié)果。圖41顯示了原始視頻幀。
圖42顯示了邊緣圖像生成的結(jié)果,它是最終的邊緣圖像(第二邊緣圖像)。
圖43顯示了筆劃生成結(jié)果。圖44顯示了筆劃過(guò)濾結(jié)果。圖45顯示了文本行形成結(jié)果。圖46顯示了優(yōu)化的最終二值化文本行區(qū)域的結(jié)果。
圖47和48顯示了圖35所示的邊緣圖像生成單元901的操作流程圖。首先在尺寸為W×H的第一邊緣圖像EdgeImg1中,像素EdgeImg1(i)的所有的值都被設(shè)置為0(S1101)。從第一像素開始(S1102),邊緣強(qiáng)度計(jì)算單元911使用Sobel邊緣檢測(cè)器來(lái)計(jì)算第i像素的邊緣強(qiáng)度E(i)(S1103)。下一步,第一邊緣圖像生成單元912被用于確定EdgeImg1(i)的值。如果邊緣強(qiáng)度大于預(yù)定的閾值Tedge(S1104),則在第一邊緣圖像中此像素的值被設(shè)置為1,EdgeImg1(i)=1(S1105)。繼續(xù)此過(guò)程直到檢查了所有的像素(S1106和S1107)。
在獲得第一邊緣圖像后,尺寸為W×H的第二邊緣圖像EdgeImg2的所有值EdgeImg2(i)被初始化為0(S1108)。從第一像素開始掃描(S1109),如果在第一邊緣圖像中像素的值是1(S1110),則根據(jù)在圖49所示的像素i的鄰近排列1116獲得鄰近像素的平均邊緣強(qiáng)度(S1111)。然后第二邊緣圖像生成單元913通過(guò)將像素的邊緣強(qiáng)度與平均邊緣強(qiáng)度進(jìn)行比較而確定在第二邊緣圖像中這些鄰近像素的值(S1112)。如果邊緣強(qiáng)度大于平均邊緣強(qiáng)度,則在第二邊緣圖像中該像素值被設(shè)為1,否則值被設(shè)為0。在檢查在第一邊緣圖像中所有的像素后(S1113和S1114)后,輸出第二邊緣圖像作為最終的邊緣圖像EdgeImg(S1115)。
圖50顯示了圖47所示的S1103中邊緣強(qiáng)度計(jì)算單元911的操作流程圖。對(duì)第i個(gè)像素,通過(guò)下列公式可首先獲得在圖49所示的鄰近區(qū)域1116中的水平和垂直邊緣強(qiáng)度Ex(i)和Ey(i)(S1117和S1118)Ex(i)=I(d)+2*I(e)+I(f)-I(b)-2*I(a)-I(h),Ey(i)=I(b)+2*I(c)+1(d)-I(h)-2*I(g)-I(f),其中I(x)表示第x個(gè)像素的灰度(x=a,b,c,d,e,f,g,h)。通過(guò)下列公式計(jì)算總邊緣強(qiáng)度E(i)(S1119)E(i)=Ex(i)*Ex(i)+Ey(i)*Ey(i)]]>通過(guò)下列公式計(jì)算在圖48所示的S111中的像素I的平均邊緣強(qiáng)度Medge(i)=(E(a)+E(b)+E(c)+E(d)+E(e)+E(f)+E(g)+E(h)+E(i))/9。
圖51顯示了圖36所示的筆劃圖像生成單元902的操作流程圖。尺寸為W×H的筆劃圖像首先被初始化為0(S1201)。然后局部圖像二值化單元921被用于確定筆劃圖像的像素值。從第一像素開始(S1202),如果在邊緣圖像EdgeImg中第i個(gè)像素EdgeImg(i)的值是1(S1203),則在以該像素的位置為中心的灰度幀圖像上設(shè)定11×11窗口,并且通過(guò)在圖25所示的Niblack二值化方法確定窗口中筆劃圖像的像素值(S1204)。在檢查了邊緣圖像中所有的像素后(S1205和S1206),產(chǎn)生筆劃圖像。
圖52顯示了圖37所示的筆劃過(guò)濾單元903的操作流程圖。首先長(zhǎng)直線檢測(cè)單元932被用于刪除很大的筆劃。從第一筆劃開始(S1301),如果筆劃的寬度或高度超過(guò)預(yù)定的閾值MAXSTROKESIZE(S1302),則此筆劃將被刪除(S1304)。否則,筆劃邊緣覆蓋確認(rèn)單元931被用于檢查筆劃的有效性(S1303)。有效筆劃意味著候選字符筆劃和無(wú)效筆劃不是一個(gè)真正的字符筆劃。如果筆劃無(wú)效,可被刪除(S1304)。對(duì)筆劃圖像中發(fā)現(xiàn)的所有筆劃重復(fù)進(jìn)行這個(gè)檢查,nStroke作為筆劃數(shù)(S1305和S1306)。
圖53顯示了圖52所示的S1303中筆劃邊緣覆蓋范圍驗(yàn)證單元931的操作的流程圖。首先獲得筆劃的輪廓C(S1307)。從第一輪廓點(diǎn)開始(S1308),檢查在當(dāng)前輪廓點(diǎn)鄰近區(qū)域中的EdgeImg的像素值(S1309)。如圖49中所說(shuō)明,點(diǎn)a到點(diǎn)h被認(rèn)為是點(diǎn)i的鄰近點(diǎn)。如果存在具有1值的鄰近邊緣像素,則該輪廓點(diǎn)被視為有效邊緣輪廓點(diǎn),并且有效邊緣輪廓點(diǎn)的計(jì)數(shù)nEdge增加1(S1310)。在檢查了所有的輪廓點(diǎn)后,nContour作為輪廓點(diǎn)數(shù)(S1311和S1312),如果有效邊緣輪廓點(diǎn)的數(shù)目大于0.8*nContour(S1313),則筆劃被認(rèn)為是有效筆劃,即,候選字符筆劃(S1314)。否則,筆劃是無(wú)效筆劃(S1315)。從筆劃列表中刪除無(wú)效筆劃。S1313中nEdge與nContour的比率表示重疊率。
圖54顯示了圖38所示的文本行區(qū)域形成單元904的操作流程圖。首先把每個(gè)筆劃的區(qū)域設(shè)為單獨(dú)的文本行區(qū)域,并且文本行的數(shù)目nTL被設(shè)為nStroke(S1401)。從第一筆劃開始(S1402),選擇接近筆劃i的筆劃j(S1403),并檢查筆劃i和筆劃j是否屬于一個(gè)文本行區(qū)域(S1404)。如果不是,使用筆劃連接檢查單元941檢查這兩個(gè)筆劃是否可連接(S1405)。如果是,則把這兩個(gè)文本行(筆劃i所屬的文本行和筆劃j所屬的文本行)中的所有筆劃合并為一個(gè)大文本行(S1406),并且文本行的數(shù)目減少1(S1407)。
這里,文本行是一組可連接的筆劃,并且每個(gè)筆劃具有文本行的屬性。如果筆劃i屬于第m個(gè)文本行,筆劃j屬于第n個(gè)文本行,且筆劃i與筆劃j是可連接的,則在第m個(gè)和第n個(gè)文本行中所有的筆劃的屬性被設(shè)為m。在檢查每一對(duì)筆劃后(S1408,S1409,S1410和S1411),nTL是幀中文本行的數(shù)目。
圖55顯示了圖54所示的S1405中筆劃連接檢查單元941的操作流程圖。首先,獲得兩個(gè)筆劃h1和h2的高度,并且較高的高度標(biāo)記為maxh,而較低的高度標(biāo)記為minh(S1412)。如果筆劃i和筆劃j的中心之間的水平距離大于1.5*maxh(S1413),則這兩個(gè)筆劃不可連接(S1417)。否則,與筆劃i和筆劃j都相交的水平行的數(shù)目被記為nOverlap(S1414)。如果nOverlap大于0.5*minh(S1415),則這兩個(gè)筆劃是可連接的(S1416)。否則,這兩個(gè)筆劃是不可連接的(S1417)。S1415中nOverlap與minh的比率表示重疊率。
圖56顯示了圖39所示的文本行驗(yàn)證單元905的操作的流程圖。首先,修改標(biāo)記modflag被設(shè)為假(S1501)。從第一文本行區(qū)域開始(S1502),如果第i文本行區(qū)域的高度Height(i)小于預(yù)定的閾值MINTLHEIGHT(S1503),則此文本行區(qū)域被刪除(S1504)。否則,垂直偽筆劃?rùn)z測(cè)單元951和水平偽筆劃?rùn)z測(cè)單元952被用于檢測(cè)偽筆劃(S1505和S1506)。如果檢測(cè)到偽筆劃,則該筆劃被刪除(S1507),使用文本行重組單元953重新連接其余的筆劃(S1508),并且修改標(biāo)記被設(shè)為真(S1509)。文本行重組單元953以與文本行區(qū)域形成單元904相同的方式重新連接其余的筆劃。在檢查所有的文本行區(qū)域后(S1510和S1511),如果修改標(biāo)記為真(S1512),則重復(fù)整個(gè)處理直到檢測(cè)不到偽筆劃。
圖57顯示了圖56所示的S1505中垂直偽筆劃?rùn)z測(cè)單元951的操作流程圖。首先計(jì)算在文本行區(qū)域中筆劃的平均高度(S1513)。從第一筆劃開始(S1514),如果筆劃高度i大于平均高度(S1515),則執(zhí)行多文本行檢測(cè)以檢查筆劃i左邊的區(qū)域中的筆劃(S1516)。筆劃i左邊的區(qū)域是文本行區(qū)域內(nèi)的區(qū)域,并且此區(qū)域的左、上和下邊界是分別文本行區(qū)域的左、上和下邊界。此區(qū)域右邊界是筆劃i的左邊界。如果在筆劃i左邊區(qū)域中存在兩個(gè)或更多無(wú)重疊的水平文本行區(qū)域,則筆劃i是垂直偽筆劃(S1520)。
否則,執(zhí)行多文本行檢測(cè)以檢查在筆劃i右邊區(qū)域中的筆劃(S1517)。筆劃i右邊的區(qū)域具有與筆劃i左邊的區(qū)域相似的定義。如果在筆劃i右邊區(qū)域中存在兩個(gè)或更多無(wú)重疊的水平文本行區(qū)域,則筆劃i是垂直偽筆劃(S1520)。重復(fù)此過(guò)程直到檢查了文本行區(qū)域中的每個(gè)筆劃(S1518和S1519)。
圖58顯示了圖57所示的S1516和S1517中的多文本行檢測(cè)流程圖。首先,以與文本區(qū)域形成單元904相同的方式連接筆劃(S1521)。如果文本行區(qū)域的數(shù)目nTextLine大于1(S1522),則檢查是否滿足下列三個(gè)條件。
1.有兩個(gè)不重疊的文本行區(qū)域(S1523)
2.一個(gè)文本行區(qū)域高于其他文本行區(qū)域(S1524)3.各個(gè)文本行區(qū)域中的筆劃數(shù)大于3(S1525)如果滿足所有這三個(gè)條件,則檢測(cè)到了多文本行(S1526)。
圖59顯示了圖56所示的S1506中的水平偽筆劃?rùn)z測(cè)單元952操作的流程圖。首先,計(jì)算文本行區(qū)域中所有的筆劃的平均寬度(S1527)。從第一筆劃開始(S1528),如果筆劃寬度大于平均筆劃寬度的2.5倍(S1529),則設(shè)置檢測(cè)區(qū)域R(S1530)。分別通過(guò)筆劃i的左邊界Stroke(i).Left和右邊界Stroke(i).Right確定R的左邊界R.Left和右邊界R.Right。分別通過(guò)文本行區(qū)域的下上邊界textline.top和下邊界textline.bottom確定R的上邊界R.top和R的下邊界R.bottom。計(jì)算檢測(cè)區(qū)域R中的筆劃數(shù)(S1531),如果數(shù)目小于或等于3(S1532),則把筆劃i標(biāo)記為水平偽筆劃(51533)。重復(fù)這個(gè)過(guò)程直至檢查了文本行區(qū)域中的每個(gè)筆劃(S1534和S1535)。
圖60和61顯示了偽筆劃的例子。在圖60所示的筆劃1541是垂直偽筆劃,在圖61所示的筆劃1542是水平偽筆劃。
圖62顯示了圖40所示的文本行二值化單元906的操作流程圖。首先,基于文本行區(qū)域高度Height,使用自動(dòng)尺寸計(jì)算單元961確定進(jìn)行二值化的窗口wh的尺寸(S1601),其必須滿足下列三個(gè)條件wh=Height/3,如果wh是偶數(shù)則wh=wh+1,如果wh<5則wh=5。
在此之后,使用塊圖像二值化單元962重新二值化文本行區(qū)域(S1602)。塊圖像二值化單元962把Niblack二值化方法的窗口尺寸設(shè)定為wh,并以與筆劃圖像生成單元902相同的方式重新二值化文本行區(qū)域。
例如,使用在圖63所示的信息處理裝置(計(jì)算機(jī))對(duì)圖1所示的視頻文本處理裝置或文本變化幀檢測(cè)裝置104以及文本提取裝置105進(jìn)行配置。在圖63所示的信息處理裝置包括CPU(中央處理裝置)1701、存儲(chǔ)器1702、輸入裝置1703、輸出裝置1704、外部存儲(chǔ)裝置1705、介質(zhì)驅(qū)動(dòng)裝置1706、網(wǎng)絡(luò)連接裝置1707和視頻輸入裝置1708。它們通過(guò)總線1709互相連接。
存儲(chǔ)器1702包括,例如,ROM(只讀存儲(chǔ)器)、RAM(隨機(jī)訪問(wèn)存儲(chǔ)器)等,并存儲(chǔ)在處理中使用的程序和數(shù)據(jù)。CPU 1701使用存儲(chǔ)器1702通過(guò)執(zhí)行程序來(lái)執(zhí)行必需的處理。在這種情況下,在圖3所示的單元301到303和在圖34所示的單元901到906對(duì)應(yīng)于在存儲(chǔ)器1702中存儲(chǔ)的程序。
輸入裝置1703是,例如鍵盤、指示裝置、觸摸板等,并被用于輸入來(lái)自用戶的指令和信息。輸出裝置1704是,例如,顯示器、打印機(jī)、揚(yáng)聲器等,并用于輸出對(duì)用戶的詢問(wèn)和處理結(jié)果。
外部存儲(chǔ)裝置1705是,例如,磁盤裝置、光盤裝置、磁光盤裝置、磁帶裝置等。信息處理裝置在外部存儲(chǔ)裝置1705中存儲(chǔ)程序和數(shù)據(jù),并把它們加載到存儲(chǔ)器1702以在需要時(shí)使用。外部存儲(chǔ)裝置1705也可用作在圖1所示的存儲(chǔ)現(xiàn)有視頻數(shù)據(jù)101的數(shù)據(jù)庫(kù)。
介質(zhì)驅(qū)動(dòng)裝置1706驅(qū)動(dòng)可移動(dòng)存儲(chǔ)介質(zhì)1710,并訪問(wèn)存儲(chǔ)的內(nèi)容??梢苿?dòng)存儲(chǔ)介質(zhì)1710是任意的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如存儲(chǔ)卡、軟盤、CD-ROM(只讀光盤存儲(chǔ)器)、光盤、磁光盤等,用戶把程序和數(shù)據(jù)存儲(chǔ)在可移動(dòng)存儲(chǔ)介質(zhì)1710中,并把它們加載到存儲(chǔ)器1702以在需要時(shí)使用。
網(wǎng)絡(luò)連接裝置1707可連接到任意的通信網(wǎng)絡(luò),例如LAN(局域網(wǎng))、互聯(lián)網(wǎng)等,并在通信時(shí)轉(zhuǎn)換數(shù)據(jù)。信息處理裝置通過(guò)網(wǎng)絡(luò)連接裝置1707接收程序和數(shù)據(jù),把它們加載到存儲(chǔ)器1702以在需要時(shí)使用。
視頻輸入裝置1708是,例如,在圖1所示的TV攝像機(jī)102,并用于輸入現(xiàn)場(chǎng)視頻流。
圖64顯示了計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其能夠提供用于在圖63所示的信息處理裝置的程序和數(shù)據(jù)。存儲(chǔ)在可移動(dòng)存儲(chǔ)介質(zhì)1710和服務(wù)器1801的數(shù)據(jù)庫(kù)1803中的程序和數(shù)據(jù)被加載到信息處理裝置1802的存儲(chǔ)器1702。服務(wù)器1801產(chǎn)生用于傳播程序和數(shù)據(jù)的傳播信號(hào),并通過(guò)網(wǎng)絡(luò)中的任意傳輸介質(zhì)把它傳輸?shù)叫畔⑻幚硌b置1802。CPU 1701使用該數(shù)據(jù)執(zhí)行程序,以執(zhí)行必需的處理。
如上面所詳細(xì)說(shuō)明的,根據(jù)本發(fā)明,可以從給定的視頻幀中非常快速地除去重復(fù)的視頻幀,移動(dòng)視頻幀以及不包含文本區(qū)域視頻幀。進(jìn)一步,由于可以盡可能多地檢測(cè)到并除去偽筆劃,可以準(zhǔn)確地二值化視頻幀中的文本行區(qū)域。
權(quán)利要求
1.一種從給定圖像中提取至少一個(gè)文本行區(qū)域的文本提取裝置,所述裝置包括邊緣圖像生成單元,用于生成所述給定圖像的邊緣信息;筆劃圖像生成單元,用于利用邊緣信息生成給定圖像中候選字符筆劃的二值化圖像;筆劃過(guò)濾單元,用于利用邊緣信息從二值化圖像中去除偽筆劃;文本行區(qū)域形成單元,用于把多個(gè)筆劃合并為文本行區(qū)域;文本行驗(yàn)證單元,用于從文本行區(qū)域中去除偽字符筆劃,并重組文本行區(qū)域;文本行二值化單元,用于利用文本行區(qū)域的高度對(duì)文本行區(qū)域進(jìn)行二值化;和輸出單元,用于輸出文本行區(qū)域的二值化圖像。
2.根據(jù)權(quán)利要求1的文本提取裝置,其中邊緣圖像生成單元包括邊緣強(qiáng)度計(jì)算單元,用于利用Sobel邊緣檢測(cè)器,計(jì)算給定圖像中每個(gè)像素的邊緣強(qiáng)度;第一邊緣圖像生成單元,用于通過(guò)將每個(gè)像素的邊緣強(qiáng)度和預(yù)定的邊緣閾值進(jìn)行比較,生成第一邊緣圖像,并且如果邊緣強(qiáng)度大于該閾值,則把第一邊緣圖像中相應(yīng)的像素值設(shè)置為一個(gè)二值化值,而如果邊緣強(qiáng)度小于閾值,則設(shè)置為另一個(gè)二值化值;以及第二邊緣圖像生成單元,其通過(guò)將以第一邊緣圖像中每一個(gè)具有所述一個(gè)二值化值的像素的位置為中心的窗口中的每個(gè)像素的邊緣強(qiáng)度與該窗口中像素的平均邊緣強(qiáng)度進(jìn)行比較,生成第二邊緣圖像,并且如果像素邊緣強(qiáng)度大于平均邊緣強(qiáng)度,則把第二邊緣圖像中相應(yīng)的像素值設(shè)置為所述一個(gè)二值化值,而如果像素邊緣強(qiáng)度小于平均邊緣強(qiáng)度設(shè)置為所述另一個(gè)二值化值。
3.根據(jù)權(quán)利要求2的文本提取裝置,其中筆劃圖像生成單元包括局部圖像二值化單元,用于利用以第二邊緣圖像中每一個(gè)具有所述一個(gè)二值化值的像素的位置為中心的窗口,以Niblack二值化方法對(duì)給定圖像的灰度圖像進(jìn)行二值化,以獲得候選字符筆劃的二值化圖像。
4.根據(jù)權(quán)利要求2的文本提取裝置,其中筆劃過(guò)濾單元包括筆劃邊緣覆蓋確認(rèn)單元,其通過(guò)第二邊緣圖像中具有所述的一個(gè)二值化值的像素,檢查候選字符筆劃的二值化圖像中筆劃輪廓的重疊率,如果重疊率大于預(yù)定的閾值確定該筆劃是有效筆劃,而如果重疊率小于該預(yù)定閾值則為無(wú)效筆劃,并去除無(wú)效筆劃;以及長(zhǎng)直線檢測(cè)單元,用于利用筆劃的寬度和高度去除大筆劃。
5.根據(jù)權(quán)利要求2的文本提取裝置,其中文本行二值化單元包括自動(dòng)尺寸計(jì)算單元,用于確定二值化窗口的尺寸;以及塊圖像二值化單元,用于利用以第二邊緣圖像中每一個(gè)具有所述一個(gè)二值化值的像素的位置為中心的窗口,以Niblack二值化方法對(duì)給定圖像的灰度圖像進(jìn)行二值化,以獲得文本行區(qū)域的二值化圖像。
6.根據(jù)權(quán)利要求1的文本提取裝置,其中文本行區(qū)域形成單元包括筆劃連接檢查單元,其利用兩個(gè)筆劃高度的重疊率和兩個(gè)筆劃之間的距離來(lái)檢查兩個(gè)鄰近的筆劃是否是可連接,并且文本行區(qū)域形成單元利用檢查結(jié)果把多個(gè)筆劃合并為文本行區(qū)域。
7.根據(jù)權(quán)利要求1的文本提取裝置,其中文本行驗(yàn)證單元包括垂直偽筆劃?rùn)z測(cè)單元,用于檢查每個(gè)高度大于文本行區(qū)域中筆劃平均高度的筆劃,并且如果筆劃將兩個(gè)水平文本行區(qū)域連接成一個(gè)大的文本行區(qū)域,則把該筆劃標(biāo)記為偽筆劃;水平偽筆劃?rùn)z測(cè)單元,用于檢查每個(gè)寬度大于由文本行區(qū)域中筆劃平均寬度確定的閾值的筆劃,并且如果包含該筆劃的區(qū)域中的筆劃數(shù)小于一個(gè)預(yù)定閾值,則把該筆劃標(biāo)記為偽筆劃;以及文本行重組單元,如果在文本行區(qū)域中檢測(cè)到偽筆劃,則重新連接文本行區(qū)域中除偽筆劃之外的筆劃。
8.一種從給定圖像中提取至少一個(gè)文本行區(qū)域的文本提取裝置,所述裝置包括邊緣圖像生成單元,用于生成給定圖像的邊緣圖像;筆劃圖像生成單元,用于利用邊緣圖像,生成給定圖像中的候選字符筆劃的二值化圖像;筆劃過(guò)濾單元,其通過(guò)指示邊緣圖像邊緣的像素,檢查候選字符筆劃的二值化圖像中筆劃輪廓的重疊率,如果重疊率大于一個(gè)預(yù)定閾值,則確定筆劃是有效筆劃,而如果重疊率小于該預(yù)定閾值則為無(wú)效筆劃,并將無(wú)效筆劃去除;以及輸出單元,用于輸出候選字符筆劃的二值化圖像中其余的筆劃信息。
9.一種用于從給定圖像中提取至少一個(gè)文本行區(qū)域的文本提取方法,所述方法包括生成給定圖像的邊緣信息;使用邊緣信息生成給定圖像中候選字符筆劃的二值化圖像;使用邊緣信息從二值化圖像中去除偽筆劃;把多個(gè)筆劃合并為文本行區(qū)域;從文本行區(qū)域中去除偽字符筆劃,并重組文本行區(qū)域;利用文本行區(qū)域的高度對(duì)文本行區(qū)域進(jìn)行二值化;以及提供文本行區(qū)域的二值化圖像。
全文摘要
通過(guò)從給定的視頻幀中去除多余的幀和非文本幀,選擇包含文本區(qū)域的視頻幀,通過(guò)去除偽筆劃確定所選擇的幀中的文本區(qū)域,提取文本區(qū)域中的文本行并進(jìn)行二值化。
文檔編號(hào)G06K9/34GK1848138SQ200510135069
公開日2006年10月18日 申請(qǐng)日期2003年12月26日 優(yōu)先權(quán)日2002年12月26日
發(fā)明者孫俊, 勝山裕, 直井聰 申請(qǐng)人:富士通株式會(huì)社