基于對白和分鏡聯(lián)合識別的漫畫圖像版面識別方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理與計算機視覺領(lǐng)域,涉及一種基于對白和分鏡聯(lián)合識別的漫 畫圖像版面識別方法和系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,隨著各種移動終端如智能手機、平板電腦、電子書閱讀器的普及,移動閱 讀發(fā)展迅猛,正逐步成為我們生活中不可或缺的一個組成部分。由于各種終端硬件制造工 藝完善和制造成本的不斷下降,目前移動閱讀進入了 "內(nèi)容為王"的時代,如何制作適合在 移動終端上閱讀的內(nèi)容是目前移動閱讀所面臨的關(guān)鍵問題之一。本發(fā)明從漫畫移動閱讀入 手,改善用戶的閱讀體驗。
[0003] 漫畫是一類相對特殊的出版物,其頁面通常被分成若干個獨立的子圖像,在漫畫 制作領(lǐng)域,這些獨立的子圖像常常被稱為"分鏡"。分鏡是一個語義的概念,與電影中的分 鏡、戲劇中的場景含義相近,它通常由兩部分組成:1)角色的畫面展示,對應(yīng)于子圖像中的 圖像內(nèi)容部分;2)角色的語言展示,即對白,對應(yīng)于子圖像中的字符塊及特定形狀的包圍框 部分。
[0004] 現(xiàn)有的漫畫出版物通常針對紙質(zhì)媒介進行排版設(shè)計,由于移動終端屏幕大小的限 制,這些出版物的電子文檔(用于出版物印刷的roF等格式的電子文件或者紙質(zhì)文檔的掃描 圖像文檔)并不能很好地在移動終端進行展示。為了解決這一問題,國內(nèi)外相關(guān)研究人員提 出對這些出版電子文檔頁面(以下簡稱文檔頁面)按內(nèi)容進行一定粒度下的分解,然后在移 動終端上將分解后的內(nèi)容逐條顯示以獲得更好的展示效果。例如,一個漫畫頁面無法在智 能手機的屏幕上完整且清晰地顯示,但是若將漫畫頁面按內(nèi)容分解成一幅一幅分鏡進行顯 示,則可以獲得更好的顯示效果。
[0005] 為了實現(xiàn)這一解決方案,需要知道出版物每個頁面內(nèi)容的結(jié)構(gòu)信息,如插圖該如 何分解且它們之間的閱讀先后順序是怎樣的。然而,現(xiàn)有的電子漫畫文檔并不直接包含這 些結(jié)構(gòu)信息,需要額外地獲取這些信息。采用人工標注的方法費時費力而且成本非常高,無 法滿足移動終端上閱讀內(nèi)容制作日益增長的需求,因此迫切地需要相應(yīng)的出版物電子文檔 頁面結(jié)構(gòu)信息自動提取技術(shù)與方法。對于如學(xué)術(shù)期刊、書籍之類以文字內(nèi)容為主要構(gòu)成部 分的電子文檔,現(xiàn)有的文檔圖像分析與理解方法通??梢匀〉幂^好的頁面結(jié)構(gòu)信息提取效 果。然而,對于移動閱讀中比較受歡迎的漫畫出版物的電子文檔,其頁面通常包含大量的圖 形圖像而且排版布局相對復(fù)雜,現(xiàn)有的文檔圖像分析與理解方法無法取得較好的提取結(jié) 果。
[0006] 國內(nèi)外針對漫畫文檔圖像的分析與理解方法的工作開展得不夠系統(tǒng)與充分,通常 借助于常規(guī)的文檔圖像處理分析方法,采用一些簡單的規(guī)則和方法,局限性較大。針對目前 相關(guān)國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)敘述如下:
[0007] 針對漫畫圖像理解問題(即識別出漫畫圖像中的每個分鏡、對白這些構(gòu)成對象并 辨識出他們之間的閱讀先后順序),文獻"T. Tanaka et al. Layout Analysis of Tree- Structured Scene Frames in Comic Images. IJCAI.2007"首次提出了一種將漫畫圖像分 割成分鏡的方法(以下簡稱為分鏡分割方法)及相應(yīng)的分鏡閱讀順序識別方法。該方法的基 本假設(shè)是漫畫圖像總是能夠用水平線和豎直線分割成一個個分鏡(斜線可以按斜率大小分 劃到水平和豎直兩種),按照分割的次序漫畫圖像可以表示成一個樹狀的結(jié)構(gòu),其中根節(jié)點 就代表整幅漫畫,葉子節(jié)點就表示各個分鏡,中間節(jié)點表示分割的方式(豎直或水平)。文獻 "C.Ponsard et al. Enhancing the accessibility for all of digital comic books. www. eminds. hci-rg. com,2009"提出了一種基于分水嶺分割算法的分鏡分割方法及 相應(yīng)的分鏡閱讀順序識別方法。其主要思想是將漫畫圖像轉(zhuǎn)為灰度圖像進行二值化,然后 對得到的前景圖像進行分水嶺分割,對分割得到的區(qū)域,去掉較小的,合并重疊較大的,得 到最后的分鏡分割結(jié)果。對于每個分鏡,提取其矩形包圍框,使用豎直方向-水平方向進行 排序,從而得到分鏡的閱讀順序。文獻"E.Hanet al .Efficient Page Layout Analysis on Small Devices.Journal of Zhejiang University.2009"提出了一種分鏡分割算法,主要 思想是先利用投影法得到一些潛在的分割點,然后再用訓(xùn)練得到的多層感知器分類器來判 別這些潛在的分割點是否是真正的分割點。確定了分割點之后,再使用X-Y切割(X-Ycut)方 法完成對漫畫頁面圖像的分割得到分割結(jié)果。該方法的缺點是只能處理分鏡邊框為矩形的 情況,且沒有得到緊湊的分鏡包圍框。為了解決文獻"T.Tanaka et al.Layout Analysis of Tree-Structured Scene Frames in Comic Images. IJCAI.2007" 中方法不能得到緊湊 分鏡包圍框的問題,文獻"D.Ishii et al.A Study on Frame Position Detection of Digitized Comic Images.Workshop on Picture Coding and Image Processing·2010" 中提出了一種基于角點檢測的漫畫分割方法,主要思想是通過角點位置來精確定位分鏡包 圍框的拐角從而減少初始分割中的空白部分。該方法一樣無法處理分鏡之間有粘連的情 況。文南犬"K.Arai et al.Automatic E-Comic Content Adaptation.International Journal of Ubiquitous Computing.2010"中也提出了一種分鏡分割方法,該方法的主要 步驟是先將圖像二值化得到前景圖像,然后進行連通分支搜索,將每個高度大于圖像高度 的1/8、寬度大于圖像寬度的1/6的連通分支作為一個分鏡。對于分鏡有粘連的情況,該方法 提出了一種進一步尋找分割線的解決方法。該方法的一個主要問題是,它并沒有得到緊湊 分鏡包圍框,而只是用一個矩形代替,當實際的分鏡包圍框并不是矩形的時候分割效果比 車交差。文南犬"Anh Khoi Ngo Ho et al.Panel and Speech Balloon Extraction from Comic Books .IAPR International Workshop on Document Analysis Systems·2012"中 提出了一種基于區(qū)域生長和形態(tài)學(xué)處理的分鏡分割方法。該文獻采用了區(qū)域生長的分割方 法進行背景提取,初始種子點的選取為漫畫圖像的四個角上的像素點。為了處理分鏡之間 有粘連的情況,該方法對得到的背景圖像進行了 N次的膨脹然后進行N次的腐蝕。文獻中使 用了 3x3的模板,N值選取為圖像長寬中較小值的1/6。最后對形態(tài)學(xué)處理后的圖像提取前景 的連通分量作為分鏡分割結(jié)果。該方法完全依賴于經(jīng)驗,局限性太大,而且要進行2N次的形 態(tài)學(xué)操作,效率比較低。此外,上面所述的分鏡和對白提取方法是通過一個個模塊獨立完成 的,往往會產(chǎn)生一些虛警,無法處理一些復(fù)雜的情況。
【發(fā)明內(nèi)容】
[0008]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于對白和分鏡聯(lián)合識別的漫畫 圖像版面識別方法和系統(tǒng),在已有分鏡識別、對白識別方法的基礎(chǔ)上,充分考慮分鏡和對白 的密切聯(lián)系,利用能量最小化模型及其圖切分優(yōu)化算法,提高分鏡識別的準確率,從而增強 漫畫版面理解識別能力。
[0009]漫畫圖像版面通常存在:分鏡包含對白、分鏡和對白一般同時出現(xiàn)的規(guī)律。本發(fā)明 基于這一規(guī)律,通過構(gòu)成漫畫圖像版面的對象(分鏡、對白等)聯(lián)合識別,提供分鏡和對白的 提取過程并檢驗兩者的提取結(jié)果。并且,本發(fā)明還通過使用能量最小化模型及其優(yōu)化算法, 充分地利用相關(guān)先驗知識,實現(xiàn)漫畫圖像版面識別中所涉及的一些構(gòu)成對象提取、構(gòu)成對 象聯(lián)合識別,由此實現(xiàn)漫畫圖像版面識別。為了充分利用復(fù)雜漫畫圖像構(gòu)成對象(分鏡與對 白)之間的邏輯結(jié)構(gòu)關(guān)系、空間位置關(guān)系等上下文信息,本發(fā)明在使用能量最小化模型進行 圖像分割的基礎(chǔ)上,采用標號分層的思想(如圖6所示)來完成聯(lián)合識別的任務(wù)。對漫畫頁面 圖像,按邏輯結(jié)構(gòu)可分為兩層:分鏡層和對白層,每一個層對應(yīng)同一個邏輯層次的對象。
[0010] 本發(fā)明提供的技術(shù)方案是:
[0011] -種基于對白和分鏡聯(lián)合識別的漫畫圖像版面識別方法,通過采用能量最小化模 型方法提取得到多種漫畫構(gòu)成對象,并通過設(shè)計能量最小化函數(shù)和推理(優(yōu)化)機制,針對 多種漫畫構(gòu)成對象進行聯(lián)合識別,由此實現(xiàn)漫畫圖像版面識別;包括如下步驟:
[0012] 1)提取漫畫圖像版面中的分鏡;
[0013] 11)進行前景背景分割過程,將輸入圖像轉(zhuǎn)換為灰度圖像,通過廣度優(yōu)先搜索方法 得到背景區(qū)域,再將其他所有區(qū)域當作前景區(qū)域,并將漫畫圖像二值化為黑白二值圖;
[0014] 12)進行輪廓檢測過程,檢測并提取得到所述黑白二值圖的輪廓;
[0015] 13)對所述黑白二值圖的輪廓進行多邊形擬合,對于能夠擬合出四邊形的輪廓,將 擬合得到的四邊形加入已識別的分鏡中;對于不能通過四邊形擬合的輪廓,繼續(xù)進行步驟 14)直線段檢測過程;
[0016] 14)直線段檢測過程通過直線段檢測過程逐個提取輪廓中所包含的直線段:具體 可設(shè)定一個固定閾值,拋棄長度小于該閾值的分鏡邊線和從曲線上提取出的直線段,使用 直線段的左端點坐標(xl,yl)和右端點坐標U2,y2)表示一條