欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法

文檔序號(hào):6483998閱讀:957來源:國(guó)知局
專利名稱:數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法
技術(shù)領(lǐng)域
本發(fā)明屬于文本處理領(lǐng)域,涉及一種數(shù)據(jù)標(biāo)引方法,具體涉及一種數(shù)字資源加工 過程中的數(shù)據(jù)標(biāo)引方法。
背景技術(shù)
傳統(tǒng)的紙張作為信息媒介存在著巨大的資源浪費(fèi),以圖書為例,大量的有用和沒用的信息都要印刷出成千上萬冊(cè),經(jīng)過存儲(chǔ)、運(yùn)輸、批發(fā)、銷售等耗資巨大的環(huán)節(jié)后送到讀 者面前,最終被束之高閣。這樣不僅一方面社會(huì)資源和自然資源被嚴(yán)重浪費(fèi),另一方面信息 無法永久保存,更談不上信息的增殖。而隨著人類社會(huì)需求的發(fā)展和信息的膨脹,為傳統(tǒng)紙 媒介所做的信息移植的代價(jià)越來越大。因此,隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的快速發(fā)展,報(bào) 紙、圖書等紙質(zhì)文檔的電子化信息的提取對(duì)信息的共享和傳播來說變得越來越重要。對(duì)于數(shù)字資源加工后得到的電子文檔數(shù)據(jù),要進(jìn)行更充分的利用,通常的做法是, 在電子化后的文檔數(shù)據(jù)上進(jìn)行人工添加標(biāo)引(比如書名,作者,摘要,出版日期等)后,導(dǎo)入 數(shù)據(jù)庫(kù),便于查詢和檢索。對(duì)于將紙質(zhì)文檔電子化的數(shù)字資源加工過程,工作效率直接取決于加工工具使用 方式的便捷性,現(xiàn)有的數(shù)字資源加工方法,通常是先將紙制文檔電子化,然后在電子化數(shù)據(jù) 上添加標(biāo)引,按照?qǐng)D像上某版面塊的屬性,將電子化數(shù)據(jù)的相關(guān)文字添加相應(yīng)的標(biāo)引屬性。 這種方式既包含了分析圖像上某板面塊所屬屬性的時(shí)間,又包括在電子化數(shù)據(jù)中查找相關(guān) 信息添加標(biāo)引的時(shí)間。基于OCR的紙制文檔電子化過程中,掃描后的圖像文檔,必需經(jīng)過圖像處理,版面 分析,識(shí)別,校對(duì),輸出等環(huán)節(jié)。版面分析環(huán)節(jié)即將圖像上需要識(shí)別的各個(gè)版面塊標(biāo)出。而 版面分析所需畫出的版面塊和添加標(biāo)引時(shí)對(duì)應(yīng)的版面信息塊,有著內(nèi)在的聯(lián)系,即一個(gè)版 面塊,既是識(shí)別需要的一個(gè)圖像塊,其內(nèi)容又是有著某個(gè)標(biāo)引屬性的文字塊。因?yàn)樵诩庸み^ 程中的版面分析環(huán)節(jié)已經(jīng)對(duì)圖像版面進(jìn)行過一次分析,而加標(biāo)引的過程需要對(duì)版面上的信 息進(jìn)行第二次的瀏覽與確認(rèn),大大降低了加工的工作效率,不利于電子資源的快速加工和 傳播。

發(fā)明內(nèi)容
根據(jù)現(xiàn)有數(shù)字資源加工過程中所存在的問題,為提高數(shù)字資源加工的效率,本發(fā) 明提出一種數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,該方法是在紙制文檔電子化過程中的版 面分析環(huán)節(jié),依據(jù)識(shí)別所需要的圖像版面塊和添加標(biāo)引需要的文字信息塊的對(duì)應(yīng)關(guān)系,在 版面分析的同時(shí),賦予版面框某種缺省標(biāo)引屬性,并可以方便的人工調(diào)整框的標(biāo)引屬性,最 后利用識(shí)別結(jié)果文本和版面框的對(duì)應(yīng)關(guān)系,自動(dòng)完成數(shù)據(jù)標(biāo)引工作,將版面分析和添加標(biāo) 引兩個(gè)過程合二為一,大大提高了加工效率,并使添加標(biāo)引的工作更直觀易操作。數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,包括以下步驟步驟1 將紙質(zhì)文檔進(jìn)行掃描或打開已有的電子文檔圖像,將內(nèi)容相關(guān)的一批圖像制作成數(shù)據(jù)包;步驟2 對(duì)制作成的數(shù)據(jù)包進(jìn)行圖像處理,得到待識(shí)別的圖像數(shù)據(jù)包;步驟3 對(duì)待識(shí)別的圖像數(shù)據(jù)包進(jìn)行版面分析,將圖像上的各個(gè)版面畫出版面框, 并在版面框上標(biāo)示出標(biāo)引屬性;步驟4 對(duì)圖像中的各版面進(jìn)行OCR識(shí)別;步驟5 對(duì)OCR識(shí)別出的結(jié)果進(jìn)行校對(duì)和標(biāo)引修正;步驟6 利用修正后的識(shí)別結(jié)果文本和版面框,得到識(shí)別結(jié)果和標(biāo)引屬性的對(duì)應(yīng) 關(guān)系文件。所述步驟3中,對(duì)每個(gè)版面框會(huì)自動(dòng)添加缺省的標(biāo)引屬性,并根據(jù)匹配情況進(jìn)行調(diào)整。所述步驟3的標(biāo)引屬性中,種類和名稱根據(jù)需要自行進(jìn)行設(shè)置。所述步驟5中,進(jìn)行校對(duì)和標(biāo)引修正時(shí),將識(shí)別出的文字和對(duì)應(yīng)標(biāo)引的屬性并排 顯示,并通過識(shí)別出的文字定位到原圖像上對(duì)應(yīng)的位置的方式來校對(duì)并修正識(shí)別出的文字 和所屬標(biāo)引屬性信息。本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,與現(xiàn)有技術(shù)相比,其優(yōu)點(diǎn)在于1、本方法在版面分析的同時(shí)添加標(biāo)引,在對(duì)圖像上的內(nèi)容進(jìn)行一次分析的情況 下,完成兩種操作。相對(duì)于紙質(zhì)文檔電子化后,在電子化數(shù)據(jù)的基礎(chǔ)上添加標(biāo)引來說,少進(jìn) 行了一遍圖像的內(nèi)容的分析,大大提高了數(shù)字資源加工和添加標(biāo)引的工作效率。2、添加的標(biāo)引可以通過標(biāo)引定制工具進(jìn)行自定義,對(duì)于不同的資源,定制不同的 標(biāo)引,擴(kuò)大了數(shù)據(jù)加工的范圍,提高了系統(tǒng)的通用性。3、在OCR識(shí)別后的校對(duì)過程中,同時(shí)對(duì)添加標(biāo)引進(jìn)行校對(duì),節(jié)省了額外進(jìn)行標(biāo)引 檢查的工作量,提高了標(biāo)引的正確率和可靠性。4、在校對(duì)識(shí)別結(jié)果的同時(shí)可以直觀地對(duì)文字所屬標(biāo)引進(jìn)行檢查和修改。


圖1為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法的方法流程圖;圖2為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法的版面默認(rèn)標(biāo)引示意圖;圖3為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法的版面修改后的標(biāo)引示意圖;圖4為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法版面的識(shí)別結(jié)果;圖5為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法的版面校正后的識(shí)別結(jié)果;圖6為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法定義的標(biāo)引;圖7為本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法的識(shí)別結(jié)果和標(biāo)引屬性的對(duì) 應(yīng)關(guān)系文件。
具體實(shí)施例方式下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述本方法首先將紙質(zhì)文檔進(jìn)行掃描或打開已有的電子文檔圖像,將內(nèi)容相關(guān)的一批圖像,作為一個(gè)數(shù)據(jù)包,再對(duì)掃描后的圖像數(shù)據(jù)包進(jìn)行必要的圖像處理,對(duì)處理后的圖像數(shù) 據(jù)包進(jìn)行版面分析,及對(duì)版面框添加標(biāo)引屬性,通過OCR識(shí)別,利用識(shí)別結(jié)果文本和版面框的對(duì)應(yīng)關(guān)系,自動(dòng)完成數(shù)據(jù)標(biāo)引工作,輸出文字所屬標(biāo)引,以及標(biāo)引在圖像上的位置,將圖 像信息正確入庫(kù),制作相關(guān)的檢索信息源。如圖1所示,該方法可以通過以下步驟實(shí)現(xiàn)步驟一掃描,對(duì)于紙質(zhì)文檔(書、報(bào)紙、雜志等),調(diào)用掃描儀進(jìn)行掃描;對(duì)于已經(jīng) 是電子文檔的圖像,直接打開,將內(nèi)容相關(guān)的一批圖像(如一本書)整理為一個(gè)數(shù)據(jù)包。此 數(shù)據(jù)包作為其他工序操作的單位。本實(shí)施例中,選用了兩段文字作為掃描后得到的文本進(jìn) 行說明。步驟二 圖像處理,獲得掃描工序完成的一個(gè)數(shù)據(jù)包,對(duì)于質(zhì)量不好的圖像進(jìn)行必 要的圖像處理,如對(duì)圖像進(jìn)行旋轉(zhuǎn)、傾斜校正等。保證圖像可以正常處理和識(shí)別。步驟三版面分析,獲得圖像處理工序完成的一個(gè)數(shù)據(jù)包,對(duì)圖像進(jìn)行自動(dòng)或手工 版面分析。版面分析可以采用自動(dòng)或手動(dòng)的方式,將圖像上的各個(gè)版面正確畫出,在版面框 上以標(biāo)志標(biāo)示此版面框所屬的標(biāo)弓I屬性。版面分析是指將圖像劃分出每一個(gè)區(qū)域塊。對(duì)于各個(gè)不同的區(qū)域塊不僅給出其自 身的屬性,如橫排的文字、豎排的文字、圖形圖像等,而且標(biāo)明不同區(qū)域塊之間的順序,以便 系統(tǒng)進(jìn)行識(shí)別處理。版面上有意義的文字塊,比如“題目”,“作者”,“正文”等,也在圖像對(duì) 應(yīng)一個(gè)一個(gè)的區(qū)域塊,與識(shí)別需要的區(qū)域塊為一致的。版面分析有兩種模式,一種是自動(dòng)版面分析,一種為手動(dòng)版面分析。自動(dòng)版面分析 是指依靠圖像版面分析算法,自動(dòng)將圖像上的各個(gè)版面塊標(biāo)示在圖像上,對(duì)于特別復(fù)雜的 圖像版面,自動(dòng)分析后,須人工手動(dòng)來輔助調(diào)整。手動(dòng)版面分析是指人工畫出每一個(gè)需要的 版面塊。本實(shí)施例中,采用自動(dòng)版面分析,采用漢王0CR6. OSDK中的版面分析算法分析出兩 個(gè)版面框。版面分析的過程,不管是自動(dòng)還是手動(dòng)進(jìn)行版面分析,都需要按照?qǐng)D像上需要加 標(biāo)識(shí)的有意義的版面塊來順序劃定。如圖像上“標(biāo)題”部分的文字,畫為一個(gè)版面框,并添 加標(biāo)引為“標(biāo)題”;圖像上“作者”部分的文字,畫為一個(gè)版面框,并添加標(biāo)引為“作者”等。版面分析時(shí),為了減少加標(biāo)引的工作量,每當(dāng)畫出一個(gè)版面框的時(shí)候,該版面框會(huì) 自動(dòng)添加一種缺省的標(biāo)引。本實(shí)施例中,如圖2所示,將標(biāo)引“正文”設(shè)置為缺省標(biāo)引。這 樣每當(dāng)劃定一個(gè)版面框的時(shí)候,會(huì)自動(dòng)加上“正文”的標(biāo)引,如果與圖像上實(shí)際的文字屬性 不匹配,則加以修改;如果一致,就不用修改了,節(jié)省工作量。如圖2所示,圖象上的文字分為兩個(gè)版面框,以方框標(biāo)出,版面框的左上角提示了 該版面框所處的順序和標(biāo)引內(nèi)容。如“1”,“2”,表示版面框的順序是第一個(gè)和第二個(gè)。兩 個(gè)版面塊的標(biāo)引都是自動(dòng)添加的默認(rèn)標(biāo)弓l“ZW”表示“正文”。第一個(gè)版面框應(yīng)該是標(biāo)題,需 要修改,第二個(gè)框是正文,就是默認(rèn)標(biāo)引,不需要修改。如圖3所示,為修改后的結(jié)果。第一 個(gè)版面框上的“BT”表示該版面框的標(biāo)引是“標(biāo)題”,第二個(gè)版面框上的“ZW”表示該版面框 的標(biāo)引是“正文”。圖3中用到的“ZW”、“BT”等標(biāo)引都是預(yù)先定義好的,根據(jù)圖像的種類,決定用到的 標(biāo)引的種類和名稱,通過定義即可使用,將版面框修改為正確的標(biāo)引類型。加工不同的數(shù)據(jù)資源,所需要添加的標(biāo)引的種類和名稱都是不同的。如對(duì)于雜志 類型的資源,標(biāo)引為“標(biāo)題”、“作者”、“正文”等,而對(duì)于專利文獻(xiàn)這樣的數(shù)據(jù)資源,,添加的 標(biāo)引就是“摘要”、“權(quán)力要求書”、“說明書”等。不同的加工資源需要不同類型的標(biāo)引。這樣為了加工各種資源數(shù)據(jù)的需求,標(biāo)引需要自定義,即需要什么名稱的標(biāo)引,就定義什么名 稱的標(biāo)引來使用。標(biāo)引的種類和名稱可進(jìn)行設(shè)置,可以自定義所需要的標(biāo)引。這樣對(duì)于不 同種類的文檔資源,可以采用不同的標(biāo)引,使得系統(tǒng)處理范圍更廣泛。圖6顯示了本例用到 的標(biāo)引的定義,共定義了標(biāo)引5個(gè),分別為刊名、編號(hào)、標(biāo)題、作者和正文,其中正文為默認(rèn) 標(biāo)弓丨。如果加工的數(shù)據(jù)資源用到了其它的標(biāo)引,可在圖6的標(biāo)引定義中進(jìn)行添加。步驟四識(shí)別,獲得版面分析工序完成的數(shù)據(jù)包,對(duì)圖像進(jìn)行批量OCR識(shí)別,即將 版面分析過程中框定的圖像內(nèi)容識(shí)別成文字。本實(shí)施例中,采用漢王0CR6. OSDK進(jìn)行OCR 識(shí)別,圖4為識(shí)別的結(jié)果。步驟五對(duì)OCR識(shí)別出的結(jié)果進(jìn)行校對(duì)和標(biāo)引修正,獲得經(jīng)過OCR識(shí)別后的工作 包,對(duì)其中識(shí)別后的文字進(jìn)行校對(duì)。如圖5所示,本實(shí)施中,使顯示圖像的識(shí)別結(jié)果和對(duì)應(yīng) 的顯示圖像一一對(duì)應(yīng)。選中設(shè)別后的識(shí)別結(jié)果的某個(gè)字,則會(huì)自動(dòng)定位到此字在圖像中所 在的位置;同時(shí)在識(shí)別結(jié)果的左邊,與文字平行處,并排顯示此段文字所屬的標(biāo)引屬性的名 稱。
在進(jìn)行文字校對(duì)的同時(shí)可對(duì)標(biāo)引進(jìn)行檢查,方便直觀的校對(duì)識(shí)別文字和所屬標(biāo)引 屬性是否正確,節(jié)省了額外的標(biāo)引檢查工作。如果發(fā)現(xiàn)版面分析時(shí)標(biāo)引添加錯(cuò)誤,可在此直 接進(jìn)行修改。為達(dá)到要求的文字正確率,可執(zhí)行多次校對(duì)工序。圖5中將圖4識(shí)別出來的 結(jié)果中的錯(cuò)誤字“鄉(xiāng)”修改為正確的“多”,標(biāo)引經(jīng)過校對(duì)都是正確的,從而完成校對(duì)工作。步驟六結(jié)果輸出,獲取校對(duì)工序完成的一個(gè)工作包,按照檢索發(fā)布系統(tǒng)等要求, 可以自動(dòng)輸出識(shí)別結(jié)果和標(biāo)引屬性的對(duì)應(yīng)關(guān)系文件。利用識(shí)別結(jié)果文本和版面框的對(duì)應(yīng)關(guān) 系,自動(dòng)完成數(shù)據(jù)標(biāo)引工作。在版面分析時(shí),已經(jīng)標(biāo)定了每個(gè)版面框的標(biāo)引和版面框的順序,將圖像進(jìn)行識(shí)別 后,就有了每個(gè)版面框的識(shí)別結(jié)果和標(biāo)引的關(guān)系,根據(jù)這個(gè)關(guān)系就可以輸出標(biāo)引文件了,這 個(gè)文件可以記錄每個(gè)標(biāo)引在圖像上的位置,具體的文字內(nèi)容等。依據(jù)上述信息,就可以將圖 像信息正確入庫(kù),制作相關(guān)的檢索信息源。本實(shí)施例中,利用修正后的識(shí)別結(jié)果文本和版面框,以及版面框在圖像上的位置, 將這些信息寫入到文本文件中,就可以得到識(shí)別結(jié)果和標(biāo)引屬性的對(duì)應(yīng)關(guān)系文件,如圖7 所示,<IMAGE>標(biāo)明以下文字是為圖像hwOOl. jpg中的文字,同時(shí)也用 < 標(biāo)題 > 和 < 正文〉 標(biāo)記出了圖像上的標(biāo)題和正文中的內(nèi)容。標(biāo)題后的坐標(biāo),表示此段文字版面框?qū)?yīng)于圖像 上的位置,同理正文后的坐標(biāo)表示正文版面框?qū)?yīng)圖像上的位置。這個(gè)關(guān)系文本文件將圖 像上的信息都記錄了下來,包括圖像名稱、圖像上這篇文章的標(biāo)題、正文的內(nèi)容,以及標(biāo)題、 正文內(nèi)容對(duì)應(yīng)在圖像上的位置。發(fā)布系統(tǒng)或檢索系統(tǒng)就將此文件中的內(nèi)容讀入,依據(jù)這些 信息可以實(shí)現(xiàn)查詢?yōu)g覽等功能。如用戶想檢索關(guān)于幸福的文章,檢索“幸?!标P(guān)鍵詞后,可 以檢索到本例中“少了財(cái)富多些幸?!边@篇文章,那么可以同時(shí)得到這篇文章的正文內(nèi)容, 這篇文章的圖像hwOOl. jpg,以及標(biāo)題、正文對(duì)應(yīng)在圖像上的絕對(duì)坐標(biāo)。
權(quán)利要求
一種數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,包括以下步驟步驟一將紙質(zhì)文檔進(jìn)行掃描或打開已有的電子文檔圖像,將內(nèi)容相關(guān)的一批圖像制作成數(shù)據(jù)包;步驟二對(duì)制作成的數(shù)據(jù)包進(jìn)行圖像處理,得到待識(shí)別的圖像數(shù)據(jù)包;步驟三對(duì)待識(shí)別的圖像數(shù)據(jù)包進(jìn)行版面分析,將圖像上的各個(gè)版面畫出版面框,并在版面框上標(biāo)示出標(biāo)引屬性;步驟四對(duì)圖像中的各版面進(jìn)行OCR識(shí)別;步驟五對(duì)OCR識(shí)別出的結(jié)果進(jìn)行校對(duì)和標(biāo)引修正;步驟六利用修正后的識(shí)別結(jié)果文本和版面框,得到識(shí)別結(jié)果和標(biāo)引屬性的對(duì)應(yīng)關(guān)系文件。
2.如權(quán)利要求1所述的一種數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,其特征在于,所述 步驟三中,對(duì)每個(gè)版面框會(huì)自動(dòng)添加缺省的標(biāo)引屬性,并根據(jù)匹配情況進(jìn)行調(diào)整。
3.如權(quán)利要求1、2所述的一種數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,其特征在于,所 述步驟三的標(biāo)引屬性中,種類和名稱根據(jù)需要自行進(jìn)行設(shè)置
4.如權(quán)利要求1所述的一種數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,其特征在于,所述 步驟五對(duì)OCR識(shí)別的文字進(jìn)行校對(duì)和標(biāo)引修正時(shí),識(shí)別文字和其相關(guān)的標(biāo)引屬性并排顯 示,并且通過文字可以直接定位到圖像上文字所在位置,可以方便直觀的校對(duì)識(shí)別文字和 所屬標(biāo)引屬性是否正確。
全文摘要
本發(fā)明數(shù)字資源加工過程中的數(shù)據(jù)標(biāo)引方法,屬數(shù)字資源加工的計(jì)算機(jī)信息處理技術(shù)領(lǐng)域。將紙質(zhì)文檔進(jìn)行掃描或打開已有的電子文檔圖像,作為一個(gè)數(shù)據(jù)包,進(jìn)行必要的圖像處理、版面分析,及對(duì)版面框添加標(biāo)引屬性,通過OCR識(shí)別,利用識(shí)別結(jié)果文本和版面框的對(duì)應(yīng)關(guān)系,自動(dòng)完成數(shù)據(jù)標(biāo)引工作,輸出文字所屬標(biāo)引,以及標(biāo)引在圖像上的位置等相關(guān)信息,依據(jù)此信息,可以將圖像信息正確入庫(kù),制作相關(guān)的檢索信息源。本發(fā)明在進(jìn)行文檔資料進(jìn)行處理時(shí),用戶在版面分析過程的同時(shí)進(jìn)行標(biāo)引添加工作,添加的標(biāo)引可由用戶自定義,在校對(duì)識(shí)別結(jié)果的同時(shí)直觀地對(duì)文字所屬標(biāo)引進(jìn)行檢查和修改,大大提高了數(shù)字資源加工的工作效率,提高了系統(tǒng)的通用性。
文檔編號(hào)G06F17/24GK101833545SQ20091007943
公開日2010年9月15日 申請(qǐng)日期2009年3月11日 優(yōu)先權(quán)日2009年3月11日
發(fā)明者丁迎, 王維娜 申請(qǐng)人:漢王科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邻水| 绥棱县| 穆棱市| 静乐县| 临颍县| 高州市| 凉城县| 南宁市| 无极县| 洪泽县| 建水县| 洛南县| 会宁县| 太康县| 长岛县| 柳江县| 定南县| 额济纳旗| 蒙自县| 襄城县| 金塔县| 秦安县| 保定市| 博湖县| 新丰县| 旬邑县| 彰化市| 南丰县| 成武县| 新化县| 内乡县| 中山市| 镇雄县| 旺苍县| 临颍县| 定结县| 恭城| 绩溪县| 寿宁县| 娄底市| 江北区|