欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文字識別方法、裝置及文字圖像/文本轉(zhuǎn)換服務(wù)方法

文檔序號:6425016閱讀:168來源:國知局
專利名稱:一種文字識別方法、裝置及文字圖像/文本轉(zhuǎn)換服務(wù)方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種使用OCR的文字識別方法、文字識別裝置及利用其文字圖像(image)/文本(text)轉(zhuǎn)換服務(wù)方法,特別是涉及一種使用OCR軟件等使文字轉(zhuǎn)換后易于進(jìn)行文字修正的方法及裝置。
背景技術(shù)
將紙媒體形成文字?jǐn)?shù)據(jù)化文件中時,對原始的使用者來說,是將與其相同的文字用字處理機(jī)(word processor)等輸入,但近年來大多是采用圖像掃描設(shè)備掃描寫在紙媒體上的文件文字,將文字作為圖像保存到計算機(jī)內(nèi),因此可使用OCR(光學(xué)特征識別Optical Character Recognition)軟件(以下稱為OCR)將其轉(zhuǎn)換為文本(text)數(shù)據(jù)(例如,參照專利文獻(xiàn)1、2)。
(專利文獻(xiàn)1)日本特開2002-74266號公報(專利文獻(xiàn)2)日本特開2000-57261號公報然而,因?yàn)閽呙钑r的條件,或原文件的不清晰等文字圖像本身的不完整性,或OCR的識別精確度等問題,目前轉(zhuǎn)換的正確度仍無法達(dá)到100%。因此,用人眼的目測來進(jìn)行修正成為不可缺少的步驟。
欲進(jìn)行修正時,用人眼來觀察原來的(轉(zhuǎn)換前的)文字圖像和轉(zhuǎn)換后的文字并進(jìn)行比較,判斷是否相同,不同則手動輸入正確的文字而修正,但因同樣文字并不集中在一個位置,所以不得不實(shí)行逐字逐句地修正,在反復(fù)出現(xiàn)同樣文字的情況下,不能綜合在一起來修正。例如,“日本…”的句(phrase)在1個文件中使用50次,而如果其分散在文件中,則為了修正此文字圖像的OCR化文字,必須找出有此文字的位置,就需要進(jìn)行最多50次的修正作業(yè)。圖1表示用圖像掃描設(shè)備將上述文件作為文字圖像保存,圖2表示將其用OCR軟件轉(zhuǎn)換為文本數(shù)據(jù)的情況。從圖2也可以知道不能避免轉(zhuǎn)換失誤,“日本”轉(zhuǎn)換為錯誤的“目本”(①)、“月本”(②)、“日木”(③)或“日太”(④)。如要進(jìn)行修正,則必須得對每一個文字進(jìn)行修正,變得強(qiáng)迫重復(fù)性作業(yè)。若綜合“目”來實(shí)行如替換為“日”的修正時,雖然其效率很好,但相反錯誤的將轉(zhuǎn)換為正確的,也就是“目”字轉(zhuǎn)換為“日”的危險性,所以此方法并不妥當(dāng)。
在提供文字圖像/文本轉(zhuǎn)換服務(wù)時,雖然會產(chǎn)生修正經(jīng)轉(zhuǎn)換文字的作業(yè),但用多數(shù)人來實(shí)行此修正作業(yè),即使每個任務(wù)都擔(dān)當(dāng)包含一個“日本”來進(jìn)行作業(yè)就不會出現(xiàn)重復(fù)作業(yè)的現(xiàn)象,而且,將擔(dān)當(dāng)分為每一文字,則可以完全地保持文件內(nèi)容的秘密,同時縮短了整體修正時間。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種文字識別方法、識別裝置及文字圖像/文本轉(zhuǎn)換服務(wù)方法,將經(jīng)轉(zhuǎn)換的文字群組化為每一文字,用群組單位實(shí)行修正,從而有效地修正利用OCR等軟件轉(zhuǎn)換的文字。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種文字識別方法,其特點(diǎn)在于,其步驟包括從經(jīng)圖像化文件的文字行或列切出文字圖像,將各文字圖像與其位置信息一起儲存的步驟;根據(jù)文字圖像/文本轉(zhuǎn)換手段,轉(zhuǎn)換該各文字圖像為文字的步驟;附予該各文字圖像及其位置信息,與由轉(zhuǎn)換得到的該文字關(guān)連,將該文字的同樣的文字圖像作為一個群組儲存在同樣文件中的步驟;比較在該同樣文件中的文字圖像與文字并顯示的步驟;該文字圖像與文字為非同樣文字時,修正為對應(yīng)該文字圖像的文字的步驟;及將含該修正后文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的排列。
為了更好實(shí)現(xiàn)上述目的,本發(fā)明還提供一種文字識別裝置,包括從經(jīng)圖像化文件的文字行或列切出文字圖像,將各文字圖像與其位置信息一起儲存的文字切出裝置;轉(zhuǎn)換該切出的各文字圖像為文字?jǐn)?shù)據(jù)的文字圖像/文本轉(zhuǎn)換裝置;附予該各文字圖像及其位置信息,與自轉(zhuǎn)換獲得的該文字關(guān)連,將該文字的同樣的文字圖像作為1個群組,儲存于同樣文件中的群組化裝置;及比較在該同樣文件的文字圖像與文字來顯示的顯示裝置;其中,該文字識別裝置更具備有該文字圖像與文字為非同樣文字時,修正成對應(yīng)該文字圖像的文字的文字修正裝置;及將含經(jīng)修正文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的文字再排列裝置。
為了更好實(shí)現(xiàn)上述目的,本發(fā)明還提供一種文字圖像/文本轉(zhuǎn)換服務(wù)方法,利用網(wǎng)絡(luò)實(shí)行轉(zhuǎn)換文字圖像為文本的文字圖像/文本轉(zhuǎn)換服務(wù)方法,其特征在于,該方法的步驟包括該文字圖像數(shù)據(jù)從轉(zhuǎn)換委托者終端,通過網(wǎng)絡(luò)輸入轉(zhuǎn)換服務(wù)提供者的服務(wù)器的步驟;該服務(wù)器,由文字圖像/文本轉(zhuǎn)換手段將該文字圖像數(shù)據(jù)轉(zhuǎn)換為文件數(shù)據(jù)的步驟該服務(wù)器,乃附予該各文字圖像及其位置信息,與由轉(zhuǎn)換獲得的該文字關(guān)連,將該文字為同樣的文字圖像作為1個群組儲存在同樣檔案步驟;連接在該網(wǎng)絡(luò)的文字修正者終端,通過該網(wǎng)絡(luò)輸入儲存在該文件的文字圖像與文字的步驟;比較該文字圖像與文字顯示于該修正者終端的顯示裝置的步驟;該文字圖像與文字為非同樣文字時,該修正者修正為對應(yīng)該文字圖像的文字的步驟;根據(jù)該修正者所修正文字與文字圖像,通過網(wǎng)絡(luò)輸入該服務(wù)器儲存在該同樣的文件中的步驟;該服務(wù)器,將含該修正后文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的排列步驟;及該改排而返回原文字圖像排列的全體文字,通過網(wǎng)絡(luò)輸入該轉(zhuǎn)換委托者終端的步驟。
本發(fā)明的功效,在于使用OCR軟件等,使文字轉(zhuǎn)換后易于進(jìn)行文字修正,并因?yàn)榉稚閱蝹€文字交給修正者進(jìn)行修正,去除了使修正者獲知文件內(nèi)容的現(xiàn)象,可以完全地保守秘密,而且修正者僅具有終端即可,所以在世界各地都可以實(shí)行修正作業(yè),還可以確保多數(shù)修正者,因此能謀求大幅度地縮短修正作業(yè)時間及削減成本。
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述,但不作為對本發(fā)明的限定。


圖1為用圖像掃描設(shè)備將文件轉(zhuǎn)換為文字圖像而保存的一實(shí)施例示意圖;圖2為將圖1中的圖像用OCR軟件轉(zhuǎn)換為文本數(shù)據(jù)的示意圖;圖3為本發(fā)明的文字識別方法流程圖;圖4為一般文字識別裝置的硬件結(jié)構(gòu)圖;圖5為將同樣文字圖像的群組作為同樣群組而儲存于一個文件的步驟圖;圖6為用于進(jìn)行文字圖像/文本轉(zhuǎn)換服務(wù)的網(wǎng)絡(luò)構(gòu)成示意圖;圖7為利用網(wǎng)絡(luò)的文字圖像/文本轉(zhuǎn)換服務(wù)方法的流程圖。
其中,附圖標(biāo)記10-轉(zhuǎn)換委托書,11-個人計算機(jī)
12-圖像掃描設(shè)備,13-文件20-網(wǎng)絡(luò)30-轉(zhuǎn)換服務(wù)提供者31-服務(wù)器,32-數(shù)據(jù)庫40-修正者,41-顯示器具體實(shí)施方式
請參閱圖3,圖3為本發(fā)明的文字識別方法流程圖。
在對打印在紙媒體上的文件進(jìn)行電子化處理時,步驟S1,將經(jīng)打印的文字使用圖像掃描設(shè)備等的圖像輸入裝置作為圖像數(shù)據(jù),輸入個人計算機(jī)等信息處理裝置。圖4為一般的文字識別裝置的硬件結(jié)構(gòu),由作為信息處理裝置的個人計算機(jī)11與作為連接于其的圖像輸入裝置的圖像掃描設(shè)備12所構(gòu)成。在個人計算機(jī)11的內(nèi)部,內(nèi)設(shè)有用圖像掃描設(shè)備保存的圖像數(shù)據(jù)、轉(zhuǎn)換圖像數(shù)據(jù)為文字?jǐn)?shù)據(jù)的如OCR軟件的文字識別程序、及用以下所述步驟將文字識別處理,用來儲存于個人計算機(jī)實(shí)行控制程序的存儲裝置(未圖標(biāo))。
在步驟S1讀取的圖像數(shù)據(jù),僅為由連接的文字圖像所構(gòu)成的圖像,因此需要將此分割成一個一個(單個)的文字單位。不然,無法將文字圖像轉(zhuǎn)換為文字。步驟S2,橫寫時用行單位切出文字,縱寫時用列單位切出。文字切出的方法,例如可以使用日本特開2000-57261號公報的說明書記載方法,或揭示于本申請人尚未公開的在先申請(日本特愿2003-52822號說明書)的方法。
其次,步驟S3,將切出的各個文字圖像與該文字的文件中位置信息附予關(guān)連并儲存。接著,步驟S4,利用OCR軟件轉(zhuǎn)換文字圖像為文字。參見上述圖1所示用圖像掃描設(shè)備進(jìn)行圖像化文字的實(shí)施例,圖2為用OCR軟件將其轉(zhuǎn)換成文字?jǐn)?shù)據(jù)時的實(shí)施例。以往在圖2之前,分別以手動進(jìn)行修正①的“目”為“日”,②的“木”為“本”,③的“月”為“日”,④的“太”為“本”,但是對于幾百、幾千頁的文件就會需要大量時間,并且在分割為多個任務(wù)來進(jìn)行修正時,反復(fù)出現(xiàn)如本例中“日本”的情況也需要進(jìn)行重復(fù)的作業(yè)。于是實(shí)行檢集歸納同樣文字于一個地方的處理方法。然而,計算機(jī)只能將文字圖像識別為圖像,所以為了判斷作為圖像(映像)的文字是否相同,就需要個別的圖像識別處理而花費(fèi)處理時間。于是,步驟S5,在本實(shí)施例中轉(zhuǎn)換為文字?jǐn)?shù)據(jù)后,將其相同的文字圖像群組作為相同群組,儲存在一個文件中。在此情況下,文字圖像與其位置信息已經(jīng)附予關(guān)連,因此,從結(jié)果來說,實(shí)際是經(jīng)轉(zhuǎn)換的文字?jǐn)?shù)據(jù)與原文字圖像的位置信息同時附予關(guān)連。
請參閱圖5,為用來說明在步驟S5進(jìn)行處理的圖。(A)雖然轉(zhuǎn)換為文字的結(jié)果是成為“日”字圖像的文件,但在此表示正確的轉(zhuǎn)換。其上層為文字圖像,下層為轉(zhuǎn)換其為文字。不用說,給文字賦予有所規(guī)定的碼,“日”在JIS碼中為“467C”、移位JIS為“93FA”。在本發(fā)明中是以此文字碼作為鍵碼來實(shí)行文字圖像的群組化。(B)為儲存經(jīng)轉(zhuǎn)換后變成“目”的文字圖像的文件。雖然轉(zhuǎn)換成相同的“目”字,但其原文字圖像中有“日、月、目”三種字。(C)與(B)一樣,經(jīng)轉(zhuǎn)換后儲存“月”文字圖像的文件。(D)、(E)、(F)基本的狀況也與(A)、(B)、(C)相同。其中,都是下層的文字與上層相同的成為一個群組。
其次,步驟S6,因通過步驟S5作成的每一文件都進(jìn)行修正,所以比較文字圖像與文字而顯示于個人計算機(jī)11。在此,上層文字圖像與下層文字不一致時,即稱為未正確地實(shí)行轉(zhuǎn)換,步驟S7,由修正者手動輸入(從個人計算機(jī)11的鍵盤輸入)正確文字。此時,例如圖5的(E),綜合“木”字修正為“本”字后,也可以僅將原來不必要修正的“木”(從右第2個)實(shí)行返回原來的“木”的修正,所以其修正過程用兩次就可以完成,可以加快修正速度。結(jié)束了修正,則步驟S8,保存在原文件中。
如此完成對所有文字的修正作業(yè)后,步驟S9,按照分散儲存的文字圖像的位置信息,將修正的文字改排成原來的位置(排列),復(fù)原原文件。返回于原排列時所使用的位置信息,即為在步驟S3所儲存的位置信息。
圖6為本發(fā)明實(shí)行文字圖像/文本轉(zhuǎn)換服務(wù)結(jié)構(gòu)的網(wǎng)絡(luò)構(gòu)成圖。圖中10為欲接受文字圖像/文本轉(zhuǎn)換服務(wù)的轉(zhuǎn)換委托者,20為如互聯(lián)網(wǎng)、企業(yè)(內(nèi)聯(lián))網(wǎng)(intranet)或?qū)S猛ㄐ诺耐ㄐ啪W(wǎng)絡(luò)。通信方法為有線、無線中任意一種都可以。轉(zhuǎn)換服務(wù)提供者30可提供文字圖像/文本轉(zhuǎn)換服務(wù),具有實(shí)行轉(zhuǎn)換處理等的服務(wù)器31;連接于服務(wù)器31,為保管使用者的該轉(zhuǎn)換委托者的信息或數(shù)據(jù),轉(zhuǎn)換程序或控制程序等,儲存有后述的修正者屬性等管理信息的數(shù)據(jù)庫32。并且,修正者40為用來修正經(jīng)轉(zhuǎn)換文字的多個修正者(及終端),連接在網(wǎng)絡(luò)20,可存取于服務(wù)器31。
請參照圖7,說明關(guān)于本發(fā)明的文字圖像/文本轉(zhuǎn)換服務(wù)方法。
首先,步驟S11,轉(zhuǎn)換委托者,將欲文字化(電子化)文件13通過圖像掃描發(fā)備12等作為圖像數(shù)據(jù)保存到個人計算機(jī)11等。若此文件為秘密文件,欲使第三者不知道內(nèi)容時,步驟S12,混洗獲得的文字圖像,儲存混洗信息。文字圖像混洗的方法,可使用本申請人揭示于未公開的先前申請(日本特愿2003-52822號說明書,或中國專利申請?zhí)?00410057336.8的專利說明書)中的方法,其混洗程序,可以從服務(wù)器31下載來使用。其次,步驟S13,將圖像數(shù)據(jù)(或混洗后的圖像數(shù)據(jù))向轉(zhuǎn)換服務(wù)提供者30的服務(wù)器31上載。
步驟S14,服務(wù)器31使用OCR軟件等,將發(fā)送來自轉(zhuǎn)換委托者10的圖像數(shù)據(jù)轉(zhuǎn)換為文字?jǐn)?shù)據(jù)。
步驟S15,服務(wù)器31將文件圖像全體中的個別的文字圖像的位置信息、該文字圖像及該經(jīng)轉(zhuǎn)換的文字附予關(guān)連,使相同的文字圖像作為1個群組儲存在每一文字的文件中。
步驟S16,修正者40從終端(個人計算機(jī)、攜帶信息終端等),通過網(wǎng)絡(luò)20存取于服務(wù)器31,將本身擔(dān)當(dāng)修正的文件下載在終端。步驟S17,修正者在終端的顯示器41顯示對比文字圖像與經(jīng)轉(zhuǎn)換文字,根據(jù)需要修正文字。修正通過手動操作實(shí)行。
步驟S18,修正者將修正后的文件上載于服務(wù)器31。
步驟S19,服務(wù)器31合成修正后的全部文字文件,按照該文字圖像的位置信息,改排全部文字為原文字圖像的排列,步驟S20,將完成轉(zhuǎn)換及修正的文本文件與原圖像數(shù)據(jù)一起,儲存在轉(zhuǎn)換委托者的文件。
步驟S21,轉(zhuǎn)換委托者10存取于服務(wù)器31,從本身的文件下載轉(zhuǎn)換及已修正過的文本文件。若是在委托之際進(jìn)行混洗,實(shí)行重混洗返回原排列。
修正者具有可連接于網(wǎng)絡(luò)的終端,則其居住地在任何地方,即居住在偏僻地方或外國者也可以實(shí)行,能廣泛地確保人員。
根據(jù)有關(guān)本發(fā)明的文字識別方法及文字識別裝置,分成文字單位來實(shí)行修正,所以可大幅度地提高修正速度,同時減少了重復(fù)的作業(yè),所以能謀求大幅減少成本。又作為附帶的效果,因分散為每一文字交給修正者,去除了使修正者獲知文件內(nèi)容的現(xiàn)象,可以完全地保守秘密。
根據(jù)有關(guān)本發(fā)明文字圖像/文本轉(zhuǎn)換服務(wù)方法,修正者僅保有終端即可,所以在世界各地都可以實(shí)行修正作業(yè),還可以確保多數(shù)修正者,因此能謀求大幅度地縮短修正作業(yè)時間及削減成本。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種文字識別方法,其特征在于,其步驟包括從經(jīng)圖像化文件的文字行或列切出文字圖像,將各文字圖像與其位置信息一起儲存的步驟;根據(jù)圖像/文字轉(zhuǎn)換手段,轉(zhuǎn)換該各文字圖像為文字的步驟;附予該各文字圖像及其位置信息,與由轉(zhuǎn)換得到的該文字關(guān)連,將該文字的同樣的文字圖像作為一個群組儲存在同樣文件中的步驟;比較在該同樣文件中的文字圖像與文字并顯示的步驟;該文字圖像與文字為非同樣文字時,修正為對應(yīng)該文字圖像的文字的步驟;及將含該修正后文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的排列。
2.一種文字識別裝置,包括從經(jīng)圖像化文件的文字行或列切出文字圖像,將各文字圖像與其位置信息一起儲存的文字切出裝置;轉(zhuǎn)換該切出的各文字圖像為文字?jǐn)?shù)據(jù)的文字圖像/文字轉(zhuǎn)換裝置;附予該各文字圖像及其位置信息,與自轉(zhuǎn)換獲得的該文字關(guān)連,將該文字的同樣的文字圖像作為1個群組,儲存于同樣文件中的群組化裝置;及比較在該同樣文件的文字圖像與文字來顯示的顯示裝置;其特征在于,該文字識別裝置更具備有該文字圖像與文字為非同樣文字時,修正成對應(yīng)該文字圖像的文字的文字修正裝置;及將含經(jīng)修正文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的文字再排列裝置。
3.一種文字圖像/文本轉(zhuǎn)換服務(wù)方法,利用網(wǎng)絡(luò)實(shí)行轉(zhuǎn)換文字圖像為文字服務(wù)的文字圖像/文本轉(zhuǎn)換服務(wù)方法,其特征在于,該方法的步驟包括該文字圖像數(shù)據(jù)從轉(zhuǎn)換委托者終端,通過網(wǎng)絡(luò)輸入轉(zhuǎn)換服務(wù)提供者的服務(wù)器的步驟;該服務(wù)器,由文字圖像/文本轉(zhuǎn)換手段將該文字圖像數(shù)據(jù)轉(zhuǎn)換為文件數(shù)據(jù)的步驟;該服務(wù)器,乃附予該各文字圖像及其位置信息,與由轉(zhuǎn)換獲得的該文字關(guān)連,將該文字為同樣的文字圖像作為1個群組儲存在同樣檔案步驟;連接在該網(wǎng)絡(luò)的文字修正者終端,通過該網(wǎng)絡(luò)輸入儲存在該文件的文字圖像與文字的步驟;比較該文字圖像與文字顯示于該修正者終端的顯示裝置的步驟;該文字圖像與文字為非同樣文字時,該修正者修正為對應(yīng)該文字圖像的文字的步驟;根據(jù)該修正者所修正文字與文字圖像,通過網(wǎng)絡(luò)輸入該服務(wù)器儲存在該同樣的文件中的步驟;該服務(wù)器,將含該修正后文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的排列步驟;及該改排而返回原文字圖像排列的全體文字,通過網(wǎng)絡(luò)輸入該轉(zhuǎn)換委托者終端的步驟。
全文摘要
本發(fā)明涉及一種文字識別方法及裝置,其包括從經(jīng)圖像化文件的文字行或列切出文字圖像,將各文字圖像與其位置信息一起儲存的步驟;根據(jù)文字圖像/文本轉(zhuǎn)換手段,轉(zhuǎn)換該各文字圖像為文字的步驟;附予各文字圖像及其位置信息,與由轉(zhuǎn)換得到的文字關(guān)連,將該文字的同樣的文字圖像作為一個群組儲存在同樣文件中的步驟;比較在同樣文件中的文字圖像與文字并顯示的步驟;文字圖像與文字為非同樣文字時,修正為對應(yīng)文字圖像的文字的步驟;及將含該修正后文字的全體文字,按照該文字圖像的位置信息改排為原文字圖像的排列。本發(fā)明使文字轉(zhuǎn)換后易于進(jìn)行文字修正,去除了他人獲知文件內(nèi)容的現(xiàn)象,可完全保守秘密,而且可縮短修正時間及削減成本。
文檔編號G06K9/00GK1710592SQ20041007415
公開日2005年12月21日 申請日期2004年9月3日 優(yōu)先權(quán)日2004年9月3日
發(fā)明者李振瀛 申請人:威鋒數(shù)位開發(fā)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
高邮市| 海阳市| 兴宁市| 增城市| 灵石县| 台中县| 宝鸡市| 海淀区| 定襄县| 台中市| 镇远县| 新丰县| 天水市| 新乡县| 广灵县| 郁南县| 兴隆县| 万年县| 浦城县| 宝鸡市| 天等县| 韩城市| 宁明县| 铜陵市| 东乡县| 依安县| 泗阳县| 北碚区| 平顶山市| 苍山县| 马公市| 揭西县| 上高县| 崇仁县| 扎囊县| 丽江市| 榕江县| 定远县| 兴安县| 大荔县| 富蕴县|