欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種名片識別中關鍵文字信息的自動檢索判定方法

文檔序號:6332886閱讀:202來源:國知局
專利名稱:一種名片識別中關鍵文字信息的自動檢索判定方法
技術領域
本發(fā)明涉及一種名片識別技術,特別是一種名片識別中關鍵文字信息的自動檢索判定的方法。
背景技術
在名片中姓名、公司、職位等都是比較重要的信息,一般的,這些重要信息都會以相對比較特殊的形式標注出來,如重要信息的位置排列比較靠前,大小、寬度、字間距等文字參數(shù)比較大,或者背景或前景顏色不一樣等。對于不同的應用場合或者不同的使用者而言,重要信息中往往又存在最關鍵的信息,如何準確提取這些關鍵文字信息,是一個值得研究的問題。而目前在名片識別技術中,均是將名片上的內(nèi)容統(tǒng)統(tǒng)掃描,然后進行識別,然后由用戶在識別的結果字符串里選擇。因此,一方面,這種方式由于要進行全掃描和全識別,特別是全識別所費時間相當長,因此造成名片識別速度比較慢,但是實質(zhì)上用戶所需要的信息只是其中的一條或幾條,因此全掃描全識別存在一定的程序上的浪費;另一方面,由于需要用戶自己選擇關鍵文字信息,就給用戶帶來一定的使用麻煩。

發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術的不足,提供一種方法簡單、步驟合理、智能性更強的一種名片識別中關鍵文字信息的自動檢索判定方法。
為了解決上述技術問題,本發(fā)明所采取的技術方案是一種名片識別中關鍵文字信息的自動檢索判定方法,包括如下步驟步驟1、對輸入的名片圖像進行基于連通域的版面分析和文字分割,并統(tǒng)計字符參數(shù)以及特殊連通域總數(shù)
步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關鍵文字信息的文字區(qū)域;步驟3、搜索所述包含關鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對所述相鄰區(qū)域進行文字識別;步驟4、在文字識別獲得的字符串內(nèi)查找關鍵文字信息,從而獲得其文字內(nèi)容。
所述特殊連通域總數(shù)可以是在水平投影上重疊部分較小的連通域的個數(shù)。
所述步驟2可以是根據(jù)所述字符參數(shù),選取排列前幾位的區(qū)域,即獲得了包含關鍵文字信息的文字區(qū)域。
所述步驟2還可以根據(jù)所述特殊連通域的個數(shù)、字符參數(shù)以及顏色信息,從所獲得的包含關鍵文字信息的區(qū)域中剔除圖標區(qū)域。
所述剔除圖標區(qū)域的依據(jù)可以是條件一、該區(qū)域的特殊連通域的個數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個字的字寬或字高遠大于平均字寬或字高;條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標中,只有該區(qū)域內(nèi)的前景為不同顏色;如果某一區(qū)域滿足所述三個條件中的任意一個,則該區(qū)域為圖標區(qū)域而不是文字區(qū)域。
所述條件二可以為該區(qū)域內(nèi)有一個字的字寬或字高大于平均字寬或字高的2.5倍。
所述步驟4可以采用一小型數(shù)據(jù)庫,用于存儲與關鍵信息對應的關鍵詞,從而采用在文字識別獲得的字符串內(nèi),根據(jù)關鍵詞查找關鍵文字信息,獲得其文字內(nèi)容。
所述關鍵文字信息可以包括姓名、公司名稱、職位、電話、郵件。
所述字符參數(shù)可以包括字高、字寬、字間水平間距。
在上述技術方案中,本發(fā)明由于首先對獲取的名片圖象做字符行分割操作,得到一行行的字符區(qū)域或者連通區(qū)域。一般而言,如姓名、職位、公司名稱等使用者首先感興趣的關鍵文字信息基本就位于平均字符尺寸最大的前三個區(qū)域之內(nèi)。如在常見情況下姓名的下方或者右下側會是職位或者頭銜,我們可以根據(jù)所有這三個區(qū)域附近的相臨區(qū)域的語義是否符合職位或者頭銜來聯(lián)合判別關鍵文字信息所最終位于的那個區(qū)域。因此,實現(xiàn)了關鍵文字信息的準確提取。同時,本發(fā)明由于實現(xiàn)了對關鍵文字信息的自動定位和自動判別,而省去了現(xiàn)有技術中需要用戶頻繁操作,因此使用更方便、文字識別更快捷。另外,本發(fā)明采用統(tǒng)計特征以及關鍵詞查找的手段進行關鍵文字信息的查找,可以確保關鍵文字信息檢索的準確性。相對現(xiàn)有技術,本發(fā)明具有方法簡單、使用方便、文字識別速度快、效率高、準確度高等特點。
具體實施例方式
下面將結合具體實施例對本發(fā)明作進一步詳細說明。
在我們的日常生活中,人們所采用的絕大多數(shù)的名片,都是第一行為公司名稱,第二行居中為姓名,第三行右下角為職務名稱,第四行及以后則分別為地址、電話、手機、郵件等具體信息。并且,一般的公司名稱、姓名等關鍵文字信息的字體、字號、字間距等字符參數(shù)要遠遠大于其它文字內(nèi)容的字符參數(shù)。鑒于此,為了能提高名片識別的速度,特別是快速獲得關鍵文字信息,提出本發(fā)明的技術方案。
本發(fā)明提供一種名片識別中關鍵文字信息的自動檢索判定方法,所述關鍵文字信息包括姓名、公司名稱、職位、電話、郵件等。其步驟如下步驟1、對輸入的名片圖像進行基于連通域的版面分析和文字分割,并統(tǒng)計字符參數(shù)以及特殊連通域總數(shù);這里,所述字符參數(shù)包括字高、字寬、字間水平間距等。
所述特殊連通域總數(shù)是在水平投影上重疊部分較小的連通域的個數(shù)。如字符j就只能算一個連通域;Rj可以算是兩個連通域。
步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關鍵文字信息的文字區(qū)域;具體是首先,以區(qū)域內(nèi)部的平均(字高,字寬)為索引,將名片上所有的區(qū)域按此索引進行由高到低的排列。選取前三名的區(qū)域。根據(jù)統(tǒng)計,往往前三名的區(qū)域都包含了公司名稱,公司圖標,姓名等重要信息。
然后,在該三個區(qū)域中,利用步驟1中求得的連通域的個數(shù)和字的寬高特征還有顏色信息來剔除出圖標(圖標往往在前三名候選集中)。判斷準則如下如果滿足如下規(guī)則之一,條件一、該區(qū)域的特殊連通域的個數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個字的字寬或字高遠大于平均字寬或字高;一般為大于大于平均字寬或字高的2.5倍。
條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標中,只有該區(qū)域內(nèi)的前景為不同顏色;則判斷該區(qū)域內(nèi)為圖標而不是名字,將該區(qū)域從下面的進一步篩選中剔除出去。
如此,則可準確獲得包括了關鍵文字信息的文字區(qū)域。經(jīng)此篩選后,一般的在應用過程中就只剩下2~3個區(qū)域了。
步驟3、搜索所述包含關鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對所述相鄰區(qū)域進行文字識別;步驟4、在文字識別獲得的字符串內(nèi)查找關鍵文字信息,從而獲得其文字內(nèi)容。這里,本實施例中采用一小型數(shù)據(jù)庫或數(shù)據(jù)存儲器,用于存儲與關鍵文字信息對應的關鍵詞,從而采用在文字識別獲得的字符串內(nèi),根據(jù)關鍵詞查找關鍵文字信息,獲得其文字內(nèi)容。如,在該小型數(shù)據(jù)庫(或稱字典)內(nèi)存儲總量約在100~200內(nèi)的單詞量。當采用的關鍵文字信息為職位時,則,從小型數(shù)據(jù)庫內(nèi)調(diào)用如“Manager”、“Sales”、“Engineer”、“Director”、“Doctor”、“經(jīng)理”、“董事長”、“廠長”等等類似職位的單詞作為關鍵詞,并根據(jù)此關鍵詞,從識別的字符串內(nèi)查找有無相應詞匯,有則顯示或存儲對應的文字內(nèi)容。在相當少見的情況下,也有可能查找不到對應的詞匯,則由于無法判別出關鍵文字信息區(qū)域所在位置,只能從剩下的所有區(qū)域(此時一般也就剩下1~2個區(qū)域)內(nèi)進行關鍵詞的檢索,以查找關鍵文字信息的文字內(nèi)容。
權利要求
1.一種名片識別中關鍵文字信息的自動檢索判定方法,包括如下步驟步驟1、對輸入的名片圖像進行基于連通域的版面分析和文字分割,并統(tǒng)計字符參數(shù)以及特殊連通域總數(shù);步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關鍵文字信息的文字區(qū)域;步驟3、搜索所述包含關鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對所述相鄰區(qū)域進行文字識別;步驟4、在文字識別獲得的字符串內(nèi)查找關鍵文字信息,從而獲得其文字內(nèi)容。
2.如權利要求1所述名片識別中關鍵文字信息的自動檢索判定方法,其特征在于所述特殊連通域總數(shù)是在水平投影上重疊部分較小的連通域的總個數(shù)。
3.如權利要求1或2所述名片識別中關鍵文字信息的自動檢索判定方法,其特征在于所述步驟2是根據(jù)所述字符參數(shù),選取排列前幾位的區(qū)域,即獲得了包含關鍵文字信息的文字區(qū)域。
4.如權利要求3所述名片識別中關鍵文字信息的自動檢索判定方法,其特征在于所述步驟2還根據(jù)所述連通域的個數(shù)、字符參數(shù)以及顏色信息,從所獲得的包含關鍵文字信息的區(qū)域中剔除圖標區(qū)域。
5.如權利要求4所述名片識別中關鍵文字信息的自動檢索判定方法,其特征在于所述剔除圖標區(qū)域的依據(jù)是條件一、該區(qū)域的特殊連通域的個數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個字的字寬或字高遠大于平均字寬或字高;條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標中,只有該區(qū)域內(nèi)的前景為不同顏色;如果某一區(qū)域滿足所述三個條件中的任意一個,則該區(qū)域為圖標區(qū)域而不是文字區(qū)域。
6.如權利要求5所述名片識別中關鍵文字信息的自動檢索判定方法,其特征在于所述條件二為該區(qū)域內(nèi)有一個字的字寬或字高大于平均字寬或字高的2.5倍。
7.如權利要求6所述名片識別中關鍵文字信息的自動檢索判定的方法,其特征在于所述步驟4采用小型數(shù)據(jù)庫或數(shù)據(jù)存儲器,用于存儲與關鍵信息對應的關鍵詞,從而采用在文字識別獲得的字符串內(nèi),根據(jù)關鍵詞查找關鍵文字信息,獲得其文字內(nèi)容。
8.如權利要求7所述名片識別中關鍵文字信息的自動檢索判定的方法,其特征在于所述關鍵文字信息包括姓名、公司名稱、職位、電話、郵件。
9.如權利要求8所述名片識別中關鍵文字信息的自動檢索判定的方法,其特征在于所述字符參數(shù)包括字高、字寬、字間水平間距。
全文摘要
本發(fā)明公開了一種名片識別中關鍵文字信息的自動檢索判定方法,是首先對獲取的名片圖象做字符行分割操作,得到一行行的字符區(qū)域或者連通區(qū)域。從而以字符參數(shù)和連通區(qū)域個數(shù)進行排序,并取前幾位的區(qū)域,根據(jù)這些區(qū)域附近的相臨區(qū)域的語義是否符合職位或者頭銜來聯(lián)合判別關鍵文字信息所最終位于的那個區(qū)域。因此,實現(xiàn)了關鍵文字信息的準確提取。相對現(xiàn)有技術,本發(fā)明具有方法簡單、使用方便、文字識別速度快、效率高、準確度高等特點。
文檔編號G06K9/20GK1632821SQ20041010348
公開日2005年6月29日 申請日期2004年12月30日 優(yōu)先權日2004年12月30日
發(fā)明者吳文欽, 王浩, 夏煜 申請人:北京中星微電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
香河县| 道真| 定兴县| 台北市| 潞城市| 壶关县| 凌云县| 佛学| 若尔盖县| 渝中区| 光山县| 洛南县| 海兴县| 阳高县| 甘德县| 秦皇岛市| 崇信县| 高雄市| 长治县| 阿鲁科尔沁旗| 丘北县| 万山特区| 思茅市| 汝州市| 城市| 林口县| 怀化市| 武城县| 延吉市| 常州市| 孝昌县| 罗甸县| 西充县| 墨玉县| 邹平县| 保康县| 西畴县| 嵊泗县| 桦甸市| 临潭县| 辽宁省|