一種信息智能采集方法
【專(zhuān)利說(shuō)明】
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及一種信息智能采集方法。
【【背景技術(shù)】】
[0002]在很多領(lǐng)域,需要對(duì)人攜帶的物品,含各類(lèi)卡(含磁卡、接觸類(lèi)芯片卡、非接觸類(lèi)芯片卡)、證件、名片、電子存儲(chǔ)設(shè)備、移動(dòng)手機(jī)等智能設(shè)備等信息進(jìn)行采集并加以應(yīng)用。這類(lèi)信息的記錄方式,一方面采集內(nèi)容會(huì)印刷在卡面(如名片卡),另一方面采集內(nèi)容會(huì)分布在芯片內(nèi)(如我國(guó)居民身份證、銀行磁卡、門(mén)禁卡),同時(shí)還有部分以文件方式存儲(chǔ)在U盤(pán)、數(shù)碼相機(jī)、智能手機(jī)等設(shè)備中。
[0003]現(xiàn)有的采集工具往往不具有多種功能,導(dǎo)致有些物件的信息無(wú)法采集;另外,現(xiàn)有的采集方法效率較低,容易重復(fù)采集物件。
【
【發(fā)明內(nèi)容】
】
[0004]為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種信息智能采集方法,以提高信息采集的效率。
[0005]—種信息智能采集方法,包括如下步驟:
[0006]S1、采集計(jì)算機(jī)生成以事件或目的為依據(jù)建立的采集任務(wù);
[0007]S2、在所述采集任務(wù)中,采集機(jī)具對(duì)相關(guān)的某個(gè)人員的隨身的物件逐一進(jìn)行采集得到米集?目息;
[0008]S3、所述采集機(jī)具依次對(duì)所述采集任務(wù)中所有的相關(guān)人員的隨身的物件進(jìn)行采集得到米集?目息;
[0009]S4、利用智能識(shí)別引擎對(duì)所述采集信息進(jìn)行識(shí)別、分析、加工得到信息內(nèi)容;S5、將采集到信息、信息內(nèi)容存儲(chǔ)到數(shù)據(jù)庫(kù)服務(wù)器。
[0010]在一個(gè)實(shí)施例中,
[0011]在所述步驟S5中:
[0012]將所述采集到的信息按照菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ):
[0013]所述菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)的第一級(jí)節(jié)點(diǎn)存儲(chǔ)所述采集任務(wù)ID,
[0014]所述菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)的第二級(jí)節(jié)點(diǎn)存儲(chǔ)人員ID,
[0015]所述菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)的第三級(jí)節(jié)點(diǎn)存儲(chǔ)物件類(lèi)型信息,
[0016]所述菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)的第四級(jí)節(jié)點(diǎn)存儲(chǔ)物件記載內(nèi)容。
[0017]在一個(gè)實(shí)施例中,
[0018]在所述菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)的每一級(jí)節(jié)點(diǎn)上均存儲(chǔ)有采集任務(wù)ID和人員ID。
[0019]在一個(gè)實(shí)施例中,
[0020]所述采集機(jī)具通過(guò)如下步驟對(duì)隨身的物件進(jìn)行采集:
[0021]Al、判斷所述物件是否含有射頻芯片,若有則所述采集機(jī)具通過(guò)射頻讀取模塊讀取所述射頻芯片信息,否則執(zhí)行步驟A2;
[0022]A2、判斷所述物件是否具有磁信息,若有則所述采集機(jī)具通過(guò)磁記錄讀取模塊讀取所述物件的磁信息,否則執(zhí)行步驟A3;
[0023]A3、判斷所述物件是否含有接觸式芯片,若有則所述采集機(jī)具通過(guò)芯片讀取模塊讀取所述接觸式芯片中的信息,否則執(zhí)行步驟A4;
[0024]A4、所述采集機(jī)具通過(guò)光學(xué)采集模塊對(duì)所述物件進(jìn)行拍照,并對(duì)獲得的照片進(jìn)行文字識(shí)別得到對(duì)應(yīng)的信息。
[0025]在一個(gè)實(shí)施例中,
[0026]所述采集機(jī)具包括光學(xué)采集模塊、指紋采集模塊、磁記錄讀取模塊、芯片讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國(guó)際民航組織機(jī)讀旅行證件模塊、以太網(wǎng)絡(luò)接口模塊、藍(lán)牙模塊WIFI模塊、和USB接口模塊中、USB集線器,所述光學(xué)采集模塊、指紋采集模塊、磁記錄讀取模塊、芯片讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國(guó)際民航組織機(jī)讀旅行證件模塊、以太網(wǎng)絡(luò)接口模塊、藍(lán)牙模塊和USB接口模塊連接在所述USB集線器上。
[0027]在一個(gè)實(shí)施例中,
[0028]針對(duì)采集信息中的電子文件:將電子文件類(lèi)型、名稱(chēng)和內(nèi)容存入關(guān)鍵信息數(shù)據(jù)庫(kù)中。
[0029]在一個(gè)實(shí)施例中,
[0030]在所述步驟S4中:
[0031]針對(duì)所述采集信息中的照片:
[0032]對(duì)于格式固定的照片進(jìn)行模板識(shí)別:將照片分割為多個(gè)識(shí)別區(qū)域,每個(gè)識(shí)別區(qū)域?qū)?yīng)一個(gè)語(yǔ)義,利用OCR識(shí)別分別對(duì)每個(gè)識(shí)別區(qū)域進(jìn)行識(shí)別得到信息內(nèi)容,將信息內(nèi)容賦予對(duì)應(yīng)的語(yǔ)義;
[0033]對(duì)于格式不固定的照片:通過(guò)OCR識(shí)別得到信息內(nèi)容;
[0034]對(duì)于照片中的條碼和二維碼進(jìn)行提取和識(shí)別得到信息內(nèi)容:
[0035]從所述信息內(nèi)容中的文字利用正則表達(dá)或語(yǔ)義分析算法提取實(shí)體信息,所述實(shí)體信息包括號(hào)碼、名稱(chēng)和地址。
[0036]在一個(gè)實(shí)施例中,
[0037]當(dāng)所述物件通過(guò)光學(xué)采集模塊進(jìn)行采集時(shí),存儲(chǔ)到所述數(shù)據(jù)庫(kù)服務(wù)器的數(shù)據(jù)包括:物件的圖片、從所述物件中提取的文字、從所述提取的文字中獲取的格式化內(nèi)容、從所述提取的文字中獲取的線索集合。
[0038]在一個(gè)實(shí)施例中,
[0039]當(dāng)所述物件包含電磁卡片時(shí),存儲(chǔ)到所述數(shù)據(jù)庫(kù)服務(wù)器的數(shù)據(jù)包括:卡片編號(hào)、卡片中存儲(chǔ)的內(nèi)容、從所述存儲(chǔ)的內(nèi)容中獲取的格式化內(nèi)容、從所述存儲(chǔ)的內(nèi)容中獲取的線索集合。
[0040]在一個(gè)實(shí)施例中,
[0041]當(dāng)所述物件包含電子存儲(chǔ)器件時(shí),存儲(chǔ)到所述數(shù)據(jù)庫(kù)服務(wù)器的數(shù)據(jù)包括:存儲(chǔ)器件的編號(hào)、存儲(chǔ)文件目錄結(jié)構(gòu)、文件、從所述文件中獲取的線索集合。
[0042]本發(fā)明的有益效果是:
[0043]利用電、磁、光學(xué)技術(shù)自動(dòng)提取信息內(nèi)容替代人工錄入,提高采集效率,避免人工錄入差錯(cuò),提升采集質(zhì)量。利用芯片感知、磁條讀取和光學(xué)拍照,將采集內(nèi)容進(jìn)行快速、準(zhǔn)確米集。
[0044]整個(gè)采集過(guò)程利用工具集成,一體化采集各類(lèi)卡、證、名片、文檔,降低采集工具數(shù)量,簡(jiǎn)化采集難度。針對(duì)采集卡證的多樣性帶來(lái)的采集方式多樣性進(jìn)行整合,形成一站式采集和全集成采集特征。即:所有卡證名片一站式采集完成,各類(lèi)卡證的采集方式集成到一臺(tái)設(shè)備上,避免采集工具的凌亂。
[0045]流程化采集:根據(jù)通用采集場(chǎng)景,設(shè)計(jì)采集流程,定制采集軟件,利用軟件指引,流程化采集各類(lèi)卡、證、名片、文檔。通過(guò)軟件界面,形成“一事一檔,一人一采,逐證(卡)采集,邊采邊拍,至少兩面”的采集流程,采集員根據(jù)流程采集,就能采全采盡需要采集的信息,待采集的卡證再多也不容易出差錯(cuò)。
[0046]菊花鏈?zhǔn)叫畔⒔Y(jié)構(gòu)。采集的各類(lèi)卡證名片文檔信息雖然結(jié)構(gòu)、種類(lèi)繁多,通過(guò)本方案設(shè)計(jì),以采集事項(xiàng)(緣由)為起點(diǎn),以人員為核心,以卡證內(nèi)容為主體,并同步拍攝照片存留,形成菊花鏈?zhǔn)讲杉畔⒔Y(jié)構(gòu)?;诖私Y(jié)構(gòu),通過(guò)信息化處理逐層提取卡證內(nèi)容,逐步結(jié)構(gòu)化標(biāo)注內(nèi)容語(yǔ)義。保證采集內(nèi)容語(yǔ)義明確、方便后續(xù)深度應(yīng)用。
[0047]多維度采集。在采集內(nèi)容上,不僅采集卡證名片文檔內(nèi)容,還采集對(duì)能夠標(biāo)識(shí)被采集物品唯一性的內(nèi)置芯片ID,通過(guò)拍攝被采集物品正、反面外觀照片作為實(shí)物證據(jù)。
[0048]采集內(nèi)容格式化、語(yǔ)義化。針對(duì)采集內(nèi)容,按照不同的卡證存儲(chǔ)方式,將ID、卡號(hào)、賬號(hào)、卡名稱(chēng)、姓名、日期以及其他信息按照語(yǔ)義格式化。這樣采集信息更加易用,不同的卡證信息可以基于語(yǔ)義進(jìn)行分析。
[0049]智能識(shí)別分析處理。在對(duì)采集信息的分析加工上,分別從三個(gè)層面采取智能采集識(shí)別分析方法,一是針對(duì)圖像在傳統(tǒng)的OCR識(shí)別基礎(chǔ)上,建立可擴(kuò)充的模板庫(kù),進(jìn)行定制化模板辦法,如名片模板、身份證模板、社??0宓?二是針對(duì)存儲(chǔ)型文件類(lèi)信息,建立重點(diǎn)特征庫(kù),含讀取文件類(lèi)型、名稱(chēng)及內(nèi)容關(guān)鍵智能庫(kù),實(shí)現(xiàn)海量存儲(chǔ)信息的重點(diǎn)讀取;三是定義不同類(lèi)型的正則式等語(yǔ)法庫(kù),實(shí)現(xiàn)針對(duì)被采集信息的定制化實(shí)體屬性智能分析提取。
【【附圖說(shuō)明】】
[0050]圖1是本發(fā)明一種實(shí)施例的信息智能采集系統(tǒng)示意圖;
[0051 ]圖2是本發(fā)明一種實(shí)施例的信息智能采集方法流程圖;
[0052]圖3是本發(fā)明一種實(shí)施例的“菊花鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)”示意圖。
【【具體實(shí)施方式】】
[0053]以下對(duì)發(fā)明的較佳實(shí)施例作進(jìn)一步詳細(xì)說(shuō)明。
[0054]如圖1所示,一種信息智能采集系統(tǒng),包括采集機(jī)具、采集主機(jī)、數(shù)據(jù)庫(kù)服務(wù)器、Web應(yīng)用服務(wù)器和識(shí)別引擎服務(wù)器。采集機(jī)具用于對(duì)相關(guān)的人員的隨身物件進(jìn)行采集信息。采集機(jī)具可以包括光學(xué)采集模塊(例如相機(jī)、攝像機(jī))、指紋采集模塊、磁記錄讀取模塊、芯片(ID卡、接觸式IC卡、CPU卡、二代身份證)讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國(guó)際民航組織機(jī)讀旅行證件模塊、以太網(wǎng)絡(luò)接口模塊、藍(lán)牙模塊WIFI模塊和USB接口模塊中的至少一者,上述模塊可以根據(jù)具體應(yīng)用和需要,選擇任意的組合。
[0055]采集機(jī)具可以是非智能前端架構(gòu),采集機(jī)具內(nèi)部?jī)H集成光學(xué)采集模塊、智能卡讀取模塊、藍(lán)牙讀取模塊等各類(lèi)傳感器設(shè)備,設(shè)備內(nèi)部不集成CPU及存儲(chǔ),該采集設(shè)備不能獨(dú)立工作,需連接前端計(jì)算機(jī),計(jì)算機(jī)安裝相關(guān)驅(qū)動(dòng)軟件后,作為計(jì)算機(jī)感知外部設(shè)備進(jìn)行工作,相關(guān)采集系統(tǒng)架構(gòu)采用B/S架構(gòu)體系,采集軟件在計(jì)算機(jī)瀏覽器中以網(wǎng)頁(yè)運(yùn)行,前端計(jì)算機(jī)不存儲(chǔ)采集數(shù)據(jù)。
[0056]采集機(jī)具可以是I型智能前端架構(gòu),前端設(shè)備內(nèi)部在集成光學(xué)采集模塊、智能卡讀取模塊、藍(lán)牙讀取模塊等各類(lèi)傳感器設(shè)備基礎(chǔ)上,設(shè)備內(nèi)部集成I型智能平臺(tái),采用ARM架構(gòu)CHJ及存儲(chǔ),軟件系統(tǒng)采用Android平臺(tái),設(shè)備可以獨(dú)立工作,并內(nèi)置SQLite等移動(dòng)端輕型數(shù)據(jù)庫(kù),能存儲(chǔ)數(shù)據(jù)。感知設(shè)備由內(nèi)置智能平臺(tái)進(jìn)行驅(qū)動(dòng),智能平臺(tái)通過(guò)數(shù)據(jù)交換方式和前端計(jì)算機(jī)進(jìn)行通訊。
[0057]采集機(jī)具可以是II型全智能前端架構(gòu),前端設(shè)備內(nèi)部在集成光學(xué)采集模塊、智能卡讀取模塊、藍(lán)牙讀取模塊等各類(lèi)傳感器設(shè)備基礎(chǔ)上,設(shè)備內(nèi)部集成II型智能平臺(tái),采用Intel X86或X64架構(gòu)CPU及存儲(chǔ),軟件系統(tǒng)采用Windows平臺(tái),設(shè)備可以獨(dú)立工作,并能存儲(chǔ)數(shù)據(jù)。感知設(shè)備由內(nèi)置智能平臺(tái)進(jìn)行驅(qū)動(dòng),智能平臺(tái)通過(guò)數(shù)據(jù)交換方式和前端計(jì)算機(jī)進(jìn)行通訊。同I型智能平臺(tái)相比,具有以下優(yōu)勢(shì):
[0058]內(nèi)置Mysql等完整的數(shù)據(jù)庫(kù),實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ);
[0059]具備前端智能分析引擎,實(shí)現(xiàn)對(duì)前端采集數(shù)據(jù)的圖像文字識(shí)別引擎、正則語(yǔ)義分析引擎,以及對(duì)USB通用存儲(chǔ)設(shè)備的內(nèi)容檢索分析引擎等;
[0060]同主機(jī)之間以網(wǎng)絡(luò)及安全數(shù)據(jù)兩種模式進(jìn)行通訊,網(wǎng)絡(luò)模式,外部主機(jī)可通過(guò)網(wǎng)絡(luò)直接訪問(wèn)設(shè)備數(shù)據(jù)庫(kù)及設(shè)備管理平臺(tái);安全數(shù)據(jù)模式,外部主機(jī)只可訪問(wèn)設(shè)備指定的數(shù)據(jù)交換區(qū)域,本模式屏蔽了被采集設(shè)備和外部主機(jī)之間網(wǎng)絡(luò)接通,確保主