專利名稱:包括對與郵寄件相關(guān)的簽名進(jìn)行圖形分類的郵寄件處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種郵寄件處理方法,其中,在第一次分揀郵寄件時(shí), 對每個(gè)郵寄件的包含信息塊的表面制作數(shù)字圖像,從每個(gè)郵寄件相關(guān)圖像獲得一個(gè)類似于圖形指紋的數(shù)字簽名,作為該郵寄件的邏輯標(biāo)識符,并將該郵寄件相關(guān)簽名與分揀信息對應(yīng)地保存于存儲器;并且其 中在第二次分揀郵寄件時(shí),重新制作每個(gè)郵寄件的所述表面的數(shù)字圖 像,以便獲得與該郵寄件相關(guān)的當(dāng)前數(shù)字簽名,并且,在第一次分揀 存儲的簽名中尋找與該當(dāng)前簽名相符者,以便通過關(guān)聯(lián)取回分揀信息。
背景技術(shù):
這種方法可以從法國專利文獻(xiàn)FR-2841673中了解到。如果采用 這種方法,就不再需要在郵寄件表面打上標(biāo)識碼或"時(shí)間戳",也稱為 "IdTag"。郵寄件的標(biāo)識是通過"虛擬,,碼來實(shí)現(xiàn)的,其優(yōu)點(diǎn)是能避免 使用條碼打印機(jī),從而大大降低了郵政分揀設(shè)備運(yùn)行維護(hù)成本。根據(jù)當(dāng)前已知方法,每個(gè)數(shù)字簽名包含一個(gè)稱為"圖像"的第 一分 量,表示相應(yīng)郵寄件的數(shù)字圖像的物理特征,以及一個(gè)稱為"郵政"的 第二分量,至少表明郵寄件圖像中信息塊的空間位置。具體地說,圖 像分量由稱為"整體"的屬性構(gòu)成"整體"屬性表示從郵寄件數(shù)字圖像 的各點(diǎn)的全體獲得的整體物理特征。圖像分量還由稱為"局部"的屬性 構(gòu)成,"局部"屬性表示從郵寄件圖像的一個(gè)方格圖(或多個(gè)不同方格圖) 的各部分獲得的局部物理特征。在實(shí)踐中,在尋找當(dāng)前簽名與簽名庫中記錄的候選簽名之間的相 符者,以便取回分揀信息時(shí),首先比較圖像的各圖像分量,然后比較 簽名的各郵政分量。當(dāng)需要用這些虛擬標(biāo)識碼或簽名來分揀來自于批量寄件人的成批郵寄件時(shí),會面臨如下問題總的來說,同一寄件人的郵寄件的相 關(guān)簽名的圖像分量(整體屬性和局部屬性)無法在這些簽名之間相互區(qū) 分。事實(shí)上,從圖形上看起來,來自同一批量寄件人的郵寄件一般都 相同信封類型相同、信封上打印的圖標(biāo)相同、寄件人地址欄相同、 收件人地址欄位置相同,等等。因此,在實(shí)踐中,區(qū)分同一批量寄件 人的兩個(gè)郵寄件簽名只能依靠收件人地址欄的內(nèi)容。但是,不能排除的可能情形是在構(gòu)造簽名時(shí),數(shù)據(jù)處理系統(tǒng)把 寄件人地址當(dāng)成了收件人地址。因而,在掃描同一寄件人的郵寄件相 關(guān)簽名時(shí),可能發(fā)現(xiàn)兩個(gè)簽名相符,這兩個(gè)簽名的圖像分量相同,并 且郵政分量也相同,原因是這兩個(gè)簽名都錯(cuò)誤地把寄件人地址欄當(dāng)作 了收件人地址欄。在這種情況下,會發(fā)現(xiàn)在尋找相符者時(shí)簽名匹配錯(cuò)誤增加。這種 匹配錯(cuò)誤顯然會導(dǎo)致郵寄件向分揀出口分道錯(cuò)誤,從而產(chǎn)生郵件配送 處理的額外成本。發(fā)明內(nèi)容本發(fā)明的目的是提出一種更魯棒的郵寄件處理方法,該方法可以 減少上述匹配錯(cuò)誤,尤其針對如下情況要分揀的郵寄件來自于批量 寄件人,因而其圖形非常相似。為此,本發(fā)明的目的是提出一種處理郵寄件的方法,其中,在第 一次分揀郵寄件時(shí),對每個(gè)郵寄件的包含信息塊的表面形成數(shù)字圖像, 從每個(gè)郵寄件相關(guān)圖像獲得一個(gè)為所述郵寄件的邏輯標(biāo)識符的數(shù)字簽 名,并將簽名與分揀信息對應(yīng)地存儲在存儲器中;在第二次分揀郵寄 件時(shí),重新形成每個(gè)郵寄件的所述表面的數(shù)字圖像,以便獲得與所述 郵寄件相關(guān)的當(dāng)前數(shù)字簽名,并且,在第一次分揀時(shí)存儲的各簽名中 尋找與該當(dāng)前簽名相符者,以便通過關(guān)聯(lián)取回所述郵寄件的分揀信息, 特征在于包括如下步驟-根據(jù)給定的圖形相似性標(biāo)準(zhǔn)將簽名分組成簽名類或圖形類,用 來計(jì)算每個(gè)圖形類的簽名平均值;-對每個(gè)被考慮的圖形類分析簽名平均值的活動,用來檢測這些數(shù)字圖像中的一個(gè)信息塊的一個(gè)有意義活動; -利用所述活動檢測的結(jié)果尋找相符者。本發(fā)明的基本思想是根據(jù)在運(yùn)行中(aiavoKe)實(shí)時(shí)地合并整理 (c(msolid"的簽名的圖形模型將連續(xù)的簽名分類,以便通過每個(gè)模 型反映該模型所包含的簽名的郵寄件圖像的不變圖形外觀。每次當(dāng)在 向?qū)?yīng)于簽名模型的圖形類中重新組入一個(gè)新簽名而合并或更新該模 型時(shí)都進(jìn)行活動(或低頻變化)分析,該活動分析允許顯示郵寄件圖像 中收件人地址欄位置,因?yàn)樵撌占肃]政地址欄很可能就是呈現(xiàn)出最 有意義低頻活動的信息塊,該信息塊與其它信息塊不同在考慮來自 于同一批量寄件人的郵寄件時(shí),其它信息塊通常是穩(wěn)定的。根據(jù)本發(fā)明的方法可以具有如下特征-根據(jù)簽名的圖像分量的一個(gè)給定圖形相似性標(biāo)準(zhǔn)將簽名分組 成圖形類,以便計(jì)算屬于所考慮的圖形類的各簽名的圖像分量的平均 值;-分析圖像分量的平均值的活動,以便檢測這些數(shù)字圖像中某個(gè) 信息塊的一個(gè)有意義活動;-利用所述活動檢測的結(jié)果來比較各簽名的郵政分量; -利用簽名的整體分量和局部分量來確定簽名相似性; -對整體分量設(shè)置賦范向量距離閾值,以便建立所述相似性; -對局部屬性計(jì)算相關(guān)系數(shù),以便建立所述相似性;-運(yùn)用K-means類型的拓樸分析方法,以便分析圖像分量的局 部屬性的活動;-第二次分揀時(shí),根據(jù)相繼當(dāng)前簽名在運(yùn)行中構(gòu)建圖形類。 根據(jù)本發(fā)明的方法可以對任何類型的郵寄件實(shí)施,例如信件、大尺寸或小尺寸的扁平物件。根據(jù)本發(fā)明的方法還可以應(yīng)用于分揀包裹以及其它由虛擬標(biāo)識碼標(biāo)識的物件。
下文將結(jié)合附圖更詳細(xì)地描述根據(jù)本發(fā)明的方法的一個(gè)實(shí)施實(shí) 例。該描述僅作為本發(fā)明的說明性、非限制性實(shí)例給出。 圖l是郵寄件示意圖,郵寄件上有多個(gè)信息塊。圖2示意性地表示實(shí)施根據(jù)本發(fā)明方法的分揀機(jī)。 圖3以流程圖的形式說明當(dāng)前分揀方法在第一次分揀時(shí)的流程。 圖4示意性地說明從郵寄件提取簽名的圖像分量。 圖5示意性地說明從郵寄件提取簽名的郵政分量。 圖6以流程圖的形式說明根據(jù)本發(fā)明第一實(shí)施方式在第二次分揀 時(shí)的流程。圖7詳細(xì)說明根據(jù)本發(fā)明方法對簽名分類的步驟。圖8表示根據(jù)本發(fā)明方法在分類簽名時(shí)比較圖像分量。圖9表示根據(jù)本發(fā)明方法更新圖形類的圖像分量的實(shí)例。圖10詳細(xì)說明基于相應(yīng)圖形類的圖像分量來修改當(dāng)前郵寄件的郵政分量的步驟。圖11詳細(xì)說明基于相應(yīng)圖形類的郵政分量來修改當(dāng)前郵寄件的郵政分量的步驟。圖12以流程圖的形式說明根據(jù)本發(fā)明第二實(shí)施方式在第二次分揀時(shí)的流程。圖13說明用預(yù)測機(jī)制縮小搜索空間的原則。
具體實(shí)施方式
根據(jù)本發(fā)明的方法,識別郵寄件,例如信件、小尺寸或大尺寸的、 紙封皮或塑料封皮的扁平物件,以及其它需要利用數(shù)字簽名自動分揀 的物件,數(shù)字簽名從郵寄件的表面的圖像獲得,而郵寄件的表面通常 都有收件人郵政地址欄。因而,該數(shù)字簽名還被稱作圖像簽名,用于 在郵政自動分揀機(jī)中替代條碼標(biāo)識碼明確地標(biāo)識郵寄件。分揀機(jī)一詞 從廣義上指安裝于一個(gè)或多個(gè)郵政分揀地的郵政分揀設(shè)備,必要時(shí)還 包括視頻編碼器。構(gòu)造數(shù)字簽名
圖l描繪了一個(gè)郵寄件,標(biāo)注為P,其表面例如帶有 一個(gè)對應(yīng) 于郵政配送地址或收件人地址的第一信息塊AD, —個(gè)對應(yīng)于發(fā)件人 地址的信息塊AE, 一個(gè)可能形為圖形標(biāo)志的信息塊L,對應(yīng)于其它補(bǔ) 充文字信息,例如發(fā)件人打印的廣告語。
圖2示意性的描繪了一臺郵政分揀機(jī)1,該機(jī)通常有一個(gè)供信入 口 2(該供信入口帶有一個(gè)郵寄件P裝入艙、 一個(gè)用于將郵寄件側(cè)立排 成序列的分信理信器(d^)ileur))、 一個(gè)用于形成每個(gè)郵寄件的帶上 述各種信息塊的表面的圖像的數(shù)碼照相機(jī)3、 一個(gè)桶式輸送帶(un carrouseU godets ) 4用于將郵寄件送到分揀出口 5。每個(gè)分揀出口可 以配有多個(gè)分揀出口槽(通常一個(gè)前槽一個(gè)后槽),或一個(gè)分格槽,這 都未超出本發(fā)明的范圍。
圖中還表示了一個(gè)數(shù)據(jù)處理系統(tǒng),標(biāo)注為6,用于OCR郵政地 址識別。眾所周知,該數(shù)據(jù)處理系統(tǒng)與視頻編碼器7相關(guān)聯(lián)。根據(jù)本 發(fā)明,系統(tǒng)6還能用來從照相機(jī)3形成的郵寄件數(shù)字圖像獲得數(shù)字簽 名。
圖中還表示了一個(gè)與系統(tǒng)6類似的系統(tǒng)9,不過該系統(tǒng)9是另一 個(gè)分揀機(jī)10的一部分,系統(tǒng)9例如通過通信網(wǎng)絡(luò)8與系統(tǒng)6通信,可 以將根據(jù)本發(fā)明的方法應(yīng)用于多個(gè)分揀機(jī)上的多次分揀流程。
圖3示意性地說明在機(jī)器1中第一次分揀時(shí)構(gòu)造數(shù)字簽名。在起 始步驟11,通過供信入口 2往分揀機(jī)1中送入郵寄件P。郵寄件P通 過分信理信(d印UO ,側(cè)立地排成序列被送至數(shù)碼相機(jī)3。
在步驟12,形成當(dāng)前郵寄件的表面的數(shù)字圖像,該表面可能帶有 圖l所示的各信息塊,例如AE、 AD和L。
在步驟13,系統(tǒng)6通過OCR從圖像自動識別配送地址,同時(shí)從 該圖像獲得一個(gè)分配給該郵件數(shù)字簽名V-Id。
在步驟14,如果郵政地址在步驟13^L明確地識別出來,那么轉(zhuǎn) 入步驟16,將OCR識別出來的地址數(shù)據(jù)與郵寄件的簽名V-Id相對應(yīng) 地保存于機(jī)器存儲器。如果在步驟13地址沒有完全被OCR完全識別出來,也就是說得 到的是模棱兩可的地址信息,或根本沒有結(jié)果,那么轉(zhuǎn)入步驟15,將 郵寄件圖像送到視頻編碼系統(tǒng)7,以便由視頻編碼操作者提取地址信 息,然后,在步驟16,通過步驟15視頻編碼獲得的地址信息與步驟 13獲得的簽名相對應(yīng)地保存。
圖3中,標(biāo)注為17的塊表示名稱為BDref的數(shù)據(jù)庫,該數(shù)據(jù)庫 中與每個(gè)郵寄件一一對應(yīng)地保存著數(shù)字簽名V-Id和第一次分揀時(shí)由 OCR或視頻編碼識別出的郵寄件分揀數(shù)據(jù)(包括地址信息)。
步驟8對應(yīng)于郵寄件在經(jīng)過相機(jī)3后向機(jī)器的分揀出口傳送的流程。
現(xiàn)在,圖4和圖5更詳細(xì)地說明根據(jù)本發(fā)明的簽名分量。圖4重 新表示了郵寄件P的數(shù)字圖像,通常是多灰度級數(shù)字圖像,帶有信息 塊AD、 AE、 L。
根據(jù)本發(fā)明的簽名的第 一分量稱為"圖像分量"Ci,表示圖像的物 理特征。該圖像分量例如是通過對數(shù)字圖像的各點(diǎn)亮度統(tǒng)計(jì)分析而提 取出來的,數(shù)字圖像應(yīng)該事先經(jīng)過了一系列的過濾,降低了圖像分辨 率,以便降低統(tǒng)計(jì)分析處理時(shí)間并具有低頻類型的內(nèi)容,該低頻類型 的內(nèi)容在多次釆集時(shí)對亮度波動不太敏感。 一個(gè)圖像點(diǎn)的亮度對應(yīng)于 圖像點(diǎn)的灰度值。
從郵寄件的低分辨率數(shù)字圖像中,系統(tǒng)6通過計(jì)算提取出整體屬 性,這些整體屬性表示圖像的整體物理特征,例如郵件的高和寬、數(shù) 字圖像的各點(diǎn)的平均亮度值、標(biāo)準(zhǔn)偏差、亮度值的熵(平均信息量) (entropie )。
還可以通過計(jì)算提取局部屬性,表示從數(shù)字圖像的各部分取得的 圖像的局部物理特征,。圖4顯示了郵寄件P的數(shù)字圖像被分為多個(gè) 不同部分Bll、 B,45,這些不同部分來自于數(shù)字圖像的不同方格圖或 網(wǎng)格M1、 M2、 M3、 M4、 M4。此處方格圖Ml定義了3x3個(gè)不同部 分。方格圖M5定義了 8xl0個(gè)不同部分。方格圖內(nèi)不同部分的數(shù)量和 方格圖的數(shù)量可以是應(yīng)用于數(shù)字圖像的統(tǒng)計(jì)分析的參數(shù),以便從簽名中提取圖像分量Ci。從數(shù)字圖像的來自方格圖(例如Ml或M3)的每個(gè) 部分(例如Bll和B,45),可以提取局部屬性例如數(shù)字圖像的該部分的 點(diǎn)的平均亮度值、標(biāo)準(zhǔn)偏差、數(shù)字圖像的該部分亮度值的熵。在郵寄 件參差不齊的情況下,這些局部屬性包含的信息就越發(fā)的有區(qū)別能力。 對數(shù)字圖像提取出來的整體屬性和局部屬性因此構(gòu)成了簽名的圖像分 量Ci。
圖5說明了簽名的稱為"郵政分量"的第二分量Cp,該第二分量 Cp至少表明郵寄件圖像中信息塊例如AD、 AE、 L的空間位置。通常 用于郵政分揀機(jī)的光學(xué)字符識別系統(tǒng)OCR能提供表明數(shù)字圖像中所 檢測到的文字信息塊的空間位置的數(shù)據(jù)。這些表明空間位置的數(shù)據(jù)可 以是構(gòu)成每個(gè)信息塊的矩形區(qū)域的空間坐標(biāo)和取向。OCR系統(tǒng)還能提 供數(shù)字圖像中所檢測到的每個(gè)信息塊的文字描述。例如AD這樣的信 息塊的文字描述可以由如下信息構(gòu)成信息塊中所檢測到的字符行的 數(shù)量說明、每行字符中所檢測到的單詞的數(shù)量、每行字符的每個(gè)單詞 中所檢測到的字符的數(shù)量。圖5展示了一個(gè)實(shí)例,是信息塊AD的文 字描述,該描述構(gòu)成了郵寄件簽名的郵政分量Cp:
標(biāo)注為33的"塊#0/3"指數(shù)字圖像中所檢測到的3個(gè)信息塊中的0 號信息塊;
標(biāo)注為33,的"HN"是這樣的數(shù)據(jù)它表明數(shù)字圖像中0號信息塊 的取向;
標(biāo)注為33"的"(0684 0626 0895 0756)"是這樣的數(shù)據(jù)它代表數(shù)
字圖像中0號信息塊的空間坐標(biāo);
標(biāo)注為33",的"行數(shù)4"表明0號信息塊包含4行字符; 標(biāo)注為34的"行#0"指0號信息塊中所檢測到的第一行字符; 標(biāo)注為35的"單詞數(shù)03"是這樣的數(shù)據(jù)它表明在第一行字符中
檢測到了 3個(gè)單詞;
標(biāo)注為36的"各單詞字符數(shù)01 06 04"是這樣的數(shù)據(jù)它表明第一
行字符的3個(gè)單詞分別包含1、 6、 4個(gè)字符;
標(biāo)注為37的"car洲(1 007 1009 i019)"是這樣的數(shù)據(jù)它表明對于第一行字符的第一個(gè)字符,OCR識別出3個(gè)候選字符,分別為1、 1、 i,其相似距離分別為007、 009、 019;
標(biāo)注為38的"Car #1 (L 008 E 009 D 057),,是這樣的數(shù)據(jù)它表明 對于第一行字符的第二個(gè)字符,OCR識別出3個(gè)候選字符,分別為L、 E、 D,其相似距離分別為008、 009、 057;
......以下對于第一行字符的其它字符可以如此類推,假定相似距
離值0是最小的距離,也就是表示與理想字符的偏差最小。
構(gòu)造簽名始于這樣的思想郵寄件的數(shù)字簽名是一個(gè)可解釋的二 維信號,其內(nèi)容既可以從物理角度理解,也可以從字符角度理解。因 為,郵寄件的簽名由兩個(gè)互補(bǔ)而且不相關(guān)(相互獨(dú)立)的分量Ci和Cp 構(gòu)成。
在第二次分揀時(shí)尋找簽名的相符者
圖6表示第二次分揀時(shí)的簽名管理流程,該第二次分揀在圖3所 示的第一次分揀之后。第一次分揀了的郵寄件重新進(jìn)入分揀機(jī)1,側(cè) 立著排成序列在相機(jī)3前通過。在步驟41,重新對當(dāng)前郵寄件的帶信 息塊(例如收件人地址AD)的表面形成數(shù)字圖像。在步驟42,重新獲 得當(dāng)前郵寄件的當(dāng)前簽名V-IdC,如上文所示。當(dāng)前簽名V-IdC包含 一個(gè)圖j象分量CiC和一個(gè)郵政分量CpC。
然后在步驟46,將當(dāng)前簽名V-IdC的圖像分量CiC和郵政分量 CpC與數(shù)據(jù)庫BDRef 17中保存的簽名的圖像分量Ci和郵政分量Cp 相比較,以便檢測到相符者。
首先,可以比較圖像分量的各整體屬性,其中一個(gè)步驟就是對每 個(gè)整體屬性設(shè)置變化絕對值閾值,以便對數(shù)據(jù)庫17中保存的簽名進(jìn)行 初次篩選。該次篩選可以去除與當(dāng)前簽名極不相似的簽名,只為后續(xù) 比較保留少量候選簽名。
然后,對候選簽名比較圖像分量的局部屬性,從而進(jìn)一步降低數(shù) 據(jù)庫17中候選簽名的數(shù)量。為實(shí)現(xiàn)該比較,可以首先計(jì)算當(dāng)前簽名與 各候選簽名相應(yīng)直方圖之間滑動歸 一 化相關(guān)系數(shù),從而可以排除相比較的兩個(gè)數(shù)字圖像之間的亮度變化的影響;然后按屬性類型計(jì)算當(dāng)前簽名與各候選簽名中其它局部屬性之間的歸 一化相關(guān)系數(shù),從而可以排除由于每個(gè)局部屬性的變化程度不同而引起的歸 一化問題。然后,依據(jù)相關(guān)系數(shù)將候選簽名按遞減相似度分類。保留固定數(shù)量的最相似候選簽名。
現(xiàn)在開始比較簽名的郵政分量Cp:測量表示信息塊位置的數(shù)據(jù)之間的相似程度。該第二次比較有利地利用了與圖像分量比較標(biāo)準(zhǔn)不相關(guān)的第二標(biāo)準(zhǔn)。然后,這些候選簽名按信息塊文字描述的相似度遞減排序分類。
當(dāng)然,郵政分量比較可以在圖像分量比較之前進(jìn)行,或者郵政分量比較和圖像分量比較還可以同時(shí)進(jìn)行,這些方式都在本發(fā)明的范圍內(nèi)。
如果在步驟46沒有檢測出相符者,那么在步驟47將當(dāng)前郵寄件送至拒絕出口,以便例如能人工分揀。如果在步驟46檢測到相符者,就從數(shù)據(jù)庫17中取回當(dāng)前郵寄件的地址和分揀數(shù)據(jù),并且,在步驟48,當(dāng)前郵件自動轉(zhuǎn)向相應(yīng)的分揀出口。
簽名歸類
根據(jù)本發(fā)明的方法,在圖6的步驟46之前實(shí)施一個(gè)借助于簽名分類實(shí)現(xiàn)的可靠性提高流程, 一方面針對當(dāng)前簽名,另一方面針對數(shù)據(jù)庫BDRef的簽名。該可靠性提高流程可以在尋找相符者時(shí)調(diào)整要比較的簽名的郵政分量,以便避免匹配失誤。
所述分類的原則是首先構(gòu)造一種詞典,該詞典中列出簽名的類別或"圖形類"CG。
每個(gè)圖形類以一個(gè)圖像分量CiCG和一個(gè)郵政分量CpCG模型化,該圖像分量CiCG和郵政分量CpCG與上文所述的簽名的相應(yīng)分量相似。
根據(jù)本發(fā)明,該詞典是實(shí)時(shí)演化的,意思是說圖形類的圖像分量和郵政分量是在運(yùn)行中更新的,也就是說,隨著把一個(gè)簽名歸于一個(gè)圖形類,該圖形類相應(yīng)地被合并整理。這種運(yùn)行中的更新不需要延時(shí)處理,而是實(shí)時(shí)的。此外,隨著這種運(yùn)行中的更新,對于遠(yuǎn)程分揀中心的后續(xù)分揀也就不需要傳送該詞典。
下文中將會看到,根據(jù)本發(fā)明的方法的一個(gè)重要特征,每次更新圖形類時(shí),計(jì)算圖形分量的平均值(合并整理階段),并分析該平均值
的低頻活動,以便評估收件人地址欄的位置,從而允許在步驟46的尋找相符者、比較簽名的郵政分量時(shí)使用恰當(dāng)?shù)男畔K。低頻分析意指分析低分辨率圖像中的變化。
在步驟43,實(shí)施對當(dāng)前簽名VidC分類的流程,也就是說,將當(dāng)前簽名的圖像分量CiC與詞典19中的圖形類的圖像分量CiCG比較,以便確定詞典中與當(dāng)前簽名最相似的圖形類CGx。更具體地說,根據(jù)本發(fā)明的方法,比較圖像分量CiC和CiCG的局部和整體屬性,以便在步驟43輸出時(shí)識別出歸屬圖形類CGx。如果詞典中沒有任何圖形類與當(dāng)前簽名相對應(yīng),就構(gòu)造一個(gè)新的圖形類CGx。
圖7和圖8更具體地說明了比較圖像分量以便實(shí)施分類的流程。下文中將對這些圖進(jìn)行講解。
在分類步驟后的步驟44,實(shí)施圖形類CGx的圖形分量低頻活動分析,以便檢測與屬于該圖形類的簽名相關(guān)的數(shù)字圖像中信息塊的有意義的低頻活動。參照圖9,該步驟44被更具體地描述。
在步驟45,利用步驟44的活動分析的結(jié)果對當(dāng)前簽名進(jìn)行可靠性提高處理。步驟44將參照圖10和圖ll被更詳細(xì)地說明。在步驟45結(jié)束時(shí),當(dāng)前簽名和圖形類CGx的郵政分量可能被調(diào)整了。這些調(diào)整使得在步驟46的尋找與數(shù)據(jù)庫17中保存的簽名相符者時(shí)避免匹配失誤。
在尋找相符者的步驟46之后,如果在步驟49處于某種"強(qiáng)郵政標(biāo)準(zhǔn),,被檢驗(yàn)的狀況,則在步驟50合并為當(dāng)前郵寄件識別出的圖形類CGx的郵政分量。"強(qiáng)郵政標(biāo)準(zhǔn)"意指這樣一種狀況當(dāng)前簽名的郵政分量CpC與在步驟46識別出的相符簽名的郵政分量相似(例如收件人地址欄塊標(biāo)識相同、該塊內(nèi)字符行數(shù)相同、該塊內(nèi)每行單詞數(shù)相同,等等)。
對于第二次分揀時(shí)被處理的相繼當(dāng)前郵寄件,圖6中步驟41至50的流程,皮如此重復(fù)。
圖7和圖8更詳細(xì)地說明了簽名分類步驟43。在初始化該流程時(shí),即對第二次分揀時(shí)的第一個(gè)郵寄件,圖形類CG數(shù)據(jù)庫19或詞典通常是空的。為了適應(yīng)實(shí)時(shí)處理的限制,可以把詞典中保留的圖形類CG的數(shù)量限制在某個(gè)可調(diào)節(jié)的給定數(shù)值NbMaxCG上。數(shù)值NbMaxCG例如可以由機(jī)器操作者給出的"先驗(yàn)"信息來確定,該"先驗(yàn)"信息表明要處理的郵寄件的參差不齊程度。通常,對于兩次分揀來自于多個(gè)批量發(fā)件人的郵寄件,可以將數(shù)值NbMaxCG調(diào)節(jié)至100左右。等于100的NbMaxCG值對應(yīng)于一批不太均質(zhì)的郵寄件,也就是說,較小數(shù)量的相繼郵寄件屬于同一個(gè)發(fā)件人。
圖7中,在步驟51將當(dāng)前簽名V-IdC的當(dāng)前圖像分量CiC與數(shù)據(jù)庫19中保存的每個(gè)圖形類的圖形分量CiCG比較,以便檢測某種相似性。圖形分量的比較與前文對步驟46所述的實(shí)施方式相同。具體地說,首先比較圖像分量CiC和CiCG的整體屬性,然后比較局部屬性。整體屬性和局部屬性從郵寄件的低分辨率數(shù)字圖像(例如0.25像素/mm)獲得。
圖8更具體地說明了圖像分量CiC和CiCG的整體屬性(51a)和局部屬性(51b)的比較步驟51。從圖上可以看到,作為整體屬性有郵寄件的高度H、寬度L、數(shù)字圖像的各點(diǎn)的平均亮度值、亮度值的標(biāo)準(zhǔn)偏差E和熵S。在圖8的左邊,方框52內(nèi)列出了第一個(gè)向量(單列表格),包含CiC的H、 L、 I、 E、 T數(shù)值;還有幾個(gè)向量,包含與類CG1、 CG2.......CGtv關(guān)聯(lián)的CiCG的相似數(shù)值。
為了預(yù)選候選圖形類CGi,首先將圖像分量CiC的每個(gè)整體屬性
與CG1、 CG2.......CGw的圖形分量的相應(yīng)屬性比較。例如,為了確
定圖形類CG1是否是候選者,將CiC與CG1的高度H之差與閾值Tl
比較,將CiC與CG1的寬度L之差與闊值T2比較......,閾值Tl、T2……
可以不同。如果對于所有屬性,差值都小于閾值,那么CG1就是候選者。
然后計(jì)算CiC的向量HLIET與每個(gè)候選圖形類的向量HLIET之間的距離(賦范向量距離,在圖8上標(biāo)為DVN)。在步驟53,這些賦范向量距離DVN也與一個(gè)(可調(diào)整的)閾值比較,以便確定與當(dāng)前簽名最相似的那個(gè)或那些圖形類CGi。
對如此預(yù)選出來的圖形類CGi,將其圖像分量CiCG的局部屬性與當(dāng)前簽名的圖像分量CiC的局部屬性比較。圖8在方框54中用三個(gè)4x4矩陣(來自于構(gòu)造簽名時(shí)的一個(gè)4x4方格圖)說明了局部屬性,這三個(gè)矩陣分別有如下賦值圖像的各點(diǎn)的平均亮度值、標(biāo)準(zhǔn)偏差E、亮度值的熵S。
將CiC的局部屬性與在步驟53選中的每個(gè)圖形類的CiCG的局部屬性相關(guān),在步驟51結(jié)束時(shí)選擇計(jì)算得的最高相關(guān)系數(shù)CC(-15CC51)。當(dāng)然,在計(jì)算相關(guān)性值時(shí)可以采用多種大小的方格圖。
然后,在步驟55,將該相關(guān)系數(shù)CC與一個(gè)(如需要,可調(diào)整的)閾值比較,以便更新圖形類的詞典19。如果在步驟55相關(guān)系數(shù)CC小于閾值,則在步驟56往詞典19中增加一個(gè)新的圖形類CGx,并更新詞典中保留的圖形類數(shù)量(必要時(shí),在超過了 NbMaxCG值的情況
下,刪除一個(gè)圖形類,從詞典中刪除的圖形類例如是在一個(gè)參考時(shí)期內(nèi)最少使用的)。新圖形類CGx的分量CiCG和CpCG用步驟46中用到的當(dāng)前簽名的分量CiC和CpC初始化。
現(xiàn)在,如果在步驟55相關(guān)系數(shù)CC大于或等于閾值,則在步驟57更新圖形類CGx使用計(jì)數(shù)器,并更新該圖形類CGx。
步驟55的閾值調(diào)整可以調(diào)節(jié)歸類所要求的相似度。在實(shí)踐中,應(yīng)該找到這樣一個(gè)閾值,它允許將具有很大圖形相似性的郵寄件簽名組在一起,避免同一寄件人的相同圖形外形的郵寄件導(dǎo)致構(gòu)造多個(gè)圖形類。在步驟43結(jié)束時(shí),圖形類CGx因此#>標(biāo)識為與當(dāng)前簽名VidC相似。
圖9說明了圖形類CGx的圖像分量的一組局部屬性,該圖形類CGx在圖6的步驟44用于低頻活動分析。這些局部屬性是如下量的標(biāo)準(zhǔn)偏差值平均亮度I、標(biāo)準(zhǔn)偏差E、熵T。這些值涉及郵寄件圖像 的某個(gè)方格圖的各區(qū)域,如上文所述。作為例子,圖中展示了圖像的 一個(gè)5x5方格圖,因而在方框60中可以看到3個(gè)矩陣,每個(gè)矩陣有 25個(gè)標(biāo)準(zhǔn)偏差值。為了計(jì)算矩陣155、 E55、 T55中的每個(gè)標(biāo)準(zhǔn)偏差值, 平均值合并了當(dāng)前簽名的局部屬性的相應(yīng)值。因此可以認(rèn)為通過計(jì) 算該標(biāo)準(zhǔn)偏差,計(jì)算了圖形類CGx的簽名的平均值。三個(gè)矩陣I55、 E55、 T55可以合成一個(gè)矩陣G55,例如根據(jù)專業(yè)人員已經(jīng)熟知的賦 范主成分分析(ACPN) ( une analyse en composantes principales norm6e)。該矩陣G是一種"變化網(wǎng)格",顯示低頻變化,即每當(dāng)矩陣 G合并時(shí)發(fā)生的變化。
方框62中展示了矩陣G的綜合結(jié)果,其中,矩陣元素被分成三 類,分類采用的是這樣的拓樸方法基于觀測空間內(nèi)接近度度量的 "K-means"類型的非監(jiān)督方法。"K-means"方法可以在矩陣G將矩陣 元素分離成3個(gè)級別不變級、微變級、劇變級,分別用白、灰、黑 色方框表示。為了排除與采集機(jī)械波動相關(guān)的變化的影響,可以不考 慮矩陣G邊緣被檢測到"變化,,的方塊??梢愿鶕?jù)其連接性和低頻活動 將方塊分組??梢岳镁哂胁煌礁駡D的多個(gè)矩陣G。在步驟44結(jié)束 時(shí),通常檢測到 一個(gè)呈現(xiàn)出最有意義低頻活動的信息塊的空間地址。
圖10說明了對步驟45中低頻活動分析的結(jié)果的考慮。在步驟63, 如果檢測到一個(gè)G矩陣元素(或多個(gè)矩陣G的矩陣元素)的一個(gè)低頻活 動(例如通過檢測黑色方塊(方框62中的劇變塊)的存在),則在步驟64 檢驗(yàn)矩陣G中該方塊的位置是否與當(dāng)前簽名的郵政分量CpC中的信 息塊(該信息塊已經(jīng)作為收件人地址被保留)位置重合。確定這種重合 可以通過方塊及信息塊的坐標(biāo)的空間投影,以便測量空間距離,然后 通過將該距離與閾值比較來實(shí)現(xiàn)。在檢測到重合的情況下,流程進(jìn)行 至圖11的步驟70。
如果在步驟63沒有檢測到任何低頻活動,則進(jìn)行至圖11的步驟70。
如果在步驟64,沒有檢測到當(dāng)前簽名的郵政分量CpC中標(biāo)識的信息塊與呈現(xiàn)最有意義低頻活動的矩陣"塊"之間的空間重合,則在步
驟65,度量該最強(qiáng)低頻活動"塊"與當(dāng)前簽名的郵政分量CpC中標(biāo)識 的所有其它信息塊之間的空間重合度。如果沒有檢測到與所述其它信 息塊之間的任何重合,則流程進(jìn)行至圖11的步驟70。
如果在步驟65 ,檢測到與所述其它信息塊中某一個(gè)的空間重合, 則在步驟66修改當(dāng)前簽名的郵政分量CpC,以便將該信息塊標(biāo)識為 很可能的收件人地址欄,從而,該信息塊將在步驟46用來尋找簽名相
符者o
圖11中,在步驟70進(jìn)行了合并度量,度量的對象是構(gòu)成圖形 類CGx的所有相繼簽名的郵政分量中被標(biāo)識為收件人地址欄的信息 塊的空間位置的離散度。離散度的度量形式為標(biāo)準(zhǔn)偏差的值。如果檢 測到所度量的距離大于某個(gè)閾值,則流程進(jìn)行至圖6的步驟46。所表 明的狀況是圖形類CGx的郵政分量CpC不足夠可靠,因?yàn)橛脕順?gòu) 建該圖形類的簽名的郵政分量不穩(wěn)定。
反之,如果在步驟70,所度量的距離小于所述閾值,則流程進(jìn)行 至步驟71。在步驟71度量圖形類CGx的郵政分量與當(dāng)前簽名的郵政 分量CpC之間的空間重合度。這種度量的方法例如是計(jì)算當(dāng)前簽名 的郵政分量中標(biāo)識為收件人地址欄的信息塊的中心與相應(yīng)圖形類的收 件人地址欄中心的平均位置之間的位置偏差。將該度量與低閾值比較, 如果該度量值小于該低閾值,則流程進(jìn)行至圖6的步驟46,以便尋找 簽名的相符者。
如果在步驟71沒有檢測到空間重合,則流程進(jìn)行到步驟72。在 步驟72尋找是否存在一個(gè)當(dāng)前簽名的郵政分量CpC中標(biāo)識的信息塊 滿足如下條件該信息塊與類CGx的郵政分量標(biāo)識為收件人地址欄的 信息塊的距離小于所述低閾值。
步驟72判定為肯定后,轉(zhuǎn)至步驟73,這里該信息塊以圖形類CGx 的郵政分量CpCG被標(biāo)識為很可能的收件人地址欄。
反之,步驟72判定為否定后,流程轉(zhuǎn)至74,度量當(dāng)前簽名的郵 政分量CpC中標(biāo)識的所有信息塊與圖形類CGx的郵政分量中標(biāo)識為收件人地址欄的信息塊之間的空間距離。如果該距離大于高閾值,則
在步驟75重新初始化(RAZ)詞典19中的類CGx的郵政分量。
圖12表示了根據(jù)本發(fā)明的方法的另一種實(shí)施方法,該實(shí)施方法 從步驟42起與圖6的方法不同。步驟80緊接構(gòu)造當(dāng)前簽名VidC的 步驟42。在步驟80,借助詞典19對當(dāng)前簽名歸類,如上文所述。重 新獲得一個(gè)相似的圖形類CGx。在必要時(shí),基于圖形類CGx的圖像 分量CiCG修改當(dāng)前簽名的郵政分量CpC,并且,在必要時(shí),修改圖 形類CGx的郵政分量CpCG。
現(xiàn)在,在步驟81,根據(jù)可以從法國專利FR-2883943中了解到的 序列預(yù)測機(jī)制從簽名庫17取回候選簽名。步驟81利用郵寄件在第一 次分揀時(shí)的某個(gè)序列(通過的先后次序)在第二分揀時(shí)重復(fù)的優(yōu)點(diǎn),能 夠限制數(shù)據(jù)庫17中的搜索空間。被限制了的這一搜索空間構(gòu)成候選簽 名。
在步驟82,根據(jù)前述歸類機(jī)制,將每個(gè)候選簽名歸于圖形類詞典 19。在步驟82結(jié)束時(shí),已經(jīng)給每個(gè)候選簽名標(biāo)識了一個(gè)圖形類CGy。
如果在步驟83,檢測到當(dāng)前簽名的圖形類CGx與被考慮的候選 簽名的圖形類CGy相同,那么在步驟84修改該候選簽名的郵政分量 Cp,該修改根據(jù)的機(jī)制就是參照圖10和圖ll描述的、為了在候選簽 名的郵政分量中重新正確定位收件人郵政地址欄的機(jī)制。然后,在步 驟85,如參照圖ll的描述,必要時(shí)根據(jù)圖形類CGx的郵政分量修改 候選簽名的郵政分量。然后本方法進(jìn)行至圖6的步驟46。應(yīng)該理解到 對于從步驟81輸出的每個(gè)候選簽名,都要重復(fù)步驟82至85。
現(xiàn)在,如果在步驟83沒有在當(dāng)前簽名與候選簽名之間檢測到共 同圖形類,則流程直接轉(zhuǎn)至圖6的步驟46。
步驟81的限制搜索空間的流程基于如下思想在第一次分揀時(shí), 給每個(gè)郵寄件分配一個(gè)時(shí)間序列號NO,該時(shí)間序列號NO與數(shù)據(jù)庫 17中的郵寄件簽名相對應(yīng)地保存于存儲器。每個(gè)時(shí)間序列號NO例如 可以通過并列如下成分構(gòu)成分揀機(jī)1所處分揀中心的中心號、分揀 郵寄件的分揀機(jī)的機(jī)號、郵寄件發(fā)往的分揀出口槽的分揀出口槽號、郵寄件的時(shí)序索引號。在實(shí)踐中,該索引號例如是一個(gè)計(jì)數(shù)器的值,
該計(jì)數(shù)器與一個(gè)分揀出口槽相關(guān)聯(lián);當(dāng)?shù)谝粋€(gè)郵寄件發(fā)往該槽時(shí),該 計(jì)數(shù)器初始化;每當(dāng)一個(gè)新郵寄件被發(fā)往該槽時(shí),該計(jì)數(shù)器增量l個(gè) 單位。這樣,每個(gè)郵寄件被分配了一個(gè)唯一的序列號NO。
在第一次分揀結(jié)束時(shí),簽名在數(shù)據(jù)庫17中按序列分組。例如, 簽名按照分揀中心、分揀機(jī)、分揀出口槽分組,并按照郵寄件在每個(gè) 分揀出口槽中存放的順序排序。如下文所詳述,數(shù)據(jù)庫17中相鄰的簽 名序列構(gòu)成可識別段。
在第二次分揀時(shí),在圖12的步驟80結(jié)束時(shí),給當(dāng)前郵寄件的簽 名V-IdC分配一個(gè)通過索引號IP(從1至n ......)。然后,如專利
FR-2883943所述,通過線性接近法為當(dāng)前簽名計(jì)算一個(gè)估計(jì)的時(shí)間序 列號NO。從存儲器中保存的一系列時(shí)間序列號,通過線性接近來計(jì) 算。圖13描繪了一個(gè)圖表橫坐標(biāo)軸上是郵寄件通過索引IP,從374 至405,分別對應(yīng)于第二次分揀時(shí)步驟80數(shù)字簽名V-Id被提取的第 374至第405個(gè)郵寄件。縱坐標(biāo)軸上有時(shí)間序列號NO的實(shí)例,這些 時(shí)間序列號NO是在第一次分揀時(shí)分配的,此處是存放在編號為"76" 和"86"的槽中的郵寄件。線性接近計(jì)算的原則是根據(jù)圖13上十字叉 所表示的一系列郵寄件通過索引號/時(shí)間序列號對(IP, NO),用方程系 統(tǒng)確定直線(NO =a. IP + b)的系數(shù)a、 b例如Dl、 D2,以便能根據(jù)一 個(gè)當(dāng)前通過索引號IP計(jì)算該直線上的時(shí)間序列號NO。
此外,圖12所示的根據(jù)本發(fā)明方法的實(shí)施方式在合并步驟50有 利地利用了上述預(yù)測機(jī)制。如果如前所述,在步驟49處于"強(qiáng)郵政分 量標(biāo)準(zhǔn)"狀況,并且如果在步驟46確定的相符簽名的時(shí)間序列號與估 計(jì)的時(shí)間序列號NO相對應(yīng),那么在步驟50,為當(dāng)前郵寄件標(biāo)識的圖 形類CGx的郵政分量被合并。
權(quán)利要求
1.一種處理郵寄件(P)的方法,其中,在第一次分揀郵寄件時(shí),對每個(gè)郵寄件的包含信息塊(AD、AE、L)的表面形成數(shù)字圖像(12),從每個(gè)郵寄件相關(guān)圖像獲得一個(gè)為所述郵寄件的邏輯標(biāo)識符的數(shù)字簽名(V-Id)(13),并將簽名(V-Id)與分揀信息對應(yīng)地存儲在存儲器中(16);在第二次分揀郵寄件時(shí),重新形成每個(gè)郵寄件的所述表面的數(shù)字圖像(41),以便獲得與所述郵寄件相關(guān)的當(dāng)前數(shù)字簽名(V-IdC)(42),并且,在第一次分揀時(shí)存儲的各簽名中尋找與該當(dāng)前簽名相符者,以便通過關(guān)聯(lián)取回所述郵寄件的分揀信息,所述方法的特征在于包括如下步驟-根據(jù)給定的圖形相似性標(biāo)準(zhǔn)將簽名分組成簽名類或圖形類(CG)(43),用來計(jì)算每個(gè)圖形類的簽名平均值(57);-對于每個(gè)被考慮的圖形類分析簽名平均值的活動(60、61、62),用來檢測這些數(shù)字圖像中的一個(gè)信息塊的一個(gè)有意義活動;-利用所述活動檢測的結(jié)果尋找相符者。
2. 根據(jù)權(quán)利要求1的方法,其中每個(gè)與郵寄件相關(guān)聯(lián)的數(shù)字簽 名包含表示郵寄件的數(shù)字圖像的物理特征的圖像分量(CiC)和至少表 示郵寄件的圖像中呈現(xiàn)的信息塊的空間位置的郵政分量(CpC),并且 其中-根據(jù)簽名的圖像分量的給定圖形相似性標(biāo)準(zhǔn)將簽名分組成圖 形類,以便計(jì)算屬于所考慮的圖形類的各簽名的圖像分量的平均值 (CiCG);-分析圖像分量的平均值的活動(60、 61、 62),以^f更檢測這些數(shù) 字圖像中一個(gè)信息塊的一個(gè)有意義活動;-利用所述檢測的結(jié)果來比較各簽名的郵政分量。
3. 根據(jù)權(quán)利要求2的方法,其中簽名的圖像分量包括稱為"整體" 的第一屬性和稱為"局部"的第二屬性,第一屬性表示從郵寄件圖像的 各點(diǎn)的全體獲得的整體物理特征,第二屬性表示從郵寄件圖像的一個(gè) 方格圖的各部分獲得的局部物理特征;并且,利用所述整體屬性和所述局部屬性來建立簽名的相似性。
4. 根據(jù)權(quán)利要求3的方法,其中對整體分量設(shè)置賦范向量距離 闊值,用來建立所述相似性。
5. 根據(jù)權(quán)利要求3或4的方法,其中對局部屬性計(jì)算相關(guān)系數(shù), 用來建立所述相似性。
6. 根據(jù)權(quán)利要求3至5中任一項(xiàng)的方法,其中運(yùn)用K-means類 型的拓樸分析方法,用來分析圖像分量的局部屬性的活動。
7. 根據(jù)前述任一項(xiàng)權(quán)利要求的方法,其中在第二次分揀時(shí),根 據(jù)相繼當(dāng)前簽名在運(yùn)行中構(gòu)建圖形類。
全文摘要
一種郵寄件的郵政分揀方法,從郵寄件的圖像獲得簽名(13),簽名在分揀流程中用作郵寄件的標(biāo)識符。根據(jù)某個(gè)圖形相似性標(biāo)準(zhǔn)將簽名分組成簽名類或圖形類(CG)(43),以便計(jì)算每個(gè)圖形類的簽名平均值。對于每個(gè)被考慮的圖形類,分析簽名平均值的活動,以便檢測數(shù)字圖像中某個(gè)信息塊的有意義活動。利用所述活動檢測的結(jié)果,在第二次分揀時(shí)尋找當(dāng)前簽名與第一次分揀時(shí)記錄的簽名之間的相符者。
文檔編號G06K9/66GK101678404SQ200880018109
公開日2010年3月24日 申請日期2008年5月22日 優(yōu)先權(quán)日2007年5月30日
發(fā)明者奧利維耶·戴普雷 申請人:索利斯蒂克有限公司