] 對于在Rd中間的η個點的集合W,有這么一個映射f :Rd_ > R%對所有u,V e W :
[0035] (1- ε ) I I u-v I 1I I f (u) _f (V) I I (1+ ε ) I I u-v I I 2
[0036] J-L引理說明了高維的歐幾里得空間可以映射到一個δ 維的子空間,此映 射讓點間距對于任意〇< ε <1能近似的保留,而且此映射可以在多項式時間內(nèi)找到。J-L 引理簡單地說就是在一個百萬維空間里的任意一萬個點,一定可以被放入一個幾十維的子 空間里。
[0037] 隨機映射對于一個mXn的矩陣,可以降維到mXr的大小,時間復(fù)雜度為 O(mXnXr)。如果原始矩陣是一個比較大的稀疏的矩陣,隨機映射降維的時間復(fù)雜度可以 進一步減少到O(cXmXr),其中c < n,c為行非零元素 個數(shù)的平均倌[27]。
[0038] 隨機映射算法最主要的部分就是用于降維的矩陣的生成,利用Γι, ,= Fandom Gaussian產(chǎn)一個降維用的矩陣Rkxd,該矩陣的元素滿足高斯分布;同時使用式子
進行降維,其中Rkxd矩陣使用Matlab的randn(k,d)函數(shù)來產(chǎn)生,該函數(shù) 的功能正是產(chǎn)生一個高斯分布的kXd大小的隨機矩陣;在生成Rkxd矩陣后對于字典使用 Rkxd進行特征提取;將訓練集的字典X dXN維數(shù)降至k表示降維后的維度,測試時k作 為一個變量,以方便后面的實驗,調(diào)整k的大小,通過實驗得到一個合適的k,讓識別正確率 比時間取得一個合適的值,最終再確定k的取值。在進行分類識別的時候,需要求出最小的 一個Ills因此調(diào)整k的大小,從而求出最小的一個Iy-爲
[0039] 對于測試例采用隨機映射對測試例進行圖片特征提取。
[0040] 所述的通過稀疏編碼算法將測試例用訓練集字典進行稀疏表達為:將訓練集作 為字典矩陣A,把測試例作為y,然后求解y = Ax的稀疏解,對測試例y進行稀疏表達;具 體為將每個訓練集的數(shù)據(jù)怍為一個列向量V1G R'那么訓練集可以表示為六=^^^… VJ e RmXn,A為訓練集的字典矩陣,將特證提取后的測試例作為列向量y e Rm,解y = Ax, X e 1??個欠定性方程組,并且滿足min I I X I I。,即min I I X I I。s. t. Ax = y,根據(jù)BP原理I1 范數(shù)約束與1。范數(shù)約束有等效的解,因此min| |x| |i s.t. Ax = y;解出來的X GRn向量表 示訓練集對測試例的表示,即訓練集的線性組合表達出測試例y。 CN 105139036 A IX m "ti 4/4 頁
[0041] 所述采用分類器進行分類識別的方法為:采用式子
對 測試例進行分類;
[0042] 走乂:1? .已經(jīng) A 矩_
和向重:
[0043] 定義V1= [Ahl…Ani,Jt,也就是訓練集里面的第i個數(shù)據(jù)的向量,那么選t這個 數(shù)字的所有訓練集的列向量定義為M t= [V1-Vj],其中[i. . j]表示t這個數(shù)字的所有訓練 樣本的圖像的列向量的編號;定義釋555 其中對于相同的t的I;的[i. . j]范圍和Mt 相同;那么露=焉%要求出最小的一個?I這個測試例就是數(shù)字t。
【主權(quán)項】
1. 一種基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,包括以下步驟, 1) 讀入訓練集,將訓練集組成一個字典; 2) 讀入測試例,對測試例進行特征提取; 3) 通過稀疏編碼算法將測試例用訓練集字典進行稀疏表達; 4) 通過分類器進行分類識別。2. 根據(jù)權(quán)利要求1所述的基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,讀入訓 練集的方法為將手寫體數(shù)據(jù)庫中的含有0-9的訓練集以圖像的邢式錄入系統(tǒng)中,每張圖片 的灰度為8,每張圖片大小為28*28。3. 根據(jù)權(quán)利要求2所述的基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,將訓練 集組成一個字典的步驟為:將每個訓練集的圖片數(shù)據(jù)作為一列,然后把這些列全部按順序 拼接起來,經(jīng)特征提取之后即是所需要的字典;采用隨機映射對訓練集進行圖片特征提取; 隨機映射算法用于降維的矩陣的生成,利用A, _j= random Gaussian產(chǎn)一個降維用的矩陣 Rkxd,該矩陣的元素滿足高斯分布;同時使用式子對L :札對進行降維,其中Rkxd矩陣 使用Matlab的randn(k,d)函數(shù)來產(chǎn)生,該函數(shù)的功能正是產(chǎn)生一個高斯分布的kXd大小 的隨機矩陣;在生成R kxd矩陣后對于字典使用R kxd進行特征提??;將訓練集的字典X dXN維 數(shù)降至Xftv. k表示降維后的維度。4. 根據(jù)權(quán)利要求1所述的基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,對于測 試例采用隨機映射對測試例進行圖片特征提取。5. 根據(jù)權(quán)利要求1所述的基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,稀疏編 碼算法為,將訓練集作為字典矩陣A,把測試例作為y,然后求解y = Ax的稀疏解,對測試例y進行稀疏表達;具體方法為將每個訓練集的數(shù)據(jù)作為一個列向量V1G R?,那么訓練集可以 表示為A= [V1J1 ... VJ GRmxn;將特證提取后的測試例作為列向量y GRm,解y = Ax, X G1??個欠定性方程組,并且滿足minI I X I I。,即minI I X I I Qs. t. Ax = y,根據(jù)BP原理:^范 數(shù)約束與1。范數(shù)約束有等效的解,因此min||x|I t. Ax = y ;解出來的X GRn向量表示訓 練集對測試例的表示,即訓練集的線性組合表達出測試例y。6. 根據(jù)權(quán)利要求1所述的基于稀疏編碼的手寫體數(shù)字識別方法,其特征在于,所述采 用分類器進行分類識別的方法為:采用式子= ASi(SY)I對測試例進行分 類;定義V1= [Ahl…Ani, Jt,也就是訓練集里面的第i個數(shù)據(jù)的向量,那么選t這個數(shù)字 的所有訓練集的列向量定義為Mt= [V i ... Vj],其中[i.. j]表示t這個數(shù)字的所有訓練 樣本的圖像的列向量的編號;定義爲,其中對于相同的t的霉啲[i.. j]范圍和 Mt相同;那么寫$碼%要求出最小的一個《1,這個測試例就是數(shù)字t。
【專利摘要】本發(fā)明公開了一種基于稀疏編碼的手寫體數(shù)字識別方法,用于解決現(xiàn)有手寫郵政編碼由于每個人寫字習慣的不同而導致的識別效率低的問題。本發(fā)明包括1)讀入訓練集,將訓練集組成一個字典;2)讀入測試例,對測試例進行特征提??;3)通過稀疏編碼算法將測試例用訓練集字典進行稀疏表達;4)通過分類器進行分類識別。本發(fā)明在用測試集的各個列的線性來表示測試例的時候充分利用了訓練集每一個元素的性質(zhì),因此能夠提高手寫體郵政編碼的識別正確率,提高郵件分揀的速度。
【IPC分類】G06K9/62, G06K9/68
【公開號】CN105139036
【申請?zhí)枴緾N201510551089
【發(fā)明人】張海仙, 章毅
【申請人】四川大學
【公開日】2015年12月9日
【申請日】2015年9月1日