基于聚類的在線式多人臉圖像處理的方法
【專利摘要】本發(fā)明公開了一種基于聚類的在線式多人臉圖像處理的方法,通過設(shè)置距離閾值來(lái)調(diào)整權(quán)值進(jìn)行聚類,首先構(gòu)造了一個(gè)不斷循環(huán)的過程,針對(duì)外界傳進(jìn)來(lái)的每一個(gè)人臉,根據(jù)其到各聚類中心的距離對(duì)其進(jìn)行歸類,然后進(jìn)行類內(nèi)調(diào)整。并在人臉總數(shù)到達(dá)閾值時(shí)把聚類結(jié)果進(jìn)行輸出,且其中聚類中心就是我們選擇出來(lái)的人臉。本發(fā)明的方法可以很好地滿足在線式多人臉圖像處理的需求,并且通過實(shí)驗(yàn)證實(shí),在實(shí)時(shí)性和正確性等方面達(dá)到了要求。
【專利說明】
基于聚類的在線式多人臉圖像處理的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及多人臉圖像處理的方法,尤其涉及一種基于聚類的在線式多人臉圖像 處理的方法。
【背景技術(shù)】
[0002] 隨著信息化程度的加深和社會(huì)公共安全意識(shí)的提高,傳統(tǒng)的人臉識(shí)別系統(tǒng)(下簡(jiǎn) 稱傳統(tǒng)系統(tǒng))也在不斷地?cái)U(kuò)大其部署的規(guī)模;而具備高并發(fā)識(shí)別、大人臉庫(kù)匹配能力的云端 人臉識(shí)別系統(tǒng)(下簡(jiǎn)稱云端系統(tǒng))就是其中的一種發(fā)展方向。
[0003] 與傳統(tǒng)系統(tǒng)不同,云端環(huán)境下系統(tǒng)對(duì)網(wǎng)絡(luò)的負(fù)載力、匹配的實(shí)時(shí)性提出了更高的 要求,特別是在一些門禁場(chǎng)景、公眾場(chǎng)景中。在這些場(chǎng)景中,客戶端攝像頭捕捉到的每一幀 內(nèi)都可能包含多個(gè)人臉,并且在很長(zhǎng)的一段時(shí)間內(nèi)都會(huì)維持非常高的人臉產(chǎn)生率。假如一 個(gè)攝像頭一秒截取10幀,每幀包含5個(gè)人臉,而其中一個(gè)人臉的數(shù)據(jù)大小是4KB。那么該攝像 頭一秒內(nèi)就會(huì)產(chǎn)生大小為200KB的人臉數(shù)據(jù)。如果這些人臉我們都要通過網(wǎng)絡(luò)上傳到云端 系統(tǒng)進(jìn)行匹配,不僅會(huì)對(duì)網(wǎng)絡(luò)造成巨大的負(fù)擔(dān),同時(shí)也會(huì)大大地消耗云端系統(tǒng)的計(jì)算資源。
[0004] 當(dāng)前的各類云端系統(tǒng)的研究中,都主要把目光投注到數(shù)據(jù)庫(kù)匹配效率的提高上。
[0005] 根據(jù)時(shí)下流行的分布式處理概念,張儼等人提出了一種云計(jì)算環(huán)境下的人臉識(shí)別 系統(tǒng)。他們把基于PCA的傳統(tǒng)人臉識(shí)別算法與Hadoop框架相結(jié)合,滿足了用戶對(duì)海量人臉圖 像識(shí)別的計(jì)算速率需求;同時(shí)還改進(jìn)了經(jīng)典的KNN分類算法,提高了識(shí)別的精度和穩(wěn)定性 (張儼.一種云計(jì)算環(huán)境下人臉識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安電子科技大學(xué),2013)。
[0006] 同時(shí),盛會(huì)鵬等人也在研究該如何提升人臉數(shù)據(jù)庫(kù)的匹配效率。他們對(duì)K-均值算 法進(jìn)行了修改,并在此基礎(chǔ)上設(shè)計(jì)了一個(gè)基于聚類的大規(guī)模人臉庫(kù)快速檢索系統(tǒng)。他們借 鑒和提高了前人使用聚類來(lái)構(gòu)建人臉層次特征索引結(jié)構(gòu)的方法,在降低一次檢索所用時(shí)間 的同時(shí),還保證了正確性(盛會(huì)鵬.大規(guī)模人像數(shù)據(jù)庫(kù)快速檢索算法的研究[D].吉林大學(xué), 2006) 〇
[0007] 不過,哪怕數(shù)據(jù)庫(kù)匹配效率已經(jīng)得到很好的提高,但這也只是治標(biāo)不治本,我們?nèi)?然需要解決客戶端上傳人臉過多的問題。
[0008] 其實(shí)客戶端產(chǎn)生的人臉是帶有很大冗余的,在一段時(shí)間內(nèi)產(chǎn)生的人臉其實(shí)都來(lái)自 同一群被采集對(duì)象。為了降低一段時(shí)間內(nèi)的上傳人臉數(shù),我們可以從產(chǎn)生的所有人臉中只 選擇出一部分來(lái)作為上傳人臉,然后拋棄掉其他的部分。比如一開始那個(gè)假設(shè)的例子,我們 如果可以收集人臉,然后一秒鐘,甚至三秒種來(lái)進(jìn)行一次選擇上傳,并令選擇的人臉個(gè)數(shù)為 5個(gè),那么我們就可以降低一段時(shí)間內(nèi)的人臉上傳量,從而緩解網(wǎng)絡(luò)負(fù)擔(dān)進(jìn)而減輕云端的計(jì) 算壓力。
[0009] 所以,解決客戶端上傳人臉過多的問題其實(shí)就是該怎樣去選擇人臉的問題。
[0010] 傳統(tǒng)的方法主要有:
[0011] 1、選擇質(zhì)量高的人臉(清晰,姿勢(shì)標(biāo)準(zhǔn))
[0012] 2、攝像頭延時(shí)截取
[0013] 第一種方法可以快速地選擇出匹配效果好的人臉,但是無(wú)法應(yīng)對(duì)采集對(duì)象突然做 表情的問題;同時(shí)這種方法也無(wú)法區(qū)分出不同人的人臉,選擇人臉的時(shí)候可能會(huì)出現(xiàn)漏選 人的現(xiàn)象。而第二種方法則比較硬性,但是同樣很容易出現(xiàn)漏人,延時(shí)小時(shí)達(dá)不到降低人臉 上傳量的目的,延時(shí)大時(shí)還會(huì)影響到匹配實(shí)時(shí)性。
[0014] 更一般地,我們?yōu)檫x擇人臉的策略設(shè)立了如下幾個(gè)準(zhǔn)則:
[0015] 1.選取出來(lái)的子集與全集的覆蓋人數(shù)一樣。其中覆蓋人數(shù)指的是,若某個(gè)人臉集 合中,人臉總共來(lái)自n個(gè)被采集對(duì)象,那么該人臉集合的覆蓋人數(shù)為n;
[0016] 2.選取出來(lái)的人臉具有最大的代表性。在這里我們對(duì)代表性的定義是,在一個(gè)人 臉集合中,若某個(gè)人臉到其他人臉的距離(〇~1,相似度越小則距離越大)之和最小,那么認(rèn) 為該人臉在該集合上具有最大的代表性;
[0017] 3.特殊的人臉會(huì)被專門選擇出來(lái)。所謂的特殊人臉,指的是采集不清晰、側(cè)臉、做 大表情等的非標(biāo)準(zhǔn)人臉;
[0018] 4.選擇是在線式的。亦即人臉的選擇并不需要預(yù)先給定一個(gè)人臉的集合,等待運(yùn) 算完成之后才能取得結(jié)果,而是人臉是不斷輸入的,而算法會(huì)在恰當(dāng)?shù)臅r(shí)候把結(jié)果輸出。 [0019] 1967年J.B,Mac Queen提出了K-Means聚類算法,這個(gè)經(jīng)典且使用廣泛的基于距離 的聚類算法,使用了數(shù)據(jù)樣本間的距離作為相似性度量,能夠把比較相近的樣本組成一類, 并最終得到緊湊而且獨(dú)立的類集合(J.MACQUEEN.SOME METHODS FOR CLASSIFICATION AND ANALYSIS OF MULTIVARIATE 0BSERVATI0NS[C].5-th Berkeley Symposium on Mathematical Statistics and Probability?1967:281~297)〇
[0020] 我們把覆蓋人數(shù)為P的人臉集合當(dāng)做數(shù)據(jù)樣本集合交給K-Means聚類算法,根據(jù)其 計(jì)算方式,如果在算法參數(shù)恰好合適的情況下,我們可以得到這樣的聚類結(jié)果:
[0021] 如果不存在特殊的人臉,且P = K,那么整個(gè)人臉集合會(huì)被分成K類,每個(gè)類中的大 多數(shù)的人臉樣本都來(lái)自于同一個(gè)人,并且同一個(gè)人的大多數(shù)人臉樣本都屬于同一個(gè)類。
[0022] 每一個(gè)類中的大多人臉都彼此相似,且每一個(gè)類中都存在一個(gè)人臉最能代表該 類。
[0023] 在參數(shù)值允許時(shí)(K = P+e,e等于特殊人臉的個(gè)數(shù)),那么原人臉集合中的特殊人臉 將會(huì)各自被單獨(dú)分成一類。
[0024] 假如我們把聚類結(jié)果中,各個(gè)類中的最有代表性的人臉選擇出來(lái)進(jìn)行上傳,那么 可以推知:結(jié)果1保證了準(zhǔn)則1的成立;結(jié)果2保證了準(zhǔn)則2的成立;結(jié)果3保證了準(zhǔn)則3的成 立。
[0025] 當(dāng)然,這里還有兩個(gè)準(zhǔn)則存在討論,首先就是準(zhǔn)則2中我們?cè)趺催x擇最有代表性的 人臉(K-Means的聚類中心并不是距離和最小的樣本)。其次,就是準(zhǔn)則4并不能得到保證。
[0026] 事實(shí)上,K-Means聚類在人臉集合上實(shí)際使用時(shí),我們往往會(huì)遇到以下幾個(gè)困難:
[0027] 1.K-Means只能且必須分成K個(gè)類,無(wú)法自適應(yīng)地根據(jù)數(shù)據(jù)樣本集中應(yīng)有類的個(gè)數(shù) 進(jìn)行動(dòng)態(tài)調(diào)整;
[0028] 2.K-Means的聚類極易受到初始點(diǎn)選取的影響;
[0029] 3.K-Means聚類也特別容易受到離散點(diǎn)的影響;
[0030] 4.K-Means算法的計(jì)算是離線式的,也就是說其聚類的執(zhí)行要預(yù)先一次性給清整 個(gè)數(shù)據(jù)樣本集合;
[0031] 5.K-Means的計(jì)算量隨著數(shù)據(jù)點(diǎn)規(guī)模的增大而急速增大。
【發(fā)明內(nèi)容】
[0032] 本發(fā)明所要解決的技術(shù)問題是針對(duì)【背景技術(shù)】中所涉及到的缺陷,提供一種基于聚 類的在線式多人臉圖像處理的方法。
[0033]本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
[0034]基于聚類的在線式多人臉圖像處理的方法,人臉聚類的具體步驟如下:
[0035]步驟1),設(shè)定初始?jí)K大小B,距離閾值y和類集合S;
[0036] 步驟2),等待一個(gè)新來(lái)人臉數(shù)據(jù)樣本的傳入;
[0037] 步驟3),分別計(jì)算類集合S中各個(gè)類的聚類中心與新來(lái)人臉數(shù)據(jù)樣本之間的距離, 找出與新來(lái)人臉數(shù)據(jù)樣本之間距離最小的類S I;
[0038]步驟4),將類S:與新來(lái)人臉數(shù)據(jù)樣本之間距離與設(shè)定的距離閾值y進(jìn)行比較,如果 類31與新來(lái)人臉數(shù)據(jù)樣本之間距離小于等于距離閾值y,將新來(lái)人臉數(shù)據(jù)樣本加入到SI;如 果類3:與新來(lái)人臉數(shù)據(jù)樣本之間距離大于距離閾值y,建立一個(gè)新的類,將新來(lái)人臉數(shù)據(jù)樣 本加入這個(gè)新的類,并將該新的類加入到類集合S中;
[0039]步驟5),更新新來(lái)人臉數(shù)據(jù)樣本所在類的聚類中心;
[0040]步驟6),計(jì)算當(dāng)前類集合S中的人臉數(shù),如果類集合S中的人臉數(shù)小于B,執(zhí)行步驟 2);如果類集合S中的人臉數(shù)大于或等于B,將當(dāng)前的聚類結(jié)果輸出后,清空類集合S,執(zhí)行步 驟2)。
[0041] 作為本發(fā)明基于聚類的在線式多人臉圖像處理的方法進(jìn)一步的優(yōu)化方案,步驟5) 的詳細(xì)步驟如下:
[0042] 步驟5.1),對(duì)于新來(lái)人臉數(shù)據(jù)樣本所在類中的每個(gè)人臉數(shù)據(jù)樣本,計(jì)算其和其他 人臉數(shù)據(jù)樣本之間的距離和;
[0043]步驟5.2),將距離和最小的人臉數(shù)據(jù)樣本作為新來(lái)人臉數(shù)據(jù)樣本所在類的聚類中 心。
[0044] 本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
[0045] 1.在滿足準(zhǔn)則1、2、3成立的前提下,還特別保證了準(zhǔn)則4的成立,因?yàn)樗惴ㄊ且粋€(gè) 不斷循環(huán)并接受新來(lái)人臉的過程;
[0046] 2.不對(duì)分類數(shù)進(jìn)行限制,不需要考慮初始點(diǎn)的選擇;
[0047] 3.在閾值合理的情況下,離散點(diǎn)不會(huì)干擾到最后的結(jié)果;
[0048] 4.每一次輸出中,聚類中心一定是具有最大代表性的人臉。
【附圖說明】
[0049] 圖1是本發(fā)明基于聚類的在線式多人臉圖像處理方法的流程圖;
[0050] 圖2是用于進(jìn)行實(shí)例說明的簡(jiǎn)單人臉數(shù)據(jù)樣本集展示圖;
[0051] 圖3是簡(jiǎn)單人臉數(shù)據(jù)樣本集經(jīng)過本方法計(jì)算后,獲取到的輸出人臉集合展示圖; [0052]圖4是本發(fā)明引入云端人臉識(shí)別系統(tǒng)的組件圖。
【具體實(shí)施方式】
[0053]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說明:
[0054]如圖1所示,本發(fā)明公開了一種基于聚類的在線式多人臉圖像處理的方法,包含以 下步驟:
[0055] 步驟1),進(jìn)行參數(shù)設(shè)置和初始化。
[0056] 設(shè)初始?jí)K大小為B,距離閾值為y,初始化類集合S為空,S中元素的個(gè)數(shù)為n,當(dāng)前已 有的人臉數(shù)為m,初始狀態(tài)時(shí)n = 0、m = 0,對(duì)外提供一個(gè)添加人臉的接口,并有:
[0057] A.用Dist(a,b)表示人臉a和人臉b之間的距離(距離越大,相似度越低);
[0058] B.任取一個(gè)類s且s G S,那么令s. center表示類s的聚類中心,s. size表示類s中的 人臉個(gè)數(shù);并用Si表示類集合S中的第i個(gè)類;
[0059] C.任意的一個(gè)算法中的已有人臉都屬于且只屬于一個(gè)類,用Sl表示類s中的第i個(gè) 人臉,且同時(shí)存在Wi表示Si在類s中的權(quán)值;
[0060] 步驟2),等待一個(gè)新來(lái)人臉數(shù)據(jù)樣本的傳入。
[0061] 步驟3),分別計(jì)算類集合S中各個(gè)類的聚類中心與新來(lái)人臉數(shù)據(jù)樣本之間的距離, 找出與新來(lái)人臉數(shù)據(jù)樣本之間距離最小的類
[0062]步驟4),將類S:與新來(lái)人臉數(shù)據(jù)樣本之間距離與設(shè)定的距離閾值y進(jìn)行比較,如果 類31與新來(lái)人臉數(shù)據(jù)樣本之間距離小于等于距離閾值y,將新來(lái)人臉數(shù)據(jù)樣本加入到SI;如 果類3:與新來(lái)人臉數(shù)據(jù)樣本之間距離大于距離閾值y,建立一個(gè)新的類,將新來(lái)人臉數(shù)據(jù)樣 本加入這個(gè)新的類,并將該新的類加入到類集合S中。
[0063] 步驟3)和步驟4)用公式表示具體如下:
[0064] 對(duì)任意的一個(gè)新來(lái)的人臉X,計(jì)算并找出一個(gè)下標(biāo)I,使其滿足Dist(x, (Si) ? center) =min{Dist(x, (Si) ? center), i = 1, A ,n},且Dist(x, (Si) ? centerXii。
[0065] 根據(jù)結(jié)果可以判斷是否尋到到滿足條件的類,若成功找到這樣的一個(gè)I,那么就把 x歸到類St*,然后依次令m+= 1、(Sd . size+= 1;若找不到這樣的一個(gè)I,比如類集合為空, 各個(gè)類的聚類中心到x的距離最小也大于y等,那么就新建一個(gè)類,把這個(gè)類加入到類集合S 中,再把義歸到這個(gè)新的類中,然后依次令1=11+1、11+=1、111+=1、(51).8126+=1。
[0066] 步驟5),對(duì)類s = Si進(jìn)行內(nèi)部調(diào)整,對(duì)于新來(lái)人臉數(shù)據(jù)樣本所在類中的每個(gè)人臉數(shù) 據(jù)樣本,計(jì)算其和其他人臉數(shù)據(jù)樣本之間的距離和,將距離和最小的人臉數(shù)據(jù)樣本作為新 來(lái)人臉數(shù)據(jù)樣本所在類的聚類中心。
[0067] 先計(jì)算f = 1,L,uize-1,然后按以下方式更新權(quán)值:
[0068] = Wj + dx s , / = l.L ,smzc ~1 ; s,size-\
[0_ 況.-:=z 心, M
[0070]此時(shí),類s中的各個(gè)數(shù)據(jù)樣本,包括新加入的數(shù)據(jù)樣本都有一個(gè)權(quán)值與之對(duì)應(yīng),權(quán) 值體現(xiàn)為該數(shù)據(jù)樣本到其他各個(gè)數(shù)據(jù)樣本的距離之和。根據(jù)新的權(quán)值,我們更新類的聚類 中心:
[0071 ]找到下標(biāo)J,使其滿足wj=min{wi, i = l,L,s. size},那么令s.center = sj;
[0072]步驟6),判斷當(dāng)前算法中已有的樣本數(shù):
[0073] m〈B時(shí),等待新的數(shù)據(jù)樣本的到來(lái),跳轉(zhuǎn)到步驟2)執(zhí)行。
[0074] m>B時(shí),把當(dāng)前S作為結(jié)果輸出,然后清空S,并令n = 0,m = 0,等待新的數(shù)據(jù)樣本的 到來(lái),跳轉(zhuǎn)到步驟2)執(zhí)行。
[0075] 下面通過一個(gè)實(shí)驗(yàn)來(lái)說明本發(fā)明工作的過程。
[0076] 如圖2所示,我們首先給定一個(gè)包含冗余人臉、特殊人臉的簡(jiǎn)單人臉數(shù)據(jù)樣本集。 在這個(gè)集合中,人臉來(lái)自于兩個(gè)人(同一行則來(lái)自同一個(gè)人),前三個(gè)樣本表示效果比較好 的,后兩張則表示特殊的情況,如側(cè)臉,仰視等。
[0077]通過人臉識(shí)別算法,我們可以得到如下的距離表格:
[0079]表頭中的000表示人臉sample_000. jpg,其余則以此類推;表中的數(shù)據(jù)表示其橫縱 表頭對(duì)應(yīng)的兩個(gè)數(shù)據(jù)樣本間的距離。
[0080] 從表中可以看出,兩兩人臉之間的距離都處在0.1以下。所以我們以0.1作為閾值 y,10(全體數(shù)據(jù)樣本數(shù))作為塊大小B來(lái)初始化算法,然后把整個(gè)集合依次傳入該算法中。那 么計(jì)算的過程為(用{a}表示一個(gè)包含a的集合,那么聚類情況可以用一個(gè)二維的集合表 示)。
[0081] 傳入000,其自成一類。算法模塊中的聚類情況為{{000}},聚類中心對(duì)應(yīng)為{000}。 [0082] 傳入001,其與000的距離為0.018,小于0.1,那么它被分配到000對(duì)應(yīng)的類中,在類 內(nèi)調(diào)整中,因?yàn)椹柀柀柡?01對(duì)應(yīng)的權(quán)重是一樣的,那么根據(jù)算法保持聚類中心不變。算法模塊 中的聚類情況為{{000,001} },聚類中心對(duì)應(yīng)為{000}。
[0083]傳入002,根據(jù)算法其被分配到000對(duì)應(yīng)的類中,在類內(nèi)調(diào)整中,各樣本對(duì)應(yīng)的權(quán)值 分別為〇〇〇: 0.037,001:0.032,002:0.033,那么經(jīng)過調(diào)整,聚類中心變?yōu)?01。算法模塊中的 聚類情況為{{〇〇〇,001,002}},聚類中心對(duì)應(yīng)為{001}。
[0084]傳入003,因?yàn)?03到001的距離為0.200,大于0.1,所以其自成一類。此時(shí)算法模塊 中的聚類情況為{{000,001,〇〇2},{003}},聚類中心對(duì)應(yīng)為{001,003}。
[0085] 繼續(xù)處理后我們最終可以得到如下結(jié)果:
[0086]
[0087] 把聚類中心對(duì)應(yīng)的人臉選擇出來(lái)形成輸出人臉集合,那么算法的最終輸出如圖3 所示。我們可以輕松地看出,原本的〇〇〇、〇〇2和006、007已經(jīng)被精簡(jiǎn)掉,并且分別被001和005 代表。也就是說冗余的人臉已經(jīng)被剔除,而且從距離權(quán)值上看,002和005也擁有著各自類中 最大的代表性。其次,原本的特殊人臉003、004、008、009都被很好地保留了下來(lái),作為特殊 的人臉進(jìn)行了輸出,這也反映了算法具備不漏特殊的性質(zhì)。
[0088] 為了更一般地去對(duì)算法進(jìn)行評(píng)估,我們提出了以下幾個(gè)指標(biāo):
[0090] 為了讓實(shí)驗(yàn)更具一般性,我們使用了某免費(fèi)云人臉識(shí)別API。因?yàn)橐?lián)網(wǎng)上傳圖片 識(shí)別的緣故,所以這里的平均一次計(jì)算消耗時(shí)間比較大。如果使用本地的人臉識(shí)別算法,那 么將可以把時(shí)間縮減為原來(lái)的十分之一至二十分之一。
[0091] 上表中各個(gè)指標(biāo)的意義為:
[0092] 輸入人臉數(shù)\輸出人臉數(shù):輸入人臉數(shù)表示輸入人臉集合的人臉數(shù);輸出人臉數(shù)表 示輸出人臉集合的人臉數(shù)。
[0093] 輸入覆蓋人數(shù)\輸出覆蓋人數(shù):一個(gè)人臉集合的覆蓋人數(shù)表示當(dāng)該集合中的人臉 總共來(lái)自n個(gè)人時(shí),那么其覆蓋人數(shù)就是n。輸入覆蓋人數(shù)表示輸入人臉集合的覆蓋人數(shù);輸 出覆蓋人數(shù)則表示輸出人臉集合的覆蓋人數(shù)。
[0094] 計(jì)算次數(shù)上限\計(jì)算次數(shù):計(jì)算次數(shù)上限是一個(gè)只與塊大小B和人臉集合人臉數(shù)c 有關(guān)的值,它表示本發(fā)明所提出的算法在最壞的情況下(所有的人臉都被分成一類),在塊 大小B的條件下,對(duì)人臉數(shù)為c的人臉集合進(jìn)行聚類的計(jì)算次數(shù):
[0095] 計(jì)算次數(shù)上限:
[0096] 左邊中括號(hào)內(nèi)的第一個(gè)B-1表示計(jì)算新來(lái)人臉與聚類中心之間距離的次數(shù),之后 的部分表示類內(nèi)調(diào)整計(jì)算新來(lái)人臉與類內(nèi)其他已有人臉之間距離的次數(shù)
表示程序總共 會(huì)進(jìn)行多少次分塊計(jì)算。
[0097] 計(jì)算次數(shù)則表示程序統(tǒng)計(jì)的求取兩個(gè)人臉數(shù)據(jù)樣本距離的次數(shù)。
[0098] 平均一次計(jì)算消耗時(shí)間:平均一次計(jì)算消耗時(shí)間等于總計(jì)算時(shí)長(zhǎng)除以計(jì)算次數(shù), 其中總計(jì)算時(shí)長(zhǎng)為程序統(tǒng)計(jì)的,從第一個(gè)人臉被接收開始,直到最后一個(gè)人臉被接收且算 法輸出結(jié)果為止的程序總耗時(shí),計(jì)算次數(shù)的含義同上一個(gè)指標(biāo)。該指標(biāo)用于評(píng)估平均每一 次計(jì)算的時(shí)間消耗。
[0099] 輸入特殊人臉數(shù)\輸出特殊人臉數(shù):所謂的特殊人臉,體現(xiàn)在其是某一個(gè)人的人 臉,但是其與該人的一般狀態(tài)的人臉不相似。它可以是一個(gè)人的證件照人臉集合中突然出 現(xiàn)的做表情、側(cè)臉或者帶遮擋等的人臉,也可以是一個(gè)人的側(cè)臉照人臉集合中突然出現(xiàn)的 證件照人臉。由于這個(gè)并沒有一個(gè)非常明確的指標(biāo),所以需要進(jìn)行手工標(biāo)定。標(biāo)定的方法為 當(dāng)人工認(rèn)為輸入人臉集合中有兩個(gè)以上的人臉相似時(shí),那么這些相似的人臉都不是特殊人 臉,除此之外的就是輸入特殊人臉;而在程序輸出中,一個(gè)類中只有一個(gè)數(shù)據(jù)樣本時(shí),那么 這個(gè)數(shù)據(jù)樣本就是一個(gè)輸出特殊人臉。輸入特殊人臉數(shù)表示輸入人臉集合中,包含的特殊 人臉的個(gè)數(shù);輸出特殊人臉數(shù)則表示輸出人臉集合中,包含的特殊人臉的個(gè)數(shù)。
[0100] 特殊人臉命中率:人工認(rèn)為的特殊人臉和程序認(rèn)為的特殊人臉在定義上是不同 的,那么就會(huì)產(chǎn)生一個(gè)問題,假設(shè)Sa表示程序輸出的特殊人臉集合,S m表示人工選擇的特殊 人臉集合,但Sa_Sm不一定為空集。所謂的特殊人臉命中率,就是S a中的元素來(lái)自概率。 令Count(S)表示集合S中元素的個(gè)數(shù)。那么特殊人臉命中率的計(jì)算公式為:
[0102] 錯(cuò)誤分類數(shù):正確的分類為人臉與其所在聚類的聚類中心對(duì)應(yīng)的人臉來(lái)自同一個(gè) 人,如果不是,那么這個(gè)人臉的分類就是一次錯(cuò)誤分類。錯(cuò)誤分類數(shù)表示在算法輸出的聚類 結(jié)果中,錯(cuò)誤分類的次數(shù)。
[0103] 類似上述實(shí)驗(yàn)方法,我們還在0RL人臉數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試:
[0105] 0RL人臉數(shù)據(jù)庫(kù)上的特殊人臉標(biāo)定時(shí)我們硬性地規(guī)定每個(gè)人選出兩張人臉作為特 殊人臉,但實(shí)際上很多人的人臉集合確實(shí)不包含特殊人臉。
[0106] 結(jié)果表明,本方法在減少冗余、保證結(jié)果正確性、不漏特殊人臉以及維持計(jì)算規(guī)模 方面都有非常顯著的表現(xiàn),并且滿足了前文提出的4個(gè)人臉選擇的準(zhǔn)則。
[0107] 我們接下來(lái)把該方法用作聚類模塊引入到人臉識(shí)別云端系統(tǒng)中。
[0108] 如圖4所示,這是一個(gè)結(jié)合了本發(fā)明方法的簡(jiǎn)單客戶端組件圖,其數(shù)據(jù)流程為:控 制模塊調(diào)用網(wǎng)絡(luò)攝像頭抓取到包含訪問者的一幀圖片,然后使用算法提供模塊提供的人臉 提取算法,從圖片中截取一個(gè)或者多個(gè)人臉圖片。之后,再依次調(diào)用聚類模塊提供的添加一 張人臉的接口把截取到的人臉圖片添加到聚類模塊中。在聚類模塊中,本發(fā)明所提出的算 法使用了算法提供模塊提供的求兩張人臉之間的距離的方法,對(duì)添加進(jìn)來(lái)的人臉圖片進(jìn)行 聚類。最后,當(dāng)一次分塊計(jì)算完成后,聚類模塊再通過網(wǎng)絡(luò)傳輸模塊的上傳一張人臉的接 口,把聚類結(jié)果中,聚類中心對(duì)應(yīng)的人臉通過網(wǎng)絡(luò)傳給主服務(wù)器。為了達(dá)到實(shí)時(shí)性、魯棒性 的要求,我們?cè)趯?shí)現(xiàn)中都采用了類似于消息隊(duì)列的伺服機(jī)制,各個(gè)模塊分別自我維護(hù)一個(gè) 任務(wù)隊(duì)列,接口的調(diào)用都是通過類似于任務(wù)投遞的方式來(lái)實(shí)現(xiàn)的,然后各個(gè)模塊的內(nèi)部都 會(huì)有一個(gè)線程來(lái)專門負(fù)責(zé)從任務(wù)隊(duì)列中抽取任務(wù)來(lái)執(zhí)行。同時(shí)要注意到的是,聚類模塊在 實(shí)現(xiàn)時(shí),要比之前所表述的算法流程更復(fù)雜一些。首先為了防止人臉長(zhǎng)期滯留內(nèi)存,我們會(huì) 建立一個(gè)監(jiān)控線程來(lái)專門計(jì)算兩次人臉傳入的時(shí)間間隔,當(dāng)該間隔達(dá)到一定大小時(shí),監(jiān)控 線程就會(huì)強(qiáng)制聚類模塊把當(dāng)前的聚類結(jié)果輸出。同時(shí)算法各個(gè)參數(shù)的設(shè)置上也不是一次設(shè) 置然后就鎖死的,它也能夠根據(jù)硬件的計(jì)算壓力進(jìn)行動(dòng)態(tài)地調(diào)整,以確保實(shí)時(shí)性和正確性 的統(tǒng)一。
[0109]我們還可以把該方法用到包含人臉的視頻(文件)的預(yù)處理工作中。通過對(duì)視頻文 件進(jìn)行逐幀人臉檢測(cè)和提取,我們可以獲得一個(gè)包含多個(gè)人臉的人臉集合。本發(fā)明所提出 的方法能夠?qū)@個(gè)人臉集合進(jìn)行過濾。根據(jù)本發(fā)明所滿足的4個(gè)人臉選擇的準(zhǔn)則,過濾的結(jié) 果能夠比較好地代表該視頻文件中的人臉情況,同時(shí)還降低了人臉的數(shù)量。
[0110]以上所述的【具體實(shí)施方式】,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步 詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的【具體實(shí)施方式】而已,并不用于限制本發(fā) 明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明 的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 基于聚類的在線式多人臉圖像處理的方法,其特征在于,人臉聚類的具體步驟如下: 步驟1 ),設(shè)定初始?jí)K大小B,距離閾值μ和類集合S; 步驟2 ),等待一個(gè)新來(lái)人臉數(shù)據(jù)樣本的傳入; 步驟3),分別計(jì)算類集合S中各個(gè)類的聚類中心與新來(lái)人臉數(shù)據(jù)樣本之間的距離,找出 與新來(lái)人臉數(shù)據(jù)樣本之間距離最小的類S1; 步驟4),將類S1與新來(lái)人臉數(shù)據(jù)樣本之間距離與設(shè)定的距離閾值μ進(jìn)行比較,如果類5: 與新來(lái)人臉數(shù)據(jù)樣本之間距離小于等于距離閾值μ,將新來(lái)人臉數(shù)據(jù)樣本加入到S1;如果類 3:與新來(lái)人臉數(shù)據(jù)樣本之間距離大于距離閾值μ,建立一個(gè)新的類,將新來(lái)人臉數(shù)據(jù)樣本加 入這個(gè)新的類,并將該新的類加入到類集合S中; 步驟5),更新新來(lái)人臉數(shù)據(jù)樣本所在類的聚類中心; 步驟6),計(jì)算當(dāng)前類集合S中的人臉數(shù),如果類集合S中的人臉數(shù)小于Β,執(zhí)行步驟2);如 果類集合S中的人臉數(shù)大于或等于Β,將當(dāng)前的聚類結(jié)果輸出后,清空類集合S,執(zhí)行步驟2)。2. 根據(jù)權(quán)利要求1所述的基于聚類的在線式多人臉圖像處理的方法,其特征在于,步驟 5)的詳細(xì)步驟如下: 步驟5.1 ),對(duì)于新來(lái)人臉數(shù)據(jù)樣本所在類中的每個(gè)人臉數(shù)據(jù)樣本,計(jì)算其和其他人臉 數(shù)據(jù)樣本之間的距離和; 步驟5.2),將距離和最小的人臉數(shù)據(jù)樣本作為新來(lái)人臉數(shù)據(jù)樣本所在類的聚類中心。
【文檔編號(hào)】G06K9/62GK105913001SQ201610210173
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月6日
【發(fā)明人】李千目, 陸妍蕾, 李德強(qiáng), 李濤, 徐佳, 徐小龍
【申請(qǐng)人】南京郵電大學(xué)鹽城大數(shù)據(jù)研究院有限公司