本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法及系統(tǒng)。
背景技術(shù):
隨著社會的不斷發(fā)展,計算機(jī)視覺領(lǐng)域也進(jìn)入了高速發(fā)展的時代。但是目前的科學(xué)研究的發(fā)展還未能讓計算機(jī)像人類一樣具備自主思維,因此如何讓計算機(jī)能夠自動的識別一個圖片的內(nèi)容成為了迫在眉睫急需解決的問題。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的出現(xiàn)使得人們得以嘗試通過讓計算機(jī)自主提取特征的方式讓計算機(jī)對人類世界的圖像進(jìn)行分析?,F(xiàn)在通過卷積神經(jīng)網(wǎng)絡(luò)模型,已經(jīng)可以進(jìn)行有監(jiān)督的較為精確率的圖像識別功能。但是這還遠(yuǎn)遠(yuǎn)不足,人們需要讓計算機(jī)自動的給圖像標(biāo)上標(biāo)簽,從而實現(xiàn)無監(jiān)督的自主識別,進(jìn)一步達(dá)成真正意義上的計算機(jī)對圖片分類。但是在信息快速傳播的今日,大數(shù)據(jù)填充著人們的生活,在這些數(shù)據(jù)中,不可能存在有大量貼好標(biāo)簽的數(shù)據(jù),因此一種無監(jiān)督的圖像數(shù)據(jù)識別自動貼標(biāo)簽的技術(shù)越來越受到人們的生活需求。
目前所用的圖像識別技術(shù)為有監(jiān)督的圖像識別技術(shù),即需要給出圖像的標(biāo)簽,利用已知的標(biāo)簽信息對數(shù)據(jù)庫中的圖像進(jìn)行模型的搭建并訓(xùn)練。通過使用訓(xùn)練好的模型架構(gòu)來進(jìn)行新的圖像的分類。但是在信息快速傳播的今日,大數(shù)據(jù)包圍的我們很難有一個準(zhǔn)確的已經(jīng)人工貼好標(biāo)簽的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,因此這種技術(shù)水平無法達(dá)到人們的需求。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法及系統(tǒng),可以通過計算機(jī)自主生產(chǎn)對應(yīng)的圖像標(biāo)簽信息,提高了圖像識別的效率和速度。
為了解決上述技術(shù)問題,本發(fā)明實施例提供了一種實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法所述實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法包括:
采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,提取圖像基本信息;
采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,獲取降維后的圖像基本信息;
對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,獲取簡化圖像基本信息;
采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,獲取計算輸出值;
判斷所述計算輸出值是否為終止符號,若是則輸出轉(zhuǎn)換標(biāo)簽,若否,則重復(fù)上一步驟。
優(yōu)選地,所述卷積神經(jīng)網(wǎng)絡(luò)模型采用21層神經(jīng)網(wǎng)絡(luò)層次架構(gòu),所述21層神經(jīng)網(wǎng)絡(luò)層次架構(gòu)分別為16個卷積層和5個降采樣層。
優(yōu)選地,所述采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,包括:
所述卷積神經(jīng)網(wǎng)絡(luò)模型接收所述圖像信息,并確定所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣層;
采用所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣對所述圖像信息進(jìn)行采樣處理,獲取圖像基本信息;所述圖像基本信息至少包括圖像長寬、圖像像素、圖像內(nèi)容。
優(yōu)選地,所述采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,包括:
采用全連接深度神經(jīng)網(wǎng)絡(luò)中的隱藏層激活函數(shù)對所述圖像信息進(jìn)行處理,獲取處理結(jié)果;
對所述處理結(jié)果采用全連接深度神經(jīng)網(wǎng)絡(luò)中的輸出層激活函數(shù)進(jìn)行處理,獲取降維后的圖像基本信息;所述獲取降維后的圖像基本信息為一維數(shù)據(jù)信息;
所述隱藏層激活函數(shù)為relu函數(shù),所述輸出層激活函數(shù)為softmax函數(shù)。
優(yōu)選地,所述對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,包括:
采用嵌入層中的查找表對所述降維后的圖像基本信進(jìn)行簡化處理。
優(yōu)選地,所述采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,包括:
根據(jù)當(dāng)前獲取的所述簡化圖像基本信息與當(dāng)前留存在單元格內(nèi)的簡化圖像基本信息進(jìn)行計算,獲取留存簡化圖像基本信息;
根據(jù)留存簡化圖像基本信息在所述單元內(nèi)進(jìn)行存儲信息更新;
根據(jù)所述單元格內(nèi)存儲的基本信息進(jìn)行輸出計算,獲取計算輸出值。
另外,本發(fā)明實施例還提供了一種實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的系統(tǒng),所述實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的系統(tǒng)包括:
基本信息提取模塊:用于采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,提取圖像基本信息;
降維處理模塊:用于采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,獲取降維后的圖像基本信息;
簡化處理模塊:用于對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,獲取簡化圖像基本信息;
輸出值計算模塊:用于采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,獲取計算輸出值;
判斷模塊:用于判斷所述計算輸出值是否為終止符號,若是則輸出轉(zhuǎn)換標(biāo)簽,若否,則重復(fù)上一步驟。
優(yōu)選地,所述基本信息提取模塊包括:
最大采樣層確定單元:用于所述卷積神經(jīng)網(wǎng)絡(luò)模型接收所述圖像信息,并確定所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣層;
基本信息提取單元:用于采用所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣對所述圖像信息進(jìn)行采樣處理,獲取圖像基本信息;所述圖像基本信息至少包括圖像長寬、圖像像素、圖像內(nèi)容。
優(yōu)選地,所述降維處理模塊包括:
隱藏層處理單元:用于采用全連接深度神經(jīng)網(wǎng)絡(luò)中的隱藏層激活函數(shù)對所述圖像信息進(jìn)行處理,獲取處理結(jié)果;
降維單元:用于對所述處理結(jié)果采用全連接深度神經(jīng)網(wǎng)絡(luò)中的輸出層激活函數(shù)進(jìn)行處理,獲取降維后的圖像基本信息;
所述獲取降維后的圖像基本信息為一維數(shù)據(jù)信息;所述隱藏層激活函數(shù)為relu函數(shù),所述輸出層激活函數(shù)為softmax函數(shù)。
優(yōu)選地,所述輸出值計算模塊包括:
留存計算單元:用于根據(jù)當(dāng)前獲取的所述簡化圖像基本信息與當(dāng)前留存在單元格內(nèi)的簡化圖像基本信息進(jìn)行計算,獲取留存簡化圖像基本信息;
信息更新單元:用于根據(jù)留存簡化圖像基本信息在所述單元內(nèi)進(jìn)行存儲信息更新;
輸出計算單元:用于根據(jù)所述單元格內(nèi)存儲的基本信息進(jìn)行輸出計算,獲取計算輸出值。
在本發(fā)明實施例中,解決了以往人們在圖像數(shù)據(jù)處理過程中的人工手動貼標(biāo)簽的功能,通過使用本發(fā)明的模型,計算機(jī)可以自主生成對應(yīng)的圖像標(biāo)簽;在時間復(fù)雜度和模型復(fù)雜度的上,極大地優(yōu)化了現(xiàn)有的模型,實現(xiàn)了計算機(jī)視覺處理的進(jìn)一步深入的復(fù)雜功能;通過計算機(jī)運(yùn)行基于卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶模型來對輸入任意的圖像貼標(biāo)簽,從而減少了人們手動進(jìn)行對圖像貼標(biāo)簽然后再通過機(jī)器學(xué)習(xí)進(jìn)行圖像分類的功能,從真正意義上實現(xiàn)人工智能自主進(jìn)行圖像識別分類的無監(jiān)督學(xué)習(xí)方法;提高了圖像識別的效率和速度。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見的,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1是本發(fā)明實施例中的實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法的流程示意圖;
圖2是本發(fā)明實施例中的實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的系統(tǒng)的結(jié)構(gòu)組成示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。
圖1是本發(fā)明實施例中的實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法的流程示意圖,如圖1所示,
s11:采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,提取圖像基本信息;
s12:采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,獲取降維后的圖像基本信息;
s13:對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,獲取簡化圖像基本信息;
s14:采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,獲取計算輸出值;
s15:判斷所述計算輸出值是否為終止符號,若是則輸出轉(zhuǎn)換標(biāo)簽,若否,則重復(fù)上一步驟。
對s11作進(jìn)一步說明:
采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,提取圖像基本信息,所述卷積神經(jīng)網(wǎng)絡(luò)模型采用21層神經(jīng)網(wǎng)絡(luò)層次架構(gòu),所述21層神經(jīng)網(wǎng)絡(luò)層次架構(gòu)分別為16個卷積層和5個降采樣層;所述卷積神經(jīng)網(wǎng)絡(luò)模型接收所述圖像信息,并確定所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣層;采用所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣對所述圖像信息進(jìn)行采樣處理,獲取圖像基本信息;所述圖像基本信息至少包括圖像長寬、圖像像素、圖像內(nèi)容。
具體的,首先是獲取到圖像信息,具體獲取圖像信息方式有采集端自行采集或者由用戶自行輸入等方式,將獲取到的圖像信息輸入到卷積神經(jīng)網(wǎng)絡(luò)模型內(nèi)進(jìn)行處理,卷積神經(jīng)網(wǎng)絡(luò)模型是通過常規(guī)圖像訓(xùn)練得到的訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,該卷積神經(jīng)網(wǎng)絡(luò)模型采用21層神經(jīng)網(wǎng)絡(luò)層次架構(gòu),分別為16個卷積層和5個降采樣層;在本發(fā)明實施例中,采用最大降采樣層進(jìn)行降采樣處理,首先是確定5個降采樣層的最大降采樣層,采用模型最大降采樣層進(jìn)行信息采樣采集,從而獲取圖像基本信息,該圖像基本信息至少包括圖像長寬、圖像像素、圖像內(nèi)容。
對s12作進(jìn)一步說明:
采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,獲取降維后的圖像基本信息;包括:采用全連接深度神經(jīng)網(wǎng)絡(luò)中的隱藏層激活函數(shù)對所述圖像信息進(jìn)行處理,獲取處理結(jié)果;對所述處理結(jié)果采用全連接深度神經(jīng)網(wǎng)絡(luò)中的輸出層激活函數(shù)進(jìn)行處理,獲取降維后的圖像基本信息;所述獲取降維后的圖像基本信息為一維數(shù)據(jù)信息;所述隱藏層激活函數(shù)為relu函數(shù),所述輸出層激活函數(shù)為softmax函數(shù)。
對基本信息進(jìn)行降維,是將多維的基本信息降至一維,從而可以進(jìn)一步進(jìn)行下一步計算,具體的,采用全連接深度神經(jīng)網(wǎng)絡(luò)中的隱藏層激活函數(shù)對圖像基本信息進(jìn)行處理從而減少神經(jīng)網(wǎng)絡(luò)的整體預(yù)算量,讓后獲取處理結(jié)果,對獲取的處理結(jié)果采用全連接深度神經(jīng)網(wǎng)絡(luò)中的輸出層激活函數(shù)進(jìn)行處理來選擇最大可能性的值,這樣處理之后,即可獲取降維后的圖像基本信息;所述獲取降維后的圖像基本信息為一維數(shù)據(jù)信息;所述隱藏層激活函數(shù)為relu函數(shù),所述輸出層激活函數(shù)為softmax函數(shù)。
其中relu函數(shù)如下:
f(x)=max(0,x),
其中,softmax函數(shù)如下:
對s13作進(jìn)一步說明:
對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,獲取簡化圖像基本信息;既是采用嵌入層中的查找表對所述降維后的圖像基本信進(jìn)行簡化處理。
具體的,使用嵌入層的作用主要是通過查找表的方式,使得上述獲得的圖像基本信息得以簡化,從而降低算法的復(fù)雜度和時間消耗。
對s14作進(jìn)一步說明:
采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,獲取計算輸出值;進(jìn)一步的包括:根據(jù)當(dāng)前獲取的所述簡化圖像基本信息與當(dāng)前留存在單元格內(nèi)的簡化圖像基本信息進(jìn)行計算,獲取留存簡化圖像基本信息;根據(jù)留存簡化圖像基本信息在所述單元內(nèi)進(jìn)行存儲信息更新;根據(jù)所述單元格內(nèi)存儲的基本信息進(jìn)行輸出計算,獲取計算輸出值。
具體的,采用長短期記憶模型中的忘記門層進(jìn)行檢測,檢測ht-1和xt(這里,ht-1表示當(dāng)前獲取的所述簡化圖像基本信息,xt當(dāng)前留存在單元格內(nèi)的簡化圖像基本信息)并進(jìn)行計算,計算獲取的值為0到1之間,1表示“完全保持”,而0表示“完全擺脫”。
由上述可以得到如下公式:
ft=σ(wf·[ht-1,xt]+bf)
這里的
具體的,首先,采用被稱為輸入門層的sigmoid形層決定了對信息的更新,tanh層創(chuàng)建可以被添加到狀態(tài)的新候選值
更新舊狀態(tài)的方程如下所示,將更新后的ct-1存入下一個ct中,并繼續(xù)執(zhí)行后續(xù)步驟的運(yùn)算:
it=σ(wi·[ht-1,xt]+bi)
將舊狀態(tài)乘以ft,忘記了我們之前決定忘記的數(shù)據(jù)。然后添加它乘
運(yùn)行一個sigmoid層,它決定了要輸出的單元格狀態(tài)的部分,將單元格狀態(tài)通過tanh(將值推到-1和1之間),并將其乘以sigmoid的輸出,以便僅輸出決定的部分。
其中,計算公式如下:
ot=σ(wo·[ht-1,xt]+bo)
ht=ot*tanh(ct)
對s15作進(jìn)一步說明:
判斷所述計算輸出值是否為終止符號,若是則輸出轉(zhuǎn)換標(biāo)簽,若否,則重復(fù)上一步驟。
具體的,通過使用上述的模型,生成語料庫中存在的單詞,并將生成的單詞投入回模型中繼續(xù)運(yùn)算一直到模型生成的單詞為end為止,表示當(dāng)前標(biāo)簽已經(jīng)生成完畢,即完成了整個標(biāo)簽的生成過程,若不是終止符號,則繼續(xù)返回上一部進(jìn)行運(yùn)算,若為終止符號,則轉(zhuǎn)換為標(biāo)簽并輸出。
圖2是本發(fā)明實施例中的實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的系統(tǒng)的結(jié)構(gòu)組成示意圖,如圖2所示,所述實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的系統(tǒng)包括:
基本信息提取模塊:用于采用卷積神經(jīng)網(wǎng)絡(luò)模型對圖像信息進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)降采樣處理,提取圖像基本信息;
降維處理模塊:用于采用全連接深度神經(jīng)網(wǎng)絡(luò)對所述圖像信息的基本信息進(jìn)行降維處理,獲取降維后的圖像基本信息;
簡化處理模塊:用于對所述降維后的圖像基本信息通過嵌入層進(jìn)行簡化處理,獲取簡化圖像基本信息;
輸出值計算模塊:用于采用長短期記憶模型對所述簡化圖像基本信息進(jìn)行計算,獲取計算輸出值;
判斷模塊:用于判斷所述計算輸出值是否為終止符號,若是則輸出轉(zhuǎn)換標(biāo)簽,若否,則重復(fù)上一步驟。
優(yōu)選地,所述基本信息提取模塊包括:
最大采樣層確定單元:用于所述卷積神經(jīng)網(wǎng)絡(luò)模型接收所述圖像信息,并確定所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣層;
基本信息提取單元:用于采用所述卷積神經(jīng)網(wǎng)絡(luò)模型最大降采樣對所述圖像信息進(jìn)行采樣處理,獲取圖像基本信息;所述圖像基本信息至少包括圖像長寬、圖像像素、圖像內(nèi)容。
優(yōu)選地,所述降維處理模塊包括:
隱藏層處理單元:用于采用全連接深度神經(jīng)網(wǎng)絡(luò)中的隱藏層激活函數(shù)對所述圖像信息進(jìn)行處理,獲取處理結(jié)果;
降維單元:用于對所述處理結(jié)果采用全連接深度神經(jīng)網(wǎng)絡(luò)中的輸出層激活函數(shù)進(jìn)行處理,獲取降維后的圖像基本信息;
所述獲取降維后的圖像基本信息為一維數(shù)據(jù)信息;所述隱藏層激活函數(shù)為relu函數(shù),所述輸出層激活函數(shù)為softmax函數(shù)。
優(yōu)選地,所述輸出值計算模塊包括:
留存計算單元:用于根據(jù)當(dāng)前獲取的所述簡化圖像基本信息與當(dāng)前留存在單元格內(nèi)的簡化圖像基本信息進(jìn)行計算,獲取留存簡化圖像基本信息;
信息更新單元:用于根據(jù)留存簡化圖像基本信息在所述單元內(nèi)進(jìn)行存儲信息更新;
輸出計算單元:用于根據(jù)所述單元格內(nèi)存儲的基本信息進(jìn)行輸出計算,獲取計算輸出值。
具體地,本發(fā)明實施例的系統(tǒng)相關(guān)功能模塊的工作原理可參見方法實施例的相關(guān)描述,這里不再贅述。
在本發(fā)明實施例中,解決了以往人們在圖像數(shù)據(jù)處理過程中的人工手動貼標(biāo)簽的功能,通過使用本發(fā)明的模型,計算機(jī)可以自主生成對應(yīng)的圖像標(biāo)簽;在時間復(fù)雜度和模型復(fù)雜度的上,極大地優(yōu)化了現(xiàn)有的模型,實現(xiàn)了計算機(jī)視覺處理的進(jìn)一步深入的復(fù)雜功能;通過計算機(jī)運(yùn)行基于卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶模型來對輸入任意的圖像貼標(biāo)簽,從而減少了人們手動進(jìn)行對圖像貼標(biāo)簽然后再通過機(jī)器學(xué)習(xí)進(jìn)行圖像分類的功能,從真正意義上實現(xiàn)人工智能自主進(jìn)行圖像識別分類的無監(jiān)督學(xué)習(xí)方法;提高了圖像識別的效率和速度。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(rom,readonlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁盤或光盤等。
另外,以上對本發(fā)明實施例所提供的一種實現(xiàn)圖像轉(zhuǎn)換標(biāo)簽的方法及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)采用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。