本發(fā)明涉及圖像檢索領(lǐng)域,尤其是涉及了一種基于無監(jiān)督三元組散列的快速圖像檢索方法。
背景技術(shù):
隨著信息數(shù)字化技術(shù)、多媒體技術(shù)的廣泛應用,計算機網(wǎng)絡(luò)、數(shù)字化圖像設(shè)備如掃描儀、數(shù)字相機等技術(shù)的飛速發(fā)展,各行各業(yè)的大量信息都在以多媒體信息的方式被數(shù)字化。圖像作為最基本、應用最廣泛的多媒體信息,已經(jīng)成為了大眾化數(shù)字信息的一種形式,圖像的相關(guān)技術(shù)已經(jīng)廣泛應用到工業(yè)制造、醫(yī)療衛(wèi)生、新聞媒體、大眾娛樂和家庭生活等各個方面。因此,面對著大量各式各樣的圖像數(shù)據(jù)庫,我們需要對圖像數(shù)據(jù)進行科學管理,于是,圖像檢索逐漸成為了人們研究的熱點。傳統(tǒng)的圖像檢索主要依靠關(guān)鍵字和文本信息進行搜索,需要由手工完成標注,圖像包含的豐富內(nèi)涵并非少量文本注釋所能表達的,導致檢索時出現(xiàn)歧義性,檢索結(jié)果不能更好地符合人們的要求。
本發(fā)明提出了一種基于無監(jiān)督三元組散列的快速圖像檢索方法,先提出了無監(jiān)督三元組散列(uth)的構(gòu)架,包括通過三元損失學習更多的圖像檢索表示法,最小化原始實值特征描述符和所學習的散列碼之間的量化損失,保持較高的檢索性能,以及最大化所學習的散列碼的信息熵,盡可能多地傳送信息。本發(fā)明提出無監(jiān)督三元組散列(uth)構(gòu)架,不需要經(jīng)過標記的訓練數(shù)據(jù),不僅保持了原有的檢索精度,還提高了檢索的效率,能更好地符合人們的檢索需求。
技術(shù)實現(xiàn)要素:
針對檢索時出現(xiàn)歧義性等問題,本發(fā)明的目的在于提供一種基于無監(jiān)督三元組散列的快速圖像檢索方法,先提出了無監(jiān)督三元組散列(uth)的構(gòu)架,包括通過三元損失學習更多的圖像檢索表示法,最小化原始實值特征描述符和所學習的散列碼之間的量化損失,保持較高的檢索性能,以及最大化所學習的散列碼的信息熵,盡可能多地傳送信息。
為解決上述問題,本發(fā)明提供一種基于無監(jiān)督三元組散列的快速圖像檢索方法,其主要內(nèi)容包括:
(一)無監(jiān)督三元組散列(uth)的構(gòu)架;
(二)無監(jiān)督三元損失;
(三)量化損失;
(四)熵損失。
其中,所述的散列法,包括監(jiān)督散列,半監(jiān)督散列和無監(jiān)督散列。
其中,所述的無監(jiān)督三元組散列(uth)的構(gòu)架,包含三個主要組成部分:
(1)通過三元損失學習更多的圖像檢索表示法;
(2)最小化原始實值特征描述符和所學習的散列碼之間的量化損失,保持較高的檢索性能;
(3)最大化所學習的散列碼的信息熵,盡可能多地傳送信息。
進一步地,所述的uth構(gòu)架,同時實現(xiàn)以下三個目標:
(1)圖像快速檢索;
(2)精確的二進制特征描述符;
(3)最大化所學習的散列碼信息。
進一步地,所述的整體損失函數(shù),用
其中,α,β和γ是每個對象的參數(shù)。
其中,所述的無監(jiān)督三元損失,為了確保散列碼的辨別性,提出了一種無監(jiān)督的三元組神經(jīng)網(wǎng)絡(luò);訓練集由未標記的數(shù)據(jù)構(gòu)成;對于未標記集合中的每個圖像、圖像的旋轉(zhuǎn)、來自數(shù)據(jù)集隨機選擇的圖像及其本身形成三元組;可以假設(shè)圖像與圖像的旋轉(zhuǎn)之間的距離小于對圖像的隨機選擇的圖像的距離。
進一步地,所述的三元損失函數(shù),令(p,p+,p-)表示三元態(tài);
其中,
在準備訓練數(shù)據(jù)集時,以訓練集合中的每個圖像p旋轉(zhuǎn)一定程度,形成一個p+,并隨機選擇除了自身以外的一個圖像,形成一個p-,從而構(gòu)成一個三元組(p,p+,p-)。
其中,所述的量化損失,為了學習多個非線性散列函數(shù),添加一個激活層,然后是散列層;選擇修正線性單元(relu)為激活函數(shù),通過量化輸出特征,生成二進制散列碼;量化規(guī)則如下所示:
將閾值設(shè)置為0.5,并添加約束來縮小圖像特征量化前后的檢索性能之間的差距。
進一步地,所述的最小量化損失,最小量化損失即
其中,n是訓練數(shù)據(jù)的數(shù)量,m是散列碼的長度;
損失函數(shù)(4)將每個維度的實際值推送到0或1,因此通過使用量化圖像特征(即散列碼)的檢索性能,使實數(shù)值圖像特征近似于性能。
其中,所述的熵損失,根據(jù)信息理論,當信息在代碼中的每個位之間均勻分布時,達到最高熵;因此,較高的熵意味著代碼攜帶更多的信息;添加一個約束來推動輸出二進制代碼中的每一位均勻分布;因此,最大熵損失表示為:
將等式(2),(4)和(5)代入方程(1),可以得到總損耗函數(shù)。
附圖說明
圖1是本發(fā)明一種基于無監(jiān)督三元組散列的快速圖像檢索方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種基于無監(jiān)督三元組散列的快速圖像檢索方法的無監(jiān)督三元組散列(uth)構(gòu)架。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于無監(jiān)督三元組散列的快速圖像檢索方法的系統(tǒng)框架圖。主要包括無監(jiān)督三元組散列(uth)的構(gòu)架,無監(jiān)督三元損失,量化損失和熵損失。
散列法包括監(jiān)督散列,半監(jiān)督散列和無監(jiān)督散列。
無監(jiān)督三元損失,為了確保散列碼的辨別性,提出了一種無監(jiān)督的三元組神經(jīng)網(wǎng)絡(luò);訓練集由未標記的數(shù)據(jù)構(gòu)成;對于未標記集合中的每個圖像、圖像的旋轉(zhuǎn)、來自數(shù)據(jù)集隨機選擇的圖像及其本身形成三元組;可以假設(shè)圖像與圖像的旋轉(zhuǎn)之間的距離小于對圖像的隨機選擇的圖像的距離。
令(p,p+,p-)表示三元態(tài);
其中,
在準備訓練數(shù)據(jù)集時,以訓練集合中的每個圖像p旋轉(zhuǎn)一定程度,形成一個p+,并隨機選擇除了自身以外的一個圖像,形成一個p-,從而構(gòu)成一個三元組(p,p+,p-)。
量化損失,為了學習多個非線性散列函數(shù),添加一個激活層,然后是散列層;選擇修正線性單元(relu)為激活函數(shù),通過量化輸出特征,生成二進制散列碼;量化規(guī)則如下所示:
將閾值設(shè)置為0.5,并添加約束來縮小圖像特征量化前后的檢索性能之間的差距。
最小量化損失即
其中,n是訓練數(shù)據(jù)的數(shù)量,m是散列碼的長度;
損失函數(shù)(3)將每個維度的實際值推送到0或1,因此通過使用量化圖像特征(即散列碼)的檢索性能,使實數(shù)值圖像特征近似于性能。
熵損失,根據(jù)信息理論,當信息在代碼中的每個位之間均勻分布時,達到最高熵;因此,較高的熵意味著代碼攜帶更多的信息;添加一個約束來推動輸出二進制代碼中的每一位均勻分布;因此,最大熵損失表示為:
將等式(1),(3)和(4)代入方程(5),可以得到總損耗函數(shù)。
圖2是本發(fā)明一種基于無監(jiān)督三元組散列的快速圖像檢索方法的無監(jiān)督三元組散列(uth)構(gòu)架。uth包含三個主要組成部分:
(1)通過三元損失學習更多的圖像檢索表示法;
(2)最小化原始實值特征描述符和所學習的散列碼之間的量化損失,保持較高的檢索性能;
(3)最大化所學習的散列碼的信息熵,盡可能多地傳送信息。
其同時實現(xiàn)以下三個目標:
(1)圖像快速檢索;
(2)精確的二進制特征描述符;
(3)最大化所學習的散列碼信息。
用
其中,α,β和γ是每個對象的參數(shù)。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。