一種基于焦點對象識別和主題語義的圖像搜索方法及系統(tǒng)的制作方法
【專利摘要】一種基于焦點對象識別和主題語義的圖像搜索方法及系統(tǒng)。所述方法包括以下步驟。S1、對待搜索圖像進行底層特征語義提取,并形成高維特征向量空間后,進行圖像分割,獲得待搜索圖像的元素。S2、將待搜索圖像的元素進行元素識別后抽象至語義概念層,并根據不同元素的相對距離及共現概率,判斷待搜索圖像中的不同元素是否相關,若是,將相關元素組合成對象。S3、計算對象的相對空間位置及占比面積,并計算各對象的興趣指數及重要指數,根據計算結果,從不同對象中識別出焦點對象。S4、根據焦點對象,構建待搜索圖像的主題語義模型,并獲取具有焦點對象的現有圖像,通過KL距離度量待搜索圖像與現有圖像之間的相似度,并輸出相似度較高的現有圖像。
【專利說明】一種基于焦點對象識別和主題語義的圖像搜索方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明本屬于圖像處理【技術領域】,具體涉及一種基于焦點對象識別和主題語義的圖像搜索方法及系統(tǒng)。
【背景技術】
[0002]隨著移動互聯網的興起與蓬勃發(fā)展,各類智能終端設備迅速普及。移動開發(fā)者推出大量移動場景下的應用程序(app),如微信、來往、SnapChat> Instagram等客戶端社交應用軟件,以及淘寶、天貓和京東等客戶端電子商務軟件。這類軟件不但會產生大量內容豐富的圖像數據,而且會產生各種圖像搜索需求。尤其是隨著電子商務的發(fā)展,020(Online ToOffline)模式的快速布局,“手機拍照+以圖搜圖+比價購物”的新興移動搜索形式對傳統(tǒng)圖像檢索提出了巨大的挑戰(zhàn)。當前,互聯網圖像數據規(guī)模已呈現指數級增長,面對海量的圖像數據,如何有效管理龐大的圖像資源庫,利用相似圖像檢索技術,快速準確的檢索出滿足用戶查詢意圖的圖像信息,仍然是當前學術界、工業(yè)界亟需解決的難題。
[0003]縱觀圖像檢索技術的發(fā)展歷程,可分為兩個階段:基于文本的圖像檢索技術和基于內容的圖像檢索技術。換一個角度,也就是關鍵詞搜圖和以圖搜圖。
[0004]其中,基于文本的圖像檢索(Text-based Image Retrieval, TBIR)技術是通過人工對圖像添加標注,或通過網絡挖掘圖片的環(huán)繞文本,構成圖片的描述性信息。然后對這些文本信息構建索引,建立圖像與文本之間的映射關系,便于搜索引擎或系統(tǒng)采用關鍵詞匹配的方式進行圖像檢索。這種圖像檢索方法簡單、易于理解、選擇了簡單的文本處理進行替代,回避了深入圖像內部處理的復雜過程。但該方法存在以下問題:人工無法對海量的圖像數據進行標注,且主觀性強;當圖像內容較豐富時,很難準確地用文字描述。
[0005]基于內容的圖像檢索(Content-based Image Retrieval, CBIR)技術充分考慮了圖像自身蘊含的豐富語義信息,其返回的檢索結果分為兩大類:一是基于精確匹配得到的包含匹配圖面的頁面及對應的鏈接;二是基于模糊匹配得到的相似圖像。本發(fā)明僅適用于以圖搜圖方式下的相似圖像搜索。
[0006]CBIR技術可劃分為三個層次:基于特征語義(視覺特征)的圖像檢索技術、基于對象和空間關系語義的圖像檢索技術和基于高層語義(場景語義、行為語義、情感語義)的圖像檢索技術。其中,基于低層語義的圖像檢索技術,提取了圖像的顏色、紋理、形狀等視覺特征,用以判斷圖像之間的相似性。但是這種方法僅僅考慮了簡單的視覺特征,而忽略了圖片蘊含的豐富語義,與人們對圖像的認知存在差異,容易產生語義鴻溝(semantic gap)。
[0007]基于對象和空間關系語義的圖像檢索技術,對圖像進行分割并識別出圖像中的對象,度量對象之間的位置關系、朝向關系(如上、下、左、右等)、拓撲關系(如相鄰、覆蓋等)和結構關系(如邊緣密度、邊緣方向等)。該方法也存在一定不足,其僅引入了圖像的部分語義信息,雖然考察了對象之間的空間位置關系,但這仍不足以表征圖像的語義信息。
[0008]基于高層語義的圖像檢索技術,其進一步對圖像中的語義要素進行了抽象,不但要考慮場景語義(如藍天、白云、沙灘),還要進一步考慮對象的行為語義(如唱歌、擊打、微笑)以及情感語義(如開心、難過、沮喪)等。圖像語義的提取過程是由低層特征向高層語義轉化的過程。高層語義雖然能夠很好的刻畫圖像的語義信息,滿足用戶真實的搜索意圖,但目前相關抽取語義描述的技術仍處在初始階段,有待進一步的發(fā)展和突破。
[0009]目前,傳統(tǒng)的圖像檢索方法,如基于特征語義、基于對象和空間關系語義的圖像檢索方法,采用的均是精確匹配技術。而精確匹配由于其規(guī)則限制條件比較嚴格,導致圖像檢索系統(tǒng)的擴展性差。例如,分別在百度圖片搜索引擎和谷歌圖片搜索引擎中,上傳一張“黑色皮鞋”圖片進行搜索,此時百度返回的搜索結果是外觀相似的黑色皮鞋,谷歌返回的結果則是包含匹配圖片的頁面。對兩種圖片搜索引擎返回的結果分析可以看出:百度的搜索結果體現出一定的模糊匹配,但不夠模糊,導致擴展性差,沒有上升到“皮鞋”這一概念層進行匹配,僅局限于滿足特征語義(顏色、紋理、形狀),并且沒有返回包含精確匹配該圖片的網頁;而谷歌的搜索結果,雖然既包含精確匹配該圖片的網頁,也包含外觀類似的圖片,但這些外觀類似的圖片中出現了“黑色的U盤、黑色的筆記本、黑色的望遠鏡”等不相關的圖片,反映了谷歌的模糊匹配策略因過于模糊而致匹配不準。因此,目前代表業(yè)界最高水平的圖片檢索系統(tǒng)(百度圖片搜索引擎、谷歌圖片搜索引擎),在相似圖像搜索上的性能也并不能令用戶滿意。
[0010]鑒于上述原因,本發(fā)明提供一種基于焦點對象識別和主題語義的圖像搜索方法及系統(tǒng),通過挖掘圖片背后的語義關聯,判斷圖片間的相似性,從而實現圖像搜索領域的新突破。
[0011]為了更好的闡述
【發(fā)明內容】
,以下對本發(fā)明涉及的下列名詞作出說明:元素、對象、焦點對象和主題語義。
[0012]其中,元素是指圖像中獨立的連續(xù)區(qū)域塊,即有具體含義的物體,如太陽、人、沙灘、比基尼,元素是圖像中的最小語義單元。對象是由單個或多個元素組合成的一個有物理含義的整體,組成某個對象的多個元素總是在空間位置上毗鄰且經常在圖像中共現,比如比基尼與美女可以構成一個穿著比基尼的美女對象。多個對象的組合便形成場景。
[0013]由于一張圖像中往往包含一個或多個對象,其中最重要且能吸引用戶視覺焦點的對象稱為焦點對象。比如一張圖是“在大草原上走太空步的小馬駒”,這時對象有“草原、小馬駒、藍天、大山”,但最能吸引用戶的是“小馬駒”,因為其“太空步”的行為動作附著在小馬駒身上,突出詼諧、搞笑的語義。此時,對象“小馬駒”就是焦點對象,是整張圖像的焦點。而其他如“草原、藍天、大山”構成一個場景。場景在這里并不是圖像想要突出的重點,如果將其置換到“沙灘” “農場”這類場景,也不會影響圖像的意境效果。
[0014]此外,主題語義是指由焦點對象的集合、焦點對象間的關聯、焦點對象分布的重要程度來描述的主題。
【發(fā)明內容】
[0015]本發(fā)明提供一種基于焦點對象識別和主題語義的圖像搜索方法,包括以下步驟:
[0016]S1、對待搜索圖像進行底層特征語義提取,并形成高維特征向量空間后,進行圖像分割,獲得所述待搜索圖像的元素;
[0017]S2、將所述待搜索圖像的元素進行元素識別后抽象至語義概念層,并根據不同元素的相對距離及共現概率,判斷所述待搜索圖像中的不同元素是否相關,若是,則將相關元素組合成對象;
[0018]S3、計算所述對象的相對空間位置及占比面積,并計算各對象的興趣指數及重要指數,根據計算結果,從不同對象中識別出焦點對象;
[0019]S4、根據所述焦點對象,構建待搜索圖像的主題語義模型,并獲取具有所述焦點對象的現有圖像,通過KL距離度量待搜索圖像與現有圖像之間的相似度,并輸出相似度較高的現有圖像。
[0020]優(yōu)選的,在步驟S2中,若待搜索圖像的元素的空間位置為坐標匕1,70,則元素e和元素g的相對距離表示為
【權利要求】
1.一種基于焦點對象識別和主題語義的圖像搜索方法,其特征在于,包括以下步驟: 51、對待搜索圖像進行底層特征語義提取,并形成高維特征向量空間后,進行圖像分害IJ,獲得所述待搜索圖像的元素; 52、將所述待搜索圖像的元素進行元素識別后抽象至語義概念層,并根據不同元素的相對距離及共現概率,判斷所述待搜索圖像中的不同元素是否相關,若是,則將相關元素組合成對象; 53、計算所述對象的相對空間位置及占比面積,并計算各對象的興趣指數及重要指數,根據計算結果,從不同對象中識別出焦點對象; 54、根據所述焦點對象,構建待搜索圖像的主題語義模型,并獲取具有所述焦點對象的現有圖像,通過KL距離度量待搜索圖像與現有圖像之間的相似度,并輸出相似度較高的現有圖像。
2.根據權利要求1所述的方法,其特征在于,在步驟S2中,若待搜索圖像的元素的空間位置為坐標(xi,yi),則元素e和元素g的相對距離表示為
3.根據權利要求1所述的方法,其特征在于,在步驟S2中,元素e和元素g的共現概率表示為
4.根據權利要求1至3任一項所述的方法,其特征在于,在步驟S2中,判斷所述待搜索圖像中的不同元素是否相關的依據為:
5.根據權利要求1所述的方法,其特征在于,在步驟S2中,若待搜索圖像中的不同元素不相關,則將所述不同元素分別劃分為獨立的對象。
6.根據權利要求1所述的方法,其特征在于,在步驟S3中,所述對象的相對空間位置指對象的中心點和圖像的中心點之間的相對距離,所述對象的占比面積表示為
7.根據權利要求1所述的方法,其特征在于,在步驟S3中,對象Ti的興趣指數表示為
8.根據權利要求1所述的方法,其特征在于,步驟S4中,在現有圖像中,焦點對象出現的概率為:
9.根據權利要求1所述的方法,其特征在于,在步驟S4中,圖片P和q之間的KL距離
10.一種基于焦點對象識別和主題語義的圖像搜索系統(tǒng),其特征在于,包括元素獲取模塊、元素抽象模塊、對象獲取模塊、焦點對象識別模塊及主題語義模塊,所述元素獲取模塊連接元素抽象模塊,元素抽象模塊連接對象獲取模塊,對象獲取模塊連接焦點對象識別模塊,焦點對象識別模塊連接主題語義模塊, 所述元素獲取模塊,用于對待搜索圖像進行底層特征語義提取,并進行圖像分割,獲得所述待搜索圖像的元素; 所述元素抽象模塊,用于將所述待搜索圖像的元素進行元素識別后抽象至語義概念層; 所述對象獲取模塊,用于根據不同元素的相對距離及共現概率,判斷所述待搜索圖像中的不同元素是否相關,若是,則將相關元素組合成對象; 所述焦點對象識別模塊,用于計算所述對象的相對空間位置及占比面積,并計算各對象的興趣指數及重要指數,根據計算結果,從不同對象中識別出焦點對象; 所述主題語義模塊,用于根據所述焦點對象,構建待搜索圖像的主題語義模型,并獲取具有所述焦點對象的現有圖像,通過KL距離度量待搜索圖像與現有圖像之間的相似度。
【文檔編號】G06F17/30GK103810303SQ201410101483
【公開日】2014年5月21日 申請日期:2014年3月18日 優(yōu)先權日:2014年3月18日
【發(fā)明者】朱巧明, 康楊楊, 洪宇 申請人:蘇州大學