數(shù)據(jù)搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種數(shù)據(jù)搜索方法,包括:提取訓練數(shù)據(jù)集的特征向量;將特征向量投影到近似漢明空間的預設特征空間;根據(jù)投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩沖區(qū);根據(jù)量化閾值和最優(yōu)緩沖區(qū)對特征向量投影結(jié)果進行雙比特量化以得到哈希編碼;獲取查詢實例的哈希編碼,并根據(jù)查詢實例的哈希編碼和特征向量投影結(jié)果的哈希編碼從訓練數(shù)據(jù)集中提取近似的訓練數(shù)據(jù)以作為查詢實例的搜索結(jié)果。根據(jù)本發(fā)明實施例的方法具有搜索速度快,搜索精度高的優(yōu)點。本發(fā)明還提出了一種數(shù)據(jù)搜索系統(tǒng)。
【專利說明】數(shù)據(jù)搜索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設計電子信息【技術(shù)領(lǐng)域】,特別涉及一種數(shù)據(jù)搜索方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,互聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)爆炸式增長的態(tài)勢,用戶通過各種途徑,不斷地將資訊、 圖像、視頻、音樂等數(shù)據(jù)上載到互聯(lián)網(wǎng)上,諸如國外的Facebook、Twitter,國內(nèi)的人人網(wǎng)、微 博等,以實現(xiàn)信息的存儲和共享。如此大規(guī)模的數(shù)據(jù)增長為互聯(lián)網(wǎng)領(lǐng)域帶來了很多挑戰(zhàn),包 括如何存儲這些數(shù)據(jù)以及如何在這些數(shù)據(jù)上進行快速有效的查詢等。特別是對于圖像等非 結(jié)構(gòu)化數(shù)據(jù),其內(nèi)容信息往往被表達成高維特征向量,而在如此海量而又快速增長的數(shù)據(jù) 中,利用歐氏距離等距離度量方式和傳統(tǒng)的遍歷式近鄰搜索將消耗大量的計算成本和計算 時間,不能滿足實時性的要求。因此,對于海量數(shù)據(jù)的查詢技術(shù)越來越關(guān)注,尤其是如何在 保證高質(zhì)量的近鄰查詢的前提下,提高查詢速度以適應海量互聯(lián)網(wǎng)數(shù)據(jù)的快速增長。
[0003] 為了解決遍歷搜索效率不高的問題,基于樹形結(jié)構(gòu)的索引首先被提出并廣泛應 用。J. H. Friedman等人提出了 kd-trees,嘗試在高維歐幾里德空間中進行數(shù)據(jù)點的組織; A. Guttman在1984年提出R-trees,它是最早支持擴展對象存取的方法之一,也是目前應用 最為廣泛的一種空間索引結(jié)構(gòu);Metric Tree在1991年被提出,該模型充分利用了度量空 間的性質(zhì),使數(shù)據(jù)訪問更加高效。后續(xù)還有一些更加前沿的樹形結(jié)構(gòu)索引模型出現(xiàn),但它們 普遍是對某個基本模型做出的改進,本質(zhì)內(nèi)容和核心結(jié)構(gòu)并無太大區(qū)別。相比于遍歷搜索, 樹形結(jié)構(gòu)索引能夠通過剪枝策略幫助降低近鄰查詢的遍歷范圍,但是在數(shù)據(jù)維度越來越高 的情況下,繼續(xù)使用它進行大規(guī)模數(shù)據(jù)管理將出現(xiàn)"維度災難",使得索引之后的查詢效率 可能比遍歷查詢還要低。
[0004] 為了解決上述問題,近年來提出了近似近鄰查詢(Approximate Nearest Neighbor)的概念,即允許非精確的查詢結(jié)果出現(xiàn),用可接受范圍內(nèi)的精度下降換取查詢效 率的大幅度提高。因此,哈希(Hash)方法被提出,其本質(zhì)在于對數(shù)據(jù)集當中的向量進行二 進制編碼,編碼算法需保證在原始特征空間中距離相近的特征向量有相似的碼字,從而使 其漢明距離(Hamming Distance)也相應較小,保持原始特征空間中向量之間的鄰域特性。 此外,通過編碼,數(shù)據(jù)將被轉(zhuǎn)化成二進制形式,可直接采用比特位存儲,能大幅度降低檢索 過程中的空間需求,從而使得哈希方法能夠在內(nèi)存有限的情況下支持更大數(shù)據(jù)量的檢索。 就目前的研究成果而言,哈希方法可分為兩類:數(shù)據(jù)無關(guān)方法和數(shù)據(jù)相關(guān)方法。局部敏感哈 希(LSH,Locality-sensitive Hash)及其衍生方法是數(shù)據(jù)無關(guān)方法的典型代表,其采取隨 機投影的方式對原始數(shù)據(jù)進行編碼,在編碼位數(shù)較高的情況下,理論上能夠保證漢明空間 上的相似性能以較高的概率表征原始特征空間的相似性。因此,LSH方法通常需要較多二進 制位來表示一個映射后的數(shù)據(jù)點,否則很難保證查詢精度。而數(shù)據(jù)相關(guān)方法則通過機器學 習等方法,挖掘訓練數(shù)據(jù)的特征,自動學習最優(yōu)的哈希函數(shù),力求使用較少的二進制位來編 碼數(shù)據(jù),同時又要盡量提高算法保持數(shù)據(jù)相似性的能力。譜哈希(SH,Spectral Hashing) 方法借助于對訓練數(shù)據(jù)的相似圖結(jié)構(gòu)的分析學習出投影函數(shù),從而實現(xiàn)對數(shù)據(jù)特征向量的 轉(zhuǎn)化和編碼;PCA-Hash采用主成份分析(PCA,Principal Component Analysis),利用線性 變換將高維向量數(shù)據(jù)投影到相對低維的新特征空間,并盡可能保持原有特征空間的信息; 迭代量化方法(ITQ,Iterative Quantization)利用PCA學習初始的線性投影函數(shù),而后通 過降低量化誤差,迭代地學習出一個單位正交矩陣用于優(yōu)化學到的投影函數(shù),實驗證明ITQ 取得了良好的檢索效果。
[0005] 通過對已有的哈希方法的總結(jié)可知,對于一個給定的數(shù)據(jù)集,直接計算其最優(yōu)二 進制碼是NP-hard問題,因此常見的哈希方法都會采取"投影"和"量化"兩個步驟來實現(xiàn)對 數(shù)據(jù)的編碼。首先在投影階段對高維數(shù)據(jù)點進行轉(zhuǎn)化操作,使其更適合于漢明空間的量化, 可通過PCA等方法將原始的d維數(shù)據(jù)投影至c維空間中;其次,在量化階段,數(shù)據(jù)點投影后 的實數(shù)向量將進行二值化,轉(zhuǎn)化為二進制編碼。因此,對于哈希方法的優(yōu)化基本分為"投影" 過程優(yōu)化和"量化"過程優(yōu)化這兩個主要方向,本發(fā)明主要側(cè)重于后者。大多數(shù)哈希編碼在 量化階段采取單比特量化(SBQ,Single-bit Quantization)方式,即用一個比特位編碼投 影結(jié)果中的每一維,通過設置閾值的方式判定相應的碼字為〇或1。在實際操作中,閾值通 常取的是數(shù)據(jù)集中各個數(shù)據(jù)點在該維度上的投影值的均值或中位數(shù),而數(shù)據(jù)點在閾值附近 的分布往往較為密集,容易造成在閾值附近相鄰的數(shù)據(jù)點被賦予不同的碼字,從而破壞了 原始特征空間的鄰域分布結(jié)構(gòu)。所以,有必要發(fā)明一種新的量化方式,以保證編碼后數(shù)據(jù)的 相似性度量與原始數(shù)據(jù)的距離度量盡量一致,減少編碼過程對原始空間鄰域結(jié)構(gòu)的破壞。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0007] 為此,本發(fā)明的一個目的在于提出一種數(shù)據(jù)搜索方法。該方法具有搜索速度快,搜 索精度高的優(yōu)點。
[0008] 本發(fā)明的另一個目的在于提出一種數(shù)據(jù)搜索系統(tǒng)。
[0009] 為了實現(xiàn)上述目的,本發(fā)明的第一方面的實施例公開了一種數(shù)據(jù)搜索方法,包括 以下步驟:提供訓練數(shù)據(jù)集,并提取所述訓練數(shù)據(jù)集的特征向量;利用投影算法將所述特 征向量由原始特征空間投影到近似漢明空間的預設特征空間以得到特征向量投影結(jié)果;根 據(jù)所述投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩沖區(qū);根據(jù)所述量 化閾值和所述最優(yōu)緩沖區(qū)對所述特征向量投影結(jié)果進行雙比特量化以得到哈希編碼;獲取 查詢實例的哈希編碼,并根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果的哈希編 碼從所述訓練數(shù)據(jù)集中提取近似的訓練數(shù)據(jù)以作為所述查詢實例的搜索結(jié)果。
[0010] 本發(fā)明的第二方面的實施例公開了一種數(shù)據(jù)搜索系統(tǒng),包括:特征向量提取模塊, 用于提取訓練數(shù)據(jù)集的特征向量;投影模塊,用于利用投影算法將所述特征向量由原始特 征空間投影到近似漢明空間的預設特征空間以得到特征向量投影結(jié)果;計算模塊,用于根 據(jù)所述投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩沖區(qū);編碼模塊,用 于根據(jù)所述量化閾值和所述最優(yōu)緩沖區(qū)對所述特征向量投影結(jié)果進行雙比特量化以得到 哈希編碼,并對查詢實例進行雙比特量化以得到所述查詢實例的哈希編碼;搜索模塊,用于 根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果的哈希編碼從所述訓練數(shù)據(jù)集中 提取近似的訓練數(shù)據(jù)以作為所述查詢實例的搜索結(jié)果。
[0011] 根據(jù)本發(fā)明的實施例,具有如下優(yōu)點:本發(fā)明從量化的角度對哈希算法進行優(yōu)化, 對投影過程并沒有特殊的要求,因此可以與已有的諸多哈希投影算法結(jié)合使用,在其基礎(chǔ) 上進行優(yōu)化和性能提升,從而獲得更高的檢索精度。本發(fā)明在基于閾值的單比特量化基礎(chǔ) 上提出了基于緩沖區(qū)的雙比特量化方式,能有效降低閾值劃分對鄰域結(jié)構(gòu)的破壞,使得數(shù) 據(jù)點在漢明空間的距離關(guān)系能更好地表征其在原始特征空間的距離關(guān)系,從而能獲得更高 的檢索精度。本發(fā)明給出了計算最優(yōu)緩沖區(qū)的目標函數(shù),并提出了兩種緩沖區(qū)效果度量指 標,分別是總體性能優(yōu)化程度和性能優(yōu)化范圍。通過綜合考慮多種效果度量指標,可以從多 個角度出發(fā)計算整體表現(xiàn)最優(yōu)的緩沖區(qū),從而提升算法的自適應性。本發(fā)明通過設計合適 的哈希碼距離度量方式,能充分利用硬件的高效比特位計算能力,在擴展?jié)h明距離范圍獲 得較大幅度性能提升的前提下,計算成本仍然與原始漢明距離度量方式相當,從而繼續(xù)保 持了哈希碼計算高效的優(yōu)點。
[0012] 本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0013] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變 得明顯和容易理解,其中 :
[0014] 圖1是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)搜索方法的流程圖;
[0015] 圖2是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)搜索方法的詳細流程圖;
[0016] 圖3是單比特量化與基于緩沖區(qū)的雙比特量化的比較結(jié)果示意圖;以及 [0017] 圖4是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)搜索系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0018] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0019] 在本發(fā)明的描述中,需要理解的是,術(shù)語"中心"、"縱向"、"橫向"、"上"、"下"、"前"、 "后"、"左"、"右"、"堅直"、"水平"、"頂"、"底"、"內(nèi)"、"外"等指示的方位或位置關(guān)系為基于 附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所 指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā) 明的限制。此外,術(shù)語"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對重要 性。
[0020] 在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語"安裝"、"相 連"、"連接"應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可 以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是 兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本 發(fā)明中的具體含義。
[0021] 參照下面的描述和附圖,將清楚本發(fā)明的實施例的這些和其他方面。在這些描述 和附圖中,具體公開了本發(fā)明的實施例中的一些特定實施方式,來表示實施本發(fā)明的實施 例的原理的一些方式,但是應當理解,本發(fā)明的實施例的范圍不受此限制。相反,本發(fā)明的 實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0022] 以下結(jié)合附圖描述根據(jù)本發(fā)明實施例的數(shù)據(jù)搜索方法及系統(tǒng)。
[0023] 本發(fā)明實施例的數(shù)據(jù)搜索方法的原理為:在傳統(tǒng)的閾值劃分基礎(chǔ)上引入緩沖區(qū), 以降低閾值劃分對數(shù)據(jù)點分布密集區(qū)域的鄰域特性的破壞,同時使用雙比特來編碼投影后 的每一維數(shù)據(jù),兩個二進制位分別被賦予不同的含義,結(jié)合本發(fā)明提出的漢明距離計算方 法,能在保證效率的前提下擴大距離度量空間,提升相似性衡量效果,獲得更優(yōu)的近鄰檢索 性能。因此,本發(fā)明所提出的方法,不僅能提高量化階段數(shù)據(jù)點之間相鄰關(guān)系的保持能力, 解決單比特量化對鄰域結(jié)構(gòu)的破壞問題,同時還能在充分保證執(zhí)行效率的前提下,改善近 鄰查詢精度。
[0024] 本發(fā)明所提出的方法,其完成量化工作的主要思想為:對投影結(jié)果的每一維實數(shù) 值進行基于閾值和緩沖區(qū)的雙比特量化操作。在這里,緩沖區(qū)的設置主要是為了對閾值劃 分可能造成的鄰域結(jié)構(gòu)破壞進行"緩沖",即雖然閾值劃分可能將兩個本來相鄰的數(shù)據(jù)點 (如圖3中的B、C)分在不同的區(qū)域內(nèi),但緩沖區(qū)的設置可保證這兩點在漢明空間的距離不 會大于被閾值分在同一區(qū)域但實際距離較遠的兩個點(如圖3中的A、B)。因此,緩沖區(qū)的 引入能盡可能地降低閾值劃分所造成的數(shù)據(jù)點之間相鄰關(guān)系的破壞。此外,通過本發(fā)明提 出的距離計算方法,雙比特量化也可使數(shù)據(jù)點在漢明空間的距離度量范圍更大(度量范圍 從傳統(tǒng)漢明距離的{〇,1,2}擴大到{0,1,2,3}),從而能更好地描述其在原始空間的距離關(guān) 系。
[0025] 具體而言,本發(fā)明的原理為首先需要提取訓練數(shù)據(jù)的特征表示,以特征向量的形 式表征訓練數(shù)據(jù)集;而后選定某一種投影算法,并據(jù)此獲取訓練數(shù)據(jù)的特征投影結(jié)果,完成 從原始特征空間向新的特征空間的轉(zhuǎn)化,以便更接近于漢明空間,方便量化;投影過程結(jié)束 后進入量化階段,對投影后數(shù)據(jù)的每一維,首先根據(jù)相應的投影算法選取量化閾值,而后根 據(jù)優(yōu)化性能、優(yōu)化范圍這兩個指標獲取兩個不同的緩沖區(qū),并據(jù)此計算綜合的最優(yōu)緩沖區(qū); 確定訓練數(shù)據(jù)投影后各個維度的閾值和緩沖區(qū)之后,即可對訓練數(shù)據(jù)投影結(jié)果的每一維進 行雙比特量化,得到最終的哈希編碼;完成哈希算法學習和訓練數(shù)據(jù)編碼后,即可開始測試 實例的查詢:首先提取輸入的查詢實例的特征向量,根據(jù)訓練數(shù)據(jù)上學習到的投影算法獲 得特征向量的投影結(jié)果,而后對投影結(jié)果的每一維根據(jù)對應的閾值和緩沖區(qū)大小進行雙比 特量化,獲得其哈希編碼,查詢實例編碼完成后,將其與訓練數(shù)據(jù)進行基于緩沖區(qū)的哈希碼 距離度量,排序后即可輸出最終得到的近鄰檢索結(jié)果。從實驗的結(jié)果來看,本發(fā)明所提出的 雙比特哈希量化與計算方法具有通用性強、檢索精度高、自適應性好、檢索高效等特點,具 有較強的實際應用前景。
[0026] 以下結(jié)合附圖1和2詳細描述根據(jù)本發(fā)明實施例的數(shù)據(jù)搜索方法。如圖1所示, 并結(jié)合圖2,根據(jù)本發(fā)明一個實施例的數(shù)據(jù)搜索方法,包括如下步驟:
[0027] 步驟S101 :提供訓練數(shù)據(jù)集,并提取訓練數(shù)據(jù)集的特征向量。
[0028] 具體地說,需要提取訓練數(shù)據(jù)(即訓練數(shù)據(jù)集)的特征表示(即特征向量),用相 同維度的特征向量表征各個訓練數(shù)據(jù)的內(nèi)容信息。例如,當訓練數(shù)據(jù)為圖像數(shù)據(jù)集時,可以 利用現(xiàn)有的一些開源項目對每一個圖像實例提取一種或若干種特征向量,如512維的GIST 特征等。
[0029] 步驟S102 :利用投影算法將特征向量由原始特征空間投影到近似漢明空間的預 設特征空間以得到特征向量投影結(jié)果。
[0030] 具體地說,首先需要確定投影算法,例如:假設某個訓練數(shù)據(jù)的原始特征向量為 X e Md,而哈希算法需要將其編碼為長度為c的二進制字符串{0,1) %實現(xiàn)由d維實數(shù)域到 c維二進制域的映射。由于映射前后的維度不一致,因此需要選擇一個特征投影算法,將原 始的特征向量投影到新的特征空間中。如PCA-Hash中的主成分分析線性投影方法等。由 于不同投影算法的性能、效率有所差異,因此可以根據(jù)實際需求選擇一種或多種方法共同 來完成訓練數(shù)據(jù)特征的投影工作。
[0031] 在確定投影算法之后,即根據(jù)確定的特征投影算法,將訓練數(shù)據(jù)的特征表示,通過 相應的投影過程,轉(zhuǎn)化成新的特征空間中的向量表示,以便更接近于漢明空間,方便量化。 設選定的投影函數(shù)為f(x),若新的特征空間為h維,則需h個投影函數(shù)。為了簡化標記,以 下內(nèi)容均以f(x)表示對某一維投影的泛指,它的輸出是一個實數(shù)值,亦即數(shù)據(jù)點X經(jīng)過投 影后在該維度上的取值,而不是整個投影后的實數(shù)向量。
[0032] 步驟S103 :根據(jù)投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩 沖區(qū)。
[0033] 其中,根據(jù)投影算法得到量化閾值:在已有的哈希算法中,數(shù)據(jù)經(jīng)過投影之后,在 各個維度上將會有相應的閾值Θ (通常為該維度投影值的均值或者中位數(shù))用于將相應維 度的投影結(jié)果劃分為碼字為〇和碼字為1的兩個分界區(qū)域,亦即,投影結(jié)果小于閾值的數(shù)據(jù) 點在該維度上的碼字為〇,其他數(shù)據(jù)點的相應碼字為1。而對于本發(fā)明所提出的方法,還需 要從訓練數(shù)據(jù)中學習出最優(yōu)的緩沖區(qū)半徑r,以便能最大程度上降低閾值劃分對鄰域結(jié)構(gòu) 的破壞,并支持雙比特量化。
[0034] 另外,根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩沖區(qū)進一步包括:根據(jù)優(yōu)化性能確定 與優(yōu)化性能對應的第一緩沖區(qū);根據(jù)優(yōu)化范圍確定與優(yōu)化范圍對應的第二緩沖區(qū);根據(jù)第 一緩沖區(qū)和第二緩沖區(qū)得到所述最優(yōu)緩沖區(qū)。其中,所述第一緩沖區(qū)由如下公式確定,所述 公式為:
[0035] δ = minB Σ x e BF (x, Sx, B),
[0036] 其中,δ是可能獲得的最大優(yōu)化性能,其對應的候選緩沖區(qū)則為所述第一緩沖區(qū)。
[0037] 所述第二緩沖區(qū)則是通過如下公式確定,所述公式為:
[0038] n = maxB | {x e B | F (x, Sx, B) < 0} | ,
[0039] 其中,n為可能獲得的滿足F(x,Sx,B) < 0的x的最大總數(shù),其對應的候選緩沖區(qū) 則為所述第二緩沖區(qū)。
[0040] 具體地說,根據(jù)優(yōu)化性能獲取緩沖區(qū)rl (即第一緩沖區(qū)),包括:學習最優(yōu)緩沖區(qū) 半徑的第一個指標是獲得最大的優(yōu)化性能,由此可以得到第一個緩沖區(qū)大小^。在考量緩 沖區(qū)的優(yōu)化性能方面,對于緩沖區(qū)中每一個數(shù)據(jù)點,以其到緩沖區(qū)以及處于同一分界區(qū)域 的其他點的平均距離和引入緩沖區(qū)之前其到處于同一分界區(qū)域的其他點的平均距離之差 作為優(yōu)化性能的量化指標,其中,當差值小于0時,表示所述候選緩沖區(qū)中的數(shù)據(jù)點X在引 入所述候選緩沖區(qū)B之后進行了優(yōu)化。具體如下面的公式所示:
[0041]
【權(quán)利要求】
1. 一種數(shù)據(jù)搜索方法,其特征在于,包括以下步驟: 提供訓練數(shù)據(jù)集,并提取所述訓練數(shù)據(jù)集的特征向量; 利用投影算法將所述特征向量由原始特征空間投影到近似漢明空間的預設特征空間 以得到特征向量投影結(jié)果; 根據(jù)所述投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最優(yōu)緩沖區(qū); 根據(jù)所述量化閾值和所述最優(yōu)緩沖區(qū)對所述特征向量投影結(jié)果進行雙比特量化以得 到哈希編碼; 獲取查詢實例的哈希編碼,并根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果 的哈希編碼從所述訓練數(shù)據(jù)集中提取近似的訓練數(shù)據(jù)以作為所述查詢實例的搜索結(jié)果。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)搜索方法,其特征在于,所述根據(jù)優(yōu)化性能和優(yōu)化范圍 確定最優(yōu)緩沖區(qū),進一步包括: 根據(jù)所述優(yōu)化性能確定與所述優(yōu)化性能對應的第一緩沖區(qū); 根據(jù)所述優(yōu)化范圍確定與所述優(yōu)化范圍對應的第二緩沖區(qū); 根據(jù)所述第一緩沖區(qū)和所述第二緩沖區(qū)得到所述最優(yōu)緩沖區(qū)。
3. 根據(jù)權(quán)利要求2所述的數(shù)據(jù)搜索方法,其特征在于,所述優(yōu)化性能定義了如下公式 作為量化指標,所述公式為:
其中,B為候選緩沖區(qū),X為候選緩沖區(qū)中的數(shù)據(jù)點,Sx為X所在分界區(qū)域的數(shù)據(jù)集合, d(x-v)表示X和v在原始特征空間的距離,則所述量化指標公式中的F描述的是所述緩沖 區(qū)中的所有數(shù)據(jù)點到緩沖區(qū)以及處于同一分界區(qū)域的其他數(shù)據(jù)點的平均距離和引入緩沖 區(qū)之前其到處于同一分界區(qū)域的其他數(shù)據(jù)點的平均距離之差,其中,當差值小于0時,表示 所述候選緩沖區(qū)中的數(shù)據(jù)點X在引入所述候選緩沖區(qū)B之后進行了優(yōu)化,而所述第一緩沖 區(qū)則是由如下公式確定,所述公式為:
其中,S是可能獲得的最大優(yōu)化性能,其對應的候選緩沖區(qū)則為所述第一緩沖區(qū), 所述第二緩沖區(qū)則是通過如下公式確定,所述公式為:
其中,η為可能獲得的滿足F(x,Sx,B) < 0的X的最大總數(shù),其對應的候選緩沖區(qū)則為 所述第二緩沖區(qū)。
4. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)搜索方法,其特征在于,所述根據(jù)所述查詢實例的哈希 編碼和所述特征向量投影結(jié)果的哈希編碼從所述訓練數(shù)據(jù)集中提取訓練數(shù)據(jù),進一步包 括: 根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果的哈希編碼之間的漢明距離 從所述訓練數(shù)據(jù)集中提取訓練數(shù)據(jù)。
5. 根據(jù)權(quán)利要求4所述的數(shù)據(jù)搜索方法,其特征在于,所述漢明距離通過如下公式得 至IJ,所述公式為:
其中,Χρ χ2為兩個數(shù)據(jù)點編碼后的二進制串,χη,χ21為編碼后的所有第一比特位,χ 12, χ22為編碼后的所有第二比特位,表示進行"異或"操作,表示對所有第一比特 位進行"異或"運算,χ12&22徹表示對所有第二比特位進行"與"運算。
6. -種數(shù)據(jù)搜索系統(tǒng),其特征在于,包括: 特征向量提取模塊,用于提取訓練數(shù)據(jù)集的特征向量; 投影模塊,用于利用投影算法將所述特征向量由原始特征空間投影到近似漢明空間的 預設特征空間以得到特征向量投影結(jié)果; 計算模塊,用于根據(jù)所述投影算法得到量化閾值,并根據(jù)優(yōu)化性能和優(yōu)化范圍確定最 優(yōu)緩沖區(qū); 編碼模塊,用于根據(jù)所述量化閾值和所述最優(yōu)緩沖區(qū)對所述特征向量投影結(jié)果進行 雙比特量化以得到哈希編碼,并對查詢實例進行雙比特量化以得到所述查詢實例的哈希編 碼; 搜索模塊,用于根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果的哈希編碼從 所述訓練數(shù)據(jù)集中提取近似的訓練數(shù)據(jù)以作為所述查詢實例的搜索結(jié)果。
7. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)搜索系統(tǒng),其特征在于,所述計算模塊用于: 根據(jù)所述優(yōu)化性能確定與所述優(yōu)化性能對應的第一緩沖區(qū); 根據(jù)所述優(yōu)化范圍確定與所述優(yōu)化范圍對應的第二緩沖區(qū); 根據(jù)所述第一緩沖區(qū)和所述第二緩沖區(qū)得到所述最優(yōu)緩沖區(qū)。
8. 根據(jù)權(quán)利要求7所述的數(shù)據(jù)搜索系統(tǒng),其特征在于,所述優(yōu)化性能定義了如下公式 作為量化指標,所述公式為:
其中,B為候選緩沖區(qū),X為候選緩沖區(qū)中的數(shù)據(jù)點,Sx為X所在分界區(qū)域的數(shù)據(jù)集合, d(x-v)表示X和v在原始特征空間的距離,則所述量化指標公式中的F描述的是所述緩沖 區(qū)中的所有數(shù)據(jù)點到緩沖區(qū)以及處于同一分界區(qū)域的其他數(shù)據(jù)點的平均距離和引入緩沖 區(qū)之前其到處于同一分界區(qū)域的其他數(shù)據(jù)點的平均距離之差,其中,當差值小于0時,表示 所述候選緩沖區(qū)中的數(shù)據(jù)點X在引入所述候選緩沖區(qū)B之后進行了優(yōu)化,而所述第一緩沖 區(qū)則是由如下公式確定,所述公式為:
其中,S是可能獲得的最大優(yōu)化性能,其對應的候選緩沖區(qū)則為所述第一緩沖區(qū), 所述第二緩沖區(qū)則是通過如下公式確定,所述公式為: n = maxB | {x e B | F (x, Sx, B) < 0} |, 其中,n為可能獲得的滿足F(x,Sx,B) < 0的x的最大總數(shù),其對應的候選緩沖區(qū)則為 所述第二緩沖區(qū)。
9. 根據(jù)權(quán)利要求6所述的數(shù)據(jù)搜索系統(tǒng),其特征在于,所述搜索模塊用于: 根據(jù)所述查詢實例的哈希編碼和所述特征向量投影結(jié)果的哈希編碼之間的漢明距離 從所述訓練數(shù)據(jù)集中提取訓練數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的數(shù)據(jù)搜索系統(tǒng),其特征在于,所述漢明距離通過如下公式得 至IJ,所述公式為:
其中,Χρ χ2為兩個數(shù)據(jù)點編碼后的二進制串,χη,χ21為編碼后的所有第一比特位,χ 12, χ22為編碼后的所有第二比特位,表示進行"異或"操作,表示對所有第一比特 位進行"異或"運算,x 12&x22表示對所有第二比特位進行"與"運算。
【文檔編號】G06F17/30GK104123375SQ201410364896
【公開日】2014年10月29日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】丁貴廣, 林梓佳, 陳文爍 申請人:清華大學