一種語音信息搜索方法、裝置及服務(wù)器的制造方法
【專利摘要】本申請?zhí)峁┮环N語音信息搜索方法、裝置及服務(wù)器。所述方法包括:提取語音信息庫中目標語音的語音特征,生成所述目標語音的特征描述符;獲取待識別語音的特征描述符,將查找到的與所述待識別語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音作為所述待識別語音對應(yīng)的目標候選集;根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜索結(jié)果。利用本申請中各個實施例,可以優(yōu)化查詢效率,提高語音搜索速度。
【專利說明】
一種語音信息搜索方法、裝置及服務(wù)器
技術(shù)領(lǐng)域
[0001] 本申請屬于電子信息信號處理技術(shù)領(lǐng)域,尤其涉及一種語音信息搜索方法、裝置 及服務(wù)器。
【背景技術(shù)】
[0002] 在未來,語音識別將逐步成為電子信息技術(shù)中人機交互的關(guān)鍵技術(shù)。目前在銀行 自助服務(wù)、公共自助服務(wù)、微信的終端應(yīng)用、即時語音通信等領(lǐng)域?qū)φZ音識別技術(shù)的需求越 來越強烈,尤其是在移動互聯(lián)網(wǎng)領(lǐng)時代基于安全考慮的語音內(nèi)容審核。
[0003] 例如在目前的眾多社交應(yīng)用App中,用戶可以發(fā)布包括各種內(nèi)容的語音信息,其 中有些可能涉及恐怖、色情、廣告推銷、詐騙等違法信息。目前,常用的方法是基于特定語種 和關(guān)鍵詞的語音識別技術(shù)進行語音信息內(nèi)容自動審核。在該技術(shù)中通常的做法可以包括獲 取審核語音的語音特征,通過訓練產(chǎn)生聲學模型,目的是為每個發(fā)音建立發(fā)音模板。在識別 時將待識別的語音特征與審核語音的聲學模型逐個進行匹配,選取與待識別語音最接近的 發(fā)音模板作為待識別語音的所表達的含義。
[0004] 在實際的語音識別過程中,通常將語音信息分成多個音頻特征,例如以20毫秒為 一個幀長,一段10秒是語音將產(chǎn)生500個音頻特征。而存儲的審核語音常常多達成千上 萬,同一個含義的審核語音又可以包括多個不同方言、不同語氣的表述方式,同時每個審核 語音的發(fā)音模塊中又存在大量音頻特征,在大規(guī)模數(shù)據(jù)集的情況下,現(xiàn)有的基于發(fā)音模塊 進行音頻識別的方法面臨著高維特征索引和查詢過程復(fù)雜,查詢時間長的問題,降低了查 詢效率。
【發(fā)明內(nèi)容】
[0005] 本申請目的在于提供一種語音信息搜索方法、裝置及服務(wù)器,可以提取與特定人 無關(guān)的語音底層特征,然后進行量化編碼,建立索引,通過K-d數(shù)搜索數(shù)據(jù)庫中已有的目標 語音,達到語音內(nèi)容快速搜索的目的,提高查詢效率。
[0006] 本申請?zhí)峁┑囊环N語音信息搜索方法、裝置及服務(wù)器是這樣實現(xiàn)的:
[0007] -種語音信息搜索方法,所述方法包括:
[0008] 提取語音信息庫中目標語音的語音特征,生成所述目標語音的特征描述符;
[0009] 對所述特征描述符進行量化編碼生成量化編碼后的特征描述符,并存儲所述特征 描述符;
[0010] 獲取待識別語音的特征描述符,在所述存儲的所述特征描述符中,查找與所述待 識別語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為所 述待識別語音對應(yīng)的目標候選集;
[0011] 根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜索結(jié)果。
[0012] -種語音信息搜索裝置,所述裝置包括:
[0013] 信息獲取模塊,用于獲取目標語音,并提取所述目標語音的語音特征;
[0014] 描述符模塊,用于基于所述目標語音的語音特征生成所述目標語音的特征描述 符;
[0015] 量化編碼模塊,用于對所述特征描述符進行量化編碼,生成量化編碼后的特征描 述符,并存儲所述特征描述符;
[0016] 識別信息模塊,用于獲取待識別語音的特征描述符;
[0017] 第一搜索模塊,用于在所述存儲的所述特征描述符中,查找與所述待識別語音的 特征描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為所述待識別語 音對應(yīng)的目標候選集;
[0018] 第二搜索模塊,用于根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜 索結(jié)果。
[0019] -種語音信息搜索服務(wù)器,所述服務(wù)器被設(shè)置成包括:
[0020] 第一處理單元,用于獲取目標語音,生成所述目標語音的特征描述符;還用于對所 述特征描述符進行量化編碼;
[0021] 存儲單元,用于分別存儲所述量化編碼后的特征描述符中路徑相同的特征描述 符;
[0022] 第二處理單元,用于獲取待識別語音的特征描述符;還用于在所述存儲的特征描 述符中查找與所述待識別語音相匹配的特征描述符的目標語音,獲取候選集;還用于根據(jù) 預(yù)定規(guī)則在所述候選集中選取所述待識別語音的搜索結(jié)果。
[0023] 本申請?zhí)峁┮环N語音信息搜索方法、裝置及服務(wù)器,可以將語音信息庫中存儲的 需要審核的目標關(guān)鍵詞或者短語的目標語音信息行音素級別的模型學習和表述,并生成特 征描述符,建立索引。本申請中可以對生成特征描述符進行量化編碼,降低特征描述符索引 維度和信息長度,可以提高信息索引時的處理速度。在查詢時,本申請利用K_d樹獲取搜索 范圍更小的待識別語音的目標候選集,然后進一步篩選出搜索結(jié)果。本申請?zhí)峁┑恼Z音信 息搜索方法,將傳統(tǒng)高煒度、復(fù)雜的發(fā)音模塊語音識別轉(zhuǎn)化成相似音頻特征的搜索,而且通 過特征描述符降低索引維度和K-d樹優(yōu)化查詢效率,可以大大提高語音信息搜索速度。
【附圖說明】
[0024] 為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提 下,還可以根據(jù)這些附圖獲得其他的附圖。
[0025] 圖1是本申請一種語音信息搜索方法一種實施例的流程示意圖;
[0026] 圖2是本申請一種對特征描述符進行量化編碼的示意圖;
[0027] 圖3是本申請建立特征描述符的索引不意圖;
[0028] 圖4是本申請一種語音信息搜索裝置的一種實施例的模塊結(jié)構(gòu)示意圖;
[0029] 圖5是本申請?zhí)峁┑囊环N量化編碼模塊的模塊結(jié)構(gòu)示意圖;
[0030] 圖6是本申請?zhí)峁┑囊环N第二搜索模塊的模塊結(jié)構(gòu)示意圖。
【具體實施方式】
[0031] 為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實 施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通 技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本申請保護 的范圍。
[0032] 本申請中提供的一種語音信息搜索方法,可以將需要審核的目標關(guān)鍵詞或者短語 對應(yīng)的不同語種的語音底層特征添加到數(shù)據(jù)庫,進行音素級別的模型學習和表述,并生成 特征描述符,建立索引。在查詢時,利用K_d樹獲取待識別語音的目標候選集,然后進一步 篩選出搜索結(jié)果。基于上述的檢索方案,可以通過特征描述符量化編碼降低索引維度和K-d 樹優(yōu)化查詢效率,可以大大提高語音信息搜索速度。
[0033] 圖1是本申請所述一種語音信息搜索方法的一個實施例的方法流程圖,如圖1所 述,所述方法可以包括:
[0034] S1 :提取語音信息庫中目標語音的語音特征,生成所述目標語音的特征描述符。
[0035] 所述的語音信息庫可以包括存儲的目標語音。所述目標語音可以預(yù)先采集或設(shè) 置。所述目標語音具體的在不同的應(yīng)用場景中可以包括不同的內(nèi)容。例如在基于安全考慮 的語音內(nèi)容審核中,所述語音信息庫中的目標語音可以為包括多個方言或多種語氣的涉及 恐怖、色情、廣告、詐騙等內(nèi)容的關(guān)鍵詞或者短語。在家庭音像或者汽車智能控制終端中,所 述語音信息庫中的目標語音可以包括對家庭智能設(shè)備如智能電視、音響等或者汽車駕駛控 制設(shè)備進行功能控制的語音關(guān)鍵詞或者短語。又或者收集存儲的在智能終端社交、購物、聊 天等應(yīng)用中常用的例如"天氣"、"蘋果""雙十一"等關(guān)鍵詞或者短語的目標語音信息。所 述的語音信息庫中存儲的目標語音可以根據(jù)不同的應(yīng)用場景進行設(shè)置,本申請中所述的語 音信息搜索方法可以適用但并不限于基于安全考慮的語音內(nèi)容審核的應(yīng)用場景。
[0036] 基于語音內(nèi)容自動審核的語音識別通常需要提取與特定人無關(guān)的語音底層特 征,這樣可以更加準確識別不同的人說的相同的話,或者相同的人因為自身狀態(tài)和場合不 同但說的內(nèi)容相同的話。本申請中提取跟特定人無關(guān)的語音底層特征的方法可以包括 MFCC(Mel_Frequency Cepstrum Coefficients,Mel 頻率倒譜系數(shù))和 PLP(Perceptual Linear Predictive,感覺加權(quán)線性預(yù)測)方法。其中MFCC是建立在傅立葉和倒譜分析基 礎(chǔ)上,對短時音頻幀中的采樣點進行傅立葉變換,得到這個短時音頻幀在每個頻率上的能 量大小,可以較好的反應(yīng)音頻信號的頻域特征。因此,在本實施例中可以采用MFCC的方法 獲取語音信息庫中的目標語音的語音特征。
[0037] 具體的,所述提取語音信息庫中目標語音的語音特征可以包括如下的處理步驟:
[0038] S101 :對所述目標語音進行預(yù)處理。
[0039] 所述的預(yù)處理可以包括對所述目標語音進行的語音格式轉(zhuǎn)換、預(yù)加重、分幀、加窗 處理等操作。在本實施例中,所述的對目標語音進行的預(yù)處理具體的實施過程可以包括:
[0040] S1011 :語音格式轉(zhuǎn)換。
[0041] 所述語音信息庫中存儲的目標語音可以包括采集獲取的多種格式的語音信息,如 amr格式、wav格式等。本實施例中可以不同的目標語音格式統(tǒng)一轉(zhuǎn)換為wav格式,方便后 續(xù)數(shù)據(jù)的統(tǒng)一、快速處理。
[0042] S1012 :預(yù)加重。
[0043] 所述的預(yù)加重通常是指將語音信號通過高通濾波器使信號的頻譜變的平坦,保證 從低頻到高頻的整個頻帶中能用相同或相近的信噪比求取頻譜。同時,預(yù)加重還可以消除 發(fā)聲過程中的聲帶和嘴唇效應(yīng),用來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分和突出 高頻的共振峰。濾波器公式如下:
[0044] H(z) = 1- u z 1
[0045] 上式中,y的值介于0.9-1. 0之間,本實施例中可以取值為0.97。
[0046] S1013 :分幀。
[0047] 所述分幀可以包括將目標語音的所有采集點每N個采樣點作為一個幀。本實施例 中為了避免相鄰兩幀的變化過大,可以使相鄰幀之間有一段重疊區(qū)域,所述重疊區(qū)域可以 包括M個采樣點。具體的,例如本實施例中的語音信號采樣頻率可以為8000Hz,每幀包括的 采樣點N為512,重疊區(qū)域M為256。
[0048] S1014 :加窗。
[0049] 通常為了高效處理語音信號,可以對語音信號進行加窗,也就一次僅處理窗中的 數(shù)據(jù)。因為實際的語音信號是很長的,在實際信號處理時通常可以不需要對非常長的數(shù)據(jù) 進行一次性處理??梢悦看稳∫欢螖?shù)據(jù),進行分析,然后再取下一段數(shù)據(jù),再進行分析。在 此過程中可以構(gòu)造一個函數(shù),這個函數(shù)在某一區(qū)間有非零值,而在其余區(qū)間皆為0。漢明窗 就是這樣的一種函數(shù),本實施例中可以將當前分幀的信號乘以漢明窗,在處理下一幀時通 ??梢悦看我苿哟翱诘娜种换蛘叨种?,以增加幀左端和右端的連續(xù)性。本實施例 中提供的加窗公式可以為:
[0050] S' (n) = S(n) Xff (n)
[0051] 上式中,
[0053] 上式中,N為幀的采樣點個數(shù),S(n)表示語音信號,S' (n)為加窗處理后的語音 信號,a可以取值為0.46。
[0054] 通過上述預(yù)處理后,可以得到取預(yù)處理后的目標語音的能量。
[0055] S102 :計算所述預(yù)處理后的目標語音的能量譜。
[0056] 本實施例中可以對預(yù)處理后的各幀語音信號進行快速傅里葉變換得到各幀的頻 譜,然后可以對語音信號的頻譜取模平方得到語音信號的功率譜。
[0057] S103 :對所述能量譜進行Mel濾波,計算所述Mel濾波后的能量譜的對數(shù)。
[0058] 可以將所述能量譜通過預(yù)先設(shè)置的一組Mel尺度的三角形濾波器,對頻譜進行平 滑化,消除諧波的作用,突顯原先語音的共振峰。然后可以采用下式計算每個濾波器輸出的 對數(shù):
[0060] 上式中,N為幀的采樣點個數(shù),M為濾波器個數(shù),Xa為經(jīng)過傅里葉變換后的頻譜,Hm 為第m個濾波器。
[0061] S104 :對所述能量譜的對數(shù)進行DCT變換得到MFCC系數(shù),獲取所述目標語音的語 首特征。
[0062] 本實施例中可以采用下式進行DCT (Discrete Cosine Transform,離散余弦變換) 變換得到MFCC系數(shù):
[0064] 上式中,N為幀的采樣點的個數(shù),M為濾波器個數(shù),L階指MFCC系數(shù)階數(shù),通常取 12-16〇
[0065] 可以將上式變換得到的MFCC系數(shù)作為目標語音的語音特征。
[0066] 另一種優(yōu)選的實施方式中,還可以在所述語音特征中添加動態(tài)參數(shù),提高語音識 別性。本實施例所述的方法中可以在所述語音特征中加入表征語音動態(tài)特性的差分參數(shù), 屏蔽可以區(qū)分不同的人說的同樣的話的特征,提高系統(tǒng)的語音識別性能。因此,本實施例中 所述語音信息搜索方法還可以包括:
[0067] S105 :計算所述MFCC系數(shù)的一階和二階差分系數(shù),將所述一階和二階差分系數(shù)添 加至所述語音特征中。即所述語音特征還可以包括所述MFCC系數(shù)的一階和二階差分系數(shù)。 所述MFCC系數(shù)的一階和二階差分系數(shù)具體的可以采用下述公式計算:
[0069] 上式中dt表示第t個一階差分,Ct表示第t個倒譜系數(shù),N表示一階導數(shù)的時間 差,可取1或2。將上式的結(jié)果再代入就可以得到二階差分的參數(shù)。
[0070] 提取所述語音信息庫中目標語音的語音特征后,可以生成所述目標語音的特 征描述符。本申請中所述的特征描述符可以包括語音特征的VLAD(vector of locally aggregated descriptors,VLAD,局部特征聚合描述符)特征描述符。下述是本實施例提供 的一種生成特征描述符的實施方法,可以將語音特征聚合到單獨特征向量中。具體的實施 過程可以包括:
[0071] S101' :對所述提取的語音特征通過k-means聚類方法獲取所述目標語音的碼本;
[0072] 生成所述VLAD描述符通常需要先訓練碼本,可以從所述提取的語音特征中隨機 選取N個語音特征,通過k-means聚類方法得到碼字數(shù)量為k的碼本{ y :,. . .,y J。所述 碼本中的每一項為碼字,可以表示為一個或者多個相同或者相近語音樣本的聚合,例如^ 可以表示為語音信息庫中多個不同語氣但表示相同含義的目標語音的聚合。這樣可以將所 述語音信息庫中的大量目標語音聚合形成碼字數(shù)量為k的碼本。所述k可以遠遠小于所述 語音信息庫中目標語音的數(shù)量。
[0073] S102' :獲取所述目標語音的語音特征集合,計算所述語音特征集合與所述碼本中 距離最近的碼字的所有殘差向量之和。
[0074] 所述語音信息庫中一個目標語音的一個或多個語音特征可以形成一個特征集合 {Xl,...,x p}。對于某個目標語音的語音特征形成的特征集合,依次查找所述特征集合中的 每個語音特征在所述碼本中距離最近的碼字,并計算所述特征集合中的語音特征與當前查 找到的距離最近的碼字的殘差向量,然后累加屬于同一個碼字的所有殘差向量。如下式所 示:
[0076] 上式中,所述特征集合{x p ? ? ?,xp}中的第t個特征,1彡t彡P(guān),y ;為所述 碼本{ y i,. . .,yk}中的第i個碼字,1彡i彡k。xt:NN(x t) = i表示映射為同一個碼子 的特征子集。
[0077] S103' :對所述碼字的殘差向量之和進行歸一化,生成所述目標語音的特征描述 符。
[0078] 對所述累加后的碼字的殘差向量進行歸一化。可以連接所述歸一化后的碼字殘差 向量之和組成目標語音的VLAD總特征描述符V。所述VLAD總特征描述符V可以表示為:
[0079] V = {vr i,... ,v' J
[0080] 其中 < 為所述歸一化處理后的特征描述符的向量數(shù)據(jù),所述的歸一化處理可以采 用下式進行處理:
[0082] 本實施例中可以提取語音信息庫中采集存儲的目標語音的語音特征,然后可以生 成所述目標語音的特征描述符。所述的總特征描述符V中的每一個VLAD特征描述符可以 為一個多維的特性向量,例如可以為一個128維的特征向量{11,12, 13,......,1128},其 中每一個特征向量的每個維度都是目標語音的聚類索引,可以根據(jù)所述多維的特征向量%f 定位找到相應(yīng)的目標語音。
[0083] S2 :對所述特征描述符進行量化編碼,生成量化編碼后的特征描述符,并存儲所述 特征描述符。
[0084] 實際的實施過程中,所述得到的一個VLAD特征描述符通常達到上千比特,為了加 快搜索速度,尤其是在大數(shù)據(jù)集的應(yīng)用場景下降低語音信息檢索的困難和復(fù)雜性,本申請 可以對所述獲取的VLAD特征描述符進量化編碼,降低所述特征描述符的維度和信息長度, 優(yōu)化搜索查詢效率。
[0085] 具體的所述對所述特征描述符進行量化編碼生成量化編碼后的土地證描述符可 以包括:
[0086] S201 :將每個所述特征描述符等分成L份子向量,對所述L個子向量分別進行聚 類,并設(shè)置所述子向量聚類后的索引編號,L多2 ;
[0087] S202 :將每個所述特征描述符的L個子向量分別用與所述子向量距離最近的所述 聚類的索引編號表示,生成量化編碼后的特征描述符。
[0088] 圖2是本實施例中所述一種對特征描述符進行量化編碼的示意圖。圖2中以VLAD 特征描述符為128維特征向量為例,可以將其分成8等份(yl~y8),每一等份中包括128 維特征向量的中的16維分量(16components)??梢苑謩e對所述每個分量進行單獨聚類并 映射到256個聚類中心上(256cent r〇idS)。聚類后的每個子向量可以用于索引編號表示, 例如圖2中的ql (yl)可以表示包括所述128維特征向量的前16維分量。分成的8等份 的子向量中每個子向量可以用8位二進制表示,這樣128維的特征向量就可以用于8位的 8bitx8 = 64bit的信息表示,降低了信息處理維度和信息數(shù)據(jù)長度,提高處理效率。
[0089] 通過上述方法可以將高維度的VLAD特征描述符表示為長度為L,分量為二級聚類 索引編號的低維特征向量,可以大大提高后續(xù)語音信息的搜索速度。
[0090] 對所述特征描述符進行量化編碼形成所述量化編碼后特征描述符后,可以存儲所 述量化編碼后的特征描述符。具體的存儲時可以包括以所述量化編碼后的特征描述符的索 引的方式實現(xiàn)。本實施例中優(yōu)選的可以采用建立K-d樹索引,具體的所述存儲所述特征描 述符實施方式可以包括:
[0091] S201' :建立高度為(L+1)的K-d樹;
[0092] S202':為所述K-d樹的非葉子節(jié)點劃分索引維度和與所述索引維度相對應(yīng)的劃分 值;并建立與所述劃分值進行比較的結(jié)果路徑指向;
[0093] S203' :從所述K-d樹的根節(jié)點開始,將與非葉子節(jié)點的索引維度相對應(yīng)的特征描 述符的值與所述非葉子節(jié)點的劃分值進行比較,并基于比較的結(jié)果與所述結(jié)果路徑指向?qū)?所述特征描述符存儲至所述K-d樹的葉子節(jié)點中。
[0094] 圖3是本申請所述建立特征描述符的索引示意圖。在圖3的示例中,可以建立一個 高度為(3+1)的K-d樹,所述K-d樹最后一層為葉子節(jié)點。需要進行存儲的特征描述符為 3維特征向量,可以預(yù)先劃分每個非葉子節(jié)點的索引維度和劃分值,并可以預(yù)先設(shè)置比較的 結(jié)果路徑指向,例如如果所述特征描述符在該非葉子節(jié)點上相應(yīng)索引維度的值小于該非葉 子節(jié)點的劃分值,則進入該非葉子節(jié)點的左子樹繼續(xù)進行比較,否則進行右子樹繼續(xù)進行 比較,直至進入葉子節(jié)點。需要說明的是,所述的索引維度可以表示為特征描述符中索引維 度的值所指示的那一個維度的值,如果某一非葉子節(jié)點的上層節(jié)點已經(jīng)比較過的維度則不 再進行比較。因此,在非葉子節(jié)點索引維度劃分的時候,從所述K-d樹根節(jié)點到當前非葉子 節(jié)點的路徑上已經(jīng)劃分過的索引維度值不再劃分給當前的非葉子節(jié)點。
[0095] 上述為非葉子節(jié)點劃分的劃分值,在具體的實施中可以取值上述量化編碼時設(shè)置 的所述聚類中心個數(shù)的一半,如上述量化編碼時設(shè)置的聚類中心個數(shù)為256,在設(shè)置所述劃 分值時可以取值為128。
[0096] 在上述例子中,可以分別將3維特征向量的特征描述符存儲到葉子節(jié)點中。如一 個特征描述符為(45, 210, 60)的3維特征向量,按照圖3建立的所述K-d樹可以先從根節(jié) 點開始,將特征描述符(45, 210, 60)與根節(jié)點中所示的索引維度為2、劃分值為128進行相 應(yīng)索引維度的值的比較。當前節(jié)點索引維度為2所對應(yīng)的所述特征描述符(45, 210, 60) 的值為210,大于當前節(jié)點劃分值128,則進入根節(jié)點的右子樹。然后所述特征描述符 (45, 210, 60)繼續(xù)與當前非葉子節(jié)點設(shè)置的索引維度為1、劃分值為128進行相應(yīng)索引維度 值的比較,所述特征描述符(45, 210, 60)索引維度為1所對應(yīng)的值為45,小于當前非葉子節(jié) 點的劃分值128,則進入當前非葉子節(jié)點的左子樹。同樣的方法,可以按照當前非葉子節(jié)點 設(shè)置索引維度為3、劃分值為128將所述特征描述符(45, 210, 60)的值60與128進行比較, 然后進入當前非葉子節(jié)點的左側(cè),到達所述K-d樹的葉子節(jié)點。此時,可以將所述特征描述 符(45, 210, 60)存入至該葉子節(jié)點中。對應(yīng)更高維的特征描述符,可以建立相應(yīng)的K-d樹, 仍然按照上述方法進行存儲到葉子節(jié)點中。
[0097] 上述K-d中的最后一層為葉子節(jié)點,每個葉子節(jié)點存儲的為所有經(jīng)過從根節(jié)點到 該葉子節(jié)點這條搜索路徑的特征描述符的特征向量。其中每一個特征向量的每個維度都是 目標語音的聚類索引。這樣,每個葉子節(jié)點存儲的是上述建立的K-d索引中相同路徑的特 征描述符的集合,在此可以將一個葉子節(jié)點存儲的特征描述符作為一個目標候選集。
[0098] 本申請所述方法優(yōu)選的實施例中,為保證每個所述葉子節(jié)點存儲的目標候選集容 量相當,均衡各個葉子節(jié)點存儲的特征描述符的數(shù)量,所述為非葉子節(jié)點劃分索引維度可 以包括:為非葉子節(jié)點劃分的索引維度值S為隨機生成的取值范圍為1 < S < L的整數(shù),并 且當前非葉子節(jié)點的索引維度值S為從所述K-d樹根節(jié)點到所述當前非葉子節(jié)點的路徑上 未劃分過的索引維度值。上述中的L為所述特征描述符的長度,即所述特征描述符中特征 向量的維數(shù)。這樣,非葉子節(jié)點所述索引維度的隨機劃分,提高K-d樹左右兩側(cè)節(jié)點的均勻 分布性,可以避免部分葉子節(jié)點存儲的目標候選集內(nèi)的特征描述符數(shù)量過多,可以提高后 續(xù)在目標候選集內(nèi)的搜索速度,均衡各個目標候選集的負載。
[0099] S3 :獲取待識別語音的特征描述符,在所述存儲的所述特征描述符中,查找與所述 待識別語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為 所述待識別語音對應(yīng)的目標候選集;
[0100] 對于給定的待識別語音,可以按照上述所述的方法提取待識別語音的語音特征, 并獲取所述待識別語音的量化編碼后的特征描述符??梢詫⑺龃R別語音的特征描述符 與所述目標語音的特征描述符匹配,查找到與所述待識別語音的特征描述符相匹配的特征 描述符對應(yīng)的目標語音,將查找到的目標語音作為所述待識別語音對應(yīng)的目標候選集。所 述與所述待識別語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音在本實施例中可 以包括在建立的K-d樹中與所述待識別語音的特征描述符路徑相同的葉子節(jié)點中存儲的 特征描述符所對應(yīng)的目標語音。
[0101] 例如通過類似上述圖3所示的實施方式,可以將待識別語音生成與葉子節(jié)點存 儲的特征描述符的維度相同的特征描述符,例如(90, 135, 78)。然后可以按照圖3所示的 K-d樹及設(shè)置的索引維度和分值進行特征描述符的查找,最終獲取到一個葉子節(jié)點的與待 識別語音的特征描述符相匹配的目標候選集。所述待識別語音的特征描述符在所述K-d樹 中的查找過程可以參照前述目標語音的特征描述符(45, 210, 60)的存儲過程,可以查找到 待識別語音的特征描述符(90, 135, 78)對應(yīng)的目標語音,確定目標候選集,如圖3所示的 (90, 135, 75)所在的葉子節(jié)點。這樣實現(xiàn)了將待識別語音定位到一個范圍較小的目標候選 集所對應(yīng)的目標語音集中。
[0102] S4:根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜索結(jié)果。
[0103] 獲取目標候選集后,已經(jīng)大大縮小了搜索范圍。然后可以根據(jù)預(yù)先設(shè)置的預(yù)定做 進一步精選,獲取所述待識別語音的搜索結(jié)果。本實施例中提供一種在所述目標候選集中 進一步精選搜索結(jié)果的方法,因此,本實施例中具體所述根據(jù)預(yù)定規(guī)則在所述目標候選集 中選取所述待識別語音的搜索結(jié)果可以包括:
[0104] 在所述目標候選集中選取與所述待識別語音的特征描述符歐氏距離最小的前R 個特征描述符作為搜索結(jié)果集,以所述搜索結(jié)果集所對應(yīng)的目標語音作為所述待識別語音 的搜索結(jié)果,R多1。
[0105] 本實施例中可以計算所述待識別語音的特征描述符與所述目標候選集中的特征 向量的歐式距離,可以將計算得出的歐式距離按照遞增的順序進行排序,選取所述歐式距 離最小的前R個特征描述作為搜索結(jié)果集。當然,所述搜索結(jié)果集內(nèi)的特征描述符所述對 應(yīng)的語音信息庫中的目標語音即為所述待識別語音的搜索結(jié)果。
[0106] 這里所述的選取的歐式距離最小的前R個結(jié)果中R的取值范圍可以根據(jù)需求進 行自行設(shè)置。例如所述R可以取值為1,可以表示為選取所述歐式距離最小的特征描述符, 如待識別語音的特征描述符為(90, 135, 78),在獲取的目標候選集中可以選出歐式距離最 小的特征描述符(90, 135, 75)作為所述搜索結(jié)果集。當然,在實際的應(yīng)用中,所述R也可 以取值大于1,小于所述目標候選集內(nèi)特征描述符的個數(shù),例如可以取值為3,這樣可以從 所述目標候選集中選出歐式距離最小的前3個特征描述符(90, 135, 78)、(87, 135, 80)、 (101,137, 81)作為搜索結(jié)果集,可以將歐式距離最小的特征描述符(90, 135, 78)所對應(yīng)的 目標語音作為待識別語音的優(yōu)選搜索結(jié)果,將其余兩個搜索結(jié)果選集的特征描述符所對應(yīng) 的目標語音作為參考或者備選搜索結(jié)果。
[0107] 本申請?zhí)峁┑囊环N語音信息搜索方法,可以提取目標語音的語音底層特征,生成 相應(yīng)的VLAD特征描述符,用于表示目標語音的特征集合,可以根據(jù)所述特征描述符定位到 相應(yīng)的目標語音。本申請引入VLAD特征描述符將語音特征集合轉(zhuǎn)換成長度固定的整體特 征,然后將信息長度較長、維度較高的VLAD特征描述符經(jīng)過量化編碼轉(zhuǎn)換為向量長度較 小、維度更低的特征向量,大大提高了信息讀取、解析、索引速度。最后通過K-d樹索引,建 立目標候選集,將待識別語音通過K-d樹索引進行搜索獲取搜索范圍更小的目標候選集, 在所述目標候選集中進一步精選得到搜索結(jié)果,進一步加快了搜索速度。
[0108] 基于本申請所述語音信息搜索方法,本申請還提供一種語音信息搜索裝置,該裝 置可以將語音信息庫中的目標語音按照規(guī)則分別存儲到相應(yīng)的候選集模塊中,并建立相應(yīng) 的索引機制,在獲取待識別語音后可以快速的通過索引獲取目標候選集,進一步的獲取搜 索結(jié)果,從而將傳統(tǒng)的發(fā)音模板的語音識別轉(zhuǎn)換成語音特征的搜索,并且通過量化編碼和 優(yōu)化索引,提高了搜索速度,優(yōu)化查詢效率。圖4是本申請所述一種語音信息搜索裝置的模 塊結(jié)構(gòu)示意圖,如圖4所示,所述裝置可以包括:
[0109] 信息獲取模塊101,可以用于獲取目標語音,并提取所述目標語音的語音特征;
[0110] 描述符模塊102,可以用于基于所述目標語音的語音特征生成所述目標語音的特 征描述符;
[0111] 量化編碼模塊103,可以用于對所述特征描述符進行量化編碼,生成量化編碼后的 特征描述符,并存儲所述特征描述符;
[0112] 識別信息模塊104,可以用于獲取待識別語音的特征描述符;
[0113] 第一搜索模塊105,可以用于在所述存儲的所述特征描述符中,查找與所述待識別 語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為所述待 識別語音對應(yīng)的目標候選集;
[0114] 第二搜索模塊106,可以用于根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別 語音的搜索結(jié)果。
[0115] 所在語音搜索裝置中,所述信息獲取模塊101提取目標語音的語音特征的方式可 以包括基于MFCC和PLP方法的提取方式。例如利用MFCC提取語音特征的過程可以包括:
[0116] 對所述目標語音進行預(yù)處理;
[0117] 計算所述預(yù)處理后的目標語音的能量譜;
[0118] 對所述能量譜進行Mel濾波,計算所述Mel濾波后的能量譜的對數(shù);
[0119] 對所述能量譜的對數(shù)進行DCT變換得到MFCC系數(shù),獲取所述目標語音的語音特 征。
[0120] 其中,所述對所述目標語音進行預(yù)處理具體的可以包括:對所述目標語音進行語 音格式轉(zhuǎn)換、預(yù)加重、分幀、加窗處理。
[0121] 當然,如上述,為進一步提高裝置語音識別率,所述利用MFCC提取語音特征的過 程還可以包括:
[0122] 計算所述MFCC系數(shù)的一階和二階差分系數(shù),將所述一階和二階差分系數(shù)添加至 所述語音特征中。
[0123] 本實施例具體的提取目標語音的語音特征的實施過程可以參照本申請其他實施 例中的敘述,在此不做贅述。
[0124] 另一種實施例中,所述量化編碼模塊103具體的可以包括:
[0125] 聚類模塊,可以用于將每個所述特征描述符等分成L分子向量,對所述L個子向量 分別進行聚類,并設(shè)置所述子向量聚類后的索引編號,L多2 ;
[0126] 映射模塊,可以用于將每個所述特征描述符的L個子向量分別用與所述子向量距 離最近的所述聚類的索引編號表示,形成量化編碼后的特征描述符。
[0127] 在對所述子向量進行聚類時,每個子向量可以用于8位二進制表示,這樣可以將 每個特征描述符轉(zhuǎn)換成長度為L、維度更低的特征向量。
[0128] 圖5是本申請?zhí)峁┑囊环N量化編碼模塊的模塊結(jié)構(gòu)示意圖,如圖5所示,在另一種 實施例中,所述量化編碼模塊103具體的可以包括:
[0129] 索引樹構(gòu)建模塊1031,可以用于建立高度為(L+1)的K-d樹;
[0130] 預(yù)置規(guī)則模塊1032,可以用于根據(jù)預(yù)先設(shè)置規(guī)則為所述K-d樹的非葉子節(jié)點劃分 索引維度和與所述索引維度相對應(yīng)的劃分值,并建立與所述劃分值進行比較的結(jié)果路徑指 向;
[0131] 存儲模塊1033,可以用于從所述K-d樹的根節(jié)點開始,將與非葉子節(jié)點的索引維 度相對應(yīng)的特征描述符的值與所述非葉子節(jié)點的劃分值進行比較,并基于比較的結(jié)果與所 述結(jié)果路徑指向?qū)⑺鎏卣髅枋龇鎯χ了鯧-d樹的葉子節(jié)點中。
[0132] 所述建立的結(jié)果路徑指向可以包括將特征描述符與當前非葉子節(jié)點劃分值進行 比較,如果前者大于后者,則進入當前非葉子節(jié)點的左子樹繼續(xù)進行比較,否則進入當前非 葉子節(jié)點的右子樹繼續(xù)比較。當然,也可以設(shè)置所述前者小于所述后者時進入當前非葉子 節(jié)點的左子樹進行比較,具體的可以根據(jù)需求自行設(shè)定。
[0133] 優(yōu)選的實施例中,所述預(yù)置規(guī)則模塊1032為非葉子節(jié)點劃分索引維度具體的可 以包括:
[0134] 為非葉子節(jié)點劃分的索引維度值S為隨機生成的取值范圍為1 < S < L的整數(shù), 并且當前非葉子節(jié)點的索引維度值S為從所述K-d樹根節(jié)點到所述當前非葉子節(jié)點的路徑 上未劃分過的索引維度值。
[0135] 圖6是本申請?zhí)峁┑囊环N第二搜索模塊的模塊結(jié)構(gòu)示意圖,如圖6所示,上述所述 語音搜索裝置的第二搜索模塊106,具體的可以包括:
[0136] 距離計算模塊1061,可以用于計算所述目標候選集中的特征描述符與所述待識別 語音的特征描述符的歐氏距離;
[0137] 篩選模塊1062,可以用于在所述目標候選集中選取與所述待識別語音的特征描述 符歐氏距離最小的前R個特征描述符作為搜索結(jié)果集,R多1 ;
[0138] 目標語音模塊1063,可以用于獲取與搜索結(jié)果集中的特征描述符相對應(yīng)的目標語 音。
[0139] 另一種實施方式中,所述描述符模塊102具體的可以包括:
[0140] 碼本訓練模塊,可以用于對所述提取的語音特征通過k-means聚類方法獲取所述 目標語音的碼本;
[0141] 語音特征集合模塊,可以用于獲取語音特征集合,并計算所述語音特征集合與所 述碼本中距離最近的碼字所有殘差向量之和;所述語音特征集合可以例如{ Xl,...,xp},其 中每個x可以表示對應(yīng)一個目標語音的語音特征。
[0142] 歸一化處理模塊,可以用于對所述碼字的殘差向量之和進行歸一化,生成所述目 標語音的特征描述符。
[0143] 本申請所述的一種語音信息搜索裝置可以應(yīng)用于多種設(shè)備終端或者服務(wù)器中。例 如日常生活中常用的智能移動終端可以獲取待識別語音信息,所述智能移動終端可以將所 述待識別語音信息發(fā)送至服務(wù)器,服務(wù)器可以利用本申請所述的語音信息搜索方法和裝置 中的實施例進行語音搜索,獲取相應(yīng)的語音搜索結(jié)果,然后可以再根據(jù)搜索得到的結(jié)果做 進一步處理。因此,本申請還提供一種語音信息搜索服務(wù)器,所述服務(wù)器被設(shè)置成可以包 括:
[0144] 第一處理單元,用于獲取目標語音,生成所述目標語音的特征描述符;還用于對所 述特征描述符進行量化編碼;
[0145] 存儲單元,用于分別存儲所述量化編碼后的特征描述符中路徑相同的特征描述 符;
[0146] 第二處理單元,用于獲取待識別語音的特征描述符;還用于在所述存儲的特征描 述符中查找與所述待識別語音相匹配的特征描述符的目標語音,獲取候選集;還用于根據(jù) 預(yù)定規(guī)則在所述候選集中選取所述待識別語音的搜索結(jié)果。
[0147] 當然,進一步的所述服務(wù)器可以將獲取的待識別語音的搜索結(jié)果返回至發(fā)送待識 別語音的客戶端,或者結(jié)合所述服務(wù)器的或者其他服務(wù)器的功能模塊進行其他處理。本實 施例提供的語音搜索服務(wù)器,結(jié)合特征描述符和索引樹,優(yōu)化語音索引方法,提高了服務(wù)器 語音搜索速度。
[0148] 本申請?zhí)峁┑囊环N語音信息搜索方法、裝置及服務(wù)器,可以將目標語音按照規(guī)則 分別存儲到相應(yīng)的候選集中,并建立相應(yīng)的索引機制,在獲取待識別語音后可以快速的通 過索引獲取目標候選集,進一步的獲取搜索結(jié)果,從而將傳統(tǒng)的發(fā)音模板的語音識別轉(zhuǎn)換 成語音特征的搜索,并且通過量化編碼和K-d樹優(yōu)化索引,提高了搜索速度,優(yōu)化查詢效 率。
[0149] 盡管本申請內(nèi)容中提到包括信息傳輸、數(shù)據(jù)變換和數(shù)據(jù)樹形結(jié)構(gòu)等之類的描述, 但是,本申請并不局限于必須是完全符合標準通信協(xié)議或數(shù)據(jù)處理標準的情況。某些協(xié)議 或者標準的基礎(chǔ)上略加修改后的傳輸機制或者數(shù)據(jù)處理標準也可以實行上述本申請各實 施例的方案。當然,即使不采用上述通用的協(xié)議或數(shù)據(jù)處理標準,而是采用私有協(xié)議或數(shù)據(jù) 處理標準,只要符合本申請上述各實施例的信息交互和信息判斷反饋方式,仍然可以實現(xiàn) 相同的申請,在此不再贅述。
[0150] 上述實施例闡明的單元、裝置或模塊,具體可以由計算機芯片或?qū)嶓w實現(xiàn),或者由 具有某種功能的產(chǎn)品來實現(xiàn)。為了描述的方便,描述以上裝置時以功能分為各種模塊分別 描述。當然,在實施本申請時可以把各模塊的功能在同一個或多個軟件和/或硬件中實現(xiàn), 也可以將實現(xiàn)同一功能的模塊由多個子模塊或子單元的組合實現(xiàn)。
[0151] 本領(lǐng)域技術(shù)人員也知道,除了以純計算機可讀程序代碼方式實現(xiàn)控制器以外,完 全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯門、開關(guān)、專用集成電路、可編程 邏輯控制器和嵌入微控制器等的形式來實現(xiàn)相同功能。因此這種控制器可以被認為是一種 硬件部件,而對其內(nèi)部包括的用于實現(xiàn)各種功能的裝置也可以視為硬件部件內(nèi)的結(jié)構(gòu)。或 者甚至,可以將用于實現(xiàn)各種功能的裝置視為既可以是實現(xiàn)方法的軟件模塊又可以是硬件 部件內(nèi)的結(jié)構(gòu)。
[0152] 本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序 模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組 件、數(shù)據(jù)結(jié)構(gòu)、類等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中, 由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可 以位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。
[0153] 通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì) 上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品 可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備 (可以是個人計算機,移動終端,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實 施例的某些部分所述的方法。
[0154] 本說明書中的各個實施例采用遞進的方式描述,各個實施例之間相同或相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。本申請可用于眾 多通用或?qū)S玫挠嬎銠C系統(tǒng)環(huán)境或配置中。例如:個人計算機、服務(wù)器計算機、手持設(shè)備 或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的電子設(shè) 備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
[0155] 雖然通過實施例描繪了本申請,本領(lǐng)域普通技術(shù)人員知道,本申請有許多變形和 變化而不脫離本申請的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本申請的 精神。
【主權(quán)項】
1. 一種語音信息搜索方法,其特征在于,所述方法包括: 提取語音信息庫中目標語音的語音特征,生成所述目標語音的特征描述符; 對所述特征描述符進行量化編碼生成量化編碼后的特征描述符,并存儲所述特征描述 符; 獲取待識別語音的特征描述符,在所述存儲的所述特征描述符中,查找與所述待識別 語音的特征描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為所述待 識別語音對應(yīng)的目標候選集; 根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜索結(jié)果。2. 如權(quán)利要求1所述的一種語音信息搜索方法,其特征在于,所述對所述特征描述符 進行量化編碼生成量化編碼后的特征描述符包括: 將每個所述特征描述符等分成L份子向量,對所述L個子向量分別進行聚類,并設(shè)置所 述子向量聚類后的索引編號,L多2 ; 將每個所述特征描述符的L個子向量分別用與所述子向量距離最近的所述聚類的索 引編號表示,生成量化編碼后的特征描述符。3. 如權(quán)利要求2所述的一種語音信息搜索方法,其特征在于,所述存儲所述特征描述 符包括: 建立高度為(L+1)的K-d樹; 為所述K-d樹的非葉子節(jié)點劃分索引維度和與所述索引維度相對應(yīng)的劃分值;建立與 所述劃分值進行比較的結(jié)果路徑指向; 從所述K-d樹的根節(jié)點開始,將與非葉子節(jié)點的索引維度相對應(yīng)的特征描述符的值與 所述非葉子節(jié)點的劃分值進行比較,并基于比較的結(jié)果與所述結(jié)果路徑指向?qū)⑺鎏卣髅?述符存儲至所述K-d樹的葉子節(jié)點中。4. 如權(quán)利要求3所述的一種語音信息搜索方法,其特征在于,所述為非葉子節(jié)點劃分 索引維度包括: 為非葉子節(jié)點劃分的索引維度值S為隨機生成的取值范圍為I< S < L的整數(shù),并且 當前非葉子節(jié)點的索引維度值S為從所述K-d樹根節(jié)點到所述當前非葉子節(jié)點的路徑上未 劃分過的索引維度值。5. 如權(quán)利要求1所述的一種語音信息搜索方法,其特征在于,所述根據(jù)預(yù)定規(guī)則在所 述目標候選集中選取所述待識別語音的搜索結(jié)果包括: 在所述目標候選集中選取與所述待識別語音的特征描述符歐氏距離最小的前R個特 征描述符作為搜索結(jié)果集,以所述搜索結(jié)果集所對應(yīng)的目標語音作為所述待識別語音的搜 索結(jié)果,R彡1。6. 如權(quán)利要求1所述的一種語音信息搜索方法,其特征在于,所述生成所述目標語音 的特征描述符包括: 對所述提取的語音特征通過k-means聚類方法獲取所述目標語音的碼本; 獲取所述目標語音的語音特征集合,計算所述語音特征集合與所述碼本中距離最近的 碼字所有殘差向量之和; 對所述碼字的殘差向量之和進行歸一化,生成所述目標語音的特征描述符。7. 如權(quán)利要求1所述的一種語音信息搜索方法,其特征在于,所述提取語音信息庫中 目標語音的語音特征包括: 對所述目標語音進行預(yù)處理; 計算所述預(yù)處理后的目標語音的能量譜; 對所述能量譜進行Mel濾波,計算所述Mel濾波后的能量譜的對數(shù); 對所述能量譜的對數(shù)進行DCT變換得到MFCC系數(shù),獲取所述目標語音的語音特征。8. 如權(quán)利要求7所述的一種語音信息搜索方法,其特征在于,所述對所述目標語音進 行預(yù)處理包括:對所述目標語音進行語音格式轉(zhuǎn)換、預(yù)加重、分幀、加窗處理。9. 如權(quán)利要求8所述的一種語音信息搜索方法,其特征在于,所述方法還包括: 計算所述MFCC系數(shù)的一階和二階差分系數(shù),將所述一階和二階差分系數(shù)添加至所述 語音特征中。10. -種語音信息搜索裝置,其特征在于,所述裝置包括: 信息獲取模塊,用于獲取目標語音,并提取所述目標語音的語音特征; 描述符模塊,用于基于所述目標語音的語音特征生成所述目標語音的特征描述符; 量化編碼模塊,用于對所述特征描述符進行量化編碼,生成量化編碼后的特征描述符, 并存儲所述特征描述符; 識別信息模塊,用于獲取待識別語音的特征描述符; 第一搜索模塊,用于在所述存儲的所述特征描述符中,查找與所述待識別語音的特征 描述符相匹配的特征描述符對應(yīng)的目標語音,將查找到的目標語音作為所述待識別語音對 應(yīng)的目標候選集; 第二搜索模塊,用于根據(jù)預(yù)定規(guī)則在所述目標候選集中選取所述待識別語音的搜索結(jié) 果。11. 如權(quán)利要求10所述的一種語音信息搜索裝置,其特征在于,所述量化編碼模塊包 括: 聚類模塊,用于將每個所述特征描述符等分成L分子向量,對所述L個子向量分別進行 聚類,并設(shè)置所述子向量聚類后的索引編號,L多2 ; 映射模塊,用于將每個所述特征描述符的L個子向量分別用與所述子向量距離最近的 所述聚類的索引編號表示,形成量化編碼后的特征描述符。12. 如權(quán)利要求10所述的一種語音信息搜索裝置,其特征在于,所述量化編碼模塊包 括: 索引樹構(gòu)建模塊,用于建立高度為(L+1)的K-d樹; 預(yù)置規(guī)則模塊,用于根據(jù)預(yù)先設(shè)置規(guī)則為所述K-d樹的非葉子節(jié)點劃分索引維度和與 所述索引維度相對應(yīng)的劃分值,并建立與所述劃分值進行比較的結(jié)果路徑指向; 存儲模塊,用于從所述K-d樹的根節(jié)點開始,將與非葉子節(jié)點的索引維度相對應(yīng)的特 征描述符的值與所述非葉子節(jié)點的劃分值進行比較,并基于比較的結(jié)果與所述結(jié)果路徑指 向?qū)⑺鎏卣髅枋龇鎯χ了鯧-d樹的葉子節(jié)點中。13. 如權(quán)利要求12所述的一種語音信息搜索裝置,其特征在于,所述預(yù)置規(guī)則模塊為 非葉子節(jié)點劃分索引維度包括: 為非葉子節(jié)點劃分的索引維度值S為隨機生成的取值范圍為I< S < L的整數(shù),并且 當前非葉子節(jié)點的索引維度值S為從所述K-d樹根節(jié)點到所述當前非葉子節(jié)點的路徑上未 劃分過的索引維度值。14. 如權(quán)利要求10所述的一種語音信息搜索裝置,其特征在于,所述第二搜索模塊包 括: 距離計算模塊,用于計算所述目標候選集中的特征描述符與所述待識別語音的特征描 述符的歐氏距離; 篩選模塊,用于在所述目標候選集中選取與所述待識別語音的特征描述符歐氏距離最 小的前R個特征描述符作為搜索結(jié)果集,R多1 ; 目標語音模塊,用于獲取與搜索結(jié)果集中的特征描述符相對應(yīng)的目標語音。15. 如權(quán)利要求10所述的一種語音信息搜索裝置,其特征在于,所述描述符模塊包括: 碼本訓練模塊,用于對所述提取的語音特征通過k-means聚類方法獲取所述目標語音 的碼本; 語音特征集合模塊,獲取語音特征集合,并計算所述語音特征集合與所述碼本中距離 最近的碼字所有殘差向量之和; 歸一化處理模塊,用于對所述碼字的殘差向量之和進行歸一化,生成所述目標語音的 特征描述符。16. -種語音信息搜索服務(wù)器,其特征在于,所述服務(wù)器被設(shè)置成,包括: 第一處理單元,用于獲取目標語音,生成所述目標語音的特征描述符;還用于對所述特 征描述符進行量化編碼; 存儲單元,用于分別存儲所述量化編碼后的特征描述符中路徑相同的特征描述符; 第二處理單元,用于獲取待識別語音的特征描述符;還用于在所述存儲的特征描述符 中查找與所述待識別語音相匹配的特征描述符的目標語音,獲取候選集;還用于根據(jù)預(yù)定 規(guī)則在所述候選集中選取所述待識別語音的搜索結(jié)果。
【文檔編號】G06F17/30GK105893389SQ201510037176
【公開日】2016年8月24日
【申請日】2015年1月26日
【發(fā)明人】聞乃松
【申請人】阿里巴巴集團控股有限公司