基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置的制造方法
【專(zhuān)利摘要】本發(fā)明提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置,該基于深度學(xué)習(xí)的聲紋認(rèn)證方法包括:接收說(shuō)話(huà)人的語(yǔ)音;提取所述語(yǔ)音的d?vector特征;獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d?vector特征;計(jì)算上述兩個(gè)d?vector特征之間的匹配值;如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。該方法能夠提高聲紋認(rèn)證的效果。
【專(zhuān)利說(shuō)明】
基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置。
【背景技術(shù)】
[0002]深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。聲紋認(rèn)證是指根據(jù)說(shuō)話(huà)人發(fā)出的語(yǔ)音中的聲紋特征,對(duì)說(shuō)話(huà)人進(jìn)行身份認(rèn)證。
[0003]相關(guān)技術(shù)中,通?;诿窢栴l率倒譜系數(shù)(Mel Frequency CepstrumCoeff icient,MFCC)或感知加權(quán)線(xiàn)性預(yù)測(cè)(Perceptual Linear Predictive,PLP)特征,以及高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行聲紋認(rèn)證。相關(guān)技術(shù)中的聲紋認(rèn)證效果有待提尚。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0005]為此,本發(fā)明的一個(gè)目的在于提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法,該方法可以提高聲紋認(rèn)證的效果。
[0006]本發(fā)明的另一個(gè)目的在于提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證裝置。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法,包括:接收說(shuō)話(huà)人的語(yǔ)音;提取所述語(yǔ)音的d-vector特征;獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征;計(jì)算上述兩個(gè)d-vector特征之間的匹配值;如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。
[0008]本發(fā)明第一方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法,基于d-vector特征進(jìn)行聲紋認(rèn)證,由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的,相對(duì)于GMM模型可以得到更有效的聲紋特征,因此,可以提高聲紋認(rèn)證的效果。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置,包括:接收模塊,用于接收說(shuō)話(huà)人的語(yǔ)音;第一提取模塊,用于提取所述語(yǔ)音的d-vector特征;第一獲取模塊,用于獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征;第一計(jì)算模塊,用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值;認(rèn)證模塊,用于如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。
[0010]本發(fā)明第二方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置,基于d-vector特征進(jìn)行聲紋認(rèn)證,由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的,相對(duì)于GMM模型可以得到更有效的聲紋特征,因此,可以提高聲紋認(rèn)證的效果。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法的流程示意圖;
[0014]圖2是本發(fā)明實(shí)施例中采用的DNN的示意圖;
[0015]圖3是本發(fā)明實(shí)施例中注冊(cè)階段的流程示意圖;
[0016]圖4是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖;
[0017]圖5是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的模塊或具有相同或類(lèi)似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0019]圖1是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法的流程示意圖。
[0020]參見(jiàn)圖1,本實(shí)施例的方法包括:
[0021]Sll:接收說(shuō)話(huà)人的語(yǔ)音。
[0022]其中,認(rèn)證可以分為文本有關(guān)或文本無(wú)關(guān),文本有關(guān)時(shí),說(shuō)話(huà)人可以根據(jù)提示或固定內(nèi)容發(fā)出相應(yīng)的語(yǔ)音,文本無(wú)關(guān)時(shí)可以不限制的發(fā)出語(yǔ)音。
[0023]S12:提取所述語(yǔ)音的d-vector特征。
[0024]其中,d-vector特征是通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提取的一種特征,具體是DNN中最后一層隱層的輸出。
[0025]DNN的示意圖可以參見(jiàn)圖2。如圖2所示,DNN可以分為輸入層21、隱層22和輸出層23ο
[0026]其中,輸入層用于接收從語(yǔ)音中提取的輸入特征,如大小為41*40的FBANK特征,輸出層的節(jié)點(diǎn)個(gè)數(shù)與說(shuō)話(huà)人個(gè)數(shù)相同,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)說(shuō)話(huà)人。隱層的層數(shù)可以設(shè)置。DNN可以具體采用全連接方式。
[°027 ] 其中,F(xiàn)BANK特征是對(duì)數(shù)域的Me I濾波器的輸出為聲學(xué)特征,即Fi I ter_bank特征。
[0028]如圖2所示,在需要提取語(yǔ)音的d-vector特征時(shí),可以先提取該語(yǔ)音的FBANK特征,再將FBANK特征輸入到DNN輸入層,經(jīng)過(guò)參數(shù)已確定(通過(guò)模型訓(xùn)練確定)的DNN,可以得到最后一個(gè)隱層的輸出24,將該輸出確定為d-vector特征。從該流程可以看出,在確定語(yǔ)音的d_ve c tor特征時(shí),不需要使用DNN的輸出層。而在訓(xùn)練模型時(shí)會(huì)用到輸出層,當(dāng)然還會(huì)用到輸入層和隱層等。
[0029]S13:獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征。
[0030]其中,在認(rèn)證階段,還可以獲取說(shuō)話(huà)人的身份標(biāo)識(shí),而在注冊(cè)階段,可以對(duì)應(yīng)保存身份標(biāo)識(shí)和d-vector特征,從而可以根據(jù)身份標(biāo)識(shí)獲取到注冊(cè)階段確定的d-vector特征。[0031 ]其中,在認(rèn)證階段之前可以先進(jìn)行注冊(cè)。
[0032]參見(jiàn)圖3,說(shuō)話(huà)人的注冊(cè)流程可以包括:
[0033]S31:獲取所述說(shuō)話(huà)人在注冊(cè)階段發(fā)出的多條語(yǔ)音。
[0034]例如,在注冊(cè)階段,每個(gè)說(shuō)話(huà)人可以發(fā)出多條語(yǔ)音,客戶(hù)端接收到語(yǔ)音后可以發(fā)送給服務(wù)端進(jìn)行處理。
[0035]S32:對(duì)應(yīng)每條語(yǔ)音提取d-vector特征,得到多個(gè)d-vector特征。
[0036]其中,服務(wù)端在接收到每條語(yǔ)音后,可以提取該語(yǔ)音的d-vector特征,從而當(dāng)語(yǔ)音為多條時(shí),d-vector特征也為多個(gè)。
[0037]服務(wù)端在提取語(yǔ)音的d-vector特征時(shí),可以采用圖2所示的DNN(具體不使用最后的輸出層)進(jìn)行提取,具體內(nèi)容可以參見(jiàn)上述相關(guān)描述,在此不再詳細(xì)說(shuō)明。
[0038]S33:將多個(gè)d-vector特征求平均,確定為所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征。
[0039]進(jìn)一步的,注冊(cè)流程還可以包括:
[0040]S34:獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí)。
[0041]例如,說(shuō)話(huà)人在注冊(cè)時(shí)可以輸入賬號(hào)等身份標(biāo)識(shí)。
[0042]S35:存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征,并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。
[0043 ] 例如,說(shuō)話(huà)人的身份標(biāo)識(shí)是IDI,經(jīng)過(guò)上述計(jì)算得到的d - V e c t ο r的均值是d -vector-avg,貝Ij可以存儲(chǔ)IDl和d-vector-avg,且建立IDl與d-vector-avg的對(duì)應(yīng)關(guān)系。
[0044]S14:計(jì)算上述兩個(gè)d-vector特征之間的匹配值。
[0045]例如,在認(rèn)證階段提取出的d-vector特征用d-vector I表示,注冊(cè)階段確定的d-vector特征,如上述的均值用d_vector2表示,貝Ij可以計(jì)算(1_¥6(:1:01'1與(1-¥6(31:(^2之間的匹配值。
[0046]由于d-vectorI和d_vector2都是向量,因此可以采用向量間匹配度的計(jì)算方式,例如,采用余弦距離、線(xiàn)性鑒別分析(Linear Discriminant Analysis,LDA)等。
[0047]S15:如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。
[0048]另一方面,如果所述匹配值小于閾值,則確定所述說(shuō)話(huà)人未通過(guò)認(rèn)證。
[0049]本實(shí)施例中,基于d-vector特征進(jìn)行聲紋認(rèn)證,由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的,相對(duì)于GMM模型可以得到更有效的聲紋特征,因此,可以提高聲紋認(rèn)證的效果。
[0050]圖4是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
[0051 ]參見(jiàn)圖4,本實(shí)施例的裝置40包括:接收模塊401、第一提取模塊402、第一獲取模塊403、第一計(jì)算模塊404和認(rèn)證模塊405。
[0052]接收模塊401,用于接收說(shuō)話(huà)人的語(yǔ)音;
[0053]第一提取模塊402,用于提取所述語(yǔ)音的d-vector特征;
[0054]第一獲取模塊403,用于獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征;
[0055]第一計(jì)算模塊404,用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值;
[0056]認(rèn)證模塊405,用于如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。
[0057]一些實(shí)施例中,參見(jiàn)圖5,該裝置40還包括:
[0058]第二獲取模塊406,用于獲取所述說(shuō)話(huà)人在注冊(cè)階段發(fā)出的多條語(yǔ)音;
[0059]第二提取模塊407,用于對(duì)應(yīng)每條語(yǔ)音提取d-vector特征,得到多個(gè)d-vector特征;
[0060]第二計(jì)算模塊408,用于將多個(gè)d-vector特征求平均,確定為所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征。
[0061 ] 一些實(shí)施例中,參見(jiàn)圖5,該裝置40還包括:
[0062]第三獲取模塊409,用于在注冊(cè)階段,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí);
[0063]存儲(chǔ)模塊410,用于存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征,并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。
[0064]一些實(shí)施例中,所述第一獲取模塊403具體用于:
[0065]接收說(shuō)話(huà)人的語(yǔ)音后,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí);
[0066]根據(jù)所述對(duì)應(yīng)關(guān)系,獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。
[0067]一些實(shí)施例中,所述第一提取模塊402具體用于:
[0068]提取語(yǔ)音的輸入特征;
[0069]采用預(yù)先確定的DNN和所述輸入特征,得到DNN的最后一層隱層的輸出,將所述輸出確定為所述d-vector特征。
[0070]一些實(shí)施例中,所述輸入特征包括:
[0071]FBANK 特征。
[0072]可以理解的是,本實(shí)施例的裝置與上述方法實(shí)施例對(duì)應(yīng),具體內(nèi)容可以參見(jiàn)相關(guān)描述,在此不再詳細(xì)說(shuō)明。
[0073]本實(shí)施例中,基于d-vector特征進(jìn)行聲紋認(rèn)證,由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的,相對(duì)于GMM模型可以得到更有效的聲紋特征,因此,可以提高聲紋認(rèn)證的效果。
[0074]需要說(shuō)明的是,在本發(fā)明的描述中,術(shù)語(yǔ)“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。此外,在本發(fā)明的描述中,除非另有說(shuō)明,“多個(gè)”的含義是指至少兩個(gè)。
[0075]流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0076]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路,具有合適的組合邏輯門(mén)電路的專(zhuān)用集成電路,可編程門(mén)陣列(PGA),現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等。
[0077]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
[0078]此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0079]上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。
[0080]在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0081]盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項(xiàng)】
1.一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法,其特征在于,包括: 接收說(shuō)話(huà)人的語(yǔ)音; 提取所述語(yǔ)音的d-vector特征; 獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征; 計(jì)算上述兩個(gè)d-vector特征之間的匹配值; 如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 獲取所述說(shuō)話(huà)人在注冊(cè)階段發(fā)出的多條語(yǔ)音; 對(duì)應(yīng)每條語(yǔ)音提取d-vector特征,得到多個(gè)d-vector特征; 將多個(gè)d-vector特征求平均,確定為所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 在注冊(cè)階段,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí); 存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征,并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征,包括: 接收說(shuō)話(huà)人的語(yǔ)音后,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí); 根據(jù)所述對(duì)應(yīng)關(guān)系,獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,提取語(yǔ)音的d-vector特征包括: 提取語(yǔ)音的輸入特征; 采用預(yù)先確定的DNN和所述輸入特征,得到DNN的最后一層隱層的輸出,將所述輸出確定為所述d-vector特征。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述輸入特征包括: FBANK特征。7.一種基于深度學(xué)習(xí)的聲紋認(rèn)證裝置,其特征在于,包括: 接收模塊,用于接收說(shuō)話(huà)人的語(yǔ)音; 第一提取模塊,用于提取所述語(yǔ)音的d-vector特征; 第一獲取模塊,用于獲取所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征; 第一計(jì)算模塊,用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值; 認(rèn)證模塊,用于如果所述匹配值大于或等于閾值,則確定所述說(shuō)話(huà)人通過(guò)認(rèn)證。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 第二獲取模塊,用于獲取所述說(shuō)話(huà)人在注冊(cè)階段發(fā)出的多條語(yǔ)音; 第二提取模塊,用于對(duì)應(yīng)每條語(yǔ)音提取d-vector特征,得到多個(gè)d-vector特征; 第二計(jì)算模塊,用于將多個(gè)d-vector特征求平均,確定為所述說(shuō)話(huà)人在注冊(cè)階段確定的d-vector特征。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括: 第三獲取模塊,用于在注冊(cè)階段,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí); 存儲(chǔ)模塊,用于存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征,并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一獲取模塊具體用于: 接收說(shuō)話(huà)人的語(yǔ)音后,獲取所述說(shuō)話(huà)人的身份標(biāo)識(shí); 根據(jù)所述對(duì)應(yīng)關(guān)系,獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。11.根據(jù)權(quán)利要求7-10任一項(xiàng)所述的裝置,其特征在于,所述第一提取模塊具體用于: 提取語(yǔ)音的輸入特征; 采用預(yù)先確定的DNN和所述輸入特征,得到DNN的最后一層隱層的輸出,將所述輸出確定為所述d-vector特征。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述輸入特征包括: FBANK特征。
【文檔編號(hào)】G10L17/04GK105869644SQ201610353878
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年5月25日
【發(fā)明人】吳本谷, 李超, 關(guān)勇
【申請(qǐng)人】百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司