欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于神經(jīng)網(wǎng)絡(luò)的語音處理的制作方法

文檔序號:11451702閱讀:510來源:國知局
基于神經(jīng)網(wǎng)絡(luò)的語音處理的制造方法與工藝



背景技術(shù):

計算機系統(tǒng)當(dāng)前廣泛使用。一些這樣的計算機系統(tǒng)接收音頻輸入信號并執(zhí)行語音處理以生成語音處理結(jié)果。

通過示例的方式,一些語音處理系統(tǒng)包括語音識別系統(tǒng),其接收音頻信號,并且通常識別音頻信號中的語音并將語音轉(zhuǎn)錄成文本。它們還可以包括接收音頻信號并對信號的各種特性(諸如說話者者身份、主題、情緒等)編制索引的音頻索引系統(tǒng)。語音系統(tǒng)還可以包括語音理解(或自然語言理解)系統(tǒng),其接收音頻信號、識別信號中的語音、以及識別該語音的內(nèi)容的解釋。語音系統(tǒng)還可以包括說話者識別系統(tǒng)。這樣的系統(tǒng)接收音頻輸入流并標(biāo)識在音頻流中說話的各個說話者。經(jīng)常被執(zhí)行的另一功能是說話者分割和跟蹤,也稱為說話者分類(speakerdiarization)。說話者分類是根據(jù)說話者身份將輸入音頻流劃分成同質(zhì)分段的過程。它使用了說話者分割和說話者聚類的組合。說話者分割在音頻流中找到說話者變化點,并且說話者聚集基于說話者特征將語音分段分組在一起。

通過示例的方式,為了各種目的,包含多個說話者的音頻流通常被劃分成僅包含單個說話者的分段,并且來自相同說話者的非連續(xù)分段被共同索引。說話者識別系統(tǒng)被用于將音頻的說話者同質(zhì)的部分與說話者模型匹配。音頻索引系統(tǒng)實現(xiàn)通過說話者身份對會議記錄(或其它多說話者記錄)的部分的檢索。語音識別系統(tǒng)可以使用該信息適應(yīng)于特定說話者的特性。自動轉(zhuǎn)錄系統(tǒng)可以使用該信息以將該轉(zhuǎn)錄的某些部分歸因于適當(dāng)?shù)恼f話者,并且語音理解系統(tǒng)可以用于基于說出話語的說話者的身份來解釋該話語的含義。

在執(zhí)行這些類型的語音處理任務(wù)中,語音系統(tǒng)必須在給定說話者的語音內(nèi)適應(yīng)相對高程度的可變性。此外,語音信號通常可能由外部因素而導(dǎo)致失真,外部因素諸如背景噪聲和混響、以及室內(nèi)聲學(xué)等。這可能增加在對音頻樣本進行比較以用于評估說話者身份中的困難。

當(dāng)前的說話者分類系統(tǒng)從音頻流中提取固定的、人為設(shè)計的特征集(其通??梢允莔el倒譜或mfcc特征等),針對音頻的分段來訓(xùn)練高斯混合模型,并且然后將根據(jù)分段的相關(guān)聯(lián)的高斯分布的相似性來對它們進行聚類。因此,說話者相似性基于潛在的預(yù)定特征的相似性被間接地測量。

上面的討論僅僅被提供用于一般背景信息,并且不旨在用作確定所要求保護的主題的范圍中的輔助。



技術(shù)實現(xiàn)要素:

獲得表示語音的特征向量對。一些對表示來自相同說話者的兩個語音樣本,并且其他對表示來自不同說話者的兩個語音樣本。神經(jīng)網(wǎng)絡(luò)利用彼此關(guān)聯(lián)的兩個向量的輸入上的權(quán)重矩陣,將樣本對中的每個特征向量饋送到單獨的瓶頸層中。該神經(jīng)網(wǎng)絡(luò)使用特征向量被訓(xùn)練以執(zhí)行指定的函數(shù),并且在訓(xùn)練之后,來自關(guān)聯(lián)的權(quán)重矩陣的權(quán)重被提取以供在針對語音系統(tǒng)生成特征中使用。

提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下詳細描述中進一步描述的概念的選集。本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用作在確定所要求保護的主題的范圍中的輔助。所要求保護的主題不限于解決背景技術(shù)中提到的任何或所有缺點的實現(xiàn)。

附圖說明

圖1是語音處理架構(gòu)的一個示例的框圖。

圖2是更詳細地示出采樣和特征提取系統(tǒng)(圖1所示)的一個示例的框圖。

圖3是更詳細地示出神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)(圖1所示)的一個示例的框圖。

圖4是示出訓(xùn)練系統(tǒng)(圖1所示)的操作的一個示例的流程圖。

圖5是使用導(dǎo)出特征的語音處理系統(tǒng)的一個示例的框圖。

圖6是示出在執(zhí)行語音處理中的圖5所示的系統(tǒng)的操作的一個示例的流程圖。

圖7是云計算架構(gòu)的一個示例的框圖。

圖8是計算環(huán)境的一個示例的框圖。

具體實施方式

圖1是語音處理架構(gòu)100的一個示例的框圖。架構(gòu)100說明性地包括訓(xùn)練系統(tǒng)102和運行時特征生成系統(tǒng)104。訓(xùn)練系統(tǒng)102說明性地包括采樣和特征提取系統(tǒng)106、處理器107和神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108。運行時特征生成系統(tǒng)說明性地包括采樣特征提取系統(tǒng)110(其可以與系統(tǒng)106相同或不同)、處理器111(其可以與處理器107相同或不同)以及變換系統(tǒng)112。運行時特征生成系統(tǒng)還可以包括特征組合系統(tǒng)114和其他特征生成系統(tǒng)116。

在更詳細地描述架構(gòu)100的操作之前,將首先提供架構(gòu)100中的項目中的一些項目的簡要概述及它們的操作。采樣和提取系統(tǒng)106說明性地接收訓(xùn)練音頻流118并且對流118中的音頻信息進行采樣,并且提取針對樣本中的每個樣本的特征向量。其說明性地輸出特征向量120,特征向量120可以說明性地是mel頻率倒譜系數(shù)(mfcc)向量等。那些特征向量被說明性地提供給神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108,神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108訓(xùn)練神經(jīng)網(wǎng)絡(luò)(下面參考圖3更詳細地描述其中的一個示例),并且從神經(jīng)網(wǎng)絡(luò)的輸入和神經(jīng)網(wǎng)絡(luò)的第一瓶頸層之間的權(quán)重矩陣提取經(jīng)訓(xùn)練的權(quán)重122。那些經(jīng)訓(xùn)練的權(quán)重然后被提供給運行時特征生成系統(tǒng)104,其中它們可以被用于生成能夠在運行時語音處理期間被使用的各種不同的特征集。

在運行時期間,運行時特征生成系統(tǒng)104說明性地接收未見數(shù)據(jù)124。采樣和特征提取系統(tǒng)110說明性地從未見數(shù)據(jù)124采樣和提取特征。特征由用于未見數(shù)據(jù)的特征向量126表示。在一個示例中,由神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108輸出的經(jīng)訓(xùn)練的權(quán)重122被提供給變換系統(tǒng)112。它們被用于變換未見數(shù)據(jù)126的特征向量以獲得導(dǎo)出特征128。導(dǎo)出特征128可以由它們自己或與其他特征一起用于語音處理中。例如,除了特征向量126之外,它們可以被使用。它們還可以被提供給特征向量組合系統(tǒng)114,其中它們被用于生成特征130的加權(quán)組合,特征130表示導(dǎo)出特征128和特征向量126中的特征的加權(quán)組合。特征130還可以說明性地表示由導(dǎo)出特征128加權(quán)的特征向量126等。

運行時特征生成系統(tǒng)104還可以使用其它特征生成系統(tǒng)116生成其他特征132。下面更詳細地描述其他特征中的一些特征。

圖2是更詳細地示出采樣和特征提取系統(tǒng)106的一個示例的框圖。圖2所示的示例示出采樣和特征提取系統(tǒng)106說明性地包括語音采樣系統(tǒng)134和特征提取組件136。語音采樣系統(tǒng)134說明性地采樣訓(xùn)練音頻流128中的語音的窗口,訓(xùn)練音頻流128可以表示來自已知說話者的語音信號。系統(tǒng)134說明性地生成來自不同說話者的樣本對136和來自相同說話者的樣本對138。在一個示例中,樣本136和138以近似相同的比例被輸出。當(dāng)然,這僅是一個例子。

特征提取組件136然后從樣本對136和138提取特征(被表示在特征向量120中)。特征向量120說明性地包括特征向量142和特征向量144,特征向量142對應(yīng)于來自不同說話者的樣本對138,特征向量144對應(yīng)于來自相同說話者的樣本對140。特征向量142和144的對可以包括例如相鄰語音幀的級聯(lián)mfcc特征向量或其他特征向量。

應(yīng)當(dāng)理解,處理也可以以其他順序發(fā)生。例如,特征向量可以在信號被彼此配對之前被提取。然后特征向量而非音頻信號可以如所描述的那樣被配對。該描述僅作為示例被提供。

圖3是更詳細地示出神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108的一個示例的框圖。神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108說明性地包括神經(jīng)網(wǎng)絡(luò)150、訓(xùn)練組件152、權(quán)重提取組件154,并且其還可以包括其他項目156。經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)150說明性地具有接收針對給定特征向量對的第一樣本的輸入特征向量160和針對給定特征向量對中的第二樣本的輸入特征向量162的架構(gòu)。特征向量160和162說明性地構(gòu)成來自不同說話者的特征向量142或來自相同說話者的特征向量144(圖2所示)的對。每個樣本特征向量160和162通過權(quán)重矩陣168分別提供給神經(jīng)網(wǎng)絡(luò)150中的單獨的瓶頸層164和166。瓶頸層164和166操作為神經(jīng)網(wǎng)絡(luò)150中的降維層,并且各自包括節(jié)點b1-bn的集合。在輸入160和162和瓶頸層164和166的節(jié)點之間的連接上的自適應(yīng)權(quán)重說明性地彼此關(guān)聯(lián)。因此,例如,在輸入特征向量160和瓶頸層164中的節(jié)點b1之間的連接上的權(quán)重w1說明性地與在輸入特征向量162和瓶頸層中的節(jié)點b1之間的連接上的權(quán)重w1關(guān)聯(lián)。權(quán)重矩陣168中的權(quán)重w2-wn說明性地以相同的方式關(guān)聯(lián)。

瓶頸層164和166的輸出說明性地被提供給神經(jīng)網(wǎng)絡(luò)150中的一組附加隱藏層168。每個隱藏層168說明性地包括其自己的節(jié)點集(示為節(jié)點h1-hm)。隱藏層168最終饋入包括相同節(jié)點172和不同節(jié)點174的一組輸出節(jié)點170。節(jié)點172和174對從其獲得輸入160和162的說話者是相同的說話者還是不同的說話者進行編碼。

圖4是示出在訓(xùn)練神經(jīng)網(wǎng)絡(luò)150以生成經(jīng)訓(xùn)練的權(quán)重122中的訓(xùn)練系統(tǒng)102的操作的一個示例的流程圖。現(xiàn)在結(jié)合彼此來描述圖1-4。

訓(xùn)練系統(tǒng)102首先從已知說話者接收表示語音信號的訓(xùn)練音頻流118(或其他訓(xùn)練數(shù)據(jù)流)。這由圖4中的框180指示。然后語音采樣系統(tǒng)134從接收到的信號生成采樣窗口的對。這由框182指示。這些對說明性地包括來自相同說話者的對138和來自不同說話者的對140。如上所述,作為示例,這些可以以大致相等的比例被提供。

特征提取組件136然后為每個樣本對生成相鄰幀的特征向量。這由框184指示。特征向量可以是各種其它特征190中的mel倒譜特征186(mfcc)、線性預(yù)測倒譜系數(shù)(lpcc)187。

然后,神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)108中的訓(xùn)練組件152基于對應(yīng)于那些樣本的已知說話者,通過迫使人工神經(jīng)網(wǎng)絡(luò)(ann)150將樣本對分類為來自相同或不同的說話者,來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(ann)150。這由框186指示。在一個示例中,訓(xùn)練組件152通過在彼此關(guān)聯(lián)的兩個向量160-162的輸入上的權(quán)重矩陣168將樣本對中的每個向量160-162饋送到單獨的瓶頸層164和166中。這由圖4中的框189指示。

神經(jīng)網(wǎng)絡(luò)150還說明性地將兩個瓶頸層164和166的輸出饋送到神經(jīng)網(wǎng)絡(luò)中的一組隱藏層168,其最終饋送到輸出節(jié)點170中,輸出節(jié)點170對從其獲得輸入向量的說話者相同還是不同進行編碼。這由框191指示。

在圖3所示的示例中,訓(xùn)練組件152通過將特征向量對(針對相同和不同的說話者)饋送到神經(jīng)網(wǎng)絡(luò)150中來說明性地繼續(xù)訓(xùn)練,直到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)達到期望的閾值。這由框192指示。例如,訓(xùn)練組件152說明性地使用輸出的目標(biāo)函數(shù)并且訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的權(quán)重來優(yōu)化目標(biāo)函數(shù)。組件152可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)150,直到學(xué)習(xí)不再改善,或直到改善低于給定閾值。使用用于修改權(quán)重以優(yōu)化目標(biāo)函數(shù)的過程由框194指示。目標(biāo)函數(shù)可以是各種目標(biāo)函數(shù)中的任一目標(biāo)函數(shù)。例如,它可以是二元或離散分類器的目標(biāo)函數(shù)等。繼續(xù)訓(xùn)練直到學(xué)習(xí)達到期望的閾值也可以以其它方式被完成,并且這由框196指示。

訓(xùn)練組件152最終確定訓(xùn)練完成。這由圖2中的框198指示。當(dāng)訓(xùn)練完成時,權(quán)重提取組件154從將輸入160-162連接到瓶頸層164-166的關(guān)聯(lián)的權(quán)重矩陣168提取權(quán)重w1-wn。提取權(quán)重由圖4的流程圖中的框200指示。這些權(quán)重說明性地包括經(jīng)訓(xùn)練的權(quán)重122。它們被存儲或以其它方式輸出以供在各種不同的語音處理系統(tǒng)中生成特征中使用。這由框202指示。

圖5是運行時架構(gòu)220的一個示例的框圖。運行時架構(gòu)220說明性地從運行時特征生成系統(tǒng)104接收各種不同的特征向量222。它將它們提供給語音處理系統(tǒng)224,其由一個或多個用戶225使用。語音處理系統(tǒng)224可以包括處理器或編碼器227,并且它還可以是各種不同類型的語音處理系統(tǒng),其執(zhí)行各種不同類型的語音處理。例如,它可以是說話者識別系統(tǒng)、以及音頻索引系統(tǒng)、語音識別系統(tǒng)、自動轉(zhuǎn)錄系統(tǒng)、語音理解系統(tǒng)等。

系統(tǒng)224接收從運行時數(shù)據(jù)提取或?qū)С龅倪\行時特征222,并且生成語音處理結(jié)果226。例如,當(dāng)語音處理系統(tǒng)224是說話者識別系統(tǒng)時,語音處理結(jié)果226可以在接收到的運行時數(shù)據(jù)中標(biāo)識與不同說話者匹配的、音頻的不同相干部分。在它是音頻索引系統(tǒng)的情況下,其根據(jù)說話者身份對語音編制索引,使得以后其能夠被檢索。在它是語音識別系統(tǒng)的情況下,其適應(yīng)于從訓(xùn)練過程導(dǎo)出的語音的特定特性以識別語音。在它是自動轉(zhuǎn)錄系統(tǒng)的情況下,語音處理結(jié)果226將轉(zhuǎn)錄部分歸因于適當(dāng)?shù)恼f話者。在它是語音理解系統(tǒng)的情況下,語音處理結(jié)果226基于誰說出話語來提供該話語的經(jīng)解釋的含義。這些當(dāng)然僅是示例。

在任何情況下,由語音處理系統(tǒng)224接收到的向量222可以包括針對未見數(shù)據(jù)的相同類型的特征向量,如關(guān)于圖1被描述為特征向量126。它們還可以包括也在上面描述的導(dǎo)出特征128。此外,它們可以包括特征138的加權(quán)組合,或者它們可以包括各種其他特征132。

其他特征132可以是指示信號被收集的房間的聲學(xué)的特征。特征132可以是指示聲音方向的特征。它們可以是從不同種類的背景噪聲或背景噪聲源獲得的特征。它們也可以是多模態(tài)特征。例如,在語音檢測系統(tǒng)包括相機的情況下,多模態(tài)特征可以是從指示給定說話者的嘴唇是否正在移動、給定說話者是否正面向麥克風(fēng)等視覺信息導(dǎo)出的特征。

圖6是示出架構(gòu)220的操作的一個示例的流程圖。架構(gòu)220首先接收未見語音數(shù)據(jù)。這由圖2中的框240指示。然后,其生成幀并提取與語音數(shù)據(jù)的幀相對應(yīng)的特征。這由框242和244指示。再次,特征向量可以包括mel尺度倒譜特征(mfcc)246、lpcc特征248、或各種其它聲學(xué)或非聲學(xué)特征250。

系統(tǒng)224然后使用變換系統(tǒng)112(上文關(guān)于圖1所描述的)以使用來自關(guān)聯(lián)的權(quán)重矩陣的權(quán)重來變換所提取的特征126,以獲得導(dǎo)出特征128。這由圖2中的框252指示。如框252所示,導(dǎo)出特征128可以被輸出到語音處理系統(tǒng)224。它們可以被用于執(zhí)行說話者識別254、音頻編制索引256、語音識別258、自動轉(zhuǎn)錄260、語音理解262或各種其它語音處理264。使用特征來執(zhí)行上文所論述的語音處理由框266指示。

在這樣做時,如框268所示,系統(tǒng)224可以單獨使用導(dǎo)出特征128。它可以結(jié)合所提取的特征向量126來使用導(dǎo)出特征128。這由框270指示。它可以組合特征以獲得特征126和128的加權(quán)組合。例如,通過形成來自兩個特征流的高斯似然(如在聚類中使用的)的加權(quán)組合,特征向量126可以與新導(dǎo)出的特征128組合。加權(quán)組合由框130指示。如框272所示,其可以將特征與其他特征132組合。當(dāng)然,其也可以以其它方式274使用特征。語音處理系統(tǒng)224最終輸出語音處理結(jié)果226。這由框276指示。

在進行描述之前,應(yīng)注意許多事情。首先要注意的是,本討論已經(jīng)進行了關(guān)于通過修改權(quán)重以優(yōu)化輸出的目標(biāo)函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)150,以識別來自相同說話者或不同說話者的語音,并且然后從關(guān)聯(lián)的權(quán)重矩陣168中提取輸入權(quán)重來訓(xùn)練神經(jīng)網(wǎng)絡(luò)150以供在生成導(dǎo)出特征128中使用。然而,本系統(tǒng)也可以以各種其它方式被使用。例如,取代于訓(xùn)練神經(jīng)網(wǎng)絡(luò)150以識別輸入向量對是來自相同說話者還是不同說話者,其還可以被訓(xùn)練以識別非聲學(xué)輸入特征對應(yīng)于給定說話者的嘴唇移動還是不移動。它可以被訓(xùn)練以識別特征對對應(yīng)于噪聲還是語音。它可以被訓(xùn)練以分離不同種類的背景噪聲。因此,從關(guān)聯(lián)的權(quán)重矩陣168中提取的權(quán)重可以被用在各種不同類型的系統(tǒng)中,而不僅僅是用于識別語音來自相同說話者還是不同說話者的系統(tǒng)。這些僅是示例。

另外,應(yīng)當(dāng)注意,特征可以連續(xù)地適于更精確地標(biāo)識給定說話者。例如,在其中可能存在相同人的會議的應(yīng)用中,那些人可以被相對頻繁地識別,并且導(dǎo)出特征可以從初始會議被生成,并且使用來自稍后會議的語音數(shù)據(jù)被適配,以提高說話者分類(或其他)系統(tǒng)的準(zhǔn)確度。這些類型的適配提供顯著提高的準(zhǔn)確度。

因此可以看出,本說明書提供了各種技術(shù)優(yōu)點。它提供了用于導(dǎo)出新特征的方式,該新特征被區(qū)別性地訓(xùn)練以便增強說話者區(qū)別和忽略與說話者身份無關(guān)的混雜因素(諸如語音內(nèi)容、由于環(huán)境或編碼信道等引起的噪聲和失真等)兩者。在一個示例中,這通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)以對具有已知說話者身份的數(shù)據(jù)集執(zhí)行相同/不同的說話者分類任務(wù)來被實現(xiàn)。網(wǎng)絡(luò)采用使用特征作為輸入而編碼的語音樣本,并且被迫通過瓶頸隱藏層來表示它們。從輸入到瓶頸層的映射可以被應(yīng)用于未見測試數(shù)據(jù),以計算可以單獨使用或與其他特征結(jié)合使用以執(zhí)行聚類或分類過程的新特征向量。

這在網(wǎng)絡(luò)中產(chǎn)生有用的特征表示,并且它可以與說話者分類聚類算法或各種其他系統(tǒng)結(jié)合使用。這些特征可以與其他聚類或建模系統(tǒng)結(jié)合使用,并且它們提高了那些系統(tǒng)的準(zhǔn)確性。特別地,它們可以增強將說話者分類系統(tǒng)定制到代表給定應(yīng)用的訓(xùn)練數(shù)據(jù)主體的能力。這只是一個例子。

本討論已經(jīng)提到了處理器和服務(wù)器。在一個實施例中,處理器和服務(wù)器包括具有相關(guān)聯(lián)的存儲器和定時電路的計算機處理器,存儲器和定時電路未單獨示出。它們是它們所屬的并且由其激活的系統(tǒng)或設(shè)備的功能部分,并且促進那些系統(tǒng)中的其他組件或項目的功能。

此外,已經(jīng)討論了多個用戶界面顯示器或用戶界面。它們可以采取各種不同形式,并且可以具有設(shè)置在其上的各種不同的用戶可致動輸入機構(gòu)。例如,用戶可致動輸入機構(gòu)可以是文本框、復(fù)選框、圖標(biāo)、鏈接、下拉菜單、搜索框等。它們還可以以各種不同方式被致動。例如,它們可以使用點擊設(shè)備(諸如跟蹤球或鼠標(biāo))被致動。它們可以使用硬件按鈕、開關(guān)、操縱桿或鍵盤、拇指開關(guān)或拇指墊等被致動。它們也可以使用虛擬鍵盤或其他虛擬致動器被致動。此外,在它們被顯示于其上的屏幕是觸敏屏幕的情況下,它們可以使用觸摸手勢被致動。此外,在顯示它們的設(shè)備具有語音識別組件的情況下,它們可以使用語音命令被致動。

還已經(jīng)討論了多個數(shù)據(jù)存儲庫。將注意到它們可以被分解成多個數(shù)據(jù)存儲庫。所有數(shù)據(jù)存儲庫可以在訪問它們的系統(tǒng)的本地,所有數(shù)據(jù)存儲庫可以是遠程的,或者一些數(shù)據(jù)存儲庫可以是本地的而其他數(shù)據(jù)存儲庫是遠程的。本文中預(yù)期這些配置中的所有配置。

此外,附圖示出了具有歸屬于每個框的功能的多個框。應(yīng)當(dāng)注意,可以使用更少的框,因此由更少的組件來執(zhí)行功能。此外,更多的框可以與分布在更多組件之間的功能一起被使用。

圖7是圖1和圖5所示的架構(gòu)100和220的框圖,除了這些元件被設(shè)置在云計算架構(gòu)500中之外。云計算提供計算、軟件、數(shù)據(jù)訪問和存儲服務(wù),它們不需要終端用戶知曉交付這些服務(wù)的系統(tǒng)的物理位置或配置。在各種實施例中,云計算使用適當(dāng)?shù)膮f(xié)議通過廣域網(wǎng)(諸如因特網(wǎng))交付服務(wù)。例如,云計算提供商通過廣域網(wǎng)交付應(yīng)用,并且它們可以通過web瀏覽器或任何其他計算組件被訪問。架構(gòu)100和220的軟件或組件以及相應(yīng)的數(shù)據(jù)可以被存儲在遠程位置處的服務(wù)器上。云計算環(huán)境中的計算資源可以在遠程數(shù)據(jù)中心位置處被合并或者它們可以被分散。云計算基礎(chǔ)設(shè)施可以通過共享數(shù)據(jù)中心交付服務(wù),即使它們表現(xiàn)為針對用戶的單一訪問點。因此,可以使用云計算架構(gòu)從遠程位置處的服務(wù)提供商提供本文所描述的組件和功能。備選地,它們可以從常規(guī)服務(wù)器被提供,或者它們可以直接或以其他方式被安裝在客戶端設(shè)備上。

本說明書旨在包括公共云計算和私有云計算兩者。云計算(公共和私有兩者)提供了基本上無縫的資源池,以及用于管理和配置底層硬件基礎(chǔ)設(shè)施的減少的需求。

公共云由供應(yīng)商管理并且通常支持使用相同基礎(chǔ)設(shè)施的多個消費者。此外,與私有云相反,公共云可以使終端用戶免于管理硬件。私有云可以由組織本身管理,并且基礎(chǔ)設(shè)施通常不與其他組織共享。組織仍然在一定程度上維護硬件,諸如安裝和維修等。

在圖7所示的示例中,一些項目類似于圖1和圖5中所示的項目,并且它們被類似地編號。圖7具體地示出了一些項目可以位于云502中(其可以是公共的、私有的或其中部分是公共的而其他部分是私有的)。因此,用戶225通過使用諸如用戶界面顯示器、麥克風(fēng)等用戶輸入機構(gòu)505來使用用戶設(shè)備504,以通過云502來訪問那些系統(tǒng)。

圖7還描繪了云架構(gòu)的另一示例。圖7示出了還可以預(yù)期架構(gòu)100和220中的一些元件可以被設(shè)置在云502中而其他元件不被設(shè)置在云502中。通過示例的方式,訓(xùn)練系統(tǒng)102(或其部分)可以被設(shè)置在云502的外部,并且通過云502被訪問。在另一個示例中,語音處理系統(tǒng)224在云502的外部。無論它們位于何處,它們可以由設(shè)備504通過網(wǎng)絡(luò)(廣域網(wǎng)或局域網(wǎng))直接訪問,它們可以被服務(wù)托管在遠程站點處,或者它們可以通過云被提供為服務(wù)或由駐留在云中的連接服務(wù)訪問。本文中預(yù)期這些架構(gòu)中的所有架構(gòu)。

還將注意到,架構(gòu)100或220或它們的部分可以被設(shè)置在各種不同設(shè)備上。這些設(shè)備中的一些設(shè)備包括服務(wù)器、臺式計算機、膝上型計算機、平板計算機或其他移動設(shè)備,諸如掌上計算機、蜂窩電話、智能電話、多媒體播放器、個人數(shù)字助理等。

圖8是其中可以部署架構(gòu)100或220或它們的部分(例如)的計算環(huán)境的一個實施例。參考圖8,用于實現(xiàn)一些實施例的示例系統(tǒng)包括計算機810形式的通用計算設(shè)備。計算機810的組件可以包括但不限于處理單元820(其可以包括處理器107或111)、系統(tǒng)存儲器830和系統(tǒng)總線821,系統(tǒng)總線821將包括系統(tǒng)存儲器的各種系統(tǒng)組件耦合到處理單元820。系統(tǒng)總線821可以是若干類型的總線結(jié)構(gòu)中的任一種,總線結(jié)構(gòu)包括存儲器總線或存儲器控制器、外圍總線、以及使用各種總線架構(gòu)中的任一種的局部總線。通過示例而非限制的方式,這樣的架構(gòu)包括工業(yè)標(biāo)準(zhǔn)架構(gòu)(isa)總線、微通道架構(gòu)(mca)總線、增強型isa(eisa)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局部總線、以及外圍部件互連pci)總線也稱為夾層總線。關(guān)于圖1-5描述的存儲器和程序可以被部署在圖8的相應(yīng)部分中。

計算機810通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是可由計算機810訪問的任何可用介質(zhì),并且包括易失性和非易失性介質(zhì)、可拆卸和不可拆卸介質(zhì)。通過示例而非限制的方式,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)不同于并且不包括經(jīng)調(diào)制的數(shù)據(jù)信號或載波。其包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息的任何方法或技術(shù)實現(xiàn)的硬件存儲介質(zhì),包括易失性和非易失性、可拆卸和不可拆卸介質(zhì)。計算機存儲介質(zhì)包括但不限于ram、rom、eeprom、閃存或其他存儲器技術(shù)、cd-rom、數(shù)字多功能盤(dvd)或其他光盤存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設(shè)備,或可用于存儲所期望的信息并且可由計算機810訪問的任何其它介質(zhì)。通信介質(zhì)通常在傳輸機制中體現(xiàn)計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。術(shù)語“經(jīng)調(diào)制的數(shù)據(jù)信號”意指使其特性中的一個或多個特性以在信號中編碼信息的方式被設(shè)置或改變的信號。通過示例而非限制的方式,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直接有線連接的有線介質(zhì),以及諸如聲學(xué)、rf、紅外和其他無線介質(zhì)的無線介質(zhì)。上述的任意組合也應(yīng)包括在計算機可讀介質(zhì)的范圍內(nèi)。

系統(tǒng)存儲器830包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì),諸如只讀存儲器(rom)831和隨機存取存儲器(ram)832。基本輸入/輸出系統(tǒng)833(bios)通常被存儲在rom831中,其包含諸如在啟動期間幫助在計算機810內(nèi)的元件之間傳送信息的基本例程。ram832通常包含可立即訪問和/或當(dāng)前正由處理單元820對其操作的數(shù)據(jù)和/或程序模塊。通過示例而非限制的方式,圖8示出了操作系統(tǒng)834、應(yīng)用程序835、其他程序模塊836和程序數(shù)據(jù)837。

計算機810還可以包括其他可拆卸/不可拆卸的易失性/非易失性計算機存儲介質(zhì)。僅通過示例的方式,圖8示出從不可拆卸、非易失性磁介質(zhì)讀取或向其寫入的硬盤驅(qū)動器841,以及從諸如cdrom或其他光學(xué)介質(zhì)的可拆卸、非易失性光盤856讀取或向其寫入的光盤驅(qū)動器855。可以在說明性操作環(huán)境中使用的其他可拆卸/不可拆卸、易失性/非易失性計算機存儲介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)ram、固態(tài)rom等。硬盤驅(qū)動器841通常通過諸如接口840的不可拆卸存儲器接口連接到系統(tǒng)總線821,并且光盤驅(qū)動器855通常通過諸如接口850的可拆卸存儲器接口連接到系統(tǒng)總線821。

備選地或附加地,本文所描述的功能可以至少部分地由一個或多個硬件邏輯組件執(zhí)行。例如但不限于,可以使用的硬件邏輯組件的說明性類型包括現(xiàn)場可編程門陣列(fpga)、專用集成電路(asic)、專用標(biāo)準(zhǔn)產(chǎn)品(assp)、片上系統(tǒng)(soc)、復(fù)雜可編程邏輯器件(cpld)等。

以上討論并在圖8中示出的驅(qū)動器及其相關(guān)聯(lián)的計算機存儲介質(zhì)為計算機810提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲。在圖8中,例如,硬盤驅(qū)動器841被示為存儲操作系統(tǒng)844、應(yīng)用程序845、其他程序模塊846和程序數(shù)據(jù)847。注意,這些組件可以與操作系統(tǒng)834、應(yīng)用程序835、其他程序模塊836和程序數(shù)據(jù)837相同或不同。這里操作系統(tǒng)844、應(yīng)用程序845、其他程序模塊846和程序數(shù)據(jù)847被給予不同的數(shù)字以說明最少它們是不同的副本。

用戶可以通過諸如鍵盤862、麥克風(fēng)863和定點設(shè)備861(諸如鼠標(biāo)、軌跡球或觸摸板)的輸入設(shè)備將命令和信息輸入到計算機810中。其他輸入設(shè)備(未示出)可以包括操縱桿、游戲板、衛(wèi)星天線、掃描儀等。這些和其他輸入設(shè)備通常通過耦合到系統(tǒng)總線的用戶輸入接口860被連接到處理單元820,但是可以通過其他接口和總線結(jié)構(gòu)被連接,諸如并行端口、游戲端口或通用串行總線(usb)。視覺顯示器891或其它類型的顯示設(shè)備也經(jīng)由諸如視頻接口890的接口被連接到系統(tǒng)總線821。除了監(jiān)視器之外,計算機還可以包括其它外圍輸出設(shè)備,諸如揚聲器897和打印機896,其可以通過輸出外圍接口895被連接。

計算機810使用到一個或多個遠程計算機(諸如遠程計算機880)的邏輯連接在聯(lián)網(wǎng)環(huán)境中被操作。遠程計算機880可以是個人計算機、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)pc、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點,并且通常包括相對于計算機810的上面所描述的許多或所有元件。圖8中描繪的說明性計算系統(tǒng)包括局域網(wǎng)(lan)871和廣域網(wǎng)(wan)873,但是也可以包括其他網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。

當(dāng)在lan聯(lián)網(wǎng)環(huán)境中被使用時,計算機810通過網(wǎng)絡(luò)接口或適配器870被連接到lan871。當(dāng)在wan聯(lián)網(wǎng)環(huán)境中被使用時,計算機810通常包括調(diào)制解調(diào)器872或用于在wan873上建立通信的其他裝置,諸如因特網(wǎng)??梢允莾?nèi)部或外部的調(diào)制解調(diào)器872可以經(jīng)由用戶輸入接口860或其他適當(dāng)?shù)臋C制被連接到系統(tǒng)總線821。在聯(lián)網(wǎng)環(huán)境中,相對于計算機810所描繪的程序模塊或其部分可以被存儲在遠程存儲器存儲設(shè)備中。通過示例而非限制的方式,圖8示出了駐留在遠程計算機880上的遠程應(yīng)用程序885。應(yīng)當(dāng)理解,所示的網(wǎng)絡(luò)連接是示例性的,并且在計算機之間建立通信鏈路的其他裝置可以被使用。

還應(yīng)當(dāng)注意,本文描述的不同實施例可以以不同的方式被組合。也就是說,一個或多個實施例的部分可以與一個或多個其他實施例的部分組合。例如,在以下段落中討論的示例可以被組合在示例的任何組合中。所有這些都在本文中被預(yù)期。

示例1是一種計算系統(tǒng),包括:

特征提取系統(tǒng),被配置為從語音訓(xùn)練數(shù)據(jù)提取(或裝置用于提取)訓(xùn)練特征集并且生成來自相同音頻源的特征向量對和來自不同特征源的特征向量對;以及

神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),被配置為接收(或裝置用于接收)特征向量對并且通過經(jīng)由權(quán)重矩陣將所述特征向量對應(yīng)用于神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點層來訓(xùn)練神經(jīng)網(wǎng)絡(luò),基于指示特征向量對來自相同音頻源還是不同音頻源的網(wǎng)絡(luò)輸出的目標(biāo)函數(shù)來修改權(quán)重矩陣,以及從權(quán)重矩陣中提取權(quán)重并且向音頻處理系統(tǒng)提供權(quán)重。

示例2是任何或所有先前示例的計算系統(tǒng),其中特征提取系統(tǒng)被配置為從已知說話者的語音提取特征向量對作為特征向量。

示例3是任何或所有先前示例的計算系統(tǒng),其中特征提取系統(tǒng)被配置為生成特征向量對作為來自相同說話者的特征向量對和來自不同說話者的特征向量對。

示例4是任何或所有先前示例的計算系統(tǒng),其中神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點層包括:

具有一組節(jié)點的第一瓶頸層(裝置);以及

具有一組節(jié)點的第二瓶頸層(裝置)。

示例5是任何或所有先前示例的計算系統(tǒng),其中權(quán)重矩陣將輸入上的權(quán)重與第一瓶頸層和第二瓶頸層的對應(yīng)節(jié)點關(guān)聯(lián)在一起。

示例6是任何或所有先前示例的計算系統(tǒng),其中神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)包括:

訓(xùn)練組件,其通過將特征向量對中的每一對的第一特征向量經(jīng)由權(quán)重矩陣饋送到第一瓶頸層的節(jié)點中,并且將特征向量對中的每一對的第二特征向量經(jīng)由權(quán)重矩陣饋送到第二瓶頸層的節(jié)點中,來將特征向量對饋送(或裝置用于饋送)到神經(jīng)網(wǎng)絡(luò)中。

示例7是任何或所有先前示例的計算系統(tǒng),其中訓(xùn)練組件被配置為基于目標(biāo)函數(shù),通過迫使神經(jīng)網(wǎng)絡(luò)的輸出層指示特征向量對從相同說話者還是不同說話者的語音中被獲得,來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

示例8是任何或所有先前示例的計算系統(tǒng),還包括:

特征生成系統(tǒng),被配置為將所提取的權(quán)重應(yīng)用(或裝置用于應(yīng)用)于從未見語音數(shù)據(jù)中提取的特征集,以獲得導(dǎo)出特征集。

示例9是任何或所有先前示例的計算系統(tǒng),還包括:

語音處理系統(tǒng),被配置為在生成對應(yīng)于未見語音數(shù)據(jù)的語音處理結(jié)果中使用(或裝置用于使用)導(dǎo)出特征集。

示例10是一種語音系統(tǒng),包括:

特征提取器,被配置為接收(或裝置用于接收)指示語音信號的語音信號數(shù)據(jù)并且從語音信號提取特征集;

特征應(yīng)用系統(tǒng),被配置為將從神經(jīng)網(wǎng)絡(luò)的輸入和神經(jīng)網(wǎng)絡(luò)的瓶頸層之間的權(quán)重矩陣提取的權(quán)重集應(yīng)用(或裝置用于應(yīng)用)于特征集,以將特征集變換成導(dǎo)出特征集;以及

編碼器,被配置為基于導(dǎo)出特征集來生成(或裝置用于生成)指示語音信號的特性的語音處理結(jié)果。

示例11是任何或所有先前示例的語音系統(tǒng),其中特征應(yīng)用系統(tǒng)包括:

變換系統(tǒng),被配置為將權(quán)重集應(yīng)用(或裝置用于應(yīng)用)于特征集,以將特征集變換成導(dǎo)出特征集。

示例12是任何或所有先前示例的語音系統(tǒng),其中特征應(yīng)用系統(tǒng)包括:

特征組合系統(tǒng),被配置為組合(或裝置用于組合)導(dǎo)出特征集與特征集以獲得特征的加權(quán)組合,并且其中編碼器被配置為基于特征的加權(quán)組合來生成語音處理結(jié)果。

示例13是任何或所有先前示例的語音系統(tǒng),其中語音數(shù)據(jù)是表示來自多個不同說話者的語音的未見語音數(shù)據(jù),并且其中編碼器通過基于導(dǎo)出特征集將未見語音數(shù)據(jù)的部分聚類成簇來生成語音處理結(jié)果。

示例14是任何或所有先前示例的語音系統(tǒng),其中編碼器通過基于導(dǎo)出特征集將語音數(shù)據(jù)歸因于不同的說話者來生成語音處理結(jié)果。

示例15是任何或所有先前示例的語音系統(tǒng),其中編碼器基于語音數(shù)據(jù)歸因于不同說話者中的哪個說話者來對語音數(shù)據(jù)編制索引。

示例16是任何或所有先前示例的語音系統(tǒng),其中編碼器基于語音數(shù)據(jù)歸因于多個不同說話者中的哪個說話者來導(dǎo)出語音數(shù)據(jù)的解釋。

示例17是任何或所有先前示例的語音系統(tǒng),其中編碼器基于導(dǎo)出特征集來識別語音數(shù)據(jù)中的語音。

示例18是一種存儲計算機可執(zhí)行指令的計算機可讀存儲系統(tǒng),計算機可執(zhí)行指令在由計算機執(zhí)行時使得計算機執(zhí)行方法,該方法包括:

從表示來自多個不同的已知說話者的語音的語音訓(xùn)練數(shù)據(jù)中提取(或裝置用于提取)訓(xùn)練特征向量集;

生成(或裝置用于生成)來自相同說話者的特征向量對和來自不同說話者的特征向量對;

通過經(jīng)由權(quán)重矩陣將訓(xùn)練特征集應(yīng)用于神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點層,并且基于網(wǎng)絡(luò)輸出的目標(biāo)函數(shù)來修改權(quán)重矩陣中的網(wǎng)絡(luò)權(quán)重,來訓(xùn)練(或裝置用于訓(xùn)練)神經(jīng)網(wǎng)絡(luò);

從經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣中提取(或裝置用于提取)網(wǎng)絡(luò)權(quán)重;以及

向語音處理系統(tǒng)提供(或裝置用于提供)權(quán)重。

示例19是任何或所有先前示例的計算機可讀存儲介質(zhì),其中訓(xùn)練包括:

通過將特征向量對中的每一對的第一特征向量經(jīng)由權(quán)重矩陣饋送到神經(jīng)網(wǎng)絡(luò)中的第一瓶頸層的節(jié)點中,并且將特征向量對中的每一對的第二特征向量經(jīng)由權(quán)重矩陣饋送到神經(jīng)網(wǎng)絡(luò)中的第二瓶頸層的節(jié)點中,來將特征向量對饋送(或裝置用于饋送)到神經(jīng)網(wǎng)絡(luò)中。

示例20是任何或所有先前示例的計算機可讀存儲介質(zhì),,其中訓(xùn)練包括:

基于目標(biāo)函數(shù),迫使(或裝置用于迫使)神經(jīng)網(wǎng)絡(luò)的輸出層指示特征向量對從相同說話者還是不同說話者的語音中獲得。

盡管已經(jīng)以特定于結(jié)構(gòu)特征和/或方法動作的語言描述了主題,但是應(yīng)當(dāng)理解所附權(quán)利要求中限定的主題不一定限于上面描述的具體特征或動作。更確切地,上面描述的具體特征和動作被公開為實現(xiàn)權(quán)利要求的示例形式。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
长子县| 车致| 玉林市| 韶山市| 灌云县| 吉木萨尔县| 麟游县| 牙克石市| 霞浦县| 渭南市| 武乡县| 迭部县| 商南县| 安西县| 怀远县| 白玉县| 兰西县| 鹤山市| 当雄县| 酒泉市| 余庆县| 镇坪县| 蓝田县| 唐河县| 桐庐县| 元氏县| 墨脱县| 文昌市| 天等县| 南江县| 华坪县| 成武县| 盐山县| 韶山市| 昭通市| 南华县| 象州县| 庆元县| 赤峰市| 澄城县| 芮城县|