本發(fā)明涉及語音識別技術領域,尤其涉及一種識別模型訓練方法及系統(tǒng)以及智能終端。
背景技術:
聲紋識別是一種利用人的聲音實現(xiàn)的識別技術,由于人在講話時使用的發(fā)聲器官存在一定的差異性,任何兩個人聲音的聲紋圖譜都有差異,所以聲紋可以作為表征個體差異的生物特征,因此可以通過建立識別模型來表征不同的個體,進而利用該識別模型識別不同的個體。目前識別模型的應用存在一個兩難的選擇,主要體現(xiàn)在訓練語料的長度選取上。一般而言,聲紋訓練無法自動識別進行訓練,需要人為手動設定,訓練過程繁瑣,用戶體驗效果差,且聲紋訓練的語料越長,建立的特征模型越精確,識別準確率也就越高,但是這種模型建立的方式的實用性不強;相反地,聲紋訓練語料較短,能保證較好的實用性,但相對而言其訓練生成的模型的識別準確率不高。而在實際應用中,例如應用到一些智能設備中進行語音操作的聲紋識別時,既要求有較高的識別準確率,又要求訓練語料不能太長,從而保證較好的實用性,則以現(xiàn)有技術中的聲紋識別模型建立的技術方案難以實現(xiàn)上述目的。
同樣地,現(xiàn)有技術中,需要由用戶手動多次錄入一定時長的訓練語料來輔助建立識別模型,因此會給用戶較差的體驗,不具備較高的實用性;同時,組合起來的訓練語料的長度仍然有限,不能生成較精確的特征模型,識別準確率無法進一步提升;語速語調的變化、情緒波動等也都會影響模型建立的精確度。所以,如何在保證較高的實用性前提下,提高識別模型精確度,進而提高識別準確率是急需解決的問題。
技術實現(xiàn)要素:
根據(jù)現(xiàn)有技術中存在的上述問題,現(xiàn)提供一種識別模型訓練方法及系統(tǒng) 以及智能終端的技術方案,具體包括:
一種識別模型訓練方法,其中,所述方法包括:
獲取包含至少一個說話人的初始語音信號流;
將所述初始語音信號流與一預設的聲紋模型進行匹配,獲取匹配成功的識別語音流,并輸出所述識別語音流;
獲取所述說話人的反饋語音流;
根據(jù)預設的說話人分割算法和說話人聚類算法,獲取所述反饋語音流關聯(lián)于所述說話人的所述語音信號流;
判斷所有所述語音信號流中是否存在能夠作為識別對象的所述語音信號流,并將能夠作為識別對象的所述語音信號流作為識別信號流輸出;
將所述識別信號流分別與預先形成的復數(shù)個初始識別模型進行匹配,獲取與所述識別信號流匹配成功的所述初始識別模型;
將所述識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)所述訓練樣本對與所述識別信號流匹配成功的所述初始識別模型進行更新。
優(yōu)選的,該識別模型訓練方法,其中,所述方法在獲取包含至少一個說話人的初始語音信號流之前還包括:
根據(jù)預設的所述訓練樣本建立復數(shù)個所述初始識別模型。
優(yōu)選的,根據(jù)所述說話人分割算法與所述說話人聚類算法,分別獲取所述反饋語音流關聯(lián)于所述說話人的所述語音信號流的方法具體包括:
根據(jù)所述說話人分割算法,將所述反饋語音流分割成多個語音分段;
根據(jù)所述說話人聚類算法,將多個所述語音分段進行聚類,生成關聯(lián)于所述說話人的所述語音信號流。
優(yōu)選的,將所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取匹配成功的所述識別信號流的方法具體包括:
將所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取所述識別信號流與每個所述初始識別模型的匹配度;
選取大于預設的匹配閾值的多個所述匹配度中最高的所述匹配度所對應的所述初始識別模型。
優(yōu)選的,將所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取匹配成功的所述識別信號流的方法具體包括:
將所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取所述識別信號流與每個所述初始識別模型的匹配度;
選取大于預設的匹配閾值的多個所述匹配度中最高的所述匹配度所對應的所述初始識別模型。
優(yōu)選的,將所述識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)所述訓練樣本對與所述識別信號流匹配成功的所述初始識別模型進行更新的方法具體包括:
根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型,預設的所述訓練樣本為生成所述初始識別模型的所述識別信號流;
以所述修正識別模型對所述初始識別模型進行更新。
優(yōu)選的,將所述識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)所述訓練樣本對與所述識別信號流匹配成功的所述初始識別模型進行更新的方法具體包括:
根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型,預設的所述訓練樣本為生成所述初始識別模型的所述識別信號流;
以所述修正識別模型對所述初始識別模型進行更新。
優(yōu)選的,將所述識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)所述訓練樣本對與所述識別信號流匹配成功的所述初始識別模型進行更新的方法具體包括:
根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型,預設的所述訓練樣本為生成所述初始識別模型的所述識別信號流;
以所述修正識別模型對所述初始識別模型進行更新。
一種識別模型訓練系統(tǒng),其中,包括:獲取單元、處理單元、判斷單元、第一匹配單元、第二匹配單元以及模型更新單元;
所述獲取單元用于獲取包含至少一個說話人的初始語音信號流并發(fā)送給與所述獲取單元連接的所述第一匹配單元;
所述第一匹配單元用于將所述初始語音信號流與一預設的聲紋模型進行匹配,獲取匹配成功的識別語音流,并輸出所述識別語音流;
所述獲取單元還用于獲取所述說話人的反饋語音流,并發(fā)送所述反饋語音流至與所述獲取單元連接的所述處理單元;
所述處理單元用于接收所述獲取單元發(fā)送的所述反饋語音流,并根據(jù)預設的說話人分割算法與說話人聚類算法,獲取所述反饋語音流關聯(lián)于所述說話人的所述語音信號流,并將所述語音信號流發(fā)送給與所述處理單元連接的所述判斷單元;
所述判斷單元用于判斷所述處理單元發(fā)送的所有所述語音信號流中是否存在能夠作為識別對象的所述語音信號流,并將能夠作為識別對象的所述語音信號流作為識別信號流輸出至與所述判斷單元連接的所述第二匹配單元;
所述第二匹配單元用于接收所述判斷單元發(fā)送的關聯(lián)于所述說話人的所述識別信號流,且將所述識別信號流分別與一預先形成的復數(shù)個初始識別模型進行匹配,獲取與所述識別信號流匹配成功的所述初始識別模型,并將匹配成功的所述識別信號流發(fā)送給與所述第二匹配單元連接的所述模型更新單元;以及
所述模型更新單元用于接收所述第二匹配單元發(fā)送的匹配成功的所述初始識別模型,并將匹配成功的所述識別信號流作為追加的所述識別信號流的訓練樣本,以對與所述識別信號流匹配成功的所述初始識別模型進行更新。
優(yōu)選的,還包括:
樣本獲取單元,用于獲取預設的所述訓練樣本并發(fā)送給與所述樣本獲取單元連接的模型建立單元;以及
所述模型建立單元用于接收所述樣本獲取單元發(fā)送的預設的所述訓練樣本并根據(jù)預設的所述訓練樣本建立復數(shù)個所述初始識別模型。
優(yōu)選的,所述處理單元具體包括:
分割模塊,用于根據(jù)預設的所述說話人分割算法,將所述反饋語音流分割成多個語音分段,并將所有所述語音分段發(fā)送給與所述分割模塊連接的聚類模塊;以及
所述聚類模塊用于接收所述分割模塊發(fā)送的所述語音分段,并根據(jù)預設的所述說話人聚類算法,將多個所述語音分段進行聚類,生成關聯(lián)于所述說話人的語音信號流。
優(yōu)選的,所述第二匹配單元具體包括:
匹配度獲取模塊,用于將每個所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取所述識別信號流與每個所述初始識別模型的匹 配度,并將所有所述匹配度發(fā)送至與所述匹配度獲取模塊連接的信號流獲取模塊;以及
所述信號流獲取模塊用于接收所述匹配度獲取模塊發(fā)送的所有所述匹配度,并選取大于預設的匹配閾值的多個所述匹配度中最高的所述匹配度所對應的所述初始識別模型。
優(yōu)選的,所述匹配單元具體包括:
匹配度獲取模塊,用于將每個所述說話人的所述識別信號流與復數(shù)個所述初始識別模型進行匹配,獲取所述識別信號流與每個所述初始識別模型的匹配度,并將所有所述匹配度發(fā)送至與所述匹配度獲取模塊連接的信號流獲取模塊;以及
所述信號流獲取模塊用于接收所述匹配度獲取模塊發(fā)送的所有所述匹配度,并選取大于預設的匹配閾值的多個所述匹配度中最高的所述匹配度所對應的所述初始識別模型。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識別模型,并以所述修正識別模型對所述初始識別模型進行更新。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識別模型,并以所述修正識別模型對所述初始識別模型進行更新。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識別模型以及預設的訓練樣本,生成修正識別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識別模型,并以所述修正識別模型對所述初始識別模型進行更新。
一種智能終端,其中,采用上述的識別模型訓練方法。
一種智能終端,其中,包括上述的識別模型訓練系統(tǒng)。
上述技術方案的有益效果是:
1)提供一種識別模型訓練方法,能夠自動識別說話人的語音信號流,無需用戶手動操作即可實現(xiàn)識別模型的訓練,操作簡單,且同時兼顧應用于一般智能終端中形成識別模型所需的較好的實用性以及聲紋識別所需的準確度。
2)提供一種識別模型訓練系統(tǒng),能夠支持實現(xiàn)上述識別模型訓練方法。
附圖說明
圖1是本發(fā)明的實施例一中,一種識別模型訓練方法的流程示意圖;
圖2是本發(fā)明的實施例二中,一種識別模型訓練方法的流程示意圖;
圖3是本發(fā)明的實施例三中,一種識別模型訓練系統(tǒng)的結構示意圖;
圖4是本發(fā)明的實施例四中,識別模型訓練系統(tǒng)中的處理單元的結構示意圖;
圖5是本發(fā)明的實施例五中,識別模型訓練系統(tǒng)中的匹配單元的結構示意圖;
圖6是本發(fā)明的實施例六中,識別模型訓練系統(tǒng)中的模型更新單元的結構示意圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實施例通過獲取至少一個說話人時的初始語音信號流,根據(jù)預設的說話人分割與聚類算法,獲取該初始語音信號流中該至少一個說話人中每一個說話人的分別的語音信號流,進而獲取與初始識別模型相匹配的語音信號流,并將該匹配的語音信號流作為生成該初始識別模型的追加語音信號流訓練樣本,以更新該初始識別模型,使得識別模型精確度得到提高,用戶體驗效果得到提升等。
以下結合具體實施例對本發(fā)明的具體實現(xiàn)進行詳細描述:
實施例一:
圖1示出了本發(fā)明第一實施例提供的識別模型訓練方法的實現(xiàn)流程,詳述如下:
步驟s1,獲取包含至少一個說話人的初始語音信號流。
該實施例中,該識別模型訓練方法可能用于一處于私人空間的智能終端例如智能機器人,因此該初始語音信號流可以為用戶通過該智能終端進行語音聊天或者發(fā)出語音指令等產生的語音信號流,也可以為通過錄音等方式獲取的語音信號流等。具體地,上述識別模型訓練方法同樣可以應用在一個較為開放的空間內,即初始語音信號流的來源可能為有限的多個,因此有可能會收錄到包括多人的初始語音信號流。
步驟s2,將初始語音信號流與一預設的聲紋模型進行匹配,獲取匹配成功的識別語音流,并輸出識別語音流;
步驟s3,獲取說話人的反饋語音流;
上述反饋語音流可以為再智能終端中設置有是否自動在語音交互的過程中啟用聲紋學習功能的開關,用戶根據(jù)需要自行設置;或者在智能終端中設置有聲紋學習功能,用戶可以自行錄制語音信號流。上述反饋語音流通常為音頻流。
步驟s4,根據(jù)預設的說話人分割算法和說話人聚類算法,獲取反饋語音流關聯(lián)于說話人的語音信號流。
該實施例中,將獲得的反饋語音流首先經過說話人分割算法的處理得到多個語音分段;
隨后,將同屬于同一個說話人相關的語音信息的語音分段進行說話人聚類算法的處理,以得到關聯(lián)于說話人的語音信號流。
步驟s5,判斷所有語音信號流中是否存在能夠作為識別對象的語音信號流,并將能夠作為識別對象的語音信號流作為識別信號流輸出。
其中,分別判斷每個語音信號流是否能夠作為識別對象的語音信號流,其方法可以包括下文中的一種或幾種的結合:
1)設定一個標準聲音強度,并分別判斷每個語音信號流對應的聲音強度大于上述標準聲音強度:若是,則表示該語音信號流可以作為識別對象的識別信號流,反之則忽略該語音信號流。
2)設定一個標準音頻時長,并分別判斷每個語音信號流對應的連續(xù)時長是否大于上述標準音頻時長:若是,則表示該語音信號流可以作為識別對象的識別信號流,反之則忽略該語音信號流。
3)設定一個標準頻段,并分別判斷每個語音信號流對應的接收頻率是否處于該標準頻段內:若是,則表示該語音信號流可以作為識別對象的識別信號流,反之則忽略該語音信號流。
4)預先通過聲紋匹配設定一個或多個作為訓練者的說話人,并根據(jù)預先的模糊聲紋匹配的方式確定該一個或多個說話人的語音信號流,以作為識別對象的識別信號流。
上述步驟s5能夠在進行識別模型的更新之前首先對獲取的多個語音信號流進行篩選,排除一些原本就不需要用來作為訓練樣本的語音信號流,從而保證識別模型訓練的訓練樣本來源的精確性,進一步保證根據(jù)識別模型進行聲紋識別的準確度。
步驟s6,將識別信號流分別與預先形成的復數(shù)個初始識別模型進行匹配,獲取與識別信號流匹配成功的初始識別模型。
其中,該初始識別模型為根據(jù)預設的語音信號流的訓練樣本預先建立的識別模型,即預先提供關聯(lián)于預設的語音信號流的多個訓練樣本,并根據(jù)這些訓練樣本訓練形成初始識別模型。該初始識別模型為針對某一人或者多人完成的聲紋注冊過程后形成的特征模型,該注冊過程對訓練語料或稱語音信號流的訓練樣本的長短沒有要求。此時,可以根據(jù)每一個說話人的識別信號流與該初始識別模型的匹配度,來選取匹配成功的識別信號流(下文中會詳述)。
步驟s7,將識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)訓練樣本對與識別信號流匹配成功的初始識別模型進行更新。
具體地,在獲取該匹配成功的初始識別模型后,根據(jù)該匹配成功的初始識別模型以及預設的識別信號流的訓練樣本,調用聲紋注冊算法接口,生成修正識別模型。其中,該預設的訓練樣本也即為生成上述初始識別模型所使用的訓練樣本。上述修正識別模型則為更為精確的識別模型,利用該修正識別模型對上述初始識別模型進行更新(也就是將修正識別模型作為初始識別模型進行保存,以替換之前的初始識別模型),能夠達到模型自適應與智能化 的目的。
本發(fā)明的優(yōu)選的實施例中,對于多個說話人中每個說話人的識別信號流都無法與初始識別模型進行匹配的情況,可以根據(jù)用戶的預先設置新建識別模型并進行記錄。例如,對于首次使用的智能終端,其初始識別模型為空值(null),因此任何新獲取的識別信號流都不可能與其進行匹配。此時可以根據(jù)用戶的設置,識別其中某一個說話人的識別信號流,調用聲紋注冊算法接口新建識別模型,并將其更新為初始識別模型。
本發(fā)明的優(yōu)選實施例中,通過獲取至少一個說話人的初始語音信號流,根據(jù)預設的說話人分割與聚類算法,并且經過判斷分別獲取該初始語音信號流中該每個說話人的識別信號流,進而獲取與初始識別模型相匹配的識別信號流,并將匹配的初始識別模型的追加的識別信號流的訓練樣本,對該初始識別模型進行更新,達到了可以不斷地修正、更新識別模型,不斷提高識別模型的精確度,用戶體驗效果得到提升等的目的。
實施例二:
圖2示出了本發(fā)明第二實施例提供的識別模型訓練方法的實現(xiàn)流程,詳述如下:
步驟s21,根據(jù)預設的訓練樣本建立復數(shù)個初始識別模型。
其中,該初始識別模型為通過調用聲紋注冊算法接口,根據(jù)預設的語音信號流的訓練樣本建立的識別模型,該初始識別模型為針對某一人或者多人完成的聲紋注冊過程后形成的識別模型,該注冊過程對訓練語料或稱語音信號的流訓練樣本的長短沒有要求。且因為本發(fā)明實施例提供的方法可以實現(xiàn)對修正后的模型繼續(xù)動態(tài)修正等操作,因此該初始識別模型可以為利用現(xiàn)有方法獲取的識別模型,也可以為利用本發(fā)明實施例的提供的方法進行修正后的識別模型。
步驟s22,獲取包含至少一個說話人的初始語音信號流。
具體實施例中,由于用戶在說話過程或者多人會話等過程中,一般會出現(xiàn)變化較大的語速、語調、情緒波動等,則通過不斷收集通話過程中的語料能夠盡量消除用戶的各種語調、語速、情緒等因素對于識別模型精確度的偏移,將會大大減少語調、語速、情緒等因素對識別模型精確度的影響,也能夠降低對聲紋識別準確度的影響。
步驟s23,根據(jù)說話人分割算法,將反饋語音流分割成多個語音分段。
步驟s24,根據(jù)說話人聚類算法,將多個語音分段進行聚類,生成關聯(lián)于說話人的語音信號流。
步驟s25,將識別信號流分別與預先形成的復數(shù)個初始識別模型進行匹配,獲取與識別信號流匹配成功的初始識別模型。
該步驟s25具體包括:
將說話人的識別信號流與復數(shù)個初始識別模型進行匹配,獲取識別信號流與每個初始識別模型的匹配度;
選取符合預設條件的匹配度相關的初始識別模型作為匹配成功的初始識別模型。該預設條件包括:1)相關的匹配度大于一預設的匹配閾值;2)相關的匹配度在所有匹配度中的數(shù)值最高。
步驟s26,將識別信號流作為追加的識別信號流的訓練樣本,并依據(jù)訓練樣本對與識別信號流匹配成功的初始識別模型進行更新。
該步驟s26具體包括:
根據(jù)該匹配成功的初始識別模型以及預設的語音信號流的訓練樣本,生成修正識別模型;預設的語音信號流的訓練樣本為生成初始識別模型的語音信號流;
更新該初始識別模型為該修正識別模型。
具體地,將識別信號流作為追加的識別信號流的訓練樣本,也即根據(jù)該匹配成功的識別信號流以及預設的語音信號流的訓練樣本,調用聲紋注冊算法接口,生成修正識別模型,該修正識別模型為更為精確的識別模型(如上文中),達到了模型自適應與智能化的目的。
進一步地,還可以將更新后的識別模型作為初始識別模型,重復上述步驟,不斷地修正、更新識別模型,不斷提高識別模型的精確度。
本發(fā)明的優(yōu)選的實施例中,上述初始識別模型可以有多個,對于每個初始識別模型都可以執(zhí)行上文中的步驟,即通過說話人分割算法及說話人聚類算法獲得不同的識別信號流,并根據(jù)匹配度選擇最匹配的初始識別模型來生成關聯(lián)于該初始識別模型的修正識別模型,并對該初始識別模型進行更新。上述多個初始識別模型分別對應于不同的說話人,即對應于不同的初始識別模型的匹配度最高的識別信號流可以來源于不同的說話人。
本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,的程序可以存儲于一計算機可讀取存儲介質中,的存儲介質,如rom/ram、磁盤、光盤等。
實施例三:
圖3示出了本發(fā)明第三實施例提供的識別模型訓練系統(tǒng)的結構,本發(fā)明實施例三提供的終端可以用于實施本發(fā)明實施例一至二實現(xiàn)的方法,為了便于說明,僅示出了與本發(fā)明實施例相關的部分,具體技術細節(jié)未揭示的,請參照本發(fā)明實施例一與實施例二。
該識別模型訓練系統(tǒng)可以為應用于私人空間或者半開放空間中并支持語音操作的智能終端,例如智能機器人等,則該實施例中以識別模型訓練系統(tǒng)應用于智能機器人中為例,圖3示出的是與本發(fā)明實施例提供的識別模型訓練系統(tǒng)相關的結構框圖。
如圖3所示,上述識別模型訓練系統(tǒng)a具體包括:
獲取單元1,用于獲取包含至少一個說話人的初始語音信號流并發(fā)送給與獲取單元1連接的第一匹配單元8;
第一匹配單元8用于將初始語音信號流與一預設的聲紋模型進行匹配,獲取匹配成功的識別語音流,并輸出識別語音流;
獲取單元1還用于獲取說話人的反饋語音流,并發(fā)送反饋語音流至與獲取單元連接的處理單元2;
處理單元2用于接收獲取單元1發(fā)送的反饋語音流,并根據(jù)預設的說話人分割算法與說話人聚類算法,獲取反饋語音流關聯(lián)于說話人的語音信號流,并將語音信號流發(fā)送給與處理單元2連接的判斷單元3;
判斷單元3用于判斷處理單元2發(fā)送的所有語音信號流中是否存在能夠作為識別對象的語音信號流,并將能夠作為識別對象的語音信號流作為識別信號流輸出至與判斷單元3連接的第二匹配單元4;
第二匹配單元4用于接收判斷單元3發(fā)送的關聯(lián)于說話人的識別信號流,且將識別信號流分別與一預先形成的復數(shù)個初始識別模型進行匹配,獲取與識別信號流匹配成功的初始識別模型,并將匹配成功的識別信號流發(fā)送給與第二匹配單元4連接的模型更新單元5;以及
模型更新單元5用于接收第二匹配單元4發(fā)送的匹配成功的初始識別模 型,并將匹配成功的識別信號流作為追加的識別信號流的訓練樣本,以對與識別信號流匹配成功的初始識別模型進行更新。
該實施例中,上述識別模型訓練系統(tǒng)a進一步包括:
樣本獲取單元6,用于獲取預設的訓練樣本并發(fā)送給與樣本獲取單元連接的模型建立單元7;以及
模型建立單元7用于接收樣本獲取單元發(fā)送的預設的訓練樣本并根據(jù)預設的訓練樣本建立復數(shù)個初始識別模型。
實施例四:
圖4示出了本發(fā)明第四實施例提供的識別模型訓練系統(tǒng)的結構。如圖4所示,識別模型訓練系統(tǒng)中的處理單元2具體包括:
分割模塊21,用于根據(jù)預設的說話人分割算法,將反饋語音流分割成多個語音分段,并將所有語音分段發(fā)送給與分割模塊連接的聚類模塊21;以及
聚類模塊22用于接收分割模塊21發(fā)送的語音分段,并根據(jù)預設的說話人聚類算法,將多個語音分段進行聚類,生成關聯(lián)于說話人的語音信號流。
實施例五:
圖5示出了本發(fā)明第五實施例提供的識別模型訓練系統(tǒng)的結構。如圖5所示,識別模型訓練系統(tǒng)中的第二匹配單元4具體包括:
匹配度獲取模塊41,用于將每個說話人的識別信號流與復數(shù)個初始識別模型進行匹配,獲取識別信號流與每個初始識別模型的匹配度,并將所有匹配度發(fā)送至與匹配度獲取模塊連接的信號流獲取模塊42;以及
信號流獲取模塊42用于接收匹配度獲取模塊41發(fā)送的所有匹配度,并選取大于預設的匹配閾值的多個匹配度中最高的匹配度所對應初始識別模型。
實施例六:
圖6示出了本發(fā)明第六實施例提供的識別模型訓練系統(tǒng)的結構。如圖6所示,識別模型訓練系統(tǒng)中的模型更新單元5具體包括:
修正模塊51,用于根據(jù)匹配成功的初始識別模型以及預設的訓練樣本,生成修正識別模型并發(fā)送至與修正模塊連接的更新模塊52;以及
更新模塊52用于接收修正模塊51發(fā)送的修正識別模型,并以修正識別模型對初始識別模型進行更新。
需要說明的是,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(ram)、內存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術領域內所公知的任意其它形式的存儲介質中。
以上所述的具體實施方式,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。