一種基于信息傳遞的說話人聚類方法

文檔序號：2837484閱讀：336來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于信息傳遞的說話人聚類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語音識別技術(shù)領(lǐng)域，具體地說，本發(fā)明涉及一種說話人聚類方法。
背景技術(shù)：
說話人聚類是近年來語音信號處理領(lǐng)域的一個研究熱點，被廣泛應(yīng)用
于語音識別和說話人識別等領(lǐng)域。這項技術(shù)通常與說話人分^:一起應(yīng)用，也就是通常所說的說話人分段聚類。說話人聚類就是將分段后的語音數(shù)據(jù) 進行分類，將不同說話人的語音數(shù)據(jù)分配到不同的類里。
說話人聚類至今已有許多方法，可以分為兩類有監(jiān)督算法和無監(jiān)督算法。有監(jiān)督聚類一般是指已知對話中說話人的個數(shù)，按照說話人的個數(shù) 進行聚類；無監(jiān)督說話人聚類一般是指對話中說話人的個數(shù)未知，聚類過程找到一個最優(yōu)的聚類數(shù)目以及其相應(yīng)的聚類結(jié)果。目前，說話人聚類領(lǐng) 域最為廣泛應(yīng)用的是基于層次聚類框架的算法，層次聚類初始化計算所有語音段兩兩之間的距離，尋找距離最近的兩段合并成一段，并更新計算其他語音段與該新語音段之間的距離，重復(fù)此過程直到得到所需要的聚類數(shù) 目或者滿足某一全局準(zhǔn)則。但是，這種算法魯棒性還有待提高。同時，此算法需要反復(fù)的計算各類與新類之間的距離(相似度)，這增加了算法的運行時間。因此，現(xiàn)有的很多方法，都是基于此方法上的改進，目的是增強算法的魯棒性和速度。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，針對語音信號的特點，通過不斷迭代計算各數(shù)據(jù)段之間的r值和a值，將這兩個值作為兩段之間的兩種交互信息，形成信息傳遞，從而提出一種魯棒且快速有效的新的無監(jiān)督和有監(jiān)督說話人聚類方法。為實現(xiàn)上述發(fā)明目的，本發(fā)明提供的基于信息傳遞的說話人聚類方法
(可參考圖1)包括初始化過程和尋找聚類中心過程；其中初始化過程包括如下步驟
1) 計算兩兩語音數(shù)據(jù)段(以下簡稱數(shù)據(jù)段)之間的相似度^(a),其中
2) 設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度^,。，其中A表示第A個數(shù)據(jù) 段，將所有的有效值a(a)初始化為零，下文中將有效值(availability)簡稱為a值；
尋找聚類中心過程包括如下子步驟
3) 根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段的優(yōu)先度，計算兩兩數(shù)據(jù)段之間的責(zé)任值Ka)，下文中將責(zé)任值(responsibility)簡稱為r值；根據(jù)各數(shù)據(jù)段的r值，計算兩兩數(shù)據(jù)段之間的a值；
4 )合并r值和a值，以該合并值決策聚類中心；
5)重復(fù)執(zhí)行步驟3)、 4),直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計聚類數(shù)目；
以上各步驟中，f、 *分別表示第/和第*個數(shù)據(jù)段。
上述技術(shù)方案中，所述步驟l)中，所述相似度由兩兩數(shù)據(jù)段的距離得出，所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。
上述技術(shù)方案中，所述步驟2)中，所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度^(JU)均設(shè)定為所有相似度的中值。
上述技術(shù)方案中，所述步驟3 )中，計算兩兩數(shù)據(jù)段之間的責(zé)任值Ka)的方法如下A:) = W, A:) — max + y)]
上式中Ka)表示第/個數(shù)據(jù)段與第&個數(shù)據(jù)段的r值，w表示語音段的數(shù)目。
上述技術(shù)方案中，所述步驟3)中，計算兩兩數(shù)據(jù)段之間a值的方法如
下
當(dāng)yt = /時
Z max(0,r",&))
'.'e[l:W〗,"/t
當(dāng)/時
a(/ min
上式中"(a)表示第/個數(shù)據(jù)段與第yt個數(shù)據(jù)段的a值。上述技術(shù)方案中，所述初始化過程還包括設(shè)定聚類過程中的最大迭代
次數(shù)(MaxitNum)以及收斂迭f^次lt(iteration);
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如
下當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時，認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時，認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時，或者當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時，認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述尋找聚類中心過程在步驟5)完成后，還包括如
下步驟
6)比較步驟5)中統(tǒng)計的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目，當(dāng)二者不相等時，修改各數(shù)據(jù)段的優(yōu)先度，并將各數(shù)據(jù)段的a值重新置零；其中，每個數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進行
s"+i (&，" = & (A，"-鄉(xiāng)x (C - Cexp) 式中&0t,yt)是第n次聚類時第t個數(shù)據(jù)段的優(yōu)先度，C。是第n次聚類時得到的聚類數(shù)目，C^是預(yù)先設(shè)定的已知說話人聚類數(shù)目(即期望得到的聚類數(shù) 目)，w印是自適應(yīng)因子。
本發(fā)明具有如下技術(shù)效果與現(xiàn)有技術(shù)相比，本發(fā)明采用了一種與傳統(tǒng) 的層次聚類等方法截然不同的方法。該方法初始時認(rèn)為每一個數(shù)據(jù)段都是潛在的聚類中心，即認(rèn)為每個數(shù)據(jù)段作為最終的聚類中心的概率是一樣的，這樣可以從一定程度上避免一些不好的聚類決策，所以這個方法具有較強的魯棒性。同時這個方法在運行過程中只需要一次性計算好每兩段之間的距離，在尋找聚類中心的過程中不需要再額外計算距離，層次聚類不但要計算每兩段之間的距離，還需要不斷更新計算新段與其它段之間的距離。而對聚類方法影響最大的便是距離的計算，因此該方法比層次聚類具有更快的運行速度。本發(fā)明也可以用來做無監(jiān)督聚類。

以下，結(jié)合附圖來詳細(xì)i兌明本發(fā)明的實施例，其中
圖l是本發(fā)明的聚類算法框圖2是本發(fā)明一種實施例無監(jiān)督說話人聚類詳細(xì)流程圖。
具體實施例方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
實施例1
本發(fā)明提供的基于信息傳遞的有監(jiān)督說話人聚類方法包括如下步驟步驟101,讀取說話人分段后得到的分段信息。
步驟102,確定語音段的數(shù)目N,設(shè)定聚類過程中的最大迭代次數(shù) (MaxitNum),判斷收斂時的收斂迭代次數(shù)(iteration)。在本實施例中，最大迭代次數(shù)設(shè)為500，收斂迭代次數(shù)設(shè)為50。
步驟103，從輸入語音信號中提取特征矢量序列，本實施例中釆用14-. 維的LSP特征。
步驟104,計算兩兩語音段之間的相似度。將距離加負(fù)號后作為輸入的相似度(這是本領(lǐng)域技術(shù)人員的常用作法)。在實際應(yīng)用中，將第；個數(shù)據(jù)段與第yt個數(shù)據(jù)段的相似度用s(a)表示，其中AW。常用的距離有歐式距離，馬氏距離，KL距離，以及GLR距離等。實用過程中可根據(jù)不同情況選擇距離度量。
在本實施例中采用GLR距離來最為兩兩語音段之間的距離。具體計算公式如下W,"=—《ifi (X ， ^ )， z' # & 上式中s(U)即是所需要的相似度，表示了兩段之間的相似程度。《w(x,.,xj是第/段與第6段之間的GLR距離。x,，^分別是第/段與第A:段的特征向量，它
們可以用兩個高斯模型來表征W(a,，H, ), W(/Vl^ ) 。 glr距離的具體
計算公式如下
"、i /";/ylL,)化;/y二 )、
其中，"*)是似然函數(shù)，少表示特征向量x,和A的結(jié)合，少用混合高斯
w( 5^ )來表征。
步驟105,選取優(yōu)先度，將所有語音段作為聚類中心的優(yōu)先度都設(shè)定為
所有相似度的中值。本發(fā)明中，每個數(shù)據(jù)段被選做聚類中心的幾率是相等的，
故所有語音段的優(yōu)先度(;^/em^)都設(shè)為同一個值，即所有相似度的中值。這些優(yōu)先度的大小關(guān)系到最終的聚類類別的數(shù)目，通過更改此值，可以得到不同的聚類數(shù)目。本發(fā)明就是通過這一條件來得到期望的聚類類別數(shù)目。優(yōu) 先度在公式中用^t,"來表示。所有的優(yōu)先度^^)都通過以下公式來計算 s(A:，A:) = wed/a",=1:JV>1: ,w|>(/，A:)]
其中m^an符號表示中值。
步驟106,將所有的有效值(a值)初始化為零；用"(a)來表示第z'個數(shù) 據(jù)段與第yt個數(shù)據(jù)段的a值。這個a值反映了除第yt個數(shù)據(jù)段以外的其他所有數(shù)據(jù)段相比，第/個數(shù)據(jù)段選擇第A個數(shù)據(jù)段作為它的聚類中心的合適程度。
10步驟107，根據(jù)以下公式計算r值
<formula>formula see original document page 11</formula>
上式中r(a)表示第/個數(shù)據(jù)段與第々個數(shù)據(jù)段的r值。這個r值反映了第*個數(shù)據(jù)段與其他第/個數(shù)據(jù)段的潛在的聚類中心相比，第個數(shù)據(jù)段作為第/個數(shù)據(jù)段的聚類中心的適合程度。根據(jù)以下公式計算a值
<formula>formula see original document page 11</formula>
當(dāng)yt*/時
<formula>formula see original document page 11</formula>
步驟108,計算所有r(a)+a(a)的值，對每一個/尋找相應(yīng)的使 Ka)+"(a)最大的&。對第/個數(shù)據(jù)段來說，使Ka)+a(a)的值最大的那個數(shù)據(jù)段&=/時，說明第；個數(shù)據(jù)段是聚類中心，如果^",說明第/t個數(shù)據(jù)段是第/個數(shù)據(jù)段的聚類中心。
步驟109,重復(fù)執(zhí)行步驟107、步驟108，按照一定準(zhǔn)則找到穩(wěn)定的聚類
中心后，結(jié)束一次聚類，統(tǒng)計聚類數(shù)目。所述準(zhǔn)則為當(dāng)聚類中心的決策結(jié)果
持續(xù)一定數(shù)目的迭代次數(shù)保持不變時(如持續(xù)50次迭代中，決策結(jié)果保持
不變)，或者迭代次數(shù)達(dá)到最大迭代次數(shù)時，認(rèn)為此時的聚類決策穩(wěn)定可靠，從而停止該次聚類。
步驟IIO，若步驟109中得到的聚類數(shù)目不是指定的數(shù)目，則修改每個語音段的優(yōu)先度，這個優(yōu)先度影響到每次迭代聚類得到的類數(shù)目。重復(fù)步驟
106)、 107)、 108)、 109)，直到得到的聚類數(shù)目與指定的聚類數(shù)目相同，則
此時輸出聚類結(jié)果。在此步驟中每個語音段的優(yōu)先度的修改根據(jù)以下公式
、+, (&， A;) = s A;)—W印x (C — Cexp)
上式中 (yfc,yt)是第n次聚類時每個數(shù)據(jù)段的優(yōu)先度，C。是第n次聚類時得到的聚類數(shù)目，C^是期望得到的聚類數(shù)目，w印是自適應(yīng)因子，可以根據(jù) 實驗或經(jīng)驗來設(shè)定。
通過以上步驟就可以完成有監(jiān)督說話人聚類。實施例2
如圖2所示，本發(fā)明提供的基于信息傳遞的無監(jiān)督說話人聚類方法包括如下步驟(本實施例中的訴述大部分步驟與實施例1相同，故對這些步驟不再作詳細(xì)講解)
步驟IOI，讀取說話人分段后得到的分段信息。
步驟102,確定語音段的數(shù)目，設(shè)定聚類過程中的最大迭代次數(shù)，判斷收斂時的迭代次數(shù)，以及衰減因子。
步驟103，從輸入語音信號中提取特征矢量序列。
步驟104，計算兩兩語音段之間的相似度。
步驟105,選取優(yōu)先度。
步驟106，將所有的a值初始化為零；
步驟107 ，根據(jù)公式計算r值和a值
步驟108,計算所有K!'," + "(a)的值，尋找聚類中心。步驟109,重復(fù)執(zhí)行步驟108,按照準(zhǔn)則找到穩(wěn)定的聚類中心后，停止聚類。
由上可見該無監(jiān)督說話人聚類可以作為有監(jiān)督說話人聚類的一部分來看待。有監(jiān)督說話人聚類就是不斷重復(fù)執(zhí)行無監(jiān)督說話人聚類過程，對每個語音段尋找合適的優(yōu)先度，從而得到期望的聚類數(shù)目，實現(xiàn)有監(jiān)i^聚類。
最后，最后所應(yīng)說明的是，以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進行了詳細(xì)說明，本領(lǐng)域的普通技術(shù) 人員應(yīng)當(dāng)理解，對本發(fā)明的技術(shù)方案進行修改或者等同替換，都不脫離本發(fā)明技術(shù)方案的精神和范圍，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1. 一種基于信息傳遞的說話人聚類方法，包括初始化過程和尋找聚類中心過程；其中初始化過程包括如下步驟1)計算兩兩數(shù)據(jù)段之間的相似度s(i，k)，其中k≠i；2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k，k)，其中k表示第k個數(shù)據(jù)段，將所有的有效值a(i，k)初始化為零；尋找聚類中心過程包括如下子步驟3)根據(jù)兩兩數(shù)據(jù)段之間的有效值和各數(shù)據(jù)段優(yōu)先度，計算兩兩數(shù)據(jù)段之間的責(zé)任值r(i，k)；然后根據(jù)兩兩數(shù)據(jù)段之間的責(zé)任值，再計算兩兩數(shù)據(jù)段之間的有效值；4)將相應(yīng)的責(zé)任值和有效值合并，以該合并值決策聚類中心；5)重復(fù)執(zhí)行步驟3)、4)，直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計聚類數(shù)目；以上各步驟中，i、k分別表示第i和第k個數(shù)據(jù)段。
2. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟l)中，所述相似度由兩兩數(shù)據(jù)段的距離得出，所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。
3. 根據(jù)權(quán)利要求2所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟2)中，所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度^U)均設(shè)定為所有相似度的中值。
4. 根據(jù)權(quán)利要求3所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟3)中，計算兩兩數(shù)據(jù)段之間的責(zé)任值r(a)的方法如下 r(z', A) = A:) - max _/ ) +上式中Ka)表示第/個數(shù)據(jù)段與第A個數(shù)據(jù)段的r值，N表示數(shù)據(jù)段的個數(shù)。
5. 根據(jù)權(quán)利要求4所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟3)中，計算兩兩數(shù)據(jù)段之間的有效值的方法如下當(dāng)A = /時a(/,A): Z max(0,W', A))/e[l:W],;W當(dāng)AW時a(/,A) = min
上式中"(a)表示第/個數(shù)據(jù)段與第yt個數(shù)據(jù)段的a值，N表示數(shù)據(jù)段的個數(shù)。
6. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述初始化過程還包括設(shè)定聚類過程中的最大迭代次數(shù)以及收斂迭代次數(shù)。
7. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)?shù)螖?shù) 達(dá)到最大迭代次數(shù)時，認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
8. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時，認(rèn)為此時的聚類中心是穩(wěn) 定的聚類中心，所述一定數(shù)目是所設(shè)定的收斂迭代次數(shù)。
9. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時，或者當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時，認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心，所述一定數(shù)目是所設(shè) 定的收斂迭代次數(shù)。
10. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述尋找聚類中心過程在步驟5)完成后，還包括如下步驟6)比較步驟5 )中統(tǒng)計的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目，當(dāng)二者不相等時，修改各數(shù)據(jù)段的優(yōu)先度，并將各數(shù)據(jù)段的有效值重新置零；其中，每個數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進行■Vi (&,幻=& W _ w卬x (c — C呻) 式中&0t,Q是第n次聚類時第A個數(shù)據(jù)段的優(yōu)先度，c;是第n次聚類時得到的聚類數(shù)目，Cexp是預(yù)先設(shè)定的已知說話人聚類數(shù)目，rf印是自適應(yīng)因子。
全文摘要
本發(fā)明提供一種基于信息傳遞的說話人聚類方法，包括如下步驟1)計算兩兩數(shù)據(jù)段之間的相似度s(i，k)，其中k≠i；2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k，k)，其中k表示第k個數(shù)據(jù)段，將所有的a值a(i，k)初始化為零；3)根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段優(yōu)先度，計算兩兩數(shù)據(jù)段之間的r值r(i，k)；然后根據(jù)兩兩數(shù)據(jù)段之間的r值，再計算兩兩數(shù)據(jù)段之間的a值；4)將r值和a值合并，以該合并值決策聚類中心；5)重復(fù)執(zhí)行步驟3)、4)，直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計聚類數(shù)目本發(fā)明初始時認(rèn)為每一個數(shù)據(jù)段都是潛在的聚類中心，具有較強的魯棒性。同時本發(fā)明只需要一次性計算每兩段之間的距離，具有更快的運行速度。
文檔編號G10L17/00GK101452704SQ20071017836
公開日2009年6月10日申請日期2007年11月29日優(yōu)先權(quán)日2007年11月29日
發(fā)明者萍呂, 翔張, 顏永紅申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顏永紅;呂萍;張翔
技術(shù)所有人：中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息傳遞的方法相關(guān)技術(shù)

現(xiàn)代信息傳遞方法相關(guān)技術(shù)

信息傳遞方法相關(guān)技術(shù)

古代信息傳遞方法相關(guān)技術(shù)

古代信息傳遞的方法相關(guān)技術(shù)

信息傳遞有哪些方法相關(guān)技術(shù)

現(xiàn)代信息傳遞的方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于信息傳遞的說話人聚類方法