專利名稱:一種基于信息傳遞的說話人聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種說話人聚 類方法。
背景技術(shù):
說話人聚類是近年來語音信號處理領(lǐng)域的一個研究熱點,被廣泛應(yīng)用
于語音識別和說話人識別等領(lǐng)域。這項技術(shù)通常與說話人分^:一起應(yīng)用, 也就是通常所說的說話人分段聚類。說話人聚類就是將分段后的語音數(shù)據(jù) 進行分類,將不同說話人的語音數(shù)據(jù)分配到不同的類里。
說話人聚類至今已有許多方法,可以分為兩類有監(jiān)督算法和無監(jiān)督 算法。有監(jiān)督聚類一般是指已知對話中說話人的個數(shù),按照說話人的個數(shù) 進行聚類;無監(jiān)督說話人聚類一般是指對話中說話人的個數(shù)未知,聚類過 程找到一個最優(yōu)的聚類數(shù)目以及其相應(yīng)的聚類結(jié)果。目前,說話人聚類領(lǐng) 域最為廣泛應(yīng)用的是基于層次聚類框架的算法,層次聚類初始化計算所有 語音段兩兩之間的距離,尋找距離最近的兩段合并成一段,并更新計算其 他語音段與該新語音段之間的距離,重復(fù)此過程直到得到所需要的聚類數(shù) 目或者滿足某一全局準(zhǔn)則。但是,這種算法魯棒性還有待提高。同時,此 算法需要反復(fù)的計算各類與新類之間的距離(相似度),這增加了算法的 運行時間。因此,現(xiàn)有的很多方法,都是基于此方法上的改進,目的是增 強算法的魯棒性和速度。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,針對語音信號的特點,通過不 斷迭代計算各數(shù)據(jù)段之間的r值和a值,將這兩個值作為兩段之間的兩種 交互信息,形成信息傳遞,從而提出一種魯棒且快速有效的新的無監(jiān)督和 有監(jiān)督說話人聚類方法。為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的基于信息傳遞的說話人聚類方法
(可參考圖1)包括初始化過程和尋找聚類中心過程; 其中初始化過程包括如下步驟
1) 計算兩兩語音數(shù)據(jù)段(以下簡稱數(shù)據(jù)段)之間的相似度^(a),其中
2) 設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度^,。,其中A表示第A個數(shù)據(jù) 段,將所有的有效值a(a)初始化為零,下文中將有效值(availability)簡 稱為a值;
尋找聚類中心過程包括如下子步驟
3) 根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段的優(yōu)先度,計算兩兩數(shù)據(jù)段之 間的責(zé)任值Ka),下文中將責(zé)任值(responsibility)簡稱為r值;根據(jù)各 數(shù)據(jù)段的r值,計算兩兩數(shù)據(jù)段之間的a值;
4 )合并r值和a值,以該合并值決策聚類中心;
5)重復(fù)執(zhí)行步驟3)、 4),直到找到穩(wěn)定的聚類中心,結(jié)束聚類,統(tǒng)計 聚類數(shù)目;
以上各步驟中,f、 *分別表示第/和第*個數(shù)據(jù)段。
上述技術(shù)方案中,所述步驟l)中,所述相似度由兩兩數(shù)據(jù)段的距離得 出,所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。
上述技術(shù)方案中,所述步驟2)中,所述各數(shù)據(jù)段作為聚類中心的優(yōu)先 度^(JU)均設(shè)定為所有相似度的中值。
上述技術(shù)方案中,所述步驟3 )中,計算兩兩數(shù)據(jù)段之間的責(zé)任值Ka)的 方法如下A:) = W, A:) — max + y)]
上式中Ka)表示第/個數(shù)據(jù)段與第&個數(shù)據(jù)段的r值,w表示語音 段的數(shù)目。
上述技術(shù)方案中,所述步驟3)中,計算兩兩數(shù)據(jù)段之間a值的方法如
下
當(dāng)yt = /時
Z max(0,r",&))
'.'e[l:W〗,"/t
當(dāng)/時
a(/ min
上式中"(a)表示第/個數(shù)據(jù)段與第yt個數(shù)據(jù)段的a值。 上述技術(shù)方案中,所述初始化過程還包括設(shè)定聚類過程中的最大迭代
次數(shù)(MaxitNum)以及收斂迭f^次lt(iteration);
上述技術(shù)方案中,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如
下當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時,認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如 下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時,認(rèn)為此時的聚 類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如 下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時,或者當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時,認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中,所述尋找聚類中心過程在步驟5)完成后,還包括如
下步驟
6)比較步驟5)中統(tǒng)計的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目, 當(dāng)二者不相等時,修改各數(shù)據(jù)段的優(yōu)先度,并將各數(shù)據(jù)段的a值重新置零; 其中,每個數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進行
s"+i (&," = & (A,"-鄉(xiāng)x (C - Cexp) 式中&0t,yt)是第n次聚類時第t個數(shù)據(jù)段的優(yōu)先度,C。是第n次聚類時得到 的聚類數(shù)目,C^是預(yù)先設(shè)定的已知說話人聚類數(shù)目(即期望得到的聚類數(shù) 目),w印是自適應(yīng)因子。
本發(fā)明具有如下技術(shù)效果與現(xiàn)有技術(shù)相比,本發(fā)明采用了一種與傳統(tǒng) 的層次聚類等方法截然不同的方法。該方法初始時認(rèn)為每一個數(shù)據(jù)段都是潛 在的聚類中心,即認(rèn)為每個數(shù)據(jù)段作為最終的聚類中心的概率是一樣的,這 樣可以從一定程度上避免一些不好的聚類決策,所以這個方法具有較強的魯 棒性。同時這個方法在運行過程中只需要一次性計算好每兩段之間的距離, 在尋找聚類中心的過程中不需要再額外計算距離,層次聚類不但要計算每兩 段之間的距離,還需要不斷更新計算新段與其它段之間的距離。而對聚類方 法影響最大的便是距離的計算,因此該方法比層次聚類具有更快的運行速 度。本發(fā)明也可以用來做無監(jiān)督聚類。
以下,結(jié)合附圖來詳細(xì)i兌明本發(fā)明的實施例,其中
圖l是本發(fā)明的聚類算法框圖2是本發(fā)明一種實施例無監(jiān)督說話人聚類詳細(xì)流程圖。
具體實施例方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
實施例1
本發(fā)明提供的基于信息傳遞的有監(jiān)督說話人聚類方法包括如下步驟 步驟101,讀取說話人分段后得到的分段信息。
步驟102,確定語音段的數(shù)目N,設(shè)定聚類過程中的最大迭代次數(shù) (MaxitNum),判斷收斂時的收斂迭代次數(shù)(iteration)。在本實施例中,最 大迭代次數(shù)設(shè)為500,收斂迭代次數(shù)設(shè)為50。
步驟103,從輸入語音信號中提取特征矢量序列,本實施例中釆用14-. 維的LSP特征。
步驟104,計算兩兩語音段之間的相似度。將距離加負(fù)號后作為輸入的 相似度(這是本領(lǐng)域技術(shù)人員的常用作法)。在實際應(yīng)用中,將第;個數(shù)據(jù)段 與第yt個數(shù)據(jù)段的相似度用s(a)表示,其中AW。常用的距離有歐式距離, 馬氏距離,KL距離,以及GLR距離等。實用過程中可根據(jù)不同情況選擇距離度量。
在本實施例中采用GLR距離來最為兩兩語音段之間的距離。具體計算公 式如下W,"=—《ifi (X , ^ ), z' # & 上式中s(U)即是所需要的相似度,表示了兩段之間的相似程度。《w(x,.,xj是 第/段與第6段之間的GLR距離。x,,^分別是第/段與第A:段的特征向量,它
們可以用兩個高斯模型來表征W(a,,H, ), W(/Vl^ ) 。 glr距離的具體
計算公式如下
"、i /";/ylL,)化;/y二 )、
其中,"*)是似然函數(shù),少表示特征向量x,和A的結(jié)合,少用混合高斯
w( 5^ )來表征。
步驟105,選取優(yōu)先度,將所有語音段作為聚類中心的優(yōu)先度都設(shè)定為
所有相似度的中值。本發(fā)明中,每個數(shù)據(jù)段被選做聚類中心的幾率是相等的,
故所有語音段的優(yōu)先度(;^/em^)都設(shè)為同 一個值,即所有相似度的中值。 這些優(yōu)先度的大小關(guān)系到最終的聚類類別的數(shù)目,通過更改此值,可以得到 不同的聚類數(shù)目。本發(fā)明就是通過這一條件來得到期望的聚類類別數(shù)目。優(yōu) 先度在公式中用^t,"來表示。所有的優(yōu)先度^^)都通過以下公式來計算 s(A:,A:) = wed/a",=1:JV>1: ,w|>(/,A:)]
其中m^an符號表示中值。
步驟106,將所有的有效值(a值)初始化為零;用"(a)來表示第z'個數(shù) 據(jù)段與第yt個數(shù)據(jù)段的a值。這個a值反映了除第yt個數(shù)據(jù)段以外的其他所 有數(shù)據(jù)段相比,第/個數(shù)據(jù)段選擇第A個數(shù)據(jù)段作為它的聚類中心的合適程 度。
10步驟107,根據(jù)以下公式計算r值
<formula>formula see original document page 11</formula>
上式中r(a)表示第/個數(shù)據(jù)段與第々個數(shù)據(jù)段的r值。這個r值反映了 第*個數(shù)據(jù)段與其他第/個數(shù)據(jù)段的潛在的聚類中心相比,第個數(shù)據(jù)段作為 第/個數(shù)據(jù)段的聚類中心的適合程度。 根據(jù)以下公式計算a值
<formula>formula see original document page 11</formula>
當(dāng)yt*/時
<formula>formula see original document page 11</formula>
步驟108,計算所有r(a)+a(a)的值,對每一個/尋找相應(yīng)的使 Ka)+"(a)最大的&。對第/個數(shù)據(jù)段來說,使Ka)+a(a)的值最大的那個 數(shù)據(jù)段&=/時,說明第;個數(shù)據(jù)段是聚類中心,如果^",說明第/t個數(shù)據(jù)段 是第/個數(shù)據(jù)段的聚類中心。
步驟109,重復(fù)執(zhí)行步驟107、步驟108,按照一定準(zhǔn)則找到穩(wěn)定的聚類
中心后,結(jié)束一次聚類,統(tǒng)計聚類數(shù)目。所述準(zhǔn)則為當(dāng)聚類中心的決策結(jié)果
持續(xù)一定數(shù)目的迭代次數(shù)保持不變時(如持續(xù)50次迭代中,決策結(jié)果保持
不變),或者迭代次數(shù)達(dá)到最大迭代次數(shù)時,認(rèn)為此時的聚類決策穩(wěn)定可靠, 從而停止該次聚類。
步驟IIO,若步驟109中得到的聚類數(shù)目不是指定的數(shù)目,則修改每個語音段的優(yōu)先度,這個優(yōu)先度影響到每次迭代聚類得到的類數(shù)目。重復(fù)步驟
106)、 107)、 108)、 109),直到得到的聚類數(shù)目與指定的聚類數(shù)目相同,則
此時輸出聚類結(jié)果。在此步驟中每個語音段的優(yōu)先度的修改根據(jù)以下公式
、+, (&, A;) = s A;)—W印x (C — Cexp)
上式中 (yfc,yt)是第n次聚類時每個數(shù)據(jù)段的優(yōu)先度,C。是第n次聚類時 得到的聚類數(shù)目,C^是期望得到的聚類數(shù)目,w印是自適應(yīng)因子,可以根據(jù) 實驗或經(jīng)驗來設(shè)定。
通過以上步驟就可以完成有監(jiān)督說話人聚類。 實施例2
如圖2所示,本發(fā)明提供的基于信息傳遞的無監(jiān)督說話人聚類方法包括 如下步驟(本實施例中的訴述大部分步驟與實施例1相同,故對這些步驟不 再作詳細(xì)講解)
步驟IOI,讀取說話人分段后得到的分段信息。
步驟102,確定語音段的數(shù)目,設(shè)定聚類過程中的最大迭代次數(shù),判斷 收斂時的迭代次數(shù),以及衰減因子。
步驟103,從輸入語音信號中提取特征矢量序列。
步驟104,計算兩兩語音段之間的相似度。
步驟105,選取優(yōu)先度。
步驟106,將所有的a值初始化為零;
步驟107 ,根據(jù)公式計算r值和a值
步驟108,計算所有K!'," + "(a)的值,尋找聚類中心。步驟109,重復(fù)執(zhí)行步驟108,按照準(zhǔn)則找到穩(wěn)定的聚類中心后,停止聚類。
由上可見該無監(jiān)督說話人聚類可以作為有監(jiān)督說話人聚類的 一部分來看 待。有監(jiān)督說話人聚類就是不斷重復(fù)執(zhí)行無監(jiān)督說話人聚類過程,對每個 語音段尋找合適的優(yōu)先度,從而得到期望的聚類數(shù)目,實現(xiàn)有監(jiān)i^聚類。
最后,最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案 而非限制。盡管參照實施例對本發(fā)明進行了詳細(xì)說明,本領(lǐng)域的普通技術(shù) 人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進行修改或者等同替換,都不脫離本 發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1. 一種基于信息傳遞的說話人聚類方法,包括初始化過程和尋找聚類中心過程;其中初始化過程包括如下步驟1)計算兩兩數(shù)據(jù)段之間的相似度s(i,k),其中k≠i;2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k,k),其中k表示第k個數(shù)據(jù)段,將所有的有效值a(i,k)初始化為零;尋找聚類中心過程包括如下子步驟3)根據(jù)兩兩數(shù)據(jù)段之間的有效值和各數(shù)據(jù)段優(yōu)先度,計算兩兩數(shù)據(jù)段之間的責(zé)任值r(i,k);然后根據(jù)兩兩數(shù)據(jù)段之間的責(zé)任值,再計算兩兩數(shù)據(jù)段之間的有效值;4)將相應(yīng)的責(zé)任值和有效值合并,以該合并值決策聚類中心;5)重復(fù)執(zhí)行步驟3)、4),直到找到穩(wěn)定的聚類中心,結(jié)束聚類,統(tǒng)計聚類數(shù)目;以上各步驟中,i、k分別表示第i和第k個數(shù)據(jù)段。
2. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述步驟l)中,所述相似度由兩兩數(shù)據(jù)段的距離得出,所述距離可 以是歐式距離、馬氏距離、KL距離或GLR距離。
3. 根據(jù)權(quán)利要求2所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述步驟2)中,所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度^U)均設(shè)定為 所有相似度的中值。
4. 根據(jù)權(quán)利要求3所述的基于信息傳遞的說話人聚類方法,其特征在于,所述步驟3)中,計算兩兩數(shù)據(jù)段之間的責(zé)任值r(a)的方法如下 r(z', A) = A:) - max _/ ) +上式中Ka)表示第/個數(shù)據(jù)段與第A個數(shù)據(jù)段的r值,N表示數(shù)據(jù)段的個數(shù)。
5. 根據(jù)權(quán)利要求4所述的基于信息傳遞的說話人聚類方法,其特征在 于,所述步驟3)中,計算兩兩數(shù)據(jù)段之間的有效值的方法如下當(dāng)A = /時a(/,A): Z max(0,W', A))/e[l:W],;W當(dāng)AW時a(/,A) = min
上式中"(a)表示第/個數(shù)據(jù)段與第yt個數(shù)據(jù)段的a值,N表示數(shù)據(jù)段 的個數(shù)。
6. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述初始化過程還包括設(shè)定聚類過程中的最大迭代次數(shù)以及收斂迭 代次數(shù)。
7. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)?shù)螖?shù) 達(dá)到最大迭代次數(shù)時,認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心。
8. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法,其特征在于,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時,認(rèn)為此時的聚類中心是穩(wěn) 定的聚類中心,所述一定數(shù)目是所設(shè)定的收斂迭代次數(shù)。
9. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述步驟5)中,所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心 的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時,或者當(dāng)?shù)螖?shù)達(dá)到最大 迭代次數(shù)時,認(rèn)為此時的聚類中心是穩(wěn)定的聚類中心,所述一定數(shù)目是所設(shè) 定的收斂迭代次數(shù)。
10. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法,其特征 在于,所述尋找聚類中心過程在步驟5)完成后,還包括如下步驟6)比較步驟5 )中統(tǒng)計的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目, 當(dāng)二者不相等時,修改各數(shù)據(jù)段的優(yōu)先度,并將各數(shù)據(jù)段的有效值重新置零; 其中,每個數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進行■Vi (&,幻=& W _ w卬x (c — C呻) 式中&0t,Q是第n次聚類時第A個數(shù)據(jù)段的優(yōu)先度,c;是第n次聚類時得到 的聚類數(shù)目,Cexp是預(yù)先設(shè)定的已知說話人聚類數(shù)目,rf印是自適應(yīng)因子。
全文摘要
本發(fā)明提供一種基于信息傳遞的說話人聚類方法,包括如下步驟1)計算兩兩數(shù)據(jù)段之間的相似度s(i,k),其中k≠i;2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k,k),其中k表示第k個數(shù)據(jù)段,將所有的a值a(i,k)初始化為零;3)根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段優(yōu)先度,計算兩兩數(shù)據(jù)段之間的r值r(i,k);然后根據(jù)兩兩數(shù)據(jù)段之間的r值,再計算兩兩數(shù)據(jù)段之間的a值;4)將r值和a值合并,以該合并值決策聚類中心;5)重復(fù)執(zhí)行步驟3)、4),直到找到穩(wěn)定的聚類中心,結(jié)束聚類,統(tǒng)計聚類數(shù)目本發(fā)明初始時認(rèn)為每一個數(shù)據(jù)段都是潛在的聚類中心,具有較強的魯棒性。同時本發(fā)明只需要一次性計算每兩段之間的距離,具有更快的運行速度。
文檔編號G10L17/00GK101452704SQ20071017836
公開日2009年6月10日 申請日期2007年11月29日 優(yōu)先權(quán)日2007年11月29日
發(fā)明者萍 呂, 翔 張, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司