專利名稱:用于識別語音情感變化的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號處理領(lǐng)域,特別涉及一種用于從說話人的語音數(shù)據(jù)中識別說 話人的語音情感變化的設(shè)備和方法。
背景技術(shù):
如今,分析說話人的語音數(shù)據(jù)以識別說話人的語音情感已經(jīng)變得很重要。例如,語 音情感識別技術(shù)可以應(yīng)用于人機(jī)交互領(lǐng)域,并且由此可以大大改善人機(jī)交互的友好性和準(zhǔn) 確性。因此,在現(xiàn)有技術(shù)中提出了各種用于從說話人的語音數(shù)據(jù)中識別說話人的 語音情感的方案。例如,請參見日本專利申請公開No. 2008-076905和中國專利申請 No.200610097301. 6。傳統(tǒng)的方案僅僅注重于通過從說話人的語音數(shù)據(jù)中提取諸如基頻、能量和共振峰 等語音情感特征來識別說話人的語音情感。然而,由于不同說話人的語音情感特征是不同 的,并且甚至同一說話人的語音情感特征在不同的時期也是不同的,因此在傳統(tǒng)的方案中 難以準(zhǔn)確地識別個人化語音數(shù)據(jù)的語音情感。另一方面,在很多應(yīng)用中,從說話人的語音中識別情感變化而非從語音中識別情 感更令人感興趣。例如,在視頻廣告應(yīng)用中,在視頻中演員的情感由“平靜”轉(zhuǎn)為“激動”的 時間點(diǎn)是在視頻中插入廣告的適當(dāng)時間點(diǎn)。因此,在這樣的應(yīng)用中,準(zhǔn)確地從說話人的語音 數(shù)據(jù)中識別說話人的語音情感變化就足矣。然而,由于在傳統(tǒng)的方案中語音情感識別的不 準(zhǔn)確,因此根據(jù)傳統(tǒng)方案的語音情感識別結(jié)果難以準(zhǔn)確地識別個人化語音數(shù)據(jù)的語音情感 變化。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。但是,應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定 本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡 化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。鑒于現(xiàn)有技術(shù)的上述情形,本發(fā)明的目的是提供一種用于從說話人的語音數(shù)據(jù)中 識別說話人的語音情感變化的設(shè)備和方法,其能夠在個人化語音數(shù)據(jù)的語音情感變化識別 上提供良好的性能。為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例提供了一種從說話人的語音數(shù)據(jù)中識別所述 說話人的語音情感變化的方法,其可以包括以下步驟窗口分割步驟,將所述說話人的所述 語音數(shù)據(jù)按窗口寬度分割成多個窗口 ;窗口語音情感特征計(jì)算步驟,針對所述多個窗口中 的每個窗口,計(jì)算語音情感特征;以及語音情感變化識別步驟,通過將由至少兩個連續(xù)窗口 構(gòu)成的窗口集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征 變化模板中的每個模板進(jìn)行比較,以找出與所述窗口集的語音情感特征匹配的語音情感特征變化模板,對所述窗口集識別所述說話人的語音情感變化。此外,本發(fā)明的實(shí)施例提供了一種用于從說話人的語音數(shù)據(jù)中識別所述說話人的 語音情感變化的設(shè)備,其可以包括窗口分割裝置,用于將所述說話人的所述語音數(shù)據(jù)按窗 口寬度分割成多個窗口 ;窗口語音情感特征計(jì)算裝置,用于針對所述多個窗口中的每個窗 口,計(jì)算語音情感特征;以及語音情感變化識別裝置,用于通過將由至少兩個連續(xù)窗口構(gòu)成 的窗口集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化 模板中的每個模板進(jìn)行比較,以找出與所述窗口集的語音情感特征匹配的語音情感特征變 化模板,對所述窗口集識別所述說話人的語音情感變化。此外,本發(fā)明的實(shí)施例提供了一種存儲有計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),其中所 述計(jì)算機(jī)程序在執(zhí)行時使得計(jì)算機(jī)執(zhí)行上述用于從說話人的語音數(shù)據(jù)中識別說話人的語 音情感變化的方法。根據(jù)本發(fā)明的上述技術(shù)方案,鑒于諸如“喜”、“怒”、“哀”、“樂”、“害怕”等語音情感 的變化總是伴隨著諸如語音基頻、語音能量、語音速度等語音情感特征的顯著變化,通過直 接分析說話人的語音數(shù)據(jù)中的語音情感特征變化,可以準(zhǔn)確地從說話人的語音數(shù)據(jù)中識別 說話人的語音情感變化。根據(jù)下面結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述,本發(fā)明的這些和其他優(yōu)點(diǎn) 將會變得更加清楚。
本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中 在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下 面的詳細(xì)說明一起包含在本說明書中并形成說明書的一部分,用來進(jìn)一步舉例說明本發(fā)明 的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1是示出根據(jù)本發(fā)明實(shí)施例的從說話人的語音數(shù)據(jù)中識別說話人的語音情感 變化的方法的流程圖;圖2是示出圖1的語音情感變化識別步驟S130的實(shí)現(xiàn)示例的流程圖;圖3示意性地示出了從說話人A和B之間的對話數(shù)據(jù)中提取的說話人A的兩個語 音片斷的波形圖;圖4示意性地示出了從圖3的兩個語音片斷中分別提取的基頻變化圖;圖5示意性地示出了與圖3的兩個語音片斷對應(yīng)的兩個窗口的基頻變化圖,其中 窗口寬度是這兩個語音片斷的最小長度,并且奇異點(diǎn)被去除;圖6示意性地示出了與圖3的兩個語音片斷對應(yīng)的很多窗口的基頻變化圖,其中 窗口寬度是10ms,并且奇點(diǎn)被去除;圖7示出了在本發(fā)明的實(shí)施例中采用的語音情感特征變化數(shù)據(jù)庫的示例性結(jié)構(gòu);圖8是示出根據(jù)本發(fā)明實(shí)施例的用于從說話人的語音數(shù)據(jù)中識別說話人的語音 情感變化的設(shè)備的構(gòu)造的框圖;圖9是示出圖8的語音情感變化識別裝置830的示例性構(gòu)造的框圖;以及圖10是示出可以實(shí)施本發(fā)明的計(jì)算機(jī)的示例性構(gòu)造的框圖。
具體實(shí)施例方式在下文中將結(jié)合附圖對本發(fā)明的示例性實(shí)施例進(jìn)行描述。為了清楚和簡明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施 例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo)。還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅 示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系 不大的其他細(xì)節(jié)。圖1是示出根據(jù)本發(fā)明實(shí)施例的從說話人的語音數(shù)據(jù)中識別說話人的語音情感 變化的方法的流程圖。說話人的語音數(shù)據(jù)可以通過諸如錄音設(shè)備、電話、PDA等外部設(shè)備輸 入。此外,說話人的語音數(shù)據(jù)可以是來自說話人的整段連續(xù)語音數(shù)據(jù),例如,演講者所作的 口頭演講??商孢x地,說話人的語音數(shù)據(jù)可以由說話人的一個或多個連續(xù)語音片斷構(gòu)成,其 中這些語音片斷是從包括該說話人的多個說話人的對話數(shù)據(jù)中提取出來的,例如,在呼叫 中心應(yīng)用中從客戶和呼叫中心代表之間的電話交談數(shù)據(jù)中提取的客戶的一個或多個連續(xù) 語音片斷。這里,不同說話人的辨別可以采用sndpeek等來實(shí)現(xiàn)。例如,圖3示意性地示出了從說話人A和B之間的對話數(shù)據(jù)中提取的說話人A的 兩個語音片斷(a)和(b)的波形圖。在本例中,說話人的語音數(shù)據(jù)由說話人A的兩個語音 片斷(a)和(b)構(gòu)成。如圖1所示,該方法可以包括窗口分割步驟S110、窗口語音情感特征計(jì)算步驟 S120以及語音情感變化識別步驟S130。首先,在窗口分割步驟SllO中,將說話人的語音數(shù)據(jù)按窗口寬度分割成多個窗 口。當(dāng)說話人的語音數(shù)據(jù)是來自說話人的整段連續(xù)語音數(shù)據(jù)時,窗口寬度可以是預(yù)定的時 間寬度,例如10ms、100ms、Is等。當(dāng)說話人的語音數(shù)據(jù)由說話人的一個或多個連續(xù)語音片 斷構(gòu)成時,窗口寬度可以是預(yù)定的時間寬度,例如lOmsUOOmsUs等,或者可以由該一個或 多個連續(xù)語音片斷的最小長度與諸如10ms、100ms、Is等預(yù)定時間寬度的較大者確定。一般而言,當(dāng)說話人的語音數(shù)據(jù)由說話人的一個或多個連續(xù)語音片斷構(gòu)成時,一 個窗口最多僅覆蓋一個語音片斷,并且當(dāng)一個語音片斷不能被完全分割時,長度小于窗口 寬度的最后剩余部分可以被省略。接下來,在窗口語音情感特征計(jì)算步驟S120中,針對該多個窗口中的每個窗口, 計(jì)算語音情感特征。優(yōu)選地,語音情感特征可以包括語音基頻、語音能量和語音速度中的一 個或多個。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明不局限于此,并且諸如共振峰等其它 語音情感特征也可適用于本發(fā)明。優(yōu)選地,在窗口語音情感特征計(jì)算步驟S120中,計(jì)算窗口中各個特征提取區(qū)間的 語音情感特征的平均值作為該窗口的語音情感特征。這里,特征提取區(qū)間可以根據(jù)具體設(shè) 計(jì)而設(shè)為IOms或其它值。此外,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,根據(jù)具體設(shè)計(jì),可以以其他方 式計(jì)算窗口的語音情感特征。進(jìn)一步優(yōu)選地,為了更準(zhǔn)確地計(jì)算窗口的語音情感特征,在上述平均值計(jì)算處理 之前,從窗口中各個特征提取區(qū)間的語音情感特征中去除語音情感特征奇異點(diǎn)。這里,語音 情感特征奇異點(diǎn)是指等于或近似O的那些特征值(例如,由靜默時段等導(dǎo)致)、與附近特征 值相比具有較大變化的那些特征值(例如,由噪聲等導(dǎo)致)等等。
進(jìn)一步優(yōu)選地,當(dāng)算出的窗口語音情感特征等于或近似0時(例如,窗口僅包含靜 默時段),該窗口可以被去除。例如,假設(shè)采用語音基頻作為語音情感特征,以由圖3所示的語音片斷(a)和(b) 構(gòu)成的說話人的語音數(shù)據(jù)為例,圖4示意性地示出了分別對應(yīng)于語音片斷(a)和(b)的基 頻圖。當(dāng)窗口寬度設(shè)為語音片斷(a)和(b)的最小長度時,圖5示意性地示出了所算出的 對應(yīng)于語音片斷(a)的淺色窗口和對應(yīng)于語音片斷(b)的深色窗口的語音情感特征。當(dāng)窗 口寬度設(shè)為IOms的預(yù)定時間長度時,圖6示意性地示出了所算出的各個窗口的語音情感特 征,其中時間軸中的一個點(diǎn)代表一個窗口,并且語音情感特征等于或近似0的那些窗口被 去除。最后,在語音情感變化識別步驟S130中,通過將由至少兩個連續(xù)窗口構(gòu)成的窗口 集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化模板中 的每個模板進(jìn)行比較,以找出與該窗口集的語音情感特征匹配的語音情感特征變化模板, 對該窗口集識別說話人的語音情感變化。—般而言,窗口集可以包括預(yù)定數(shù)目的窗口,并且可以以窗口數(shù)目小于該預(yù)定數(shù) 目的移動步長順序地選擇。優(yōu)選地,當(dāng)說話人的語音數(shù)據(jù)由說話人的至少兩個連續(xù)語音片 斷構(gòu)成時,窗口集可以包括兩個相繼語音片斷的所有窗口,并且可以以一個語音片斷的移 動步長來順序地選擇。此外,例如,在語音情感特征變化數(shù)據(jù)庫的一個具體實(shí)現(xiàn)中,一種語音情感變化類 型可以具有預(yù)定數(shù)目的語音情感特征變化模板,每個語音情感特征變化模板將一個或多個 代表性語音情感特征變化曲線(例如,語音基頻變化曲線、語音能量變化曲線等)與一種語 音情感變化類型相關(guān)聯(lián),并且語音情感特征變化模板可以通過對來自不同說話人的代表性 語音數(shù)據(jù)的大量語料進(jìn)行統(tǒng)計(jì)分析,利用聚類算法來預(yù)先生成。圖7示出了在本發(fā)明的實(shí)施例中采用的語音情感特征變化數(shù)據(jù)庫的示例性結(jié)構(gòu)。 如圖7所示,語音情感特征變化數(shù)據(jù)庫包括以下兩個表語音情感特征變化類型表(a)和 語音情感特征模板表(b)。圖7中的語音情感特征變化類型表(a)具有兩個字段“變化類 型ID”和“變化類型名稱”,并且示意性地示出了四種示例性語音情感變化類型“平靜-> 憤怒”、“憤怒- >平靜”、“平靜- >高興”、“高興- >平靜”。圖7中的語音情感特征模板表 (b)具有三個字段“ID”、“特征值(基頻)”和“變化類型ID”,并且示意性地示出了與“平 靜- >憤怒”的語音情感變化相關(guān)聯(lián)的一個示例性語音情感特征曲線。本領(lǐng)域的技術(shù)人員 應(yīng)當(dāng)理解,圖7中的語音情感特征變化數(shù)據(jù)庫的結(jié)構(gòu)僅僅是示例性的,并且本發(fā)明不局限 于此,并且根據(jù)具體設(shè)計(jì),語音情感特征變化數(shù)據(jù)庫可以采用其它結(jié)構(gòu)。此外,語音情感變化識別步驟S130中的處理可以采用各種匹配算法來實(shí)現(xiàn)。例 如,圖2是示出圖1的語音情感變化識別步驟S130的實(shí)現(xiàn)示例的流程圖。如圖2所示,在歸 一化步驟S210,對窗口集的語音情感特征進(jìn)行歸一化。接下來,在歐式距離計(jì)算步驟S220, 計(jì)算歸一化后的窗口集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音 情感特征變化模板中的每個模板之間的歐式距離。然后,在確定步驟S230,將與歸一化后的 窗口集的語音情感特征的歐式距離最小且小于預(yù)定閾值的語音情感特征變化模板確定為 匹配語音情感特征變化模板。例如,圖7的語音情感特征模板表(b)中的示例性語音情感 特征變化模板通過上述處理被確定為圖3中的語音數(shù)據(jù)的匹配語音情感特征變化模板,并且由此圖3中的語音數(shù)據(jù)的語音情感特征變化被識別為“平靜- >憤怒”。優(yōu)選地,為了提高匹配性能,只有在窗口集中存在相鄰窗口之間的語音情感特征 變化中的任一個超過預(yù)定閾值,才可以執(zhí)行圖1中的語音情感變化識別步驟S130??蛇x地,該方法還可以包括語音情感識別步驟,根據(jù)窗口集中的語音情感變化的 識別結(jié)果來識別窗口集中各個窗口的語音情感。例如,當(dāng)圖3中的語音數(shù)據(jù)的語音情感特 征變化被識別為“平靜->憤怒”時,語音片斷(a)的各個窗口的語音情感特征可被識別為 “平靜”,而語音片斷(b)的各個窗口的語音情感特征可被識別為“憤怒”上面參照附圖詳細(xì)描述了根據(jù)本發(fā)明實(shí)施例的從說話人的語音數(shù)據(jù)中識別說話 人的語音情感變化的方法。下面將參照附圖描述根據(jù)本發(fā)明實(shí)施例的用于從說話人的語音 數(shù)據(jù)中識別說話人的語音情感變化的設(shè)備。圖8是示出根據(jù)本發(fā)明實(shí)施例的用于從說話人的語音數(shù)據(jù)中識別說話人的語音 情感變化的設(shè)備的構(gòu)造的框圖。如圖8所示,設(shè)備800可以包括窗口分割裝置810、窗口語 音情感特征計(jì)算裝置820以及語音情感變化識別裝置830。窗口分割裝置810可以將說話人的語音數(shù)據(jù)按窗口寬度分割成多個窗口。窗口語音情感特征計(jì)算裝置820可以針對所述多個窗口中的每個窗口,計(jì)算語音 情感特征。語音情感變化識別裝置830可以通過將由至少兩個連續(xù)窗口構(gòu)成的窗口集的語 音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化模板中的每個 模板進(jìn)行比較,以找出與窗口集的語音情感特征匹配的語音情感特征變化模板,對窗口集 識別說話人的語音情感變化。圖9是示出圖8的語音情感變化識別裝置830的示例性構(gòu)造的框圖。在該示例 中,語音情感變化識別裝置830可以包括歸一化裝置910、歐式距離計(jì)算裝置920以及確定 裝置930。歸一化裝置910可以對窗口集的語音情感特征進(jìn)行歸一化。距離計(jì)算裝置920 可以計(jì)算歸一化后的窗口集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個 語音情感特征變化模板中的每個模板之間的歐式距離。確定裝置930可以將與歸一化后的 窗口集的語音情感特征的歐式距離最小且小于預(yù)定閾值的語音情感特征變化模板確定為 匹配語音情感特征變化模板??蛇x地,設(shè)備800還可以包括語音情感識別裝置,用于根據(jù)窗口集中的語音情感 變化的識別結(jié)果來識別窗口集中各個窗口的語音情感。通過閱讀上面給出的相應(yīng)處理的描述,如何實(shí)現(xiàn)圖8中的設(shè)備800的各個組成部 件的功能就變得很清楚了,所以在此不再贅述。由上可以清楚,根據(jù)本發(fā)明的技術(shù)方案,可以準(zhǔn)確地從說話人的語音數(shù)據(jù)中識別 說話人的語音情感變化。根據(jù)本發(fā)明實(shí)施例的上述用于從說話人的語音數(shù)據(jù)中識別說話人的語音情感變 化的設(shè)備和方法可以應(yīng)用于很多應(yīng)用。例如,當(dāng)上述設(shè)備和方法應(yīng)用于呼叫中心應(yīng)用時,在 客戶與呼叫中心代表之間的電話交談期間,可以將客戶的語音情感變化識別結(jié)果以語音或 圖像的形式提供給呼叫中心代表,從而呼叫中心代表可以適當(dāng)且快速地回應(yīng)客戶的語音情 感變化。而且,當(dāng)上述設(shè)備和方法應(yīng)用于口頭演講應(yīng)用時,可以根據(jù)演講者的語音情感變化 識別結(jié)果來提取演講的所需內(nèi)容。例如,可以將表現(xiàn)出“悲傷”的語音情感的演講部分過濾,以便提取演講中樂觀向上的內(nèi)容。上述方法和設(shè)備可通過硬件實(shí)現(xiàn)。這樣的硬件可以是單一處理設(shè)備或多個處理設(shè) 備。這樣的處理設(shè)備可以是微處理器、微控制器、數(shù)字處理器、微型計(jì)算機(jī)、中央處理單元的 部分、狀態(tài)機(jī)、邏輯電路及/或操作信號的任何設(shè)備。還應(yīng)該指出的是,上述裝置和方法也可以通過軟件和固件實(shí)現(xiàn)。在通過軟件或固 件實(shí)現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖10所示的通用 計(jì)算機(jī)1000安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。在圖10中,中央處理單元(CPU) 1001根據(jù)只讀存儲器(ROM) 1002中存儲的程序或 從存儲部分1008加載到隨機(jī)存取存儲器(RAM) 1003的程序執(zhí)行各種處理。在RAM 1003中, 也根據(jù)需要存儲當(dāng)CPU 1001執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 100UROM 1002和RAM 1003經(jīng)由總線1004彼此連接。輸入/輸出接口 1005 也連接到總線1004。下述部件連接到輸入/輸出接口 1005 輸入部分1006,包括鍵盤、鼠標(biāo)等等;輸出 部分1007,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚(yáng)聲器等等;存 儲部分1008,包括硬盤等等;和通信部分1009,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等 等。通信部分1009經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器1010也連接到輸入/輸出接口 1005??刹鹦督橘|(zhì)1011比如磁 盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器1010上,使得從中讀出的計(jì) 算機(jī)程序根據(jù)需要被安裝到存儲部分1008中。在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)1011安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)注意,這種存儲介質(zhì)不局限于圖10所示的其中存儲有程 序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1011??刹鹦督橘|(zhì)1011的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是 ROM 1002、存儲部分1008中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起 被分發(fā)給用戶。還應(yīng)當(dāng)指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順 序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不退出由所附的權(quán)利要求 所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本申請的 范圍不僅限于說明書所描述的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法和步驟的具體實(shí)施 例。本領(lǐng)域內(nèi)的普通技術(shù)人員從本發(fā)明的公開內(nèi)容將容易理解,根據(jù)本發(fā)明可以使用執(zhí)行 與在此所述的相應(yīng)實(shí)施例基本相同的功能或者獲得與其基本相同的結(jié)果的、現(xiàn)有和將來要 被開發(fā)的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法或者步驟。因此,所附的權(quán)利要求旨在它 們的范圍內(nèi)包括這樣的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法或者步驟。
權(quán)利要求
1.一種從說話人的語音數(shù)據(jù)中識別所述說話人的語音情感變化的方法,包括以下步驟窗口分割步驟,將所述說話人的所述語音數(shù)據(jù)按窗口寬度分割成多個窗口 ; 窗口語音情感特征計(jì)算步驟,針對所述多個窗口中的每個窗口,計(jì)算語音情感特征;以及語音情感變化識別步驟,通過將由至少兩個連續(xù)窗口構(gòu)成的窗口集的語音情感特征與 存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化模板中的每個模板進(jìn)行比較, 以找出與所述窗口集的語音情感特征匹配的語音情感特征變化模板,對所述窗口集識別所 述說話人的語音情感變化。
2.根據(jù)權(quán)利要求1所述的方法,其中所述說話人的所述語音數(shù)據(jù)由所述說話人的一個 或多個連續(xù)語音片斷構(gòu)成,其中所述連續(xù)語音片斷是從包括所述說話人的多個說話人的對 話數(shù)據(jù)中提取出來的。
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述窗口寬度為預(yù)定時間寬度。
4.根據(jù)權(quán)利要求2所述的方法,其中所述窗口寬度由所述一個或多個連續(xù)語音片斷的 最小長度與預(yù)定時間寬度的較大者確定。
5.根據(jù)權(quán)利要求1所述的方法,其中所述語音情感特征包括語音基頻、語音能量和語 音速度中的一個或多個。
6.根據(jù)權(quán)利要求1所述的方法,其中所述窗口語音情感特征計(jì)算步驟包括平均值計(jì)算 步驟,計(jì)算所述窗口中各個特征提取區(qū)間的語音情感特征的平均值作為所述窗口的語音情 感特征。
7.根據(jù)權(quán)利要求6所述的方法,其中所述窗口語音情感特征計(jì)算步驟在所述平均值計(jì) 算步驟之前還包括奇異點(diǎn)去除步驟,從所述窗口中的各個特征提取區(qū)間的語音情感特征中 去除語音情感特征奇異點(diǎn)。
8.根據(jù)權(quán)利要求1所述的方法,其中所述語音情感變化識別步驟進(jìn)一步包括以下步驟歸一化步驟,對所述窗口集的語音情感特征進(jìn)行歸一化;歐式距離計(jì)算步驟,計(jì)算歸一化后的所述窗口集的語音情感特征與存儲在所述語音情 感特征變化數(shù)據(jù)庫中的所述多個語音情感特征變化模板中的每個模板之間的歐式距離;以 及確定步驟,將與歸一化后的所述窗口集的語音情感特征的歐式距離最小且小于預(yù)定閾 值的語音情感特征變化模板確定為匹配語音情感特征變化模板。
9.根據(jù)權(quán)利要求1所述的方法,其中只有在所述窗口集中存在相鄰窗口之間的語音情 感特征變化中的任一個超過預(yù)定閾值,才執(zhí)行所述語音情感變化識別步驟。
10.根據(jù)權(quán)利要求1所述的方法,還包括語音情感識別步驟,根據(jù)所述窗口集中的語音 情感變化的識別結(jié)果來識別所述窗口集中各個窗口的語音情感。
11.一種用于從說話人的語音數(shù)據(jù)中識別所述說話人的語音情感變化的設(shè)備,包括 窗口分割裝置,用于將所述說話人的所述語音數(shù)據(jù)按窗口寬度分割成多個窗口 ;窗口語音情感特征計(jì)算裝置,用于針對所述多個窗口中的每個窗口,計(jì)算語音情感特 征;以及語音情感變化識別裝置,用于通過將由至少兩個連續(xù)窗口構(gòu)成的窗口集的語音情感特 征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化模板中的每個模板進(jìn)行 比較,以找出與所述窗口集的語音情感特征匹配的語音情感特征變化模板,對所述窗口集 識別所述說話人的語音情感變化。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述說話人的所述語音數(shù)據(jù)由所述說話人的一 個或多個連續(xù)語音片斷構(gòu)成,其中所述連續(xù)語音片斷是從包括所述說話人的多個說話人的 對話數(shù)據(jù)中提取出來的。
13.根據(jù)權(quán)利要求11或12所述的設(shè)備,其中所述窗口寬度為預(yù)定時間寬度。
14.根據(jù)權(quán)利要求12所述的設(shè)備,其中所述窗口寬度由所述一個或多個連續(xù)語音片斷 的最小長度與預(yù)定時間寬度的較大者確定。
15.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述語音情感特征包括語音基頻、語音能量和 語音速度中的一個或多個。
16.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述窗口語音情感特征計(jì)算裝置包括平均值計(jì) 算裝置,用于計(jì)算所述窗口中各個特征提取區(qū)間的語音情感特征的平均值作為所述窗口的 語音情感特征。
17.根據(jù)權(quán)利要求16所述的設(shè)備,其中所述窗口語音情感特征計(jì)算裝置還包括奇異點(diǎn) 去除裝置,用于在執(zhí)行所述平均值計(jì)算裝置中的處理之前,從所述窗口中的各個特征提取 區(qū)間的語音情感特征中去除語音情感特征奇異點(diǎn)。
18.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述語音情感變化識別裝置進(jìn)一步包括歸一化裝置,用于對所述窗口集的語音情感特征進(jìn)行歸一化;歐式距離計(jì)算裝置,用于計(jì)算歸一化后的所述窗口集的語音情感特征與存儲在所述語 音情感特征變化數(shù)據(jù)庫中的所述多個語音情感特征變化模板中的每個模板之間的歐式距 離;以及確定裝置,用于將與歸一化后的所述窗口集的語音情感特征的歐式距離最小且小于預(yù) 定閾值的語音情感特征變化模板確定為匹配語音情感特征變化模板。
19.根據(jù)權(quán)利要求11所述的設(shè)備,其中只有在所述窗口集中存在相鄰窗口之間的語音 情感特征變化中的任一個超過預(yù)定閾值,才執(zhí)行所述語音情感變化識別裝置中的處理。
20.根據(jù)權(quán)利要求11所述的設(shè)備,還包括語音情感識別裝置,用于根據(jù)所述窗口集中 的語音情感變化的識別結(jié)果來識別所述窗口集中各個窗口的語音情感。
21.一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序在執(zhí)行時使得 計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1到10中的任一項(xiàng)所述的方法。
全文摘要
提供了一種用于從說話人的語音數(shù)據(jù)中識別說話人的語音情感變化的設(shè)備和方法,其中該方法包括以下步驟窗口分割步驟(S110),將說話人的語音數(shù)據(jù)按窗口寬度分割成多個窗口;窗口語音情感特征計(jì)算步驟(S120),針對所述多個窗口中的每個窗口,計(jì)算語音情感特征;以及語音情感變化識別步驟(S130),通過將由至少兩個連續(xù)窗口構(gòu)成的窗口集的語音情感特征與存儲在語音情感特征變化數(shù)據(jù)庫中的多個語音情感特征變化模板中的每個模板進(jìn)行比較,以找出與該窗口集的語音情感特征匹配的語音情感特征變化模板,對該窗口集識別說話人的語音情感變化。
文檔編號G10L15/02GK102099853SQ200980127959
公開日2011年6月15日 申請日期2009年3月16日 優(yōu)先權(quán)日2009年3月16日
發(fā)明者王彬, 郭慶, 陸應(yīng)亮 申請人:富士通株式會社