本發(fā)明屬于語音識別技術(shù)領(lǐng)域,涉及語音情感的遷移方法,具體涉及一種基于不同語音提供者模型的語音情感的遷移方法。
背景技術(shù):
隨著智能芯片技術(shù)的發(fā)展,各種終端設(shè)備的智能化和集成化程度越來越高,設(shè)備的小型化、輕便化、網(wǎng)絡(luò)化使得人們的生活越來越便捷。用戶不斷的通過網(wǎng)絡(luò)終端進行語音視頻的交流,積累了海量的多媒體數(shù)據(jù)。隨著平臺數(shù)據(jù)的積累,智能問答系統(tǒng)也逐漸應(yīng)運而生。這些智能問答系統(tǒng)包括了語音識別、性感分析、信息檢索、語義匹配、句子生成、語音合成等先端技術(shù)。
語音識別技術(shù)是讓機器通過識別技術(shù)和理解過程把語音信號轉(zhuǎn)化為所對應(yīng)的文本信息或者機器指令,讓機器能夠聽懂人類的表達內(nèi)容,主要包括語音單元選取、語音特征提取、模式匹配和模型訓練等技術(shù)。語音單元包括單詞(句)、音節(jié)和音速三種,具體按照場景和任務(wù)來選擇。單詞單元主要適合小詞匯語音識別系統(tǒng);音節(jié)單元更加適合于漢語語音識別;音素雖然能夠很好地解釋語音基本成分,但由于發(fā)音者的復雜多變導致無法得到穩(wěn)定的數(shù)據(jù)集,目前仍在研究中。
另一個研究方向是語音的情感識別,主要由語音信號采集、情感特征提取和情感識別組成。其中情感特征提取主要有韻律學特征、基于譜的相關(guān)特征和音質(zhì)特征三種。這些特征一般以幀為最小粒度來實現(xiàn)提取,并以全局特征統(tǒng)計值的形式進行情感識別。在情感識別算法方面,主要包括離散語言情感分類器和維度語音情感預測器兩大類。語音情感識別技術(shù)也被廣泛應(yīng)用于電話服務(wù)中心、駕駛員精神判別、遠程網(wǎng)絡(luò)課程等領(lǐng)域。
智能體被譽為是下一代人工智能的綜合產(chǎn)物,不僅能夠識別周圍環(huán)境因素,理解人的行為表達和語言描述,甚至在與人的交流過程中,更需要去理解人的情感,并且能夠?qū)崿F(xiàn)模仿人的情感表達,才能實現(xiàn)更為柔和的交互。目前智能體的情感研究主要集中在基于虛擬圖像處理,涉及計算機圖形學、心理學、認知學、神經(jīng)生理學、人工智能等多個領(lǐng)域有研究者的成果。據(jù)研究,人雖然90%以上的環(huán)境感知信息來自視覺,但是絕大部分的情感感知是來自語音。如何從語音領(lǐng)域建立類人智能體的情感體系,至今尚未有公開的研究發(fā)布。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是以機器學習方法為主要手段,提出一種人的語音情感表述方法,并在此基礎(chǔ)上使用深度學習和卷積網(wǎng)絡(luò)算法,從系統(tǒng)上實現(xiàn)語音情感的遷移。不僅對語音識別、情感分析提供了一定的借鑒方法,更能在未來類人智能體上得到廣泛應(yīng)用。
為實現(xiàn)上述目的,本發(fā)明提出的技術(shù)方案為一種語音情感遷移方法,具體包含以下步驟:
步驟1、準備一個語音數(shù)據(jù)庫,通過標準采樣生成語音情感數(shù)據(jù)集s={s1,s2,…,sn};
步驟2、采用人工方式對步驟1的語音數(shù)據(jù)庫打標簽,標注每個語音文件的情感e={e1,e2,…,en};
步驟3、采用語音特征參數(shù)模型對語音庫中的每個音頻文件si進行音頻特征抽取,得到基本的語音特征集fi={f1i,f2i,…,fni};
步驟4、采用機器學習工具對步驟3得到的每個語音特征集與步驟2得到的語音情感標簽進行機器學習,得到每一類語音情感的特征模型,構(gòu)建情感模型庫eb;
步驟5、通過一個多媒體終端,選擇需要語音情感遷移的目標target;
步驟6、從多媒體終端輸入語音信號st;
步驟7、將當前輸入的st輸入到語音情感特征提取模塊,得到當前語音信號的特征集ft={f1t,f2t,…,fnt};
步驟8、采用與步驟4相同的機器學習算法,將步驟7得到的st的語音特征集ft結(jié)合步驟步驟4得到的情感模型庫eb進行情感分類,得到st的當前情感類別se;
步驟9、判斷步驟8得到的se和步驟5輸入的target是否一致,如果se=targete,則將原始輸入語音信號直接作為目標情感語音輸出,如果setargete,則調(diào)用步驟10進行特征情感遷移;
步驟10、將當前語音情感主要特征向情感模型庫中的語音情感主要特征進行遷移;
步驟11、采用語音合成算法對步驟10得到的特征遷移后的語音特征進行加工,合成最終目標情感語音輸出。
進一步,上述步驟1中,語音數(shù)據(jù)的采樣頻率為44.1khz,錄音時間在3~10s之間,并且保存為wav格式。
步驟1中,為了獲得較好的性能,采樣數(shù)據(jù)的自然屬性維度不能過于集中,采樣數(shù)據(jù)盡量在不同年齡、性別、職業(yè)等人中采集。
步驟6中,所述輸入可以是實時輸入,也可以是錄制完成后點擊遞交。
本發(fā)明具有以下有益效果:
1、本發(fā)明首先提出語音情感遷移的概念,可以為未來虛擬現(xiàn)實提供情感構(gòu)建方法。
2、本發(fā)明提出的基于情感分類和特征遷移的方法,能夠在不失原始說話人發(fā)聲特征的前提下實現(xiàn)語音情感的變化。
附圖說明
圖1是本發(fā)明提供的語音情感遷移方法示意圖。
圖2是本發(fā)明原始輸入語音樣本的頻譜特征圖。
圖3是本發(fā)明原始語音樣本經(jīng)過情感轉(zhuǎn)化的頻譜特征圖。
具體實施方式
現(xiàn)結(jié)合附圖對本發(fā)明作進一步詳細的說明。
本發(fā)明提供一種基于語音情感數(shù)據(jù)庫的用戶表達語音情感遷移方法,如圖1所示,該方法涉及的模塊或功能包括:
基礎(chǔ)語音庫,存有不同年齡、性別、場景下的語音原始數(shù)據(jù)。
標簽庫,對基礎(chǔ)語音庫進行情感標注,如平和、高興、生氣、憤怒、悲傷等。
語音輸入裝置,如麥克風,可以實現(xiàn)用戶的實時語音輸入。
語音情感特征提取,通過聲音特征分析工具,得到一般的聲音特征,并根據(jù)人的語音信號特點以及情感表現(xiàn)特點,選取所需的特征集作為語音情感特征。
機器學習,采用機器學習算法印證語音情感標簽庫,對語音情感特征集構(gòu)建訓練模型。
情感模型庫,語音庫數(shù)據(jù)通過機器學習得到的按照性別、年齡、情感等維度分類后的語音情感模型庫。
選擇情感,用戶在輸入語音信號前選擇需要將當前語音實時轉(zhuǎn)化為的情感模式。
情感類別判斷,判斷當前用戶輸入的情感是否與選擇的情感一致。如果一致,則直接輸出目標情感語音。如果不一致,調(diào)用情感遷移模塊。
情感遷移,在用戶輸入語音和選擇情感不一致的情況下,將輸入語音情感特征集與選擇情感特征集進行特征距離對比,調(diào)整輸入語音情感特征空間表示,實現(xiàn)情感遷移。然后將調(diào)整好的情感語音作為目標情感語音輸出。
現(xiàn)提供一個實施例,以說明語音情感的遷移過程,具體包含以下步驟:
步驟1、該方法需要準備一個語音數(shù)據(jù)庫,作為優(yōu)選,語音數(shù)據(jù)采用標準采樣44.1khz,錄下某個測試人員一句話,時間在3~10s之間,并且保存為wav格式,得到語音情感數(shù)據(jù)集s={s1,s2,…,sn}。為了獲得較好的性能,采樣數(shù)據(jù)盡力在不在年齡、性別、職業(yè)等人的自然屬性維度過于集中。
步驟2、采用人工的方式,對步驟1準備的語音數(shù)據(jù)庫打標簽,標注每個語音文件的情感e={e1,e2,…,en},如“擔心”,“吃驚”,“生氣”,“失望”,“悲傷”等
步驟3、采用語音特征參數(shù)模型對語音庫中每個音頻文件si進行音頻特征抽取,得到基本的語音特征集fi={f1i,f2i,…,fni}等(圖2所示為原始語音樣本的頻譜特征示意圖),如”包絡(luò)線(env)”,“語速(speed)”,”過零率(zcr)”,“能量(eng)”,“能量熵(eoe)”,“頻譜質(zhì)心(spec_cent)”,“頻譜擴散(spec_spr)”,“梅爾頻率(mfccs)”,“彩度向量(chrona)”等。
步驟4、采用機器學習工具(如libsvm)對步驟3得到的每個語音文件的特征集與步驟2所得到的語音情感標簽進行機器學習,得到每一類語音情感的特征模型,構(gòu)建情感模型庫eb。
步驟5、通過一個多媒體終端,選擇需要語音情感遷移目標targete,如“悲傷”。
步驟6、從多媒體終端輸入語音信號st,可以是實時輸入,也可以是錄制完成后點擊遞交。
步驟7、將當前輸入的st輸入到語音情感特征提取模塊,得到當前語音信號的特征集ft={f1t,f2t,…,fnt}。
步驟8、采用步驟4相同的機器學習算法,將步驟7得到的st的語音特征集ft結(jié)合步驟步驟4得到的情感模型庫eb進行情感分類,得到st的當前情感類別se。
步驟9、判斷步驟8得到的se和步驟5輸入的targete是否一致,如果se=targete,則將原始輸入語音信號直接作為目標情感語音輸出。如果seitargete,則調(diào)用步驟10進行特征情感遷移。
步驟10、將當前語音情感主要特征向情感模型庫中語音情感主要特征進行遷移(圖3所示為遷移后的頻譜特征),如包絡(luò)線遷移resultenv=(senv+targetenv)/2,語速調(diào)整resultspeed=(sspeed+targetspeed)/2。
步驟11、采用一個語音合成算法(基音同步疊加技術(shù),psola)對步驟10得到的特征遷移過的語音特征進行加工合成最終目標情感語音輸出。
以上所述僅為本發(fā)明的優(yōu)選實施案例而已,并不用于限制本發(fā)明,盡管參照前述實施例對本發(fā)明進行了詳細的說明,對于本領(lǐng)域的技術(shù)人員來說,其依然可以對前述各實施例所記載的技術(shù)方案進行改進,或者對其中部分技術(shù)進行同等替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。