專利名稱:在保持情感的同時(shí)跨通道進(jìn)行通信的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及跨越話音和文本通信轉(zhuǎn)換保持情感。
背景技術(shù):
人類話音通信可由兩個(gè)要素表征內(nèi)容和講話方式(delivery)。于是,理解和重復(fù)人類語(yǔ)音涉及分析和重復(fù)語(yǔ)音的內(nèi)容,以及內(nèi)容的表達(dá)方式。自然的語(yǔ)音識(shí)別系統(tǒng)使設(shè)備能夠識(shí)別整個(gè)句子并解釋它們。多數(shù)研究致力于從連續(xù)的人類語(yǔ)音譯解文本,從而使說(shuō)話者能夠更自然的講話(稱為自動(dòng)語(yǔ)音識(shí)別(ASR))。大詞匯量ASR系統(tǒng)的工作原理在于每個(gè)口語(yǔ)單詞可被分解成語(yǔ)言音素的聲音表現(xiàn)。音素是語(yǔ)言中能夠傳遞含義的不同的最小語(yǔ)音單元。英語(yǔ)包含構(gòu)成整個(gè)口語(yǔ)的大約四十個(gè)獨(dú)立的不同音素,例如輔音、元音和其它聲音。最初,語(yǔ)音被濾除與音素不一致的游離聲音(stray sound)、語(yǔ)調(diào)和音高,隨后被轉(zhuǎn)化成中性的單調(diào)音頻流。單詞識(shí)別涉及從過(guò)濾后的語(yǔ)音的聲波中提取音素,隨后創(chuàng)建代表單詞實(shí)例的概率的音素的加權(quán)鏈,最后根據(jù)單詞的加權(quán)鏈評(píng)估單詞的正確解釋的概率。在大詞匯量語(yǔ)音識(shí)別中,對(duì)詞表中的每個(gè)音素(有時(shí)稱為HMM音素)訓(xùn)練隱式Markov模型(HMM)。在識(shí)別中,計(jì)算鏈中的每個(gè)HMM的似然性,按照最高的似然性對(duì)觀測(cè)的鏈分類。在詞匯量較小的語(yǔ)音識(shí)別中,可對(duì)詞表中的每個(gè)單詞訓(xùn)練HMM。
人類語(yǔ)音通信向聽(tīng)眾傳遞不同于詞典的信息,比如講話者的情緒狀態(tài)。通過(guò)推斷包含在人類講話方式中的聲音和韻律信息,可從話音推定情感。從話音推斷情感的技術(shù)利用情緒狀態(tài)的依賴于講話者的復(fù)雜模型,這些復(fù)雜模型使人想起為話音識(shí)別而創(chuàng)建的那些模型。最近,提出了情感識(shí)別系統(tǒng),其工作原理在于情感(或者講話者的情緒狀態(tài))可被提取成構(gòu)成講話方式的子情感單元(即,講話方式的特定音高、語(yǔ)調(diào)、節(jié)奏和振幅,或者它們的組合)的聲學(xué)表現(xiàn)。目的是利用可被組合成代表講話者的情緒狀態(tài)的情感單元模型的這些預(yù)定子情感語(yǔ)音模式來(lái)識(shí)別語(yǔ)音的情感內(nèi)容。但是,不同于把語(yǔ)音過(guò)濾成中性的單調(diào)音頻流的文本識(shí)別,為了更準(zhǔn)確地識(shí)別情感單元,語(yǔ)音的語(yǔ)調(diào)、音色并且在某種程度上,語(yǔ)音的性別不被改變??蓪?duì)每個(gè)子情感單元訓(xùn)練隱式Markov模型,并且在識(shí)別期間,計(jì)算鏈中每個(gè)HMM的似然性,按照情感的最高似然性對(duì)觀測(cè)鏈分類。
發(fā)明內(nèi)容
本發(fā)明涉及在保持通信的情感內(nèi)容的同時(shí),跨越通信通道的通信。話音通信被接收并關(guān)于情感內(nèi)容對(duì)其進(jìn)行分析。從通信中提取話音模式,并與話音模式-情感釋義(definition)進(jìn)行比較。利用單詞識(shí)別技術(shù)通過(guò)從話音通信中提取話音模式,并比較這些話音模式與話音模式-文本釋義,分析話音通信,概略地了解通信的文本內(nèi)容。隨后可關(guān)于情感內(nèi)容分析從單詞識(shí)別得到的文本內(nèi)容。從單詞識(shí)別得到的單詞和短語(yǔ)與文本挖掘數(shù)據(jù)庫(kù)中的單詞和短語(yǔ)進(jìn)行比較。這兩種分析得到的情感隨后被用作情感元數(shù)據(jù),標(biāo)記文本內(nèi)容。
源語(yǔ)言的話音通信的文本和情感置標(biāo)抽象(abstraction)被翻譯成目標(biāo)語(yǔ)言,隨后被進(jìn)行話音合成并相對(duì)于情感進(jìn)行調(diào)整。通過(guò)利用目標(biāo)語(yǔ)言的情感轉(zhuǎn)化釋義,情感元數(shù)據(jù)被轉(zhuǎn)化成目標(biāo)語(yǔ)言的情感元數(shù)據(jù)。通過(guò)利用文本翻譯釋義,文本被翻譯成目標(biāo)語(yǔ)言的文本。另外,轉(zhuǎn)化的情感元數(shù)據(jù)被用于情感挖掘在目標(biāo)語(yǔ)言的文化中具有情感內(nèi)涵的單詞。情感單詞隨后替換目標(biāo)語(yǔ)言文本中的對(duì)應(yīng)單詞。翻譯后的文本和情感單詞被調(diào)制成合成話音。通過(guò)利用轉(zhuǎn)化后的情感元數(shù)據(jù),可相對(duì)于情感調(diào)整合成話音的講話方式。通過(guò)相對(duì)于情感話音模式情感挖掘情感-話音模式字典,得到對(duì)合成的話音模式的修改,所述修改被用于更改調(diào)制話音的講話方式。
文本和情感置標(biāo)抽象可作為它們?cè)嫉脑捯敉ㄐ诺漠a(chǎn)物(artifact)被保存在內(nèi)容管理系統(tǒng)中。隨后可利用原始通信的語(yǔ)境的情感條件,搜索這些產(chǎn)物,而不是通過(guò)傳統(tǒng)的文本搜索。在內(nèi)容管理系統(tǒng)接收關(guān)于通信產(chǎn)物的查詢,所述查詢包含某一情感值和語(yǔ)境值。相對(duì)于語(yǔ)境對(duì)所有產(chǎn)物的記錄分類(sort),隨后相對(duì)于情感對(duì)匹配的記錄分類。所得到的在語(yǔ)境約束內(nèi)包含匹配的情感元數(shù)據(jù)的產(chǎn)物被傳送給請(qǐng)求者以供檢查。請(qǐng)求者識(shí)別一個(gè)或多個(gè)特定的產(chǎn)物,所述一個(gè)或多個(gè)特定的產(chǎn)物隨后被內(nèi)容管理器取回并被轉(zhuǎn)發(fā)給請(qǐng)求者。請(qǐng)求者可把文本和情感元數(shù)據(jù)翻譯成不同的語(yǔ)言,并合成音頻消息,同時(shí)保持原始通信的情感內(nèi)容,如同上面剛剛說(shuō)明的那樣。
在附加權(quán)利要求中陳述了本發(fā)明特有的新穎特征。結(jié)合附圖,參考例證實(shí)施例的下述說(shuō)明將更好地理解本發(fā)明,其中圖1A是描述現(xiàn)有技術(shù)的識(shí)別人類語(yǔ)音的單詞內(nèi)容的一般過(guò)程的流程圖;圖1B是描述現(xiàn)有技術(shù)的識(shí)別人類語(yǔ)音的情感內(nèi)容的一般過(guò)程的流程圖;圖2表示根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,在保持通信的情感內(nèi)容的時(shí)候,產(chǎn)生和處理通信流的情感通信體系結(jié)構(gòu)的邏輯組件;圖3是根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的情感置標(biāo)組件的邏輯結(jié)構(gòu)圖;圖4表示例證的語(yǔ)境簡(jiǎn)表,所述語(yǔ)境簡(jiǎn)表包括指定講話者的語(yǔ)言、方言、地理區(qū)域和個(gè)性屬性的簡(jiǎn)表信息;圖5是根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的情感轉(zhuǎn)化組件的邏輯結(jié)構(gòu)圖;圖6是根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的內(nèi)容管理系統(tǒng)的邏輯結(jié)構(gòu)圖;圖7是描述根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的識(shí)別通信中的文本和情感,并保持情感的方法的流程圖;圖8A和8B是描述根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的在保持情感的時(shí)候,轉(zhuǎn)換通信的方法的流程圖;圖9是描述根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的在保持情感的時(shí)候,依據(jù)情感和語(yǔ)境搜索通信產(chǎn)物數(shù)據(jù)庫(kù)的方法的流程圖;圖10描述根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的各種例證網(wǎng)絡(luò)布局,以及具體體現(xiàn)產(chǎn)生、處理和保持通信的情感內(nèi)容的情感處理體系結(jié)構(gòu)的裝置。
根據(jù)附圖和下面的詳細(xì)說(shuō)明,本發(fā)明的其它特征將是明顯的。
具體實(shí)施例方式
本領(lǐng)域的技術(shù)人員會(huì)認(rèn)識(shí)到,本發(fā)明可被具體化為一種方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采取純硬件實(shí)施例,純軟件實(shí)施例(包括固件、常駐軟件、微代碼等),或者組合這里一般都被稱為“電路”或“模塊”的軟件和硬件的實(shí)施例的形式。此外,本發(fā)明可以采取計(jì)算機(jī)可用存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品的形式,所述計(jì)算機(jī)可用存儲(chǔ)介質(zhì)具有包含于其中的計(jì)算機(jī)可用程序代碼。
可利用任何適當(dāng)?shù)挠?jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是(但不限于)電、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)、設(shè)備、裝置或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的更具體例子(非窮盡列表)可包括具有一條或多條導(dǎo)線的電連接,便攜式計(jì)算機(jī)磁盤,硬盤,隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(ROM),可擦可編程只讀存儲(chǔ)器(EPROM或閃速存儲(chǔ)器),光纖,便攜式光盤只讀存儲(chǔ)器(CD-ROM),光存儲(chǔ)裝置,傳輸介質(zhì),比如支持因特網(wǎng)或企業(yè)內(nèi)部網(wǎng)的那些傳輸介質(zhì),或者磁存儲(chǔ)裝置。注意計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)甚至可以是紙張或者程序被打印于其上的另一適當(dāng)介質(zhì),當(dāng)借助例如紙張或其它介質(zhì)的光學(xué)掃描可以電子方式獲得程序,所述程序隨后被編譯、解釋或者以適當(dāng)?shù)姆绞教幚?如果需要的話),并且隨后被保存在計(jì)算機(jī)存儲(chǔ)器中時(shí)。在本文的上下文中,計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是能夠包含、保存、傳遞、傳播或者傳送程序供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用或者與指令執(zhí)行系統(tǒng)、設(shè)備或裝置結(jié)合使用的任意介質(zhì)。
此外,計(jì)算機(jī)可讀介質(zhì)可包括可由計(jì)算機(jī)服務(wù)器傳送的載波或載波信號(hào),所述計(jì)算機(jī)服務(wù)器可包括因特網(wǎng)、外聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、萬(wàn)維網(wǎng)、ftp地置或者可廣播、單播或者以其它方式傳遞本發(fā)明的一個(gè)實(shí)施例的其它服務(wù)。本發(fā)明的各個(gè)實(shí)施例可被保存在一起,或者在空間或時(shí)間上分布在一個(gè)或多個(gè)設(shè)備間。
執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序代碼可用面向?qū)ο蟮木幊陶Z(yǔ)言編寫,比如Java7、Smalltalk或C++。但是,執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序代碼也可用常規(guī)的過(guò)程編程語(yǔ)言編寫,比如“C”編程語(yǔ)言。程序代碼可完全在用戶的計(jì)算機(jī)上運(yùn)行,部分在用戶的計(jì)算機(jī)上運(yùn)行,作為獨(dú)立的軟件包,部分在用戶的計(jì)算機(jī)上并且部分在遠(yuǎn)程計(jì)算機(jī)上,或者完全在遠(yuǎn)程計(jì)算機(jī)上運(yùn)行。在后一情況下,遠(yuǎn)程計(jì)算機(jī)可通過(guò)局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)與用戶的計(jì)算機(jī)連接,或者可對(duì)外部計(jì)算機(jī)實(shí)現(xiàn)連接(例如,利用因特網(wǎng)服務(wù)提供商經(jīng)由因特網(wǎng)連接到外部計(jì)算機(jī))。
適合于保存和/或執(zhí)行程序代碼的數(shù)據(jù)處理系統(tǒng)包括通過(guò)系統(tǒng)總線直接或者間接與存儲(chǔ)元件耦接的至少一個(gè)處理器。存儲(chǔ)元件可包括在程序代碼的實(shí)際執(zhí)行期間采用的本地存儲(chǔ)器,大容量存儲(chǔ)器,和提供至少一些程序代碼的臨時(shí)存儲(chǔ),以減少在執(zhí)行期間,必須從大容量存儲(chǔ)器取回代碼的次數(shù)的高速緩沖存儲(chǔ)器。
輸入/輸出或I/O裝置(包括但不限于鍵盤、顯示器、指示裝置等)可直接與系統(tǒng)耦接,或者通過(guò)居間的I/O控制器與系統(tǒng)耦接。
網(wǎng)絡(luò)適配器也可與系統(tǒng)耦接,從而使數(shù)據(jù)處理系統(tǒng)能夠通過(guò)居間的專用或公用網(wǎng)絡(luò)與其它數(shù)據(jù)處理系統(tǒng)或者遠(yuǎn)程打印機(jī)或存儲(chǔ)裝置耦接。調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器和以太網(wǎng)卡只是目前可用的網(wǎng)絡(luò)適配器類型的幾個(gè)例子。
基本的人類情緒可被分成驚訝、平靜(愉快)、贊同(滿足)、英勇、驕傲、厭惡、憤怒、欲望(貪婪)和恐懼(不過(guò)其它情緒也是可識(shí)別的)。通過(guò)分析講話者的話音中的語(yǔ)音模式,包括語(yǔ)音的音高、語(yǔ)調(diào)、節(jié)奏和振幅特性,依據(jù)人類語(yǔ)音的情感內(nèi)容可識(shí)別這些基本情緒。在與關(guān)于口頭交流的特定語(yǔ)言、方言和/或地理區(qū)域的具體人類情感對(duì)應(yīng)的通信中,一般的語(yǔ)音模式可被識(shí)別。情感語(yǔ)音模式通常和個(gè)人本身一樣獨(dú)特。個(gè)人往往會(huì)為他們的聽(tīng)眾改進(jìn)其語(yǔ)音模式,并借用準(zhǔn)確地表達(dá)他們的情緒狀態(tài)的情感語(yǔ)音模式。于是,如果已知講話者的身份,那么聽(tīng)眾能夠使用講話者的個(gè)人情感語(yǔ)音模式來(lái)更準(zhǔn)確地分析她的情緒狀態(tài)。
情感話音分析能夠把顯示愉快、放松或平靜的語(yǔ)音模式和傾向于表示不愉快、緊張或興奮的語(yǔ)音模式區(qū)分開。例如,就特定講話者而論,愉快、放松或平靜話音模式被識(shí)別成具有低-中等/平均音高;清晰、正常并且連續(xù)的語(yǔ)調(diào);規(guī)則或周期的節(jié)奏;和低-中等的振幅。相反,在特定講話者的話音模式中,可依據(jù)低-高音高(或者可變化的音高),低、高或者不斷變化的語(yǔ)調(diào),快速、緩慢或者不斷變化的節(jié)奏和很低-很高的振幅識(shí)別不愉快、緊張和興奮。但是從所有其它可能的語(yǔ)音情感中提取特定的語(yǔ)音情感是一項(xiàng)比把興奮的語(yǔ)音和安靜的語(yǔ)音模式區(qū)分開困難得多的任務(wù)。例如,平靜、贊同和驕傲可能都具有類似的話音模式,僅僅利用話音模式分析不可能辨別出這三種情感。此外,辨認(rèn)某些人類情感的程度對(duì)理解講話者的情緒狀態(tài)至關(guān)重要。講話者是極度反感還是接近于憤怒?講話者是極度高傲還是適度驚訝?講話者在向聽(tīng)眾表達(dá)滿意還是欲望?從人類語(yǔ)言中提取文本和情感信息的現(xiàn)有技術(shù)依賴于識(shí)別話音中的語(yǔ)音模式,以便確定文本和情感的話音分析。一般來(lái)說(shuō),事先創(chuàng)建兩組獨(dú)立的話音模式模型,以便關(guān)于其文本和情感內(nèi)容分析特定講話者的話音。第一組模型代表講話者的特定單詞的語(yǔ)音模式,第二組模型代表講話者的情緒狀態(tài)的語(yǔ)音模式。
就第一模型來(lái)說(shuō),上面在其它地方討論的基本語(yǔ)言單位的初級(jí)概率模型的目錄可被用于建立單詞表象。通過(guò)關(guān)于45個(gè)音素模型和2個(gè)另外的音素模型(一個(gè)用于靜默,另一個(gè)用于在濾波之后保留的殘余噪聲),把模型鏈接在一起,可構(gòu)成英語(yǔ)中的每個(gè)單詞的一個(gè)模型。對(duì)照單詞模型匹配各序列的特征觀察的統(tǒng)計(jì)模型以便進(jìn)行識(shí)別。
通過(guò)推斷包含在人類講話方式中的聲音和韻律信息,可從話音推定情感。情感識(shí)別系統(tǒng)的工作原理在于情感(或者講話者的情緒狀態(tài))可被提取成構(gòu)成語(yǔ)音的子情感單元(即,講話方式的特定音高、語(yǔ)調(diào)、節(jié)奏和振幅,或者它們的組合)的聲學(xué)表現(xiàn)。通過(guò)創(chuàng)建多個(gè)代表講話者的情緒狀態(tài)的概率的子情感語(yǔ)音模式觀察鏈,確定語(yǔ)音的情感內(nèi)容。對(duì)每個(gè)子情感單元訓(xùn)練情感單元模型,并且在識(shí)別期間,計(jì)算鏈中每個(gè)子情感語(yǔ)音模式的似然性,按照情感的最高似然性對(duì)觀測(cè)鏈分類。
圖1A是描述現(xiàn)有技術(shù)的識(shí)別人類語(yǔ)音的單詞內(nèi)容的一般過(guò)程的流程圖。圖1B是描述現(xiàn)有技術(shù)的識(shí)別人類語(yǔ)音的情感內(nèi)容的一般過(guò)程的流程圖。識(shí)別語(yǔ)音中的單詞的一般單詞識(shí)別過(guò)程通過(guò)接收具有人類語(yǔ)音流的音頻通信通道(步驟102)而開始。由于通信流可能包含不會(huì)包含語(yǔ)言音素的寄生噪聲和話音模式,因此通信流被過(guò)濾,以濾除和語(yǔ)言音素不一致的游離聲音,語(yǔ)調(diào)和音高(步驟104)。過(guò)濾通信流可從得到音素解答的概率低的分析中除去噪聲,從而提高性能。隨后通過(guò)以預(yù)定的采樣率,例如每秒10000個(gè)樣本對(duì)語(yǔ)音采樣,單調(diào)的模擬流被數(shù)字化(步驟106)。在具有固定的幀長(zhǎng)度(約20-30毫秒)的重疊幀中捕捉數(shù)字流內(nèi)的特征,以便保證與音素關(guān)聯(lián)的每個(gè)特征的起點(diǎn)和終點(diǎn)被包括在一幀中(步驟108)。隨后,關(guān)于語(yǔ)言音素分析所述幀,提取所述語(yǔ)言音素(步驟110),并且所述語(yǔ)言音素被連接成表示文本單詞的概率的多個(gè)音素鏈(步驟112)。對(duì)照講話者的語(yǔ)言中的單詞的音素模型,檢查音素鏈尋找單詞解答(word solution)(或者最好的單詞解答)(步驟114),從具有最高分?jǐn)?shù)的音素鏈中確定單詞解答??筛鶕?jù)講話者對(duì)單詞的使用頻率(或者依據(jù)其它的尺度,比如對(duì)于特定語(yǔ)言該單詞的使用頻率)對(duì)該單詞的音素模型加權(quán)。通過(guò)對(duì)單詞使用的訓(xùn)練或者手動(dòng)輸入,可完成音素加權(quán)過(guò)程。隨后結(jié)束圖1A的過(guò)程。
另外,也可形成表示在由一串單詞解答構(gòu)成的句子的上下文中潛在單詞解答的概率的多個(gè)識(shí)別單詞鏈(步驟114)。所述句子的上下文中最可能的單詞解答以文本的形式被返回(步驟116),隨后結(jié)束圖1A的過(guò)程。
如圖1B中描述的從人類語(yǔ)音中提取情感的一般過(guò)程通過(guò)接收人類語(yǔ)音的通信流而開始(步驟122)。和單詞識(shí)別不同,根據(jù)由范圍廣泛的音高、語(yǔ)調(diào)和振幅構(gòu)成的人類話音模式評(píng)估語(yǔ)音的情感內(nèi)容。為此,模擬語(yǔ)音在幾乎不過(guò)濾的情況下被數(shù)字化,并且模擬語(yǔ)音不被轉(zhuǎn)化成單調(diào)的音頻(步驟124)。采樣率稍高于單詞識(shí)別的采樣率,介于每秒12000和15000幀之間。在具有固定持續(xù)時(shí)間的重疊幀中捕捉數(shù)字流內(nèi)的特征(步驟126)。在幀中識(shí)別子情感話音模式并提取所述子情感話音模式(步驟128)。子情感話音模式被組合在一起,從而形成表示情感單元的概率的多個(gè)鏈(步驟130)。對(duì)照相應(yīng)情感的情感單元模型和單詞解答輸出,檢查所述多個(gè)鏈,尋找情感解答(或者最配合的情感)(步驟132)。隨后結(jié)束圖1B的過(guò)程。
本發(fā)明的目的在于在保持情感的同時(shí),通過(guò)話音和文本通道通信。圖2是在保持通信的情感內(nèi)容的時(shí)候,產(chǎn)生和處理通信流的情感通信體系結(jié)構(gòu)的邏輯組件的例證實(shí)施例的圖。情感通信體系結(jié)構(gòu)200一般由兩個(gè)子組件構(gòu)成情感轉(zhuǎn)化組件250和情感置標(biāo)組件210。情感通信體系結(jié)構(gòu)200的分為兩部分的組件均與一對(duì)包含雙向情感釋義的情感字典連接情感-文本/短語(yǔ)字典220和情感-話音模式字典222。字典被填充以基于通信語(yǔ)境的釋義。情感置標(biāo)組件210接收包括情感內(nèi)容的通信(例如具有語(yǔ)音情感的語(yǔ)音),識(shí)別語(yǔ)音中的單詞,并把識(shí)別的單詞抄錄成文本。除了單詞之外,情感置標(biāo)組件210還關(guān)于情感對(duì)通信進(jìn)行分析。情感置標(biāo)組件210利用字典從通信推斷情感。隨后用情感元信息標(biāo)記所得到的文本。具有情感置標(biāo)的文本輸出占用比話音少得多的空間,從而更易于搜索,并且保持初始通信的情感。
也可在情感置標(biāo)組件210接收用戶發(fā)出的選擇命令,所述選擇命令指定通信中的特定單詞、短語(yǔ)、句子和段落供情感分析之用。這些命令還可指定哪種分析,文本模式分析(文本挖掘)或話音分析將被用于從通信的所選部分提取情感。
情感轉(zhuǎn)化組件250接收通信,一般是具有情感置標(biāo)元數(shù)據(jù)的文本,并解析情感內(nèi)容。情感轉(zhuǎn)化組件250把文本合成為自然語(yǔ)言,根據(jù)伴隨文本的情感元數(shù)據(jù),相對(duì)于情感調(diào)整講話方式的語(yǔ)調(diào)、節(jié)奏和振幅。另一方面,在調(diào)制通信流之前,情感轉(zhuǎn)化組件250可把文本和情感元數(shù)據(jù)翻譯成聽(tīng)眾的語(yǔ)言。
雖然在圖2中情感通信體系結(jié)構(gòu)200被描述成包含兩個(gè)子組件,情感轉(zhuǎn)化組件250和情感置標(biāo)語(yǔ)言210,不過(guò)這些組件可被單獨(dú)部署在不同的設(shè)備上。例如,由于其與語(yǔ)音識(shí)別系統(tǒng)的兼容性較差,從蜂窩電話機(jī)傳來(lái)的話音通信效果差是眾所周知的。在蜂窩電話機(jī)上部署情感置標(biāo)組件210可改進(jìn)語(yǔ)音識(shí)別效率,因?yàn)槭窃诜涓C電話機(jī)進(jìn)行語(yǔ)音識(shí)別,而不是對(duì)從蜂窩電話機(jī)接收的話音進(jìn)行語(yǔ)音識(shí)別。就處理情感轉(zhuǎn)化組件250來(lái)說(shuō),家用娛樂(lè)系統(tǒng)一般為聽(tīng)力受損者加上文本字幕,但是沒(méi)有情感提示。在家用娛樂(lè)系統(tǒng)中部署情感轉(zhuǎn)化組件250會(huì)便于字幕包括字幕文本的情感線索,例如表示情感的圖標(biāo),符號(hào)和標(biāo)點(diǎn)字符。此外,情感轉(zhuǎn)化組件250還可使未受損傷的觀眾把音頻轉(zhuǎn)化成情感轉(zhuǎn)化組件250中的翻譯字典所支持的任何語(yǔ)言,同時(shí)保持初始通信語(yǔ)言的情感。
情感通信體系結(jié)構(gòu)200實(shí)質(zhì)上可被包含在發(fā)送、接收或傳送人類通信的任何裝置中(例如,無(wú)線和有線電話機(jī)、計(jì)算機(jī)、手持式裝置、記錄和話音捕捉裝置、音頻娛樂(lè)組件(電視機(jī)、環(huán)繞聲和收音機(jī))等)。此外,通過(guò)利用公共的情感-短語(yǔ)字典和情感-話音模式字典,情感通信體系結(jié)構(gòu)200的分為二部分的結(jié)構(gòu)使得能夠在保持情感內(nèi)容的時(shí)候,跨越各種媒介(例如人類話音、合成話音、文本和帶有情感暗示的文本)有效地提取和表達(dá)情感。
參見(jiàn)圖3,根據(jù)本發(fā)明的一個(gè)例證實(shí)施例表示了情感置標(biāo)組件210的結(jié)構(gòu)。情感置標(biāo)組件210的用途是有效并且準(zhǔn)確地把人類通信轉(zhuǎn)換成文本和情感元數(shù)據(jù),而不管媒體類型,同時(shí)保持初始通信的情感內(nèi)容。根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,情感置標(biāo)組件210對(duì)音頻通信流進(jìn)行兩種情感分析,根據(jù)通信中的語(yǔ)音模式(語(yǔ)音的音高、語(yǔ)調(diào)、節(jié)奏和振幅特性)譯解情感內(nèi)容的話音模式分析,和從語(yǔ)音通信中的文本模式得到情感內(nèi)容的文本模式分析(文本挖掘)。
情感置標(biāo)組件210產(chǎn)生的帶有情感置標(biāo)的文本數(shù)據(jù)可被存檔在數(shù)據(jù)庫(kù)中以便未來(lái)搜索或訓(xùn)練,或者被傳送給包括情感轉(zhuǎn)化組件250的其它裝置,以便再現(xiàn)保持初始通信的情感的語(yǔ)音??蛇x的是,情感置標(biāo)組件210還可用輸出文本點(diǎn)綴其它類型的元數(shù)據(jù),包括選擇控制元數(shù)據(jù),即當(dāng)該部分被遞送為語(yǔ)音時(shí),情感轉(zhuǎn)化組件250用于介紹恰當(dāng)?shù)念l率和音高的選擇控制元數(shù)據(jù),以及字義數(shù)據(jù)。
情感置標(biāo)組件210接收可用于產(chǎn)生帶情感元數(shù)據(jù)的文本的三種獨(dú)立類型的數(shù)據(jù)通信語(yǔ)境信息、通信本身,以及可伴隨某些媒體類型的情感標(biāo)記或情感圖標(biāo)。語(yǔ)境信息被用于選擇通信的最適當(dāng)?shù)恼Z(yǔ)境簡(jiǎn)表(profile),所述語(yǔ)境簡(jiǎn)表被用于填充特定通信的情感字典。利用情感字典,從語(yǔ)音通信中提取情感。也可根據(jù)伴隨文本通信的情感圖標(biāo)推斷情感。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用文本模式分析和話音分析從通信中推斷出情感。情感-話音模式字典222包含用于從通信中的話音模式推斷出情感的情感-話音模式釋義,而情感-文本/短語(yǔ)字典220包含用于從通信中的文本模式推斷出情感的情感-文本模式釋義。字典釋義可在多個(gè)講話者間是類屬的和抽象的,或者特定于特殊的講話者,聽(tīng)眾和通信環(huán)境。雖然這些釋義可能和短語(yǔ)一樣復(fù)雜,不過(guò)它們也可和標(biāo)點(diǎn)符號(hào)一樣不完整。由于情感-文本/短語(yǔ)字典220將被用于從話音通信中文本挖掘抄錄的文本,以及直接從文本通信中文本挖掘文本通信,因此情感-文本/短語(yǔ)字典220包含關(guān)于可推斷情感內(nèi)容的單詞、短語(yǔ)、標(biāo)點(diǎn)符號(hào)和其它詞典和語(yǔ)法的情感釋義。
類屬或默認(rèn)的字典將提供用于推斷通信中的情感的合意的主流結(jié)果。可關(guān)于特定的講話者、聽(tīng)眾和通信環(huán)境優(yōu)化字典釋義,并且在優(yōu)化的情況下,字典釋義能夠獲得高度準(zhǔn)確的情感識(shí)別結(jié)果,但是主流結(jié)果明顯不及。通過(guò)手動(dòng)或者自動(dòng)訓(xùn)練,類屬字典可被優(yōu)化,從而向最頻繁使用的文本模式(單詞和短語(yǔ))和話音模式提供較高的權(quán)重,以及向文本和話音模式提供學(xué)習(xí)的情感內(nèi)容。
講話者根據(jù)聽(tīng)眾和通信環(huán)境(即,講話者和聽(tīng)眾之間的通信場(chǎng)合或類型)改變他的文本模式和話音模式,以便在通信中表達(dá)情感。一般來(lái)說(shuō),同一人會(huì)選擇不同的單詞(和文本模式)及話音模式向不同的聽(tīng)眾,和/或在不同的環(huán)境下表達(dá)同樣的情感。例如,父親會(huì)選擇表達(dá)他對(duì)犯錯(cuò)的兒子的不滿的特定單詞,并改變其講話方式的正常話音模式以增強(qiáng)他對(duì)該事件的憤怒。但是,對(duì)于工作場(chǎng)所的類似事件,同一講話者通常會(huì)選擇與在家庭環(huán)境所使用的不同的單詞(和文本模式),并改變其話音模式,以表達(dá)他對(duì)工作場(chǎng)所中的同樣事件的憤怒。
由于通信中用于表達(dá)情感的文本和話音模式依賴于通信的背境,因此通信的背境提供一種使字典中的最準(zhǔn)確的情感釋義相互關(guān)聯(lián),以便從包含在通信中的文本和話音模式推導(dǎo)情感的機(jī)制。通信的語(yǔ)境涉及講話者、聽(tīng)眾和通信的環(huán)境,于是,語(yǔ)境簡(jiǎn)表由講話者和聽(tīng)眾的身份,以及通信的環(huán)境定義,并且特定于講話者和聽(tīng)眾的身份以及通信的環(huán)境。用戶的語(yǔ)境簡(jiǎn)表定義在特定語(yǔ)境中,對(duì)于用戶來(lái)說(shuō)類屬字典和經(jīng)過(guò)訓(xùn)練的字典之間的差異。本質(zhì)上,語(yǔ)境簡(jiǎn)表提供根據(jù)語(yǔ)境參數(shù)提高字典的準(zhǔn)確性的手段。
例如,講話者簡(jiǎn)表規(guī)定講話者的語(yǔ)言,方言和地理區(qū)域,還規(guī)定定義講話者的通信的唯一性的個(gè)人屬性(示于圖4中)。通過(guò)應(yīng)用講話者簡(jiǎn)表,可對(duì)講話者的語(yǔ)境優(yōu)化字典。聽(tīng)眾簡(jiǎn)表規(guī)定聽(tīng)眾的種類,或者通信針對(duì)的是誰(shuí),例如熟人、親屬、商業(yè)伙伴等。聽(tīng)眾簡(jiǎn)表甚至可包括聽(tīng)眾的子類信息,例如,如果聽(tīng)眾是熟人,那么該聽(tīng)眾是不親近的熟人還是朋友。講話者的個(gè)性屬性是學(xué)到的賦予講話者個(gè)性的單詞和短語(yǔ)的情感內(nèi)容。這些屬性也被用于修改講話者用于向聽(tīng)眾表達(dá)情感的單詞和語(yǔ)音模式的字典釋義,不過(guò)個(gè)性屬性通常是學(xué)來(lái)的與他們一般接受的情感內(nèi)容不一致或者甚至相反的單詞和短語(yǔ)的情感內(nèi)容。
應(yīng)在情感置標(biāo)組件210對(duì)任何接收的通信確定簡(jiǎn)表信息,以便為特定講話者/用戶和通信語(yǔ)境,即聽(tīng)眾和通信環(huán)境選擇和修改字典條目。在語(yǔ)境分析器230,通信的語(yǔ)境信息被手動(dòng)輸入情感置標(biāo)組件210中。另一方面,語(yǔ)境分析器230可從通信的環(huán)境,或者通信媒體自動(dòng)推導(dǎo)通信的語(yǔ)境。語(yǔ)境分析器230關(guān)于講話者和聽(tīng)眾的身份以及通信環(huán)境分析直接與通信相關(guān)的信息,講話者和聽(tīng)眾的身份以及通信環(huán)境被用于從簡(jiǎn)表數(shù)據(jù)庫(kù)212選擇現(xiàn)有的簡(jiǎn)表。例如,如果情感置標(biāo)組件210被包含在蜂窩電話機(jī)中,那么語(yǔ)境分析器230認(rèn)為講話者/用戶的身份是電話機(jī)的所有者,并根據(jù)包含在保存于電話機(jī)中的地址簿中的信息和連接信息(例如電話號(hào)碼、即時(shí)消息屏幕姓名或電子郵件地址)識(shí)別聽(tīng)眾(或收聽(tīng)者)。隨后再一次可根據(jù)從話音分析器232接收的信息,從簡(jiǎn)表數(shù)據(jù)庫(kù)212選擇語(yǔ)境簡(jiǎn)表。
如果直接語(yǔ)境信息并不易于供通信之用,那么語(yǔ)境分析器230最初選擇類屬或默認(rèn)簡(jiǎn)表,隨后試圖利用在分析通信期間學(xué)來(lái)的和講話者及聽(tīng)眾有關(guān)的信息更新簡(jiǎn)表。根據(jù)通信中的話音模式可確定講話者的身份。這種情況下,話音分析器232試圖通過(guò)比較會(huì)話中的話音模式與已識(shí)別講話者的話音模式,識(shí)別講話者。如果話音分析器232根據(jù)話音模式識(shí)別出講話者的話音,那么告知語(yǔ)境分析器230,語(yǔ)境分析器230隨后從簡(jiǎn)表數(shù)據(jù)庫(kù)212選擇該講話者的語(yǔ)境簡(jiǎn)表,并把其轉(zhuǎn)發(fā)給話音分析器232和文本/短語(yǔ)分析器236。這里同樣地,盡管分析器具有講話者的簡(jiǎn)表,不過(guò)該簡(jiǎn)表并不完整,不提供完整的語(yǔ)境信息,因?yàn)閷?duì)于通信來(lái)說(shuō),聽(tīng)眾和環(huán)境信息未知。利用聽(tīng)眾和環(huán)境信息可為講話者識(shí)別一個(gè)更好的簡(jiǎn)表。如果講話者不能被識(shí)別,那么利用默認(rèn)的語(yǔ)境簡(jiǎn)表繼續(xù)進(jìn)行分析。本發(fā)明的一個(gè)優(yōu)點(diǎn)在于所有的通信可以其原始形式并且和情感置標(biāo)元數(shù)據(jù)一起存檔于內(nèi)容管理系統(tǒng)600(下面參考圖6說(shuō)明)。于是,當(dāng)對(duì)于講話者來(lái)知道了完整的語(yǔ)境簡(jiǎn)表時(shí),講話者的通信可用于第二遍的情感分析。如果訓(xùn)練顯著改變講話者的語(yǔ)境簡(jiǎn)表,那么在訓(xùn)練之后還可進(jìn)行后續(xù)的多遍情感分析。
一旦通信的語(yǔ)境被確定,確定了通信語(yǔ)境的簡(jiǎn)表,并且選擇了話音模式和文本/短語(yǔ)字典,那么在情感置標(biāo)組件210接收的真實(shí)通信可被轉(zhuǎn)換成文本,并與表示講話者的情緒狀態(tài)的情感元數(shù)據(jù)組合。情感置標(biāo)組件210接收的通信媒體是話音或文本,但是文本通信還可包括表示情感的情感圖標(biāo)(情感圖標(biāo)一般指的是與文本組合,并且表示情感的形象符號(hào),例如笑臉或皺眉的臉),表示情感的標(biāo)點(diǎn)符號(hào),例如感嘆號(hào),或者由排版的標(biāo)點(diǎn)字符產(chǎn)生的情感符號(hào),比如“:-)”,“:-(”和“;-)”。
語(yǔ)音通信被供給話音分析器232,話音分析器232執(zhí)行兩種主要功能它識(shí)別單詞,并且它根據(jù)音頻通信識(shí)別情感。利用任何已知的單詞識(shí)別系統(tǒng)進(jìn)行單詞識(shí)別,比如通過(guò)匹配從音頻流中提取的連接在一起的語(yǔ)言音素鏈和預(yù)先構(gòu)成的音素單詞模型(其結(jié)果被發(fā)送給抄錄器234)。通過(guò)匹配從音頻流提取的連接在一起的子情感語(yǔ)音模式鏈與預(yù)先構(gòu)成的情感單元模型,可類似地進(jìn)行情感識(shí)別(其結(jié)果被直接發(fā)送給置標(biāo)引擎238)。另一方面,可以實(shí)現(xiàn)計(jì)算強(qiáng)度不太高的情感提取算法,該算法匹配音頻流中的話音模式與情感的話音模式(而不是把子情感話音模式單元連接成串)。話音模式包括包含在講話方式中的特定音高、語(yǔ)調(diào)、節(jié)奏和振幅,或者它們的組合。
通過(guò)利用任何公知的語(yǔ)音識(shí)別算法,包括隱式Markov建模(HMM),例如上面關(guān)于圖1A說(shuō)明的隱式Markov建模(HMM),在話音分析器232內(nèi)進(jìn)行單詞識(shí)別。一般來(lái)說(shuō),模擬音頻通信信號(hào)被濾除不能產(chǎn)生音素解答的寄生噪聲,并且濾波后的信號(hào)以預(yù)定的采樣率(對(duì)于西歐語(yǔ)言和它們的衍生語(yǔ)言,大約每秒8000-10000個(gè)樣本)被數(shù)字化。隨后,采用聲學(xué)模型布局提取數(shù)字化信號(hào)的重疊幀(具有固定的幀長(zhǎng)度)內(nèi)與一組語(yǔ)言音素(對(duì)歐洲語(yǔ)言及它們的衍生語(yǔ)言識(shí)別的35-55個(gè)獨(dú)特音素,不過(guò)對(duì)于更復(fù)雜的口語(yǔ),可能存在多達(dá)數(shù)千個(gè)獨(dú)特的音素)的已知模式相關(guān)聯(lián)的特征。隨后根據(jù)音素鏈與音素單詞模型相關(guān)聯(lián)的概率,把提取的音素連接成鏈。由于可不同于其字典詞匯地說(shuō)出某一單詞,因此具有最高的匹配概率分?jǐn)?shù)的音素單詞模型代表該單詞。通過(guò)對(duì)所有常見(jiàn)的發(fā)音變化納入HMM模型,包括在子音素層面的一些話音分析和/或修改聲學(xué)模型布局來(lái)反映發(fā)音的變化,在詞匯和發(fā)出的語(yǔ)音之間可提高分?jǐn)?shù)的可靠性。
可在通信中的相鄰單詞的上下文中核實(shí)具有高匹配概率的單詞。按照和各串語(yǔ)言音素形成特定單詞的音素模型的可能相配者相同的方式,根據(jù)單詞相配者在特定句子模型的上下文中的概率,各串觀測(cè)的單詞也可根據(jù)被一起連接成一個(gè)句子模型。如果單詞釋義在相鄰單詞的上下文中有意義,那么該匹配被核實(shí)。如果否,那么檢查具有次高分?jǐn)?shù)的單詞。由于識(shí)別通信中的情感依賴于情感-短語(yǔ)字典220中的文本挖掘,并且由于抄錄的文本可能翻譯自源語(yǔ)言,因此就本發(fā)明來(lái)說(shuō),核實(shí)單詞相配者特別有用。
多數(shù)單詞只具有與對(duì)于該單詞接受的一種主要釋義相關(guān)聯(lián)的一種發(fā)音和單一拼寫。于是,通過(guò)檢查單詞(和單詞含意)相配者在由通信中的其它識(shí)別單詞構(gòu)成的句子的上下文中的概率分?jǐn)?shù),可核實(shí)多數(shù)識(shí)別的單詞。如果兩個(gè)觀測(cè)的音素模型具有類似的概率分?jǐn)?shù),那么依據(jù)它們?cè)诰渥幽P偷纳舷挛闹械暮?,可?duì)它們進(jìn)行進(jìn)一步的分析。在句子的上下文中具有最高概率分?jǐn)?shù)的單詞被選作最可能的單詞。
相反,一些單詞具有一種以上的含意和/或一種以上的拼寫。例如,同音異義詞是發(fā)音相同(即,具有相同的音素模型),但是具有不同的拼寫,并且每種拼寫具有一種或多種獨(dú)立含意的單詞(例如,fore和four,或者to、too和two)。當(dāng)把識(shí)別的同音異義詞抄錄成文本字符時(shí),以及對(duì)于從它們的含意提取同音異義詞可能傳遞的情感內(nèi)容來(lái)說(shuō),這些不確定性特別成問(wèn)題。通過(guò)利用句子模型中單詞含意的上下文分析,對(duì)于該句子模型來(lái)說(shuō),所識(shí)別單詞的一個(gè)同音異義詞含意將比所有其它同音異義詞含意得分更高,因?yàn)樵诰渥拥纳舷挛闹?,只有一個(gè)同音異義詞含意有意義。從具有最可能含意的同音異義詞,即,具有最高分?jǐn)?shù)的同音異義詞獲得單詞拼寫。同形異音異義詞是發(fā)音相同,拼寫相同并且具有兩種或者更多的不同含意的單詞。如果一種拼寫具有一種以上的含意,那么同音異義詞也可以是同形異音異義詞。同形異音異義詞不會(huì)對(duì)抄錄造成任何特殊的問(wèn)題,因?yàn)椴淮嬖谌魏纹磳懖淮_定性。但是,同形異音異義詞會(huì)產(chǎn)生在嘗試文本挖掘以便從同形異音異義詞提取情感內(nèi)容,或者把同形異音異義詞翻譯成另一種語(yǔ)言之前應(yīng)解決的釋義不確定性。這里同樣地,可根據(jù)句子模型中同形異音異義詞含意的概率分?jǐn)?shù),確定同形異音異義詞的最可能的含意。一旦最可能的釋義被確定,釋義信息就可作為元信息被傳送給抄錄器234供情感提取之用,以及傳送給情感置標(biāo)引擎238,作為含意元數(shù)據(jù)包含為情感置標(biāo)元數(shù)據(jù)的一部分,含意元數(shù)據(jù)有益于把同形異音異義詞翻譯成其它語(yǔ)言。
抄錄器234從話音分析器232接收單詞解答和任何伴隨的含意元數(shù)據(jù),并把它們抄錄成文本解答。利用來(lái)自話音分析器232的元數(shù)據(jù)(如果可用的話)解決同音異義詞拼寫。抄錄的文本解答隨后被發(fā)送給情感置標(biāo)引擎238和文本/短語(yǔ)分析器236。
話音分析器232內(nèi)的情感識(shí)別過(guò)程的工作原理多少使人聯(lián)想起利用HMM,并且如上關(guān)于圖1B描述的單詞識(shí)別。但是,從子情感話音模式鏈產(chǎn)生子情感單元模型并不象產(chǎn)生用于概率比較的單詞音素模型那樣直接。就美國(guó)的英語(yǔ)口語(yǔ),一些研究人員已識(shí)別了100種以上的子情感話音模式(情感單元)。在各種文化之間,甚至在使用共同語(yǔ)言的那些文化,比如加拿大和英國(guó)之間,子情感話音模式的構(gòu)成和結(jié)構(gòu)也變化極大。另外,由子情感話音模式鏈構(gòu)成的情感模型有點(diǎn)不明確,尤其是當(dāng)與它們的配對(duì)的音素單詞模型相比時(shí)更是如此。于是,觀測(cè)的子情感模型會(huì)導(dǎo)致最適當(dāng)?shù)那楦袉卧P偷妮^低概率分?jǐn)?shù),或者更壞,它會(huì)導(dǎo)致統(tǒng)計(jì)上與不正確的情感單元模型的分?jǐn)?shù)不能區(qū)別的分?jǐn)?shù)。
根據(jù)例證實(shí)施例,由于將從音頻流中探測(cè)較大數(shù)量的子情感話音模式(已識(shí)別了100種以上的子情感話音模式),因此在幾乎不過(guò)濾模擬音頻信號(hào)的情況下,在話音分析器232內(nèi)進(jìn)行情感識(shí)別過(guò)程。模擬信號(hào)以通常比單詞識(shí)別更高的采樣率(通常在12000樣本/秒以上,一直到15000樣本/秒)被數(shù)字化。在數(shù)字化信號(hào)的具有固定幀長(zhǎng)度的重疊幀內(nèi)進(jìn)行特征提取,以容納和子情感話音模式相關(guān)聯(lián)的數(shù)字特征的不同起點(diǎn)和終點(diǎn)。根據(jù)觀測(cè)的子情感話音模式鏈和特定情感的情感單元模型相關(guān)聯(lián)的概率,提取的子情感話音模式被組合成子情感話音模式鏈,并根據(jù)正確匹配的概率分?jǐn)?shù)求解情感。
另一方面,話音分析器232可采用需要較少計(jì)算容量的魯棒性較低的情感提取過(guò)程。這可通過(guò)減少將通過(guò)情感分析來(lái)求解的離散情感的數(shù)量來(lái)實(shí)現(xiàn)。通過(guò)組合離散情感和類似的子情感話音模式模型,可為每種情感構(gòu)成話音模式模板,所述話音模式模板可被用于匹配在音頻中觀測(cè)到的話音模式。這和單詞識(shí)別中,關(guān)于較小詞匯量的模板匹配的意思相同。
話音分析器232還執(zhí)行一組輔助功能,包括講話者話音分析,聽(tīng)眾和語(yǔ)境評(píng)估,以及單詞含意分析。在一些情況下,講話者的身份可能未知,通過(guò)利用默認(rèn)的語(yǔ)境簡(jiǎn)表進(jìn)行話音分析。在一種情況下,語(yǔ)境分析器230將傳送包含在簡(jiǎn)表數(shù)據(jù)庫(kù)212中的每個(gè)講話者簡(jiǎn)表的講話者話音模式信息。隨后,話音分析器232同時(shí)為單詞識(shí)別、情感識(shí)別和講話者話音模式識(shí)別分析話音。如果通信中的語(yǔ)音和一種話音模式匹配,那么話音分析器232通知語(yǔ)境分析器230,語(yǔ)境分析器230隨后發(fā)送該講話者的更完整的語(yǔ)境簡(jiǎn)表。
實(shí)際上,話音分析器232可被實(shí)現(xiàn)成兩個(gè)獨(dú)立的分析器,一個(gè)用于關(guān)于語(yǔ)言音素分析通信流,另一個(gè)用于關(guān)于子情感話音模式分析通信流(未示出)。
在文本/短語(yǔ)分析器236從話音分析器232,或者直接從文本通信流接收文本通信。文本/短語(yǔ)分析器236通過(guò)文本挖掘情感-文本/短語(yǔ)字典220,根據(jù)包含在通信流中的文本模式推斷情感。當(dāng)在情感-文本/短語(yǔ)字典220中找到匹配的單詞或短語(yǔ)時(shí),該單詞的情感釋義提供對(duì)講話者的情緒狀態(tài)的推斷。這種情感分析依賴于字典中明確的文本模式-情感釋義。只有在情感-短語(yǔ)字典中被釋義的單詞和短語(yǔ)才能夠產(chǎn)生通信的情感暗示。文本/短語(yǔ)分析器236獨(dú)立地或者結(jié)合話音分析器232的話音分析推斷情感。和其它字典條目相比,講話者頻繁使用的字典單詞和短語(yǔ)被賦予較高的權(quán)重,指示講話者打算通過(guò)選擇這些詞匯來(lái)表達(dá)特定情感的概率較高。
通過(guò)使用特定于語(yǔ)言的文本挖掘數(shù)據(jù)庫(kù),文本挖掘解決方案提高精度和速度,優(yōu)于僅僅進(jìn)行話音分析。在文本挖掘情感-文本/短語(yǔ)字典220被用于分析特定人的語(yǔ)音的情況下,可手動(dòng)或者自動(dòng)地進(jìn)一步訓(xùn)練該字典,從而向用戶最頻繁使用的短語(yǔ)和學(xué)到的這些短語(yǔ)的情感內(nèi)容提供更高的權(quán)重。該信息可被保存在用戶的簡(jiǎn)表中。
如上所述,情感置標(biāo)組件210利用兩種獨(dú)立的情感分析,話音模式分析(話音分析器232)和文本模式分析(文本/短語(yǔ)分析器236)從話音通信流得出情感??蔀榍楦蟹治鲇羞x擇地指定文本或話音通信,并且同樣地可指定待執(zhí)行的情感分析的類型。話音和文本/短語(yǔ)分析器232和236接收置標(biāo)命令,以便有選擇地調(diào)用情感分析器,以及情感置標(biāo)引擎238。置標(biāo)命令對(duì)應(yīng)于為情感分析和后續(xù)的情感置標(biāo)指定通信的一個(gè)片斷的置標(biāo)選擇。根據(jù)一個(gè)例證實(shí)施例,為情感分析有選擇地標(biāo)記話音和/或音頻通信的多個(gè)片斷,而剩余部分并不關(guān)于其情感內(nèi)容被分析。對(duì)通信進(jìn)行情感分析的決定可由講話者、聽(tīng)眾或另一用戶手動(dòng)啟動(dòng)。例如,用戶可以只選擇通信的多個(gè)部分進(jìn)行情感分析。另一方面,可在無(wú)人類干預(yù)的情況下自動(dòng)標(biāo)出通信中供情感分析之用的多個(gè)選擇部分。例如,在通信的起點(diǎn)并且之后持續(xù)預(yù)定的時(shí)間為情感分析標(biāo)記通信流,以便識(shí)別講話者的情緒狀態(tài)。在初始分析之后,根據(jù)用于優(yōu)化效率和精度的時(shí)間算法為進(jìn)一步的情感分析對(duì)通信進(jìn)行標(biāo)記。
置標(biāo)選擇命令可由講話者中聽(tīng)眾實(shí)時(shí)發(fā)出,或者可在之后對(duì)記錄的語(yǔ)音進(jìn)行所述選擇。例如,聽(tīng)眾可把傳輸中的口頭通信轉(zhuǎn)換成文本,以便包含在電子郵件、即時(shí)消息或其它文本通信中。但是,用情感標(biāo)記文本會(huì)導(dǎo)致不可接受的長(zhǎng)延遲。一種解決方案是只突出口頭通信的代表講話者的情緒狀態(tài)的全部語(yǔ)調(diào)和音質(zhì)的某些片斷,或者另一方面,突出其中在口頭講話方式中,講話者似乎異常激昂或者表現(xiàn)出強(qiáng)烈情感的片斷。
根據(jù)本發(fā)明的另一例證實(shí)施例,由特定的情感分析器,即話音分析器232或文本/短語(yǔ)分析器236有選擇地標(biāo)記通信以便進(jìn)行情感分析。情感分析器的選擇可以情感分析器的效率、精度或可用性為基礎(chǔ),或者以其它一些參數(shù)為基礎(chǔ)。這種組合中話音和文本的相對(duì)使用將依賴于多個(gè)因素,包括可用的機(jī)器資源(話音分析通常對(duì)機(jī)器資源的需求程度更高),語(yǔ)境的適合性等。例如,可能一種情感分析可更快地從通信流推導(dǎo)出情感,但是精度稍低,而另一種分析可從通信流得到更準(zhǔn)確的情感暗示,但是較慢。從而,在一些情況下主要依賴于一種分析,在其它情況下,另一種分析被依賴為主要的分析。另一方面,一種分析可用于推斷情感,并在用情感標(biāo)記文本之前,用另一種分析證明其合格。
通信置標(biāo)也可以是自動(dòng)的,并被用于根據(jù)預(yù)定參數(shù)有選擇地調(diào)用話音分析或文本/短語(yǔ)分析。在情感置標(biāo)組件210內(nèi)由話音分析器232和文本/短語(yǔ)分析器236任意之一或者這兩者從通信提取情感。文本/短語(yǔ)分析器236根據(jù)講話者用于表達(dá)消息的單詞和短語(yǔ)(或者在文本通信的情況下,可推斷情感內(nèi)容的標(biāo)點(diǎn)符號(hào)及其它詞匯和語(yǔ)法),關(guān)于講話者的情緒狀態(tài)文本挖掘情感-短語(yǔ)字典220。話音分析器232通過(guò)從口頭通信中提取表現(xiàn)出情感的話音模式(它是表征情感的口頭講話方式的音高、語(yǔ)調(diào)、節(jié)奏和振幅),識(shí)別情感。由于這兩種情感分析技術(shù)分析通信中的不同模式,即話音和文本,因此這兩種技術(shù)可被用于求解不同的情感結(jié)果。例如,一種情感分析可被專用于分析講話者的明顯的情緒狀態(tài),而另一種情感分析可被專用于分析講話者的微妙的情緒狀態(tài)。在一些情況下,講話者可能小心地選擇單詞來(lái)掩飾明顯的情感。但是,講話者口頭講話方式的音高、語(yǔ)調(diào)、節(jié)奏和振幅方面的無(wú)意識(shí)變化可示出微妙或者受抑制的情感內(nèi)容。于是,在一些情況下,話音分析器232可從通信中的話音模式中識(shí)別出受講話者選擇的詞匯抑制的情感。由于講話者避免使用帶感情的單詞,因此文本/短語(yǔ)分析器236采用的文本挖掘在導(dǎo)出情感方面會(huì)無(wú)效。另一方面,講話者可能試圖控制他的情感話音模式。這種情況下,通過(guò)文本挖掘,文本/短語(yǔ)分析器236會(huì)比話音分析器232更準(zhǔn)確地推斷情感,因?yàn)樵捯裟J绞艿揭种啤?br>
自動(dòng)通信置標(biāo)還可為具體通信識(shí)別最準(zhǔn)確的一種情感分析,并使用該種情感分析而排除另一種情感分析。這里,兩種情感分析器最初都被允許得到情感結(jié)果,并且相互對(duì)照地檢查結(jié)果的一致性。一旦優(yōu)先于一種情感分析選擇了另一種情感分析,那么利用更準(zhǔn)確的方法標(biāo)記通信以便進(jìn)行分析。但是,自動(dòng)通信置標(biāo)將利用未經(jīng)選擇的情感分析器為核實(shí)分析隨便標(biāo)記選擇。自動(dòng)通信置標(biāo)還可識(shí)別通信的最有效的情感分析器(最快并且具有最低的錯(cuò)誤率),只利用該分析器標(biāo)記通信以便進(jìn)行分析,并按照類似的方式不斷核實(shí)最佳效率。
如上所述,多數(shù)情感提取過(guò)程可識(shí)別九種或十種基本人類情感,并且可能識(shí)別每種情感的兩種或三種程度或級(jí)別。但是,情感可被進(jìn)一步分類到其它情緒狀態(tài),例如,愛(ài)、喜悅/平靜/快樂(lè)、驚訝、英勇、驕傲、希望、贊同/滿意、厭倦、期待、懊悔、悲哀、羨慕、妒忌/欲望/貪婪、厭惡/討厭、悲傷、內(nèi)疚、恐懼/憂慮、生氣(反感/不悅/激怒-憤怒)和憎恨(不過(guò)其它情感類別也是可識(shí)別的)。此外,更復(fù)雜的情感可具有多于兩種或三種的級(jí)別。例如,評(píng)論員提到五級(jí),或者有時(shí)七級(jí)的生氣;從反感和不悅到憤慨和憤怒。根據(jù)本發(fā)明的另一例證實(shí)施例,公開一種分級(jí)情感提取過(guò)程,其中一種情感分析器提取講話者的大體情緒狀態(tài),另一種情感分析器確定所述大體情緒狀態(tài)的具體級(jí)別。例如,首先選擇文本/短語(yǔ)分析器236文本挖掘情感-短語(yǔ)字典220,以根據(jù)通信的詞匯確定講話者的大體情緒狀態(tài)。一旦確定了大體的情緒狀態(tài),分級(jí)情感提取過(guò)程只選擇某些語(yǔ)音片斷供文本/短語(yǔ)分析器236分析。隨后用識(shí)別的講話者的大體情緒狀態(tài)標(biāo)記通信的片斷供話音分析器232分析。
根據(jù)本發(fā)明的另一例證實(shí)施例,一種分析可被用于選擇另一種分析的特殊變形。例如,文本分析(文本挖掘)的結(jié)果可被用作引導(dǎo),或者用于微調(diào)話音分析。一般來(lái)說(shuō),許多模型被用于話音分析,為通信選擇最適當(dāng)?shù)哪P图兇馐遣聹y(cè)。但是,由于除了話音分析之外,本發(fā)明還對(duì)同一通信利用文本分析,因此文本分析可被用于選擇適合于通信語(yǔ)境的模型子組。由于通信語(yǔ)境的變化,話音分析模型可在通信之間變化。
如上所述,人類往往會(huì)和通信的語(yǔ)境并且隨著時(shí)間改進(jìn)他們對(duì)情感單詞和話音模式的選擇。一種訓(xùn)練機(jī)制包括話音分析器232不斷更新與情感單詞和話音模式相關(guān)的使用頻率分?jǐn)?shù)。另外,可從講話者使用的單詞和短語(yǔ)推斷出一些學(xué)到的情感內(nèi)容。用戶從話音分析器232檢查更新的簡(jiǎn)表數(shù)據(jù),接受、拒絕或者接受簡(jiǎn)表信息的選定部分。接受的簡(jiǎn)表信息被用于更新講話者的適當(dāng)語(yǔ)境簡(jiǎn)表。另一方面,一些或者全部簡(jiǎn)表信息將被自動(dòng)用于更新講話者的語(yǔ)境簡(jiǎn)表,例如更新與預(yù)定的情感單詞或話音模式相關(guān)的使用頻率權(quán)重。
置標(biāo)引擎238被配置成情感置標(biāo)組件210的輸出部分,并且具有用情感元數(shù)據(jù)標(biāo)記文本的主要職責(zé)。置標(biāo)引擎238從抄錄器234接收文本流,或者直接從文本源,即從電子郵件、即時(shí)消息或者其它文本通信接收文本通信。置標(biāo)引擎238還從文本/短語(yǔ)分析器236和話音分析器232接收情感暗示。這些推斷可以采取標(biāo)準(zhǔn)化的情感元數(shù)據(jù)的形式,并且立即與文本組合。另一方面,情感暗示首先被變換成適合于與文本組合的標(biāo)準(zhǔn)化情感元數(shù)據(jù)。置標(biāo)引擎238還從包含情感的某些類型的文本通信,比如電子郵件、即時(shí)消息等接收情感標(biāo)記和情感圖標(biāo)。這些類型的情感暗示可被直接映射成對(duì)應(yīng)的情感元數(shù)據(jù),并與對(duì)應(yīng)的文本通信流組合。置標(biāo)引擎238還可接收并用情感元數(shù)據(jù)標(biāo)記原始通信流(例如直接來(lái)自電話機(jī)、錄音帶或麥克風(fēng)的原始話音或音頻通信)。
置標(biāo)引擎238還接收對(duì)應(yīng)于置標(biāo)選擇的控制信號(hào)。控制信號(hào)啟動(dòng)置標(biāo)引擎238,如果引擎正常地在OFF狀態(tài)下工作,或者另一方面,控制信號(hào)禁用置標(biāo)引擎238,如果引擎正常地在ON狀態(tài)下工作。
帶有置標(biāo)元數(shù)據(jù)的文本從置標(biāo)引擎238輸出給情感轉(zhuǎn)化組件250以便進(jìn)一步處理,或者輸出給內(nèi)容管理系統(tǒng)600以便存檔。從置標(biāo)引擎238輸出的帶有情感元數(shù)據(jù)的任何原始通信也可作為情感產(chǎn)物被保存在內(nèi)容管理系統(tǒng)600中供搜索之用。
參見(jiàn)圖5,根據(jù)本發(fā)明的一個(gè)例證實(shí)施例表示了情感轉(zhuǎn)化組件250的邏輯結(jié)構(gòu)。情感轉(zhuǎn)化組件250的用途是有效地把文本和情感置標(biāo)元數(shù)據(jù)轉(zhuǎn)化成例如話音通信,包括相對(duì)于情感準(zhǔn)確地調(diào)整講話方式的語(yǔ)調(diào)、上揚(yáng)(camber)和頻率。情感轉(zhuǎn)化組件250把文本和情感元數(shù)據(jù)翻譯成另一種方言或語(yǔ)言。情感轉(zhuǎn)化組件250還可情感挖掘與翻譯后的情感元數(shù)據(jù)一致的單詞和文本模式,以便包含為翻譯后的文本的一部分。情感轉(zhuǎn)化組件250被配置成接受在情感置標(biāo)組件210產(chǎn)生的情感置標(biāo)元數(shù)據(jù),不過(guò)還可接受其它情感元數(shù)據(jù),比如可能存在于電子郵件和即時(shí)消息中的情感圖標(biāo)、情感字符、情感符號(hào)等。
情感轉(zhuǎn)化組件250由兩個(gè)獨(dú)立的體系結(jié)構(gòu)組成文本和情感轉(zhuǎn)化體系結(jié)構(gòu)272,及語(yǔ)音和情感合成體系結(jié)構(gòu)270。文本和情感轉(zhuǎn)化體系結(jié)構(gòu)272把文本,比如從情感置標(biāo)組件210接收的文本翻譯成和初始通信不同的語(yǔ)言或方言。此外,文本和情感轉(zhuǎn)化體系結(jié)構(gòu)272利用情感-情感字典255中的一組情感-情感釋義,把情感數(shù)據(jù)從在一種文化中表達(dá)的情感元數(shù)據(jù)轉(zhuǎn)換成與另一種文化相關(guān)的情感元數(shù)據(jù)??蛇x的是,文化調(diào)整后的情感元數(shù)據(jù)隨后被用于借助該種語(yǔ)言的文化所共有的情感單詞和文本模式修改翻譯后的文本。翻譯后的文本和翻譯后的情感元數(shù)據(jù)可直接用在諸如電子郵件和即時(shí)消息之類的文本通信中,或者另一方面,翻譯后的情感元數(shù)據(jù)首先被轉(zhuǎn)換成與媒體相一致的標(biāo)點(diǎn)符號(hào)或情感圖標(biāo)。如果要求話音,那么翻譯后的文本和翻譯后的情感元數(shù)據(jù)被提供給語(yǔ)音和情感合成體系結(jié)構(gòu)270,語(yǔ)音和情感合成體系結(jié)構(gòu)270把文本調(diào)制成聽(tīng)得見(jiàn)的單詞聲音,并利用翻譯后的情感元數(shù)據(jù)調(diào)整帶有情感的講話方式。
進(jìn)一步就文本和情感轉(zhuǎn)化體系結(jié)構(gòu)272而論,帶有情感元數(shù)據(jù)的文本由解析器52接收和分離。文本中的情感元數(shù)據(jù)被傳送給情感轉(zhuǎn)化器254,文本被轉(zhuǎn)發(fā)給文本轉(zhuǎn)化器252。用戶選擇文本-文本字典253內(nèi)的文本-文本釋義,以便把文本翻譯成用戶的語(yǔ)言。如果文本是英語(yǔ)并且用戶是法國(guó)人,那么文本-文本釋義把英語(yǔ)翻譯成法語(yǔ)。文本-文本字典253可包含每種語(yǔ)言中的多種方言的全面的大量文本-文本釋義。文本轉(zhuǎn)化器252利用用戶語(yǔ)言(可用還有方言)中的文本的輸入文本,對(duì)內(nèi)部文本-文本字典進(jìn)行文本挖掘。類似于文本翻譯,情感轉(zhuǎn)化器254情感挖掘情感-情感字典255,以便匹配與所翻譯語(yǔ)言的文化相一致的情感元數(shù)據(jù)。從所翻譯語(yǔ)言的文化,即用戶的文化的觀點(diǎn)來(lái)看,轉(zhuǎn)化后的情感元數(shù)據(jù)更準(zhǔn)確地表示情感。
文本轉(zhuǎn)化器252還被端接,以便從情感轉(zhuǎn)化器254接收轉(zhuǎn)化后的情感元數(shù)據(jù)。借助該情感信息,文本轉(zhuǎn)化器252能夠關(guān)于表達(dá)該情感的單詞和短語(yǔ)(不過(guò)針對(duì)的是聽(tīng)眾的文化)文本挖掘情感-文本/短語(yǔ)字典220。實(shí)際上,文本轉(zhuǎn)化器252實(shí)際情感挖掘與從情感轉(zhuǎn)化器254接收的轉(zhuǎn)化后的情感元數(shù)據(jù)相關(guān)的單詞、短語(yǔ)、標(biāo)點(diǎn)符號(hào)和其它詞匯。
在情感轉(zhuǎn)化體系結(jié)構(gòu)272的情感轉(zhuǎn)化器還可接收情感選擇控制信號(hào),用于有選擇地轉(zhuǎn)化情感元數(shù)據(jù)。在電子郵件或即時(shí)消息中,控制信號(hào)可以是醒目的,它向情感轉(zhuǎn)化體系結(jié)構(gòu)272指示關(guān)于文本的情感置標(biāo)的存在。例如,消息的作者可以突出消息的一部分,或者標(biāo)記響應(yīng)的一部分,并使情感與之聯(lián)系起來(lái)。當(dāng)以語(yǔ)音的形式傳送該部分時(shí),該標(biāo)記將被情感轉(zhuǎn)化體系結(jié)構(gòu)272用于引入適當(dāng)?shù)念l率和音高。
可選的是,情感轉(zhuǎn)化器254還可產(chǎn)生能夠容易地與在文本轉(zhuǎn)化器272產(chǎn)生的文本相結(jié)合的情感圖標(biāo)或其它情感字符。帶有情感圖標(biāo)的文本易于適應(yīng)于電子郵件和即時(shí)消息接發(fā)系統(tǒng)。
應(yīng)重申的是,情感-文本/短語(yǔ)字典220包含按照基于通信的語(yǔ)境,提供給情感轉(zhuǎn)化組件250的簡(jiǎn)表信息選擇、修改和加權(quán)的雙向情感-文本/短語(yǔ)釋義(包括單詞、短語(yǔ)、標(biāo)點(diǎn)符號(hào)及其它詞匯和語(yǔ)法)的字典。在討論情感置標(biāo)組件210的上下文中,簡(jiǎn)表信息與講話者相關(guān),更準(zhǔn)確的說(shuō),簡(jiǎn)表信息與控制利用情感置標(biāo)組件的設(shè)備的人相關(guān)。許多設(shè)備既利用情感轉(zhuǎn)化組件250又利用情感置標(biāo)組件210,情感轉(zhuǎn)化組件250和情感置標(biāo)組件210分別與情感-文本/短語(yǔ)字典220端接。于是,按照設(shè)備的所有者(或者控制該設(shè)備的人)的簡(jiǎn)表,選擇、修改和加權(quán)雙向情感-文本/短語(yǔ)釋義。從而,當(dāng)所有者是通信的講話者(或者書面通信的作者)時(shí),所述雙向釋義被用于從包含在通信中的單詞和短語(yǔ)中文本挖掘情感。相反,當(dāng)所有者是聽(tīng)眾(或者通信的接收者)時(shí),雙向釋義被用于根據(jù)伴隨文本的情感元數(shù)據(jù),文本挖掘表達(dá)講話者的情緒狀態(tài)的單詞和短語(yǔ)。
就情感合成體系結(jié)構(gòu)270來(lái)說(shuō),文本和情感置標(biāo)元數(shù)據(jù)被用于合成人類語(yǔ)音。話音合成器258從文本轉(zhuǎn)化器252接收輸入文本或者已關(guān)于情感調(diào)整的文本。利用任何公知的算法,比如基于HMM的語(yǔ)音合成進(jìn)行該合成??傊?,合成的話音一般以具有常規(guī)頻率和恒定振幅,即不具有任何可識(shí)別的情感話音模式的單調(diào)音頻的形式被輸出。
合成的話音隨后在話音情感調(diào)整器260被接收,話音情感調(diào)整器260調(diào)整話音的音高、語(yǔ)調(diào)和振幅,并根據(jù)它接收的情感信息改變講話方式的頻率或節(jié)奏。情感信息采取可從位于情感轉(zhuǎn)化組件250外部的來(lái)源,比如電子郵件或者即時(shí)消息、搜索結(jié)果接收的情感元數(shù)據(jù)的形式,或者可改為是來(lái)自情感轉(zhuǎn)化器254的轉(zhuǎn)化后的情感元數(shù)據(jù)。話音情感調(diào)整器260從情感-話音模式字典222取回與情感元數(shù)據(jù)對(duì)應(yīng)的話音模式。這里同樣地,利用用戶的語(yǔ)境簡(jiǎn)表選擇情感-話音模式釋義,但是這種情況下,用戶獨(dú)有的個(gè)性簡(jiǎn)表一般被忽略,并不用于進(jìn)行情感調(diào)整。
在話音情感調(diào)整器260還接收情感選擇控制信號(hào),用于選擇帶有情感話音模式調(diào)整的合成話音。在電子郵件或即時(shí)消息中,控制信號(hào)可以是醒目的,這向話音情感調(diào)整器260指示關(guān)于文本的情感置標(biāo)的存在。例如,消息的作者可以突出消息的一部分,或者標(biāo)記響應(yīng)的一部分,并使情感與之聯(lián)系起來(lái)。當(dāng)以語(yǔ)音的形式傳送該部分時(shí),該標(biāo)記將被情感合成體系結(jié)構(gòu)270用于使話音情感調(diào)整器260能夠引入適當(dāng)?shù)念l率和音高。
如上所述,一旦通信的情感內(nèi)容已被分析,并且創(chuàng)建了情感元數(shù)據(jù),那么通信就可被存檔。通常,只有文本和伴隨的情感元數(shù)據(jù)被存檔為通信的語(yǔ)境和情感的產(chǎn)物,因?yàn)樵獢?shù)據(jù)保持了原始通信的情感。但是在一些情況下,原始音頻通信也被存檔,例如用于訓(xùn)練數(shù)據(jù)。音頻通信也可包含具有對(duì)應(yīng)的情感元數(shù)據(jù)的數(shù)據(jù)道(data track)。
參見(jiàn)圖6,根據(jù)本發(fā)明的一個(gè)例證實(shí)施例說(shuō)明內(nèi)容管理系統(tǒng)。內(nèi)容管理系統(tǒng)600可與任何網(wǎng)絡(luò)連接,可與因特網(wǎng)連接,或者可以是獨(dú)立的設(shè)備,比如本地PC、膝上型計(jì)算機(jī)等。內(nèi)容管理系統(tǒng)600包括數(shù)據(jù)處理和通信組件,服務(wù)器602,和存儲(chǔ)、存檔數(shù)據(jù)庫(kù)610。服務(wù)器620還包含帶情感語(yǔ)境搜索引擎606,可選的是,可包括嵌入式情感通信體系結(jié)構(gòu)604。嵌入式情感通信體系結(jié)構(gòu)604不是進(jìn)行帶情感語(yǔ)境的搜索所必需的,但是可用于訓(xùn)練語(yǔ)境簡(jiǎn)表或者從客戶機(jī)卸載處理。
文本和單詞搜索極其普通,但是,有時(shí)重要的不是正在說(shuō)內(nèi)容,而是如何表達(dá)該內(nèi)容,即重要的不是單詞,而是如何表達(dá)這些單詞。例如,如果管理人員想要在工作場(chǎng)所中的同事間的表現(xiàn)出平和情緒狀態(tài),或者滿意感的通信的例子,那么管理人員將進(jìn)行文本搜索。在搜索之前,管理人員必須識(shí)別在工作場(chǎng)所中使用的,表明平和感覺(jué)的具體單詞,隨后用這些單詞搜索通信。單詞“content”可被視為一個(gè)搜索項(xiàng)。雖然文本搜索可能返回一些準(zhǔn)確的命中結(jié)果,例如其中講話者宣布“I am content with...”的命中結(jié)果,不過(guò)這些結(jié)果會(huì)被其它不準(zhǔn)確的命中結(jié)果(其中,單詞“content”被用在提取中,用作隱喻,或者用在討論滿足情感的任何通信中)所掩蓋。此外,由于單詞“content”是同音異義字,因此文本搜索還會(huì)產(chǎn)生關(guān)于其其它含意的不準(zhǔn)確命中結(jié)果。
相反,根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,可根據(jù)通信語(yǔ)境和情感搜索通信數(shù)據(jù)庫(kù)。搜索查詢可由服務(wù)器602內(nèi)的帶情感文本搜索引擎606接收。所述查詢至少指定一種情感。搜索引擎606隨后搜索通信存檔數(shù)據(jù)庫(kù)610的情感元數(shù)據(jù),尋找具有該情感的通信。隨后返回結(jié)果608,結(jié)果608從對(duì)應(yīng)于元數(shù)據(jù)的表現(xiàn)出該情感的通信中識(shí)別具有該情感,并且具有相關(guān)一段話的通信。結(jié)果608被轉(zhuǎn)發(fā)給被轉(zhuǎn)發(fā)給請(qǐng)求者以便進(jìn)行最終選擇或者改進(jìn)。
僅僅只有帶情感的通信的例子并不特別有用;相反,有用的是在特殊的語(yǔ)境中如何表達(dá)特定的情感,例如在股東年會(huì)上在公司高級(jí)職員與股東之間,在電話會(huì)議,或者銷售會(huì)議,或者在客戶在場(chǎng)的情況下,或者在討論中在上級(jí)和下級(jí)之間,或者在審問(wèn)中,在警察與嫌疑犯之間,或者甚至在美國(guó)國(guó)情咨文中在美國(guó)總統(tǒng)和美國(guó)國(guó)會(huì)之間。從而,查詢還指定其中可表達(dá)特定情感的通信語(yǔ)境。
就前面的例子來(lái)說(shuō),如果管理人員想要了解如何在工作場(chǎng)所中的同事之間傳達(dá)情感,比如平和或者滿意,那么管理人員可向情感搜索引擎606發(fā)出關(guān)于語(yǔ)境的查詢。該查詢確定情感“滿意”和通信的語(yǔ)境,講話者和聽(tīng)眾,例如同事之間的關(guān)系,并且還可指定語(yǔ)境媒體,比如語(yǔ)音郵件。搜索引擎606隨后搜索存檔于存檔數(shù)據(jù)庫(kù)610中的同事之間的所有語(yǔ)音郵件通信,尋找平和或滿意情感元數(shù)據(jù)。結(jié)果608隨后被返回給管理人員,結(jié)果608包括證明所得到的電子郵件通信的平和情感內(nèi)容的典型段落。管理人員隨后可檢查所述典型段落,并根據(jù)例子選擇供下載的最適當(dāng)語(yǔ)音郵件。另一方面,管理人員可改進(jìn)搜索并繼續(xù)進(jìn)行。
根據(jù)上面所述可認(rèn)識(shí)到,最理想的是,搜索引擎606搜索與通信相關(guān)的元數(shù)據(jù),而不是搜索通信本身的文本或音頻內(nèi)容。此外,情感搜索結(jié)果608返回自帶情感置標(biāo)的文本,而不是返回自音頻。
根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,根據(jù)語(yǔ)境和情感搜索外語(yǔ)通信的數(shù)據(jù)庫(kù),同時(shí)所得到的通信被翻譯成請(qǐng)求者的語(yǔ)言,用適合于指定情感并且與所翻譯語(yǔ)言的文本相一致的替換單詞進(jìn)行修改,隨后所得到的通信被調(diào)制為語(yǔ)音,其中關(guān)于與所翻譯語(yǔ)言的文化相一致的指定情感調(diào)整語(yǔ)音模式。從而,一個(gè)國(guó)家的人可關(guān)于情感搜索另一國(guó)家中通信的存檔記錄,觀察如何用他們自己的語(yǔ)言轉(zhuǎn)化該情感。如前所述,基本的人類情感可超越文化障礙;于是對(duì)于語(yǔ)言來(lái)說(shuō),用于創(chuàng)建情感元數(shù)據(jù)的情感置標(biāo)語(yǔ)言是透明的。從而,只有查詢的語(yǔ)境部分需要被轉(zhuǎn)化。對(duì)于這種情況,請(qǐng)求者從情感轉(zhuǎn)化組件250發(fā)出一個(gè)查詢,所述查詢?cè)趲楦姓Z(yǔ)境搜索引擎606被接收。該查詢的需要被轉(zhuǎn)化的任意部分被提供給嵌入式情感通信體系結(jié)構(gòu)604的情感轉(zhuǎn)化組件。搜索引擎608搜索與存檔的通信相關(guān)的元數(shù)據(jù),并獲得一個(gè)結(jié)果。
由于搜索跨越語(yǔ)言障礙,因此在被請(qǐng)求者查看之前,結(jié)果被轉(zhuǎn)化??稍谟脩舨僮鞯那楦修D(zhuǎn)化組件250本地進(jìn)行所述轉(zhuǎn)化,或者可由情感通信體系結(jié)構(gòu)604進(jìn)行所述轉(zhuǎn)化,結(jié)果608以轉(zhuǎn)化的形式被傳送給請(qǐng)求者。總之,文本和情感都與請(qǐng)求者的語(yǔ)言相一致地被轉(zhuǎn)化。這里同樣地,請(qǐng)求者檢查結(jié)果,并選擇特定的通信。所得到的通信隨后被翻譯成請(qǐng)求者的語(yǔ)言,用適合于指定的情感,并且與所翻譯語(yǔ)言的文本一致的替換單詞修改。另外,請(qǐng)求者可選擇收聽(tīng)該通信而不是查看它。所得到的通信被調(diào)制為自然語(yǔ)音,其中關(guān)于與所翻譯語(yǔ)言的文本相一致的指定情感調(diào)整語(yǔ)音模式。
如上所述,情感提取過(guò)程以及帶情感的轉(zhuǎn)化過(guò)程的準(zhǔn)確性取決于為用戶創(chuàng)建和保持準(zhǔn)確的語(yǔ)境簡(jiǎn)表信息。語(yǔ)境簡(jiǎn)表信息可在內(nèi)容管理系統(tǒng)600創(chuàng)建或者至少在內(nèi)容管理系統(tǒng)600訓(xùn)練,隨后被用于更新位于用戶可訪問(wèn)的各個(gè)設(shè)備和計(jì)算機(jī)上的簡(jiǎn)表數(shù)據(jù)庫(kù)中的語(yǔ)境簡(jiǎn)表信息。利用內(nèi)容管理系統(tǒng)600,可以后臺(tái)任務(wù)的形式執(zhí)行簡(jiǎn)表訓(xùn)練。這假定音頻通信已和情感置標(biāo)文本一起被存檔。用戶僅僅依據(jù)語(yǔ)境選擇通信,隨后指定該語(yǔ)境下的哪個(gè)通信應(yīng)被用作訓(xùn)練數(shù)據(jù)。依照音頻流如上所述地繼續(xù)進(jìn)行訓(xùn)練,同時(shí)話音分析器232不斷依據(jù)使用頻率對(duì)情感單詞和話音模式評(píng)分。
圖7是描述根據(jù)本發(fā)明的一個(gè)例證實(shí)施例的識(shí)別通信中的情感的方法的流程圖。通過(guò)確定會(huì)話的語(yǔ)境,即講話者和聽(tīng)眾是誰(shuí),以及通信的環(huán)境怎樣,開始該過(guò)程(步驟702)。語(yǔ)境信息的用途是識(shí)別用于填充一對(duì)情感字典的語(yǔ)境簡(jiǎn)表,一個(gè)情感字典用于情感文本分析,另一個(gè)情感字典用于情感話音分析。由于多數(shù)人為他們的聽(tīng)眾和環(huán)境改變他們的詞匯和語(yǔ)音模式,即講話方式,因此了解語(yǔ)境信息便于高度準(zhǔn)確地推斷情感,因?yàn)榭梢灾挥迷撏ㄐ耪Z(yǔ)境下最相關(guān)的釋義填充所述字典。如果語(yǔ)境信息未知,那么有時(shí)可推斷所述語(yǔ)境信息(步驟703)。例如,如果講話者/用戶利用PC或蜂窩電話機(jī)向朋友發(fā)送話音消息,那么講話者的身份識(shí)別可被假定為設(shè)備的所有者,可根據(jù)用于發(fā)送消息的地址簿或索引識(shí)別聽(tīng)眾。環(huán)境當(dāng)然是話音通信。隨后使用語(yǔ)境信息來(lái)選擇用于分析消息的情感內(nèi)容的最適當(dāng)簡(jiǎn)表(步驟704)。預(yù)期每個(gè)設(shè)備具有大量可用于填充所述字典的全面的情感釋義;用于填充文本挖掘字典的情感文本分析釋義,和用于填充話音分析字典的情感話音分析釋義(步驟706和708)。簡(jiǎn)表信息將指定講話者信息,比如他的語(yǔ)言、方言和地理區(qū)域??梢灾挥煤驮撔畔⑾嚓P(guān)的情感釋義填充字典。在許多情況下,該信息足以獲得可接受的情感結(jié)果。但是,簡(jiǎn)表信息還可指定聽(tīng)眾信息,即,聽(tīng)眾與講話者的關(guān)系。隨后用與聽(tīng)眾相關(guān)的情感釋義,即,明確與聽(tīng)眾相關(guān)的情感文本和話音模式來(lái)填充字典。
借助字典,接收通信流(步驟710),并通過(guò)從數(shù)字化話音中的特征提取單詞進(jìn)行話音識(shí)別(步驟712)。隨后,進(jìn)行檢查以確定是否為情感分析選擇了該部分的語(yǔ)音(實(shí)質(zhì)上只是轉(zhuǎn)化后的單詞)(步驟714)。如果未選擇該部分來(lái)進(jìn)行情感分析,那么文本被輸出(步驟728),檢查通信是否結(jié)束(步驟730)。如果否,那么過(guò)程返回步驟710,接收更多的語(yǔ)音,并關(guān)于另外的文本識(shí)別話音(步驟712)。
返回步驟714,如果語(yǔ)音已被指定用于情感分析,那么進(jìn)行檢查,以確定是否應(yīng)進(jìn)行情感話音分析(步驟716)。如自始至終所述那樣,本發(fā)明有選擇地采用話音分析和文本模式分析從通信推斷情感。在一些情況下,最好優(yōu)先于一種分析調(diào)用另一種分析,或者同時(shí)調(diào)用這兩種分析,或者都不調(diào)用。如果對(duì)通信的該部分不應(yīng)使用情感話音分析,那么進(jìn)行第二次檢查,以確定是否應(yīng)進(jìn)行情感文本分析(步驟722)。如果對(duì)通信的該部分也不應(yīng)使用情感文本分析,那么無(wú)情感置標(biāo)地輸出文本(步驟728),檢查通信是否結(jié)束(步驟730),并重復(fù)返回步驟710。
如果在步驟716,確定應(yīng)進(jìn)行情感話音分析,那么對(duì)照情感-話音模式字典中的情感話音模式檢查通信中的話音模式(步驟718)。如果對(duì)于通信中的話音模式識(shí)別了一種情感,那么用代表該情感的元數(shù)據(jù)標(biāo)記該文本(步驟720)。元數(shù)據(jù)向用戶提供對(duì)于從語(yǔ)音通信保持的情感的直觀提示。這些提示可以是醒目的顏色,情感字符或符號(hào),文本格式或者情感圖標(biāo)。類似地,如果在步驟722,確定應(yīng)進(jìn)行情感文本分析,那么分析通信中的文本模式。這伴隨著關(guān)于出自通信的文本,文本挖掘情感-短語(yǔ)字典(步驟724)。如果發(fā)現(xiàn)匹配,那么再次用表示情感的元數(shù)據(jù)標(biāo)記該文本(步驟726)。這種情況下,輸出帶情感置標(biāo)的文本(步驟728),檢查通信是否結(jié)束(步驟730),重復(fù)返回步驟710,直到通信結(jié)束為止。顯然,在一些情況下,在情感話音分析和情感文本分析之間判優(yōu),而不是對(duì)文本重復(fù)情感置標(biāo)是有益的。例如,如果一種分析首先得到結(jié)果,那么另一種分析可停止。另一方面,一種分析可提供一般的情感元數(shù)據(jù),而另一種分析可提供更特定的情感元數(shù)據(jù),即一種分析推斷情感,另一種分析推斷情感的強(qiáng)度級(jí)別。另外,一種分析可能在確定某些情感方面比另一種分析更準(zhǔn)確,從而更準(zhǔn)確的分析被專門用于用情感標(biāo)記該文本。
圖8A和8B是根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,說(shuō)明在不同通信機(jī)制之間保持情感的方法的流程圖。這種情況下,用戶一般不是講話者,而是聽(tīng)眾或讀者。該過(guò)程特別適合于用戶正在接收來(lái)自另一用戶的即時(shí)消息,或者用戶已訪問(wèn)通信的文本產(chǎn)物的情況。為該通信語(yǔ)境中的聽(tīng)眾選擇最適合的語(yǔ)境簡(jiǎn)表(步驟802)。根據(jù)聽(tīng)眾簡(jiǎn)表信息,情感文本分析釋義填充文本挖掘字典,情感話音分析釋義填充話音分析字典(步驟804和806)。隨后進(jìn)行檢查,以確定是否要對(duì)文本和情感置標(biāo)進(jìn)行轉(zhuǎn)化(步驟808)。如果否,那么接收帶情感置標(biāo)的文本(步驟812),并解析情感信息(步驟814)。隨后進(jìn)行檢查,以確定文本是否被標(biāo)記以便進(jìn)行情感調(diào)整(步驟820)。這里,情感調(diào)整指的是對(duì)于該情感,準(zhǔn)確地調(diào)整合成話音的語(yǔ)調(diào)、節(jié)奏和頻率。如果不需要調(diào)整,那么進(jìn)行最后的檢查,以確定是否把文本合成為音頻(步驟832)。如果否,那么連同情感置標(biāo)一起輸出文本(步驟836)。如果存在更多的文本,那么過(guò)程返回步驟820,在不對(duì)文本進(jìn)行翻譯的情況下完成該過(guò)程。相反,如果在步驟832,決定把文本合成為音頻,那么文本被調(diào)制(步驟834),并以音頻的形式輸出(步驟836)。
返回步驟820,如果文本被標(biāo)記以便進(jìn)行情感調(diào)整,那么利用情感-情感字典中的文化情感-情感釋義轉(zhuǎn)化情感元數(shù)據(jù)(步驟822)。情感-情感釋義并不改變?cè)獢?shù)據(jù)的格式,因?yàn)閷?duì)于各種語(yǔ)言和文化來(lái)說(shuō)是透明的,但是它確實(shí)會(huì)考慮到文化差異調(diào)整情感的等級(jí)。例如,如果在兩種文化之間,情感的級(jí)別是不同的,那么情感-情感釋義把情感的等級(jí)調(diào)整為與用戶的文化相一致??傊S后文本(情感)挖掘情感-單詞/短語(yǔ)字典,尋找在用戶的文化中表達(dá)該情感的單詞(步驟824)。該步驟把表達(dá)該情感的單詞添加到文本中。進(jìn)行最后的檢查,以確定是否把文本合成為音頻(步驟826),如果是,那么文本被調(diào)制(步驟828),并考慮到情感調(diào)整合成話音的語(yǔ)調(diào)、節(jié)奏和頻率(步驟830),并以帶情感的音頻的形式輸出(步驟836)。
返回步驟808,如果文本和情感置標(biāo)要被轉(zhuǎn)化,那么用從文本和置標(biāo)的原始語(yǔ)言到用戶語(yǔ)言的譯文填充文本-文本字典(步驟810)。隨后,接收帶情感置標(biāo)的文本(步驟813),并解析情感信息(步驟815)。利用文本-文本字典把文本從原始語(yǔ)言翻譯成用戶的語(yǔ)言(步驟818)。該過(guò)程隨后繼續(xù)檢查文本是否被標(biāo)記以便進(jìn)行情感調(diào)整(步驟820),并利用情感-情感字典中的釋義,把情感元數(shù)據(jù)轉(zhuǎn)化成用戶的文化(步驟822)。對(duì)情感-單詞/短語(yǔ)字典進(jìn)行情感挖掘,尋找表達(dá)與用戶的文化相一致的情感單詞(步驟824)。進(jìn)行檢查以確定是否把文本合成為音頻(步驟826)。如果否,那么輸出轉(zhuǎn)化后的文本(連同轉(zhuǎn)化后的情感)(步驟836)。否則,文本被調(diào)制(步驟828),通過(guò)改變合成話音的語(yǔ)調(diào)、節(jié)奏頻率,考慮到情感調(diào)整調(diào)制的話音(步驟830)。帶情感的合成話音被輸出(步驟836)。從步驟813重復(fù)該過(guò)程,直到文本已被輸出為音頻為止,隨后該過(guò)程結(jié)束。
圖9是根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,說(shuō)明在保持情感的時(shí)候,依據(jù)情感和語(yǔ)境搜索話音產(chǎn)物數(shù)據(jù)庫(kù)的方法的流程圖。檔案包含被保存為帶情感置標(biāo)的文本,并且在情感被保持為情感置標(biāo)的情況下代表初始話音通信的話音和/或語(yǔ)音通信產(chǎn)物。該過(guò)程從對(duì)特定語(yǔ)境下的帶情感的產(chǎn)物的查詢開始(步驟902)。例如,請(qǐng)求者可能希望查看在演講中帶有“激動(dòng)”情感的產(chǎn)物。響應(yīng)該請(qǐng)求,搜索所有的產(chǎn)物,以尋找查詢的語(yǔ)境(演講)中的所請(qǐng)求情感元數(shù)據(jù)(激動(dòng))(步驟904)。識(shí)別搜索結(jié)果(步驟906),與“激動(dòng)”元數(shù)據(jù)對(duì)應(yīng)的產(chǎn)物的一部分在結(jié)果中被再現(xiàn)(步驟908),并被返回給請(qǐng)求者(步驟910)。用戶隨后選擇產(chǎn)物(步驟912),對(duì)應(yīng)的文本和置標(biāo)被傳送給請(qǐng)求者(步驟916)。另一方面,請(qǐng)求者返回改進(jìn)的查詢(步驟918),如上面剛剛討論的那樣搜索該查詢。
應(yīng)明白產(chǎn)物以帶置標(biāo)的文本的形式被保存在存檔數(shù)據(jù)庫(kù)中,不過(guò)創(chuàng)建自帶情感的話音通信。情感被變換成情感置標(biāo),語(yǔ)音被變換成文本。這種保存通信的機(jī)制把情感保持為元數(shù)據(jù)。對(duì)于各種語(yǔ)言來(lái)說(shuō),情感元數(shù)據(jù)是透明的,允許外語(yǔ)文本的依據(jù)情感的簡(jiǎn)單搜索。此外,由于通信產(chǎn)物是帶情感置標(biāo)的文本,因此它們能夠容易地翻譯成另一種語(yǔ)言。此外,利用上面關(guān)于圖8A和8B說(shuō)明的過(guò)程,能夠?yàn)槿魏嗡阉鹘Y(jié)果和/或轉(zhuǎn)化容易地產(chǎn)生帶情感的合成話音。
本發(fā)明的討論可被再分成三個(gè)一般實(shí)施例在進(jìn)行或不進(jìn)行語(yǔ)言翻譯的情況下,把帶情感置標(biāo)元數(shù)據(jù)的文本轉(zhuǎn)換成話音通信(圖2、5和8A-8B);在利用兩種獨(dú)立的情感分析技術(shù)保持話音通信的情感的時(shí)候,把話音通信轉(zhuǎn)換成文本(圖2、3和7);和依據(jù)情感和語(yǔ)境搜索通信產(chǎn)物數(shù)據(jù)庫(kù),并且取回結(jié)果,同時(shí)保持情感(圖6和9)。雖然上面討論了這些實(shí)施例中每個(gè)實(shí)施例的各個(gè)方面,不過(guò)這些實(shí)施例可被嵌入各種裝置和設(shè)備中,以支持通信通道之間的保持通信的情感內(nèi)容的各種通信。下面的討論舉例說(shuō)明實(shí)現(xiàn)本發(fā)明的例證實(shí)施例。
圖10說(shuō)明各種例證的網(wǎng)絡(luò)布局,所述網(wǎng)絡(luò)布局具有包含用于產(chǎn)生、處理和保持通信的情感內(nèi)容的情感處理體系結(jié)構(gòu)的設(shè)備。應(yīng)明白圖中描述的網(wǎng)絡(luò)布局只是用于舉例說(shuō)明本發(fā)明的各個(gè)方面。圖10被再分成四個(gè)獨(dú)立的網(wǎng)絡(luò)布局信息(IT)網(wǎng)絡(luò)1010;PSTN網(wǎng)絡(luò)(陸線電話)1042;無(wú)線/蜂窩網(wǎng)絡(luò)1050和媒體分發(fā)網(wǎng)絡(luò)1060。每個(gè)網(wǎng)絡(luò)可被看作支持一種特殊類型的內(nèi)容,但是實(shí)際上每個(gè)網(wǎng)絡(luò)支持多種內(nèi)容類型。例如,雖然IT網(wǎng)絡(luò)1010被視為數(shù)據(jù)網(wǎng)絡(luò),不過(guò)數(shù)據(jù)的內(nèi)容可以采取信息通信,話音和音頻通信(語(yǔ)音電子郵件、VoIP電話、電話會(huì)議和音樂(lè)),多媒體娛樂(lè)(電影、電視和有線節(jié)目及視頻會(huì)議)的形式。類似地,無(wú)線/蜂窩網(wǎng)絡(luò)1050被視為語(yǔ)音通信網(wǎng)絡(luò)(電話、語(yǔ)音電子郵件和電話會(huì)議);它還可用于其它音頻內(nèi)容,比如接收點(diǎn)播音樂(lè)或者商業(yè)音頻節(jié)目。另外,無(wú)線/蜂窩網(wǎng)絡(luò)1050支持連接數(shù)據(jù)處理設(shè)備和多媒體娛樂(lè)(電影、電視和有線節(jié)目以及視頻會(huì)議)的數(shù)據(jù)通信。對(duì)于PSTN網(wǎng)絡(luò)1042和媒體分發(fā)網(wǎng)絡(luò)1060可進(jìn)行類似的類推。
就本發(fā)明來(lái)說(shuō),情感通信體系結(jié)構(gòu)200可被嵌入與這些網(wǎng)絡(luò)連接的某些設(shè)備或裝置上,或者設(shè)備可獨(dú)立地包含情感置標(biāo)組件210或情感轉(zhuǎn)化組件250。情感通信體系結(jié)構(gòu)200、情感置標(biāo)組件210和情感轉(zhuǎn)化組件250內(nèi)的邏輯元件分別在圖2、3和5中描述,而在情感置標(biāo)組件210和情感轉(zhuǎn)化組件250中實(shí)現(xiàn)的方法分別在圖7、圖8A和8B中例示的流程圖中說(shuō)明。
就IT網(wǎng)絡(luò)1010來(lái)說(shuō),網(wǎng)絡(luò)布局包含局域網(wǎng)(LAN)和廣域網(wǎng)(WAN),比如因特網(wǎng)。LAN布局可由邊界路由器,服務(wù)器1022和與服務(wù)器1022連接的本地設(shè)備(PDA 1020、PC 1012和1016、以及膝上型計(jì)算機(jī)1018)限定。WAN布局可被定義成在WAN 1028上連接的網(wǎng)絡(luò)和設(shè)備(包括服務(wù)器1022,PDA 1020,PC 1012和1016以及膝上型計(jì)算機(jī)1028的LAN,和服務(wù)器1032,膝上型計(jì)算機(jī)1026)。預(yù)期這些設(shè)備中的一些或者全部可配置有內(nèi)部或外部音頻輸入/輸出組件(麥克風(fēng)和揚(yáng)聲器),例如,PC 1012被表示成具有外部麥克風(fēng)1014和外部揚(yáng)聲器1013。
網(wǎng)絡(luò)設(shè)備還可配置有本地或遠(yuǎn)程情感處理能力。回想起情感通信體系結(jié)構(gòu)200包含情感置標(biāo)組件210和情感轉(zhuǎn)化組件250。另外回想起情感置標(biāo)組件210接收包括情感內(nèi)容的通信(例如帶語(yǔ)音情感的人類語(yǔ)音),識(shí)別語(yǔ)音中的單詞和情感,輸出帶情感置標(biāo)的文本,從而初始通信中的情感被保持。另一方面,情感轉(zhuǎn)化組件250接收一般包括帶情感置標(biāo)元數(shù)據(jù)的文本的通信,修改并把文本合成為自然語(yǔ)言,并根據(jù)伴隨文本的情感元數(shù)據(jù),相對(duì)于情感調(diào)整講話方式的語(yǔ)調(diào)、節(jié)奏和振幅。通過(guò)例子將更清楚地理解這些網(wǎng)絡(luò)設(shè)備如何處理和保持通信的情感內(nèi)容。
根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,在進(jìn)行或不進(jìn)行語(yǔ)言翻譯的情況下,帶情感置標(biāo)元數(shù)據(jù)的文本被轉(zhuǎn)換成話音通信。下面將關(guān)于即時(shí)消息接發(fā)(IM)說(shuō)明本發(fā)明的這方面。PC、膝上型計(jì)算機(jī)、PDA、蜂窩電話機(jī)、電話機(jī)或者其它網(wǎng)絡(luò)設(shè)備的用戶利用PC 1012或1016之一,膝上型計(jì)算機(jī)1018、1026、1047中1067之一,PDA 1020或1058之一,蜂窩電話機(jī)1056或1059之一,或者甚至利用電話機(jī)1046、1048或1049之一,產(chǎn)生包括情感暗示的文本消息。情感暗示可包括情感圖標(biāo),重點(diǎn)強(qiáng)調(diào),標(biāo)點(diǎn)符號(hào)或者表現(xiàn)出情感的一些其它強(qiáng)調(diào)。根據(jù)本發(fā)明的一個(gè)例證實(shí)施例,產(chǎn)生消息的設(shè)備可配置也可不配置標(biāo)記文本的情感置標(biāo)組件210??傊?,帶情感置標(biāo)的文本消息被傳送給包括獨(dú)立的情感轉(zhuǎn)化組件250,或者在情感通信體系結(jié)構(gòu)200中的情感轉(zhuǎn)化組件250的設(shè)備,例如膝上型計(jì)算機(jī)1026。情感置標(biāo)應(yīng)是標(biāo)準(zhǔn)的格式,或者包含可被情感轉(zhuǎn)化組件250識(shí)別成情感內(nèi)容的標(biāo)準(zhǔn)置標(biāo)元數(shù)據(jù)。如果情感置標(biāo)不可識(shí)別,那么通過(guò)利用發(fā)送者的簡(jiǎn)表信息(參見(jiàn)圖4),文本和非標(biāo)準(zhǔn)情感置標(biāo)可被包括情感置標(biāo)組件210的任何設(shè)備處理成標(biāo)準(zhǔn)化的情感置標(biāo)元數(shù)據(jù)。
一旦在情感轉(zhuǎn)化組件250收到文本和情感置標(biāo)元數(shù)據(jù),那么接收者可在兩種內(nèi)容傳遞模式,例如文本或語(yǔ)音之間選擇。文本消息的接收者還可指定內(nèi)容傳遞的語(yǔ)言。語(yǔ)言選擇被用于用適當(dāng)?shù)奈谋踞屃x填充文本-文本字典253,以便把文本翻譯成選擇的語(yǔ)言。語(yǔ)言選擇還被用于用適當(dāng)?shù)那楦嗅屃x填充情感-情感字典255,以便把情感轉(zhuǎn)化成所選語(yǔ)言的文化,以及用適當(dāng)?shù)脑捯裟J结屃x填充情感-話音模式字典222,以便相對(duì)于情感調(diào)整合成的音頻話音。語(yǔ)言選擇還規(guī)定哪些單詞和短語(yǔ)釋義適合于填充情感-短語(yǔ)字典220,用于情感挖掘?yàn)樗x語(yǔ)言的文化所特有的帶情感的單詞。
可選的是,除了選擇語(yǔ)言之外,接收者還可選擇內(nèi)容傳遞的方言,以便把文本和情感內(nèi)容翻譯成語(yǔ)言的特定方言。這種情況下,文本-文本字典253、情感-情感字典255、情感-話音模式字典222和情感-短語(yǔ)字典220都根據(jù)需要相對(duì)于方言被修改。如果需要的話,接收者還可選擇地理區(qū)域,以便改變與特定地理區(qū)域相一致的內(nèi)容傳遞。另外,接收者可能還希望內(nèi)容傳遞與他自己的通信個(gè)性相符合。這種情況下,還用來(lái)自接收者的簡(jiǎn)表的個(gè)性屬性修改每個(gè)文本-文本字典,情感-情感字典,情感-話音模式字典和情感-短語(yǔ)字典中的釋義。這樣做時(shí),本發(fā)明將把文本和標(biāo)準(zhǔn)化的情感置標(biāo)轉(zhuǎn)換成與接收者所使用的相一致的文本(語(yǔ)音),同時(shí)保持并轉(zhuǎn)換與接收者所使用的相一致的情感內(nèi)容,以表達(dá)他的情緒狀態(tài)。在字典釋義被更新的情況下,消息隨后可被處理。
情感轉(zhuǎn)化組件250可產(chǎn)生文本消息或音頻消息。假定接受者想把到來(lái)的消息轉(zhuǎn)換成文本消息(同時(shí)保持情感內(nèi)容),那么情感轉(zhuǎn)化組件250接收文本以及情感元數(shù)據(jù)置標(biāo),情感轉(zhuǎn)化器254把從消息中的情感置標(biāo)得到的情感內(nèi)容轉(zhuǎn)換成與所選語(yǔ)言的文化相一致的情感暗示。情感轉(zhuǎn)化器254使用適當(dāng)?shù)那楦?情感字典來(lái)得出這些情感暗示,并產(chǎn)生轉(zhuǎn)化后的情感置標(biāo)。轉(zhuǎn)化后的情感被傳給文本轉(zhuǎn)化器252。文本轉(zhuǎn)化器252利用文本-文本字典253中的適當(dāng)釋義,把文本從到來(lái)的消息翻譯成選擇的語(yǔ)言(可選的是,考慮到方言、地理區(qū)域和個(gè)性翻譯消息)。情感元數(shù)據(jù)可幫助從情感-短語(yǔ)字典220中選擇目標(biāo)語(yǔ)言中的正確單詞、單詞短語(yǔ)、詞匯和/或語(yǔ)法,從而用目標(biāo)語(yǔ)言表達(dá)情感。這是通過(guò)在情感置標(biāo)組件210中利用情感-短語(yǔ)字典220,使用文本分析來(lái)得出情感信息的反轉(zhuǎn),因此雙向字典是有用的。首先,把文本從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,例如從英語(yǔ)翻譯成法語(yǔ)。隨后,如果存在與英語(yǔ)文本相關(guān)的情感,比如悲傷,那么在最終輸出的翻譯文本中將使用適當(dāng)?shù)姆ㄕZ(yǔ)單詞。另外注意,出自情感-短語(yǔ)字典220的情感替代物可以僅僅是語(yǔ)法方面的變化,例如標(biāo)點(diǎn)符號(hào)或者是詞匯的復(fù)雜修改,比如插入或者替換目標(biāo)語(yǔ)言的翻譯文本的一個(gè)短語(yǔ)。
返回圖3,通過(guò)利用來(lái)自情感轉(zhuǎn)化器254的情感信息,文本轉(zhuǎn)化器252情感挖掘情感-短語(yǔ)字典220,尋找表達(dá)通信情感的情感單詞。如果情感挖掘成功,那么文本轉(zhuǎn)換器252把對(duì)應(yīng)單詞的情感單詞、短語(yǔ)或標(biāo)點(diǎn)符號(hào)包括在文本中,因?yàn)榍楦袉卧~和接收者的文化一致地更準(zhǔn)確表達(dá)消息中的情感。在一些情況下,翻譯文本將代替通過(guò)情感挖掘得到的情感單詞。翻譯的消息文本內(nèi)容,以及該文化的情感單詞隨后可一起提供給接收者,同時(shí)相對(duì)于所述文化,從消息的情感內(nèi)容轉(zhuǎn)化情感置標(biāo)。
另一方面,如果接收者希望以音頻消息的形式傳遞消息(同時(shí)保持情感內(nèi)容),那么情感轉(zhuǎn)化組件250如上所述處理帶情感置標(biāo)的文本,但是把帶有替換的情感單詞的翻譯文本傳給話音合成器258,話音合成器258把文本調(diào)制成可聽(tīng)的聲音。一般來(lái)說(shuō),話音合成器使用預(yù)定的聲學(xué)和韻律信息,所述預(yù)定的聲學(xué)和韻律信息產(chǎn)生具有單調(diào)音頻表現(xiàn)的調(diào)制音頻,所述單調(diào)音頻表現(xiàn)具有預(yù)定的音高和恒定的振幅,以及規(guī)則且重復(fù)的節(jié)奏。利用來(lái)自情感轉(zhuǎn)化器254的情感置標(biāo),可修改所述預(yù)定的聲學(xué)和韻律信息,以便相對(duì)于情感調(diào)整話音。話音情感調(diào)整器260從情感轉(zhuǎn)化器254接收調(diào)制的話音和情感置標(biāo),并利用情感-話音模式字典222中的釋義相對(duì)于情感修改調(diào)制話音中的話音模式。隨后可為接收者播放轉(zhuǎn)化的消息音頻內(nèi)容以及該文化的情感單詞,同時(shí)相對(duì)于所述文件,從消息的情感內(nèi)容轉(zhuǎn)化情感話音模式。
在接收者不可以使用可視顯示裝置或者不能把他的注意力集中于消息的可視記錄的情況下,從文本消息生成音頻消息(包括翻譯)特別有用。此外,接收者的設(shè)備不必配備情感通信體系結(jié)構(gòu)200或者情感轉(zhuǎn)化組件250。取而代之的是,位于發(fā)送者和接收者之間的服務(wù)器可處理文本消息,同時(shí)保持內(nèi)容。例如,如果接收者正在使用不帶視頻顯示器的標(biāo)準(zhǔn)電話機(jī),那么靠近電話機(jī)1046、1048和1049之一的接收者之間的位于PSTN C.O.的服務(wù)器,例如服務(wù)器1042可提供通信處理,同時(shí)保持情感。最后,盡管關(guān)于即時(shí)消息說(shuō)明了上面的例子,不過(guò)另一方面,消息可以是包括情感暗示、情感圖標(biāo)等的電子郵件或者其它類型的文本消息。
根據(jù)本發(fā)明的另一例證實(shí)施例,通過(guò)利用兩種獨(dú)立的情感分析技術(shù),與情感同時(shí)地從話音通信得到文本,利用文本的情感置標(biāo)元數(shù)據(jù)保持話音通信的情感。如上簡(jiǎn)要所述,如果通信不是采取包括文本和標(biāo)準(zhǔn)化的情感置標(biāo)元數(shù)據(jù)的形式,那么在情感轉(zhuǎn)化組件250能夠處理該通信之前,通信由情感置標(biāo)組件210轉(zhuǎn)換。情感置標(biāo)組件210實(shí)際上可被集成在配有接收音頻通信流的麥克風(fēng)的任何裝置或設(shè)備中,包括PC 1012或1016,膝上型計(jì)算機(jī)1018、1026、1047或1067,PDA1020或1058,蜂窩電話機(jī)1056或1059,或者電話機(jī)1046、1048或1049任意之一。另外,盡管服務(wù)器一般不會(huì)通過(guò)麥克風(fēng)首先接收人音頻通信,不過(guò)它們會(huì)接收電子形式的音頻通信。于是,情感置標(biāo)組件210也可被集成到服務(wù)器1022、1032、1042、1052和1062中,不過(guò)實(shí)用的是,既包括情感置標(biāo)組件210又包括情感轉(zhuǎn)化組件250的情感通信體系結(jié)構(gòu)200將被集成在多數(shù)服務(wù)器上。
最初,在話音通信可被處理之前,用基于通信中的特定話音的品質(zhì)的釋義填充情感置標(biāo)組件210內(nèi)的情感-話音模式字典222和情感-短語(yǔ)字典220。由于話音和其演說(shuō)者一樣獨(dú)特,因此相對(duì)于該演說(shuō)者修改用于分析通信的文本內(nèi)容和情感內(nèi)容的釋義。特別有益于實(shí)現(xiàn)這些修改的一種機(jī)制是把任何潛在講話者的簡(jiǎn)表保存在簡(jiǎn)表數(shù)據(jù)庫(kù)中。簡(jiǎn)表包括相對(duì)于通信的特定聽(tīng)眾和環(huán)境,與每個(gè)講話者相關(guān)聯(lián)的字典釋義和修改。所述釋義和修改被用于更新在通信的環(huán)境中,單個(gè)講話者的特定特性的默認(rèn)字典。從而,情感-話音模式字典222和情感-短語(yǔ)字典220只需要包含潛在講話者的特定語(yǔ)言的默認(rèn)釋義。
在用關(guān)于講話者、聽(tīng)眾和通信環(huán)境的適當(dāng)釋義填充情感-話音模式字典222和情感-短語(yǔ)字典220的情況下,能夠繼續(xù)進(jìn)行在保持情感的同時(shí),把話音通信轉(zhuǎn)換成帶情感置標(biāo)的文本的任務(wù)。為了說(shuō)明本發(fā)明,情感通信體系結(jié)構(gòu)200被嵌入PC 1012內(nèi)。用戶對(duì)著PC 1012的麥克風(fēng)1014說(shuō)話,情感通信體系結(jié)構(gòu)200的情感置標(biāo)組件210接收話音通信(人類語(yǔ)音),它包括情感內(nèi)容(語(yǔ)音情感)。音頻通信流在話音分析器232被接收,話音分析器232執(zhí)行兩種獨(dú)立的功能它關(guān)于單詞分析語(yǔ)音模式(語(yǔ)音識(shí)別);還關(guān)于情感分析語(yǔ)音模式(情感識(shí)別),即,它從音頻通信中識(shí)別單詞并且識(shí)別情感。通過(guò)利用任何自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù),例如利用隱式Markov模型(HMM),從話音通信得到單詞。當(dāng)在通信中識(shí)別出了單詞時(shí),單詞被傳給抄錄器234和情感標(biāo)記引擎238。抄錄器234把單詞轉(zhuǎn)換成文本,隨后把文本實(shí)例發(fā)送給文本/短語(yǔ)分析器236。情感置標(biāo)引擎238緩存該文本,直到它收到與文本對(duì)應(yīng)的情感為止,隨后用情感元數(shù)據(jù)標(biāo)記該文本。
通過(guò)對(duì)音頻通信流進(jìn)行兩種情感分析,從話音通信得出情感。話音分析器232進(jìn)行話音模式分析,以便從話音模式(語(yǔ)音的音高、語(yǔ)調(diào)、節(jié)奏和振幅特性)譯解情感內(nèi)容。幾乎同時(shí)地,文本/短語(yǔ)分析器236對(duì)從抄錄器234接收的抄錄文本進(jìn)行文本模式分析(文本挖掘),以便從語(yǔ)音通信的文本內(nèi)容得出情感內(nèi)容。就話音模式分析而論,話音分析器232比較話音通信的音高、語(yǔ)調(diào)、節(jié)奏和振幅話音模式與保存在情感-話音模式字典222中的話音模式??衫萌魏卧捯裟J椒治黾夹g(shù)繼續(xù)該分析,當(dāng)從話音模式中識(shí)別出情感匹配時(shí),情感暗示被傳給情感置標(biāo)引擎238。就文本模式分析而論,文本/短語(yǔ)分析器236用從抄錄器234接收的文本對(duì)情感-短語(yǔ)字典220進(jìn)行文本挖掘。當(dāng)從文本模式中識(shí)別出情感匹配時(shí),情感暗示也被傳給情感置標(biāo)引擎238。情感置標(biāo)引擎用來(lái)自話音分析器232和文本/短語(yǔ)分析器236之一或者這兩者的情感暗示標(biāo)記從抄錄器234接收的文本。
根據(jù)本發(fā)明的另一例證實(shí)施例,話音通信產(chǎn)物被存檔成帶情感置標(biāo)元數(shù)據(jù)的文本,并利用情感和語(yǔ)境進(jìn)行搜索。搜索結(jié)果被取回,同時(shí)保持初始話音通信的情感內(nèi)容。一旦通信的情感內(nèi)容已被分析,并且產(chǎn)生了情感元數(shù)據(jù),文本流就可被直接發(fā)送給另一設(shè)備以便調(diào)制成音頻通信和/或轉(zhuǎn)化,或者通信可被存檔以供搜索。通常,只有文本和伴隨的情感元數(shù)據(jù)被存檔成通信的語(yǔ)境和情感的產(chǎn)物,不過(guò)話音通信也可被存檔。注意在圖10中,每個(gè)服務(wù)器1022、1032、1042、1052和1062分別與存儲(chǔ)數(shù)據(jù)庫(kù)1024、1034、1044、1054和164連接。每個(gè)服務(wù)器還可具有如上關(guān)于圖6說(shuō)明的嵌入式帶情感語(yǔ)境搜索引擎,從而每個(gè)服務(wù)器執(zhí)行內(nèi)容管理功能。通過(guò)搜索特定通信中的情感,任意數(shù)據(jù)庫(kù)1024、1034、1044、1054和1064中的話音通信產(chǎn)物可被取回,隨后被翻譯成另一種語(yǔ)言,而不會(huì)丟失原始話音通信的情感。
例如,如果PC 1012的用戶想要回顧報(bào)告中報(bào)告者表現(xiàn)出擔(dān)心或憂慮的外語(yǔ)新報(bào)告的例子,那么用戶進(jìn)行訪問(wèn)。用戶利用新報(bào)告的語(yǔ)境下的情感項(xiàng)擔(dān)心和/或憂慮向內(nèi)容管理系統(tǒng),比如說(shuō)服務(wù)器1022提交搜索請(qǐng)求。嵌入服務(wù)器1022中的帶情感語(yǔ)境搜索引擎識(shí)別數(shù)據(jù)庫(kù)1014中的所有新報(bào)告產(chǎn)物,并關(guān)于擔(dān)心或憂慮置標(biāo)搜索與這些報(bào)告相關(guān)聯(lián)的情感元數(shù)據(jù)。搜索結(jié)果被返回給PC 1012的用戶,并識(shí)別帶有該情感的通信。出自新報(bào)告的與擔(dān)心置標(biāo)元數(shù)據(jù)對(duì)應(yīng)的相關(guān)段落被突出顯示以供檢查。用戶從結(jié)果中選擇一個(gè)新報(bào)告,所述新報(bào)告是具有擔(dān)心或憂慮情感的新報(bào)告的典型代表,服務(wù)器1022的內(nèi)容管理系統(tǒng)取回該新報(bào)告產(chǎn)物,并將其傳送給PC 1012。顯然內(nèi)容管理系統(tǒng)發(fā)送帶情感置標(biāo)的文本,PC 1012的用戶能夠檢查所述文本和置標(biāo),或者在進(jìn)行轉(zhuǎn)化或不進(jìn)行轉(zhuǎn)化的情況下,借助情感調(diào)整把其合成為話音。本例中,由于用戶在搜索外語(yǔ)報(bào)告,因此翻譯是預(yù)期的。此外,用戶可以僅僅以文本形式檢查翻譯后的搜索結(jié)果,而不必話音合成許可證,或者在選擇某一報(bào)告之前可選擇聽(tīng)取所有的結(jié)果。
通過(guò)利用如上剛剛說(shuō)明的本發(fā)明,用戶可接收話音通信的抽象,轉(zhuǎn)化抽象的文本和情感內(nèi)容,并在情感與用戶的文化相符合的情況下用用戶的語(yǔ)言聽(tīng)取通信。在一個(gè)例子中,講話者為說(shuō)不同語(yǔ)言的接收者產(chǎn)生一個(gè)音頻消息。該語(yǔ)音通信在具有集成的情感通信體系結(jié)構(gòu)200的PC 1012被接收。通過(guò)利用適合于講話者的字典釋義,該話音通信被轉(zhuǎn)換成利用情感置標(biāo)元數(shù)據(jù)保持語(yǔ)音的情感的文本,并被傳送給接收者。帶情感置標(biāo)的文本在接收者的設(shè)備,例如具有集成的情感通信體系結(jié)構(gòu)200的膝上型計(jì)算機(jī)1026被接收。通過(guò)利用適合于接收者的語(yǔ)言和文化的字典釋義,文本和情感被轉(zhuǎn)化,與接收者的文化相一致的情感單詞被包括在該文本中。文本隨后被話音合成,并考慮到情感對(duì)合成的講話方式進(jìn)行調(diào)整。當(dāng)然,PC 1012的用戶可指定用利用情感元數(shù)據(jù)合成的話音調(diào)整文本的哪些部分。
另一方面,講話者的設(shè)備和/或接收者的設(shè)備可以不配備情感通信體系結(jié)構(gòu)200,或者情感置標(biāo)組件210或情感轉(zhuǎn)化組件250任意之一。這種情況下,利用具有嵌入的情感通信體系結(jié)構(gòu)的服務(wù)器遠(yuǎn)程處理通信流。例如,原始語(yǔ)音通信流可由不具有從話音提取文本和情感的固有能力的電話機(jī)1046、1048或1049傳送。話音通信隨后由具有單板情感通信體系結(jié)構(gòu)200或者至少具有情感標(biāo)記組件210的網(wǎng)絡(luò)服務(wù)器,比如位于PSTN C.O.的服務(wù)器1042處理(在服務(wù)器1022,來(lái)自PC 1016的話音可被轉(zhuǎn)換成帶情感置標(biāo)的文本)。在任意一種情況下,帶情感置標(biāo)的文本被轉(zhuǎn)發(fā)給膝上型計(jì)算機(jī)1026。相反,在膝上型計(jì)算機(jī)1026產(chǎn)生的帶情感置標(biāo)的文本可在服務(wù)器處理。這里,文本和情感被轉(zhuǎn)化,與接收者的文化相一致的情感單詞被包括在文本中。文本隨后可被調(diào)制成話音,并關(guān)于情感調(diào)整合成的話音。情感調(diào)整后的合成話音隨后以音頻消息的形式被發(fā)送給電話機(jī)1046、1048或1049或者PC 1016任意之一,因?yàn)檫@些設(shè)備不具有單板文本/情感變換和轉(zhuǎn)化能力。
另外應(yīng)明白情感置標(biāo)組件210可用于把不標(biāo)準(zhǔn)的情感置標(biāo)和情感圖標(biāo)轉(zhuǎn)換成可由情感轉(zhuǎn)化組件識(shí)別的標(biāo)準(zhǔn)化的情感置標(biāo)元數(shù)據(jù)。例如,文本消息、電子郵件或即時(shí)消息在具有嵌入的情感置標(biāo)組件210的設(shè)備,比如PDA 1020被接收(另一方面,也可在該設(shè)備產(chǎn)生消息)。通信是文本的,從而沒(méi)有話音可供處理,但是通信包含不標(biāo)準(zhǔn)的情感圖標(biāo)。情感置標(biāo)組件210中的文本/短語(yǔ)分析器識(shí)別這些文本字符,并關(guān)于如上所述傳給置標(biāo)引擎的情感對(duì)這些文本字符進(jìn)行文本挖掘。
在不同通信通道之間,例如蜂窩電話話音通信和PC文本通信之間,或者PC電子郵件通信和電話語(yǔ)音郵件通信之間的跨平臺(tái)通信中,上面剛剛說(shuō)明的本發(fā)明的各個(gè)方面特別有用。此外,由于每個(gè)通信被轉(zhuǎn)換成文本,并且把原始話音通信的情感保持為情感置標(biāo)元數(shù)據(jù),因此原始通信可被有效地翻譯成任何其它語(yǔ)言,同時(shí)相對(duì)于該語(yǔ)言的文化,準(zhǔn)確地表現(xiàn)情感。
根據(jù)另一例證實(shí)施例,一些設(shè)備可配有情感置標(biāo)組件210或情感轉(zhuǎn)化組件250任意之一,但是不配備情感通信體系結(jié)構(gòu)200例如,因其質(zhì)量較差,蜂窩電話話音傳輸是聲名狼藉的,這導(dǎo)致差的文本識(shí)別(可能導(dǎo)致不太準(zhǔn)確的情感識(shí)別)。于是,蜂窩電話機(jī)1056和1059配有情感置標(biāo)組件210以便本地處理話音通信,同時(shí)依賴于位于蜂窩C.O.的服務(wù)器1052利用其嵌入的情感通信體系結(jié)構(gòu)200處理到來(lái)的帶情感置標(biāo)的文本。從而,輸出的話音通信被有效處理,而蜂窩電話機(jī)1056和1059并不負(fù)擔(dān)本地支持情感轉(zhuǎn)化組件的職責(zé)。
類似地,監(jiān)視器1066、1068和1069并不具有通過(guò)空中和電纜傳送話音通信的能力,于是,不需要情感置標(biāo)能力。它們對(duì)聽(tīng)力受損者使用文本字幕,但是沒(méi)有情感提示。于是,使位于媒體分發(fā)中心的服務(wù)器1062配備用情感標(biāo)記文本的能力會(huì)有助于監(jiān)視器1066、1068和1069的聽(tīng)力受損者欣賞接收的媒體。另外,通過(guò)在監(jiān)視器1066、1068和1069(或者在機(jī)頂盒中)嵌入情感轉(zhuǎn)化組件250,外語(yǔ)媒體可被翻譯成本國(guó)語(yǔ)言,同時(shí)利用來(lái)自服務(wù)器1062的轉(zhuǎn)換后的帶情感置標(biāo)的文本,保持原始通信的情感。媒體網(wǎng)絡(luò)1060,例如膝上型計(jì)算機(jī)1067的用戶也將能夠依據(jù)情感搜索數(shù)據(jù)庫(kù)1064,尋找?jiàn)蕵?lè)媒體,并基于該搜索定購(gòu)內(nèi)容。例如,通過(guò)搜索戲劇或喜劇臺(tái)詞或者電影獨(dú)白。
附圖中的流程圖和方框解說(shuō)明根據(jù)本發(fā)明的各個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系結(jié)構(gòu)、功能性和操作。在這點(diǎn)上,流程圖或方框圖中的每個(gè)方框可代表代碼的一個(gè)模塊,一個(gè)片斷或者一部分,所述代碼包含用于實(shí)現(xiàn)指定的邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令。另外應(yīng)注意的是在一些備選實(shí)現(xiàn)中,方框中提及的功能可不按照附圖中指出的順序發(fā)生。例如,接連表示的兩個(gè)方框事實(shí)上可基本同時(shí)地被執(zhí)行,或者有時(shí)可按照相反的順序執(zhí)行方框,取決于所涉及的功能性。另外注意方框圖和/或流程圖的每個(gè)方框,以及方框圖和/或流程圖中的方框的組合可由執(zhí)行指定功能或動(dòng)作的基于專用硬件的系統(tǒng),或者專用硬件和計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
這里使用的術(shù)語(yǔ)只是用于說(shuō)明特定的實(shí)施例,并不是對(duì)本發(fā)明的限制。這里使用的單數(shù)術(shù)語(yǔ)“一個(gè)”還意圖包括復(fù)數(shù)形式,除非上下文另有明確說(shuō)明。另外要明白當(dāng)在本說(shuō)明書中使用時(shí),術(shù)語(yǔ)“包含”指定所陳述的特征、整數(shù)、步驟、操作、元件和/組件的存在,但是并不排除一個(gè)或多個(gè)其它特征、整數(shù)、步驟、操作、元件、組件和/或它們的群體的存在或增加。
權(quán)利要求
1.一種在保持情感的同時(shí)跨通道進(jìn)行通信的方法,包括接收話音通信;針對(duì)第一情感內(nèi)容分析話音通信;針對(duì)第二情感內(nèi)容分析話音通信的文本內(nèi)容;利用第一情感內(nèi)容和第二情感內(nèi)容之一的情感元數(shù)據(jù)標(biāo)記文本內(nèi)容。
2.按照權(quán)利要求1所述的方法,還包括針對(duì)文本內(nèi)容分析話音通信。
3.按照權(quán)利要求2所述的方法,其中針對(duì)第二情感內(nèi)容分析話音通信的文本內(nèi)容還包括獲得文本內(nèi)容的至少一個(gè)單詞;訪問(wèn)多個(gè)文本-情感釋義;和比較出自文本內(nèi)容的所述至少一個(gè)單詞與所述多個(gè)文本-情感釋義。
4.按照權(quán)利要求3所述的方法,還包括獲得文本內(nèi)容的單詞短語(yǔ)、標(biāo)點(diǎn)符號(hào)、詞匯和語(yǔ)法之一;訪問(wèn)多個(gè)文本-情感釋義;和比較所述單詞短語(yǔ)、標(biāo)點(diǎn)符號(hào)、詞匯和語(yǔ)法之一與所述多個(gè)文本-情感釋義。
5.按照權(quán)利要求2所述的方法,其中針對(duì)第一情感內(nèi)容分析話音通信還包括評(píng)估第二情感內(nèi)容;和根據(jù)情感內(nèi)容的評(píng)估選擇話音分析模型。
6.按照權(quán)利要求2所述的方法,其中用第一情感內(nèi)容和第二情感內(nèi)容之一的情感元數(shù)據(jù)標(biāo)記文本內(nèi)容還包括比較第一情感內(nèi)容和第二情感內(nèi)容;和根據(jù)第一情感內(nèi)容和第二情感內(nèi)容的比較,識(shí)別第一情感內(nèi)容和第二情感內(nèi)容之一。
7.按照權(quán)利要求2所述的方法,其中用第一情感內(nèi)容和第二情感內(nèi)容之一的情感元數(shù)據(jù)標(biāo)記文本內(nèi)容還包括根據(jù)話音通信的分析的屬性,對(duì)話音通信的分析分級(jí);根據(jù)文本內(nèi)容的分析的屬性,對(duì)文本內(nèi)容的分析分級(jí);根據(jù)話音通信的分析的分級(jí)和文本內(nèi)容的分析的分級(jí),識(shí)別第一情感內(nèi)容和第二情感內(nèi)容之一。
8.按照權(quán)利要求7所述的方法,其中話音通信的分析的屬性和文本內(nèi)容的分析的屬性是相應(yīng)分析的準(zhǔn)確性和工作效率之一。
9.按照權(quán)利要求3所述的方法,還包括根據(jù)話音通信的語(yǔ)言、話音通信的方言和話音通信的講話者,選擇多個(gè)話音模式-情感釋義;和根據(jù)話音通信的語(yǔ)言、話音通信的方言和話音通信的講話者,選擇多個(gè)文本-情感釋義。
10.按照權(quán)利要求9所述的方法,其中話音模式-情感釋義包含關(guān)于音高、語(yǔ)調(diào)、節(jié)奏和振幅之一的話音模式。
11.按照權(quán)利要求3所述的方法,還包括根據(jù)話音通信的講話者、話音通信的講話者的聽(tīng)眾和話音通信的環(huán)境,選擇多個(gè)文本-情感釋義;和根據(jù)話音通信的講話者、話音通信的講話者的聽(tīng)眾和話音通信的環(huán)境,選擇多個(gè)話音模式-情感釋義。
12.按照權(quán)利要求2所述的方法,其中針對(duì)文本內(nèi)容分析話音通信還包括從話音通信提取話音模式;訪問(wèn)多個(gè)話音模式-文本釋義;和比較提取的話音模式與多個(gè)話音模式-文本釋義;并且針對(duì)第二情感內(nèi)容分析話音通信的文本內(nèi)容還包括獲得文本內(nèi)容的至少一個(gè)單詞;訪問(wèn)多個(gè)文本-情感釋義;和比較出自文本內(nèi)容的所述至少一個(gè)單詞與所述多個(gè)文本-情感釋義。
13.一種在保持情感的同時(shí)跨通道進(jìn)行通信的方法,包括接收第一語(yǔ)言通信,所述第一語(yǔ)言通信包含用情感元數(shù)據(jù)標(biāo)記的文本;把情感元數(shù)據(jù)轉(zhuǎn)化成第二語(yǔ)言情感元數(shù)據(jù);把文本翻譯成第二語(yǔ)言文本;針對(duì)第二語(yǔ)言情感信息分析第二語(yǔ)言情感元數(shù)據(jù);和把第一語(yǔ)言通信中的第二語(yǔ)言情感信息與第二語(yǔ)言文本相結(jié)合。
14.按照權(quán)利要求13所述的方法,其中第二語(yǔ)言情感信息是文本、短語(yǔ)、標(biāo)點(diǎn)符號(hào)、詞匯或語(yǔ)法之一。
15.按照權(quán)利要求14所述的方法,還包括話音合成第二語(yǔ)言文本和第二語(yǔ)言情感文本;和利用第二語(yǔ)言情感元數(shù)據(jù)調(diào)整合成的話音。
16.按照權(quán)利要求14所述的方法,其中針對(duì)第二語(yǔ)言情感信息分析第二語(yǔ)言情感元數(shù)據(jù)還包括接收至少一個(gè)第二語(yǔ)言情感元數(shù)據(jù);訪問(wèn)多個(gè)話音情感-文本模式釋義,所述多個(gè)話音情感-文本模式釋義基于第二語(yǔ)言;比較所述至少一個(gè)第二語(yǔ)言情感元數(shù)據(jù)與所述多個(gè)話音情感-文本模式釋義。
17.按照權(quán)利要求15所述的方法,還包括基于第二語(yǔ)言選擇所述多個(gè)話音情感-文本模式釋義。
18.按照權(quán)利要求16所述的方法,其中利用第二語(yǔ)言情感元數(shù)據(jù)調(diào)整合成的話音還包括接收至少一個(gè)第二語(yǔ)言情感元數(shù)據(jù);訪問(wèn)多個(gè)情感-話音模式釋義,其中話音模式包含音高、語(yǔ)調(diào)、節(jié)奏和振幅之一;匹配所述至少一個(gè)第二語(yǔ)言情感元數(shù)據(jù)與所述多個(gè)情感-話音模式釋義之一,所述多個(gè)情感-話音模式釋義基于第二語(yǔ)言;和利用與匹配的情感-話音模式釋義對(duì)應(yīng)的話音模式,改變合成的話音的合成話音模式。
19.一種在保持情感的同時(shí)跨通道進(jìn)行通信的方法,包括從請(qǐng)求者接收對(duì)通信產(chǎn)物的查詢,所述產(chǎn)物把話音通信表現(xiàn)成帶置標(biāo)情感元數(shù)據(jù)的文本內(nèi)容;從查詢解析語(yǔ)境值;從查詢解析情感值;根據(jù)語(yǔ)境值對(duì)多個(gè)通信產(chǎn)物記錄分類;依據(jù)語(yǔ)境值識(shí)別至少一個(gè)通信產(chǎn)物記錄;依據(jù)情感值對(duì)至少一個(gè)識(shí)別的通信產(chǎn)物分類;識(shí)別至少一個(gè)結(jié)果通信產(chǎn)物;和把識(shí)別的至少一個(gè)結(jié)果通信產(chǎn)物轉(zhuǎn)發(fā)給請(qǐng)求者。
20.按照權(quán)利要求19所述的方法,其中語(yǔ)境值與通信的語(yǔ)境相關(guān)聯(lián)。
21.按照權(quán)利要求19所述的方法,其中情感值與產(chǎn)物的情感元數(shù)據(jù)相關(guān)聯(lián)。
22.按照權(quán)利要求19所述的方法,還包括用與查詢的情感值相一致的情感元數(shù)據(jù)標(biāo)記識(shí)別的至少一個(gè)結(jié)果通信產(chǎn)物的一部分。
23.按照權(quán)利要求19所述的方法,還包括從請(qǐng)求者接收對(duì)于通信產(chǎn)物的第二查詢;從第二查詢解析語(yǔ)境值;從第二查詢解析更新的情感值;依據(jù)更新的情感值和更新的語(yǔ)境值之一,識(shí)別至少一個(gè)更新結(jié)果通信產(chǎn)物記錄;和把識(shí)別的至少一個(gè)更新的結(jié)果通信產(chǎn)物轉(zhuǎn)發(fā)給請(qǐng)求者。
24.一種包含執(zhí)行前述方法權(quán)利要求的任意一種方法的裝置的系統(tǒng)。
全文摘要
跨話音和文本通信通道的情感被提取、保持和轉(zhuǎn)化。接收話音通信并關(guān)于情感內(nèi)容對(duì)其進(jìn)行分析。利用單詞識(shí)別技術(shù)概括地了解通信的文本內(nèi)容。隨后關(guān)于情感內(nèi)容分析文本內(nèi)容。比較從單詞識(shí)別得到的單詞和短語(yǔ)與文本挖掘數(shù)據(jù)庫(kù)中的情感單詞和短語(yǔ)。所述兩種分析得到的情感隨后被作為情感元數(shù)據(jù),標(biāo)記文本內(nèi)容。通過(guò)利用文本和情感轉(zhuǎn)化釋義,話音通信的文本和情感置標(biāo)抽象也可被轉(zhuǎn)化。轉(zhuǎn)化后的情感元數(shù)據(jù)被用于情感挖掘在第二語(yǔ)言的文化中具有情感內(nèi)涵的單詞。這些單詞隨后替換翻譯文本中的對(duì)應(yīng)單詞。轉(zhuǎn)化后的文本和情感單詞被調(diào)制成合成話音,并通過(guò)利用從轉(zhuǎn)化后的情感元數(shù)據(jù)得到的情感話音模式,調(diào)整講話方式。
文檔編號(hào)G10L13/00GK101030368SQ20071000542
公開日2007年9月5日 申請(qǐng)日期2007年2月8日 優(yōu)先權(quán)日2006年3月3日
發(fā)明者莫哈馬德·R.·薩拉斯霍, 迪帕·斯里尼瓦薩恩, 巴蘭·蘇伯拉瑪尼安 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司