欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

具有人機對話功能的擬人化口語翻譯方法及系統(tǒng)與流程

文檔序號:12863820閱讀:768來源:國知局
具有人機對話功能的擬人化口語翻譯方法及系統(tǒng)與流程

本發(fā)明涉及計算機和人工智能領(lǐng)域,尤其涉及一種把擬人化的人機對話機制加入翻譯過程中的口語翻譯方法及相應的系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)的普及應用和全球化的快速推進,口語翻譯作為對人工翻譯高成本、高門檻、供需失衡等問題的有效解決方案,在日常生活、商務洽談、國際交流等多個場景下具有旺盛的市場需求。

兩種語言的口語翻譯技術(shù)由圖1所示構(gòu)成,包括源語言和目標語言的語音識別、語音合成和雙向翻譯技術(shù)。其中雙向語音識別和雙向翻譯是必須包含的技術(shù),而語音合成則視翻譯應用場景和設(shè)備而可選。

傳統(tǒng)的口語自動翻譯方法,一般由用戶輸入待翻譯的源語言語音,自動識別并翻譯后直接將目標語言的自然語音呈現(xiàn)給對方用戶,口語識別或者翻譯從用戶視角僅僅是一種端到端的軟件(如圖2所示)。

受困于人類溝通語言的復雜性和多變性,即使人類翻譯員也會通過各種方式與對話者進行溝通,以求獲得對所需要翻譯語音的準確內(nèi)涵。而目前機器口語翻譯方法,是一種不對實際場景復雜性和語義復雜性情況進行處理的端到端呈現(xiàn)翻譯方法,顯然難以滿足準確度要求。同時由于翻譯作為一個軟件服務缺乏與用戶的人機溝通,在實際應用場景中也難以滿足場景友好性的要求。如何提高實際復雜場景下口語翻譯準確率和用戶體驗是當前需要解決的問題。



技術(shù)實現(xiàn)要素:

(一)要解決的技術(shù)問題

鑒于上述技術(shù)問題,本發(fā)明提供了一種具有人機對話功能的擬人化口語翻譯方法及系統(tǒng)。本發(fā)明的核心點是在原有語音識別和翻譯的基礎(chǔ)上,加入一個人機對話模塊,該模塊捕捉、處理和識別當時的聲學場景、話者場景、韻律場景、語言場景等,根據(jù)翻譯任務需要在必要時跟用戶進行人機對話,確切地獲得能夠顯著提升復雜應用場景下用戶的翻譯體驗,并提高翻譯語義的準確度。

(二)技術(shù)方案

根據(jù)本發(fā)明的一個方面,提供了一種具有人機對話功能的擬人化口語翻譯方法,其包括以下步驟:對源語言語音進行智能語音識別,得到源語言文本;對源語言文本以及對話場景進行處理,進行擬人化人機對話溝通;進行機器翻譯,得到翻譯結(jié)果。

根據(jù)本發(fā)明的另一個方面,還提供了一種具有人機對話功能的擬人化口語翻譯系統(tǒng),其包括:語音識別模塊、人機對話管理模塊、機器翻譯模塊,語音識別模塊用于對源語言語音進行智能語音識別,得到源語言文本;人機對話管理模塊用于對源語言文本以及對話場景進行處理,進行擬人化人機對話溝通;機器翻譯模塊用于進行機器翻譯,得到翻譯結(jié)果。

(三)有益效果

從上述技術(shù)方案可以看出,本發(fā)明具有人機對話功能的擬人化口語翻譯方法及系統(tǒng)至少具有以下有益效果其中之一:

(1)本發(fā)明能夠顯著提升復雜應用場景下翻譯性能的準確性;

(2)本發(fā)明使得用戶使用更方便,交談過程中不需再做其他任何冗余操作;

(3)本發(fā)明使得用戶翻譯及交互體驗更智能、更人性化。

附圖說明

圖1為現(xiàn)有技術(shù)兩種語言的口語翻譯技術(shù)示意圖。

圖2為現(xiàn)有技術(shù)口語自動翻譯系統(tǒng)示意圖。

圖3為本發(fā)明一種具有人機對話功能的擬人化口語翻譯系統(tǒng)示意圖。

圖4為本發(fā)明一種具有人機對話功能的擬人化口語翻譯系統(tǒng)的語音識別模塊的結(jié)構(gòu)示意圖。

圖5為本發(fā)明一種具有人機對話功能的擬人化口語翻譯系統(tǒng)的詳細示意圖。

圖6為本發(fā)明第一實施例中獲取說話者輸入的源語言語音方法的示意圖。

圖7為本發(fā)明第一實施例中跟說話者進行人機對話方法的示意圖。

圖8為本發(fā)明第一實施例中可視化向說話者展示當前系統(tǒng)狀態(tài)的方法的示意圖。

圖9為本發(fā)明第一實施例中向?qū)υ捔硪环街悄茌敵龇g結(jié)果的方法的示意圖。

圖10為本發(fā)明第二實施例中獲取會議信息并創(chuàng)建會議的方法的示意圖。

圖11為本發(fā)明第二實施例中智能主持會議進程的方法的示意圖。

圖12為本發(fā)明第二實施例中可視化向參會者展示當前會議狀態(tài)的方法的示意圖。

圖13為本發(fā)明第三實施例一種基于無屏幕顯示的擬人化口語翻譯系統(tǒng)的翻譯方法示意圖。

具體實施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明提供了一種具有人機對話功能的擬人化口語翻譯方法,如圖3所示,其包括以下步驟:獲取源語言語音(即用戶a的語種);對源語言語音進行智能語音識別,得到源語言文本;對源語言文本以及對話場景進行處理,進行擬人化人機對話溝通;進行機器翻譯,得到目標語言文本;進行語音合成,得到目標語言語音(即用戶b的語種);輸出目標語言語音。

特別說明的是,對于圖3中的源語言語音和目標語言語音,源語言語音作為翻譯前的語種,目標語言語音作為翻譯后的語種,兩者是相對而言的,對于同一用戶,發(fā)出的源語言語音和得到的目標語言語音為同一種語種,例如,用戶a的語種為中文,用戶b的語種為英文,用戶a發(fā)出中文(源語言語音),經(jīng)過翻譯,用戶b得到英文(目標語言語音);用戶b發(fā)出英文(源語言語音),經(jīng)過翻譯,用戶a得到中文(目標語言語音)。

對源語言語音進行智能語音識別時,在翻譯界面上利用智能語音檢測手段和語種識別手段,自動進行對話者語音以及語種信息的判別,使得使用翻譯系統(tǒng)的人無需進行基于兩種語言的輸入按鍵而進行對話;具體地,分別給出了每幀語音/非語音的概率得分,每幀源語種/目標語種的概率得分,并同步對語音進行雙語解碼,在這基礎(chǔ)上利用信息綜合輸出有意義的識別結(jié)果。如圖4所示,源語言語音和目標語言語音是兩種不同的語言語音,都是指翻譯前的語言語音。

如圖5所示,對源語言文本以及對話場景進行處理時,包括對聲學場景、話者場景、韻律場景、語言場景進行處理,通過擬人化人機對話溝通,確切地獲得能夠顯著提升復雜應用場景下用戶的翻譯體驗的信息。具體地,(1)對翻譯系統(tǒng)所處的場景進行聲學背景感知,待感知信息包括但不限于檢測動態(tài)背景噪聲信息(如信噪比、噪聲類別等)并把聲學背景感知的信息及智能處理結(jié)果進行綜合處理;(2)對話者場景進行智能感知,待感知信息包括但不限于說話人信息、語種信息、是否有多人說話以及多人說話語音分離信息及其他說話者場景信息等,并把這些結(jié)果(話者場景感知信息及智能處理結(jié)果)進行綜合處理;(3)對韻律場景進行智能感知,感知信息包括但不限于輸入語音的中間停頓、斷句邊界、語速、基頻、共振峰等超音段韻律特征及韻律分析置信度以及翻譯回合邊界的智能處理等,并把這些結(jié)果(韻律場景感知信息及智能處理結(jié)果)進行綜合處理;(4)對語言場景進行智能感知,即對源語言文本進行上下文智能處理,包括但不限于:待翻譯文本中抽取的人名、地名和機構(gòu)名;待翻譯文本中可能包含的識別錯誤的詞匯;待翻譯文本中包含的口語化語言碎片和重復;待翻譯文本中包含的明顯成分缺失;待翻譯文本中包含的時序顛倒;待翻譯文本中包含的時間數(shù)字短語語言信息;待翻譯文本中包含的行業(yè)術(shù)語、日??s略語、網(wǎng)絡新詞、古詩詞、成語、俗語、歇后語等;并把這些結(jié)果(上下文智能處理結(jié)果)進行綜合處理。

人機對話溝通的內(nèi)容包括但不限于:如果上面特征抽取后需要對用戶進行友好提示,這包括提示用戶改善使用環(huán)境、話者環(huán)境、提示用戶正確使用方法等;或者對所述自然語言語音的判定結(jié)果需要進一步語義說明,則啟動人機對話以獲取用戶的語義說明信息以便進行正確翻譯。在上述進行對話時在擬人化翻譯界面中具有清晰的提示,這種提示包括但不限于聲音、圖形、圖符等方式。

另外,可以通過可視或非可視的形式向用戶展示使用過程中翻譯系統(tǒng)的不同狀態(tài),這些形式包括但不限于:通過可視化擬人化形象向用戶展示翻譯系統(tǒng)的不同狀態(tài);通過非可視化的聲音媒介向用戶展示翻譯系統(tǒng)的不同狀態(tài)。

在本發(fā)明中,通過接觸或非接觸的形式獲取用戶對人機對話內(nèi)容的反饋,這些形式包括但不限于:通過點擊、觸摸本發(fā)明實施例中所涉及的硬件化設(shè)備來實現(xiàn)對人機對話內(nèi)容的反饋或確認;通過語音交互來實現(xiàn)人機對話內(nèi)容的反饋或確認。

本發(fā)明還提供了一種具有人機對話功能的擬人化口語翻譯系統(tǒng),其包括:輸入模塊,用于獲取源語言語音(即用戶a的語種);語音識別模塊,用于對源語言語音進行智能語音識別,得到源語言文本;人機對話管理模塊,用于對源語言文本以及對話場景進行處理,進行擬人化人機對話溝通;機器翻譯模塊,用于進行機器翻譯,得到目標語言文本;語音合成模塊,用于進行語音合成,得到目標語言語音(即用戶b的語種);輸出模塊,用于輸出目標語言語音。

第一實施例:手機上雙方口語翻譯對話系統(tǒng)

在本實施例中,提供一種手機上雙方口語翻譯對話系統(tǒng),該系統(tǒng)向?qū)υ掚p方提供端到端口語翻譯對話功能,并在必要時向用戶發(fā)起人機對話以提升用戶的翻譯體驗。

(1)獲取說話者輸入的源語言語音,同時輸入方式根據(jù)說話者的使用環(huán)境、使用習慣等可選(如圖6所示)。

如果說話者當前所處環(huán)境不利于直接使用語音輸入,則本系統(tǒng)提供直接輸入源語言文字的備選方案;

如果說話者習慣于手動指定對話雙方語言的語種,則本系統(tǒng)提供語種手動指定語種的按鈕,同時允許說話者改變時進行語種的手動切換;

如果說話者習慣于利用該系統(tǒng)自動識別當前語種,則本系統(tǒng)在雙方對話時提供語種自動切換的功能,從而無需說話者手動指定當前輸入語音的語種;

如果說話者習慣于手動點擊來確定語音輸入的邊界,則本系統(tǒng)提供語音輸入按鈕,利用說話者操作該按鈕的狀態(tài)來獲取說話者輸入語音的邊界,同時,根據(jù)說話者是否選擇系統(tǒng)自動識別語種來確定語音輸入按鈕的數(shù)量,如果說話者選擇手動指定語種,則語音輸入按鈕為兩個,對話雙方分別操作各自的語音輸入按鈕,如果說話者選擇系統(tǒng)自動識別語種,則對話雙方分享同一個語音輸入按鈕;

如果說話者習慣于利用該系統(tǒng)自動識別語音輸入的邊界,則本系統(tǒng)提供語音輸入斷點自動檢測的功能,從而在說話者暫停或停止語音輸入時,自動識別語音輸入的邊界,將當前已獲取的語音輸入交于后續(xù)處理流程;

(2)在必要時跟說話者進行人機對話,人機對話的內(nèi)容根據(jù)說話者不同的聲學場景、話者場景、語言場景等可選(如圖7所示)。

如果擬人化mediator在獲取說話者語音輸入時動態(tài)計算背景噪聲強度超過所設(shè)閾值,則該系統(tǒng)將建議說話者重新輸入語音或者更改輸入方式;

如果擬人化mediator通過處理輸入語音,判斷有超過對話雙方所設(shè)語種類別的語音輸入,則該系統(tǒng)將建議說話者重新設(shè)置語種選項;

如果擬人化mediator通過處理輸入語音,判斷有多個說話者同時輸入語音,則該系統(tǒng)將建議說話者依次輸入語音以獲得更好的翻譯體驗;

如果擬人化mediator通過處理輸入語音經(jīng)自動語音識別后得到的待翻譯文本,同時分析待翻譯文本的語言場景和語義混淆度,當語言場景的復雜性或語義混淆度超過預設(shè)閾值時,則該系統(tǒng)將啟動人機對話以獲取說話者對復雜語言場景和語義混淆部分的進一步說明,這里的復雜場景和語義混淆部分包括但不限于:

如果待翻譯文本中包含人名、地名和機構(gòu)名,且其自身或者與其上下文存在歧義,則該系統(tǒng)將建議說話者確認人名、地名和機構(gòu)名的詞語邊界及結(jié)構(gòu);

如果待翻譯文本中可能包含識別錯誤的詞匯,則該系統(tǒng)將建議說話者確認該詞匯與其真實輸入是否一致;

如果待翻譯文本中包含較多的口語化語言碎片和重復,則該系統(tǒng)將自動對待翻譯文本進行語言解析和重構(gòu),同時將重構(gòu)的語言表達提交說話者確認,若確認通過,則將重構(gòu)的語言表達交于后續(xù)流程處理,如果說話者否決,則該系統(tǒng)將建議說話者重新組織語言并以更流暢的方式重新表達其語義;

如果待翻譯文本中包含明顯的成分缺失,則該系統(tǒng)將自動對待翻譯文本進行成分補全,同時將補全的語言表達提交說話者確認,若確認通過,則將補全的語言表達交于后續(xù)流程處理,如果說話者否決,則該系統(tǒng)將建議說話者以更完整的語言結(jié)構(gòu)表達重新進行輸入;

如果待翻譯文本中包含時序顛倒,則該系統(tǒng)將自動調(diào)整待翻譯文本的時序,同時將調(diào)整的語言表達提交說話者確認,若確認通過,則將調(diào)整的語言表達交于后續(xù)流程處理,如果說話者否決,則該系統(tǒng)將建議說話者以正常的時序重新進行輸入;

如果待翻譯文本中包含時間數(shù)字短語,且短語自身或與其上下文間存在歧義,則該系統(tǒng)將建議說話者確認時間數(shù)字短語的短語邊界及結(jié)構(gòu),所述時間數(shù)字短語包括但不限于:基數(shù)、序數(shù)、小數(shù)、分數(shù)、概率詞、倍數(shù)詞、約數(shù)、個體量詞、度量詞、復合量詞、不定量詞、動量詞、時量詞、名量詞、時間、時長、季度、月份、星期、節(jié)氣、節(jié)日、紀年;

如果待翻譯文本中包含專有短語,且短語自身或與其上下文間存在歧義,則該系統(tǒng)將建議說話者確認專有短語的短語邊界及結(jié)構(gòu),所述專有名詞包括但不限于:行業(yè)術(shù)語、日??s略語、網(wǎng)絡新詞、古詩詞、成語、俗語、歇后語。

同時,在上述人機對話過程中,人機對話的溝通交互方式包括但不限于:通過語音問答實現(xiàn)人機溝通交互;通過文本顯示對說話者的提示和需求;通過屏幕觸摸、點擊等獲取說話者的確認和回復。

如果擬人化mediator通過處理和識別輸入語音,獲取輸入語音的韻律場景信息,則該系統(tǒng)利用韻律場景信息幫助提升說話者的翻譯服務體驗,這里的韻律場景包括但不限于:

輸入語音的中間停頓信息,如果擬人化mediator通過處理和識別輸入語音,采集獲得輸入語音的中間停頓信息,則該系統(tǒng)將根據(jù)所述信息智能判斷說話者口語語音碎片間的語義關(guān)聯(lián)及語義重心,并以此作為后續(xù)流程處理的優(yōu)化依據(jù);

輸入語音的斷句邊界,如果擬人化mediator通過處理和識別輸入語音,采集獲得輸入語音的斷句邊界信息,則該系統(tǒng)將根據(jù)所述信息智能判斷待翻譯文本的篇章切分,并以此為后續(xù)流程處理提供切分信息;

輸入語音的語調(diào)情感,如果擬人化mediator通過處理和識別輸入語音,采集獲得輸入語音的語調(diào)情感信息,則該系統(tǒng)將根據(jù)所述信息智能判斷待翻譯文本的語義重心及句中與句尾標點,并以此為后續(xù)流程提供語義情感信息;

輸入語音的翻譯回合邊界,如果擬人化mediator通過處理和識別輸入語音,采集獲得輸入語音的翻譯回合邊界信息,則該系統(tǒng)將根據(jù)所述信息智能重置記憶模塊,并以此作為開啟新回合翻譯對話的依據(jù)。

(3)可視化向說話者展示當前系統(tǒng)狀態(tài)(如圖8所示)。可視化界面中設(shè)置專用擬人化形象向說話者展示當前系統(tǒng)狀態(tài),專用擬人化形象包括但不限于:卡通造型、明星、動物、機器人等;在該系統(tǒng)提供翻譯服務的不同階段,專用擬人化形象的狀態(tài)包括但不限于:

當對話雙方之一作為說話者輸入語音時,專用擬人化形象以輸入語音的語種或說話人為依據(jù),以聆聽輸入語音的狀態(tài)面向說話者方向;

當向說話者發(fā)起人機對話時,專用擬人化形象根據(jù)人機對話的實際場景,以請求解答、友好提示、智能判斷等狀態(tài)面向說話者方向;

當獲取說話者對人機對話內(nèi)容的答復時,專用擬人化形態(tài)根據(jù)說話者的答復內(nèi)容,以聆聽答復、理解、感謝等狀態(tài)面向說話者方向;

當向另一方輸出翻譯結(jié)果時,專用擬人化形象以開口說話、溝通交流的狀態(tài)面向另一方向。

(4)向?qū)υ捔硪环街悄茌敵龇g結(jié)果(如圖9所示)。擬人化mediator通過人機對話、智能處理獲取說話者的上述聲學、語義、韻律等信息,在必要時附加于翻譯結(jié)果中同步輸出給對話另一方,輸出方式包括但不限于:利用輸出文本標紅、加粗等方式標注輸出翻譯結(jié)果的重點部分;利用輸出語音的重音、重復等方式顯示說話者的情感及語義重心;利用附加自動說明的方式對輸出文本中的生僻詞、專業(yè)概念加以解釋。

第二實施例:手機上多方口語翻譯會議系統(tǒng)

在本實施例中,提供了一種手機上多方口語翻譯會議系統(tǒng),該系統(tǒng)向參會者提供端到端的多方口語會議翻譯功能,提供智能會議主持功能,并在必要時向參會者發(fā)起人機對話以提升會議的翻譯體驗。

(1)獲取會議信息并創(chuàng)建會議(如圖10所示)。由會議創(chuàng)建者指定會議標識碼,會議標識碼為會議的唯一性識別依據(jù),其他會議參與者通過輸入會議標識碼參與指定會議;由會議創(chuàng)建者指定會議名稱,會議名稱為會議的內(nèi)容概括或參會者的信息體現(xiàn);由會議創(chuàng)建者指定會議所有語種,參會者只能在會議創(chuàng)建者選定的語種中選擇自身語種;參會者分別輸入本人姓名,本人姓名作為會議中參會者的識別依據(jù)在會議界面及擬人化mediator交談中得以體現(xiàn)。

(2)擬人化mediator啟動多方口語翻譯會議并智能主持會議進程(如圖11所示)。如果會議創(chuàng)建者選擇由參會者自行主持會議,則擬人化mediator在啟動多方口語翻譯會議后,將主持會議的功能交由會議創(chuàng)建者及參會者自行控制,這些功能包括但不限于:

如果會議創(chuàng)建者選擇參會者發(fā)言模式為麥克風爭搶模式,則發(fā)言順序由參會者自行決定,當一位參會者發(fā)言時,該系統(tǒng)將拒絕其他參會者申請發(fā)言的請求,直至該參會者發(fā)言結(jié)束為止,當該參會者發(fā)言結(jié)束后,其他參會者可以申請發(fā)言,如果出現(xiàn)多人同時申請發(fā)言,則該系統(tǒng)按申請請求到達的先后決定下一位發(fā)言者;

如果會議創(chuàng)建者選擇參會者發(fā)言模式為麥克風指定模式,則發(fā)言順序由會議創(chuàng)建者指定,當一位參會者向會議創(chuàng)建者申請發(fā)言時,會議創(chuàng)建者可以將發(fā)言權(quán)授予該參會者,同時其他參會者在該參會者發(fā)言過程中,無法申請發(fā)言權(quán);

如果會議創(chuàng)建者手動指定發(fā)言時間長度限制,則該系統(tǒng)在參會者發(fā)言到達時間長度限制時對參會者作出提醒;

如果會議創(chuàng)建者不指定發(fā)言時間長度限制,則該系統(tǒng)不會對參會者發(fā)言時間做出限制,由參會者自行掌控;

如果會議創(chuàng)建者不設(shè)置參會者發(fā)言語音的聲學場景、話者場景、語言場景及韻律場景的自動監(jiān)測,則擬人化mediator將不對參會者發(fā)言語音及其翻譯結(jié)果做任何智能化處理,直接將翻譯結(jié)果分發(fā)給其他參會者;

如果會議創(chuàng)建者設(shè)置參會者發(fā)言語音的聲學場景、話者場景、語言場景及韻律場景的自動監(jiān)測,則擬人化mediator將對參會者發(fā)言語音及其翻譯結(jié)果做智能化處理,并將處理結(jié)果返回給會議創(chuàng)建者,由會議創(chuàng)建者決定是否與發(fā)言者進行進一步的溝通或確認,其中聲學場景、話者場景、語言場景及韻律場景的自動監(jiān)測包括但不限于第一實施例中所涉及的對輸入語音、待翻譯文本或翻譯結(jié)果的各項識別及處理。

如果會議創(chuàng)建者選擇由擬人化mediator智能主持會議,則擬人化mediator在啟動多方口語翻譯會議后,將開啟主持會議的功能,這些功能包括但不限于:

擬人化mediator通過對會議進程和會議記錄的智能識別及處理,同時根據(jù)參會者申請發(fā)言的順序信息,智能確定發(fā)言順序;

擬人化mediator通過對當前發(fā)言者的發(fā)言內(nèi)容、語速及會議進程的智能判斷,對當前發(fā)言者的發(fā)言時間長度、內(nèi)容長度、語速等進行智能提醒,這些智能提醒包括:

如果發(fā)言者的發(fā)言時間過長,則擬人化mediator自動提醒發(fā)言者注意發(fā)言時間;

如果發(fā)言者的發(fā)言內(nèi)容過長,則擬人化mediator自動提醒發(fā)言者對發(fā)言內(nèi)容進行切分以達到更好的翻譯性能;

如果發(fā)言者的語速過快,則擬人化mediator自動提醒發(fā)言者降低語速,以更和緩的節(jié)奏進行表達。

擬人化mediator通過對當前發(fā)言者輸入語音的聲學場景、話者場景、語言場景及韻律場景的智能監(jiān)測,及對會議進程和會議記錄的智能識別及處理,動態(tài)決策與發(fā)言者進行人機對話的必要性,其中,擬人化mediator動態(tài)決策的參照因素包括但不限于:

如果擬人化mediator智能感知參會者對會議主題熟悉度較高,則該系統(tǒng)將調(diào)高進行人機對話的閾值或門限,如果擬人化mediator智能感知參會者對會議主題熟悉度較低,則該系統(tǒng)將降低進行人機對話的閾值或門限;

如果擬人化mediator智能感知會議進程緊迫性較高,則該系統(tǒng)將調(diào)高進行人機對話的閾值或門限,如果擬人化mediator智能感知會議進程緊迫性較低,則該系統(tǒng)將降低進行人機對話的閾值或門限。

擬人化mediator對當前發(fā)言者輸入語音的聲學場景、話者場景、語言場景及韻律場景的智能監(jiān)測包括但不限于第一實施例中所涉及的對輸入語音、待翻譯文本或翻譯結(jié)果的各項識別及處理。

(3)可視化向參會者展示當前會議狀態(tài)(如圖12所示)??梢暬缑嬷性O(shè)置專用擬人化形象向參會者展示當前會議狀態(tài),專用擬人化形象包括但不限于:卡通造型、明星、動物、機器人等;在會議的不同狀態(tài)下,專用擬人化形象的狀態(tài)同時隨之改變,包括但不限于:

當參會者申請發(fā)言時,專用擬人化形象以等待聆聽的狀態(tài)面向申請者,同時將申請發(fā)言的參會者信息通知其他參會者;

當參會者進行發(fā)言時,專用擬人化形象以聆聽的狀態(tài)面向發(fā)言者,同時以發(fā)言的狀態(tài)面向其他參會者;

當擬人化mediator與發(fā)言者進行人機對話時,專用擬人化形象根據(jù)人機對話的實際場景,以請求解答、友好提示、智能判斷等狀態(tài)面向發(fā)言者方向,同時以等待的狀態(tài)面向其他參會者;

當會議創(chuàng)建者修改會議相關(guān)設(shè)置時,專用擬人化形象將修改內(nèi)容通知其他參會者,修改內(nèi)容包括但不限于:會議主題、會議標識碼、會議語種、會議主持方、發(fā)言時間長度限制、發(fā)言模式、會議參會人員。

(4)擬人化mediator智能判定結(jié)束會議

如果會議創(chuàng)建者選擇手動結(jié)束會議,則通過點擊結(jié)束會議的功能按鈕來終止會議,同時其他參會者將被強制結(jié)束會議;

如果會議創(chuàng)建者選擇由擬人化mediator智能判定結(jié)束會議,則擬人化mediator通過對會議進程和會議記錄的識別及處理,智能判定會議進程的邊界,在會議進程結(jié)束后終止會議。

此外,會議結(jié)束后,該系統(tǒng)向參會者提供會議相關(guān)信息,包括但不限于:會議記錄、會議統(tǒng)計信息、會議人員名單、會議紀要。

第三實施例:基于無屏幕顯示的擬人化口語翻譯系統(tǒng)

在本實施例中提供一種基于無屏幕顯示的擬人化口語翻譯系統(tǒng),該系統(tǒng)向使用者提供無屏幕情況下端到端的擬人翻譯服務,該系統(tǒng)采用如下技術(shù)方案(如圖13所示):

(1)獲取說話者的相關(guān)信息

在無屏幕顯示的情況下,該系統(tǒng)通過對說話者輸入語音的智能處理,獲取說話者的相關(guān)信息,所述相關(guān)信息包括但不限于:

可選的,該系統(tǒng)在啟動時請求所有說話人依次說一句常用語,從而獲取對話參與方的語種信息;

該系統(tǒng)自動對說話者進行說話人識別,并將識別結(jié)果作為語種識別、人機對話及區(qū)分不同說話人對話記錄的重要依據(jù)。

(2)獲取說話者輸入的源語言語音

對話開始后,該系統(tǒng)通過對說話者輸入語音的智能處理,獲取完整的源語言語音,所述對輸入語音的智能處理包括但不限于:

該系統(tǒng)自動對說話者輸入的語音進行斷點檢測,從而智能識別輸入語音的邊界,獲取完整的語音片段。

(3)在必要時跟說話者進行人機對話,人機對話的內(nèi)容根據(jù)說話者不同的聲學場景、話者場景、語言場景等可選

擬人化mediator通過對當前輸入語音的聲學場景、話者場景、語言場景及韻律場景的智能監(jiān)測,在必要時開啟人機對話,所述智能檢測及人機對話包括但不限于第一實施例中所涉及的內(nèi)容。

(4)在無屏幕情況下,擬人化mediator通過聲音的不同狀態(tài)向用戶展示當前對話的狀態(tài)

擬人化mediator以聲音為媒介,向用戶展示當前對話的狀態(tài),所述以聲音為媒介的方式包括但不限于:

擬人化mediator支持通過聲音的性別來區(qū)分人機對話和翻譯結(jié)果輸出等不同狀態(tài);

擬人化mediator支持通過聲音的語氣來區(qū)分人機對話和翻譯結(jié)果輸出等不同狀態(tài),在進行人機對話時,擬人化mediator使用輕聲的商談、請求語氣,而在輸出翻譯結(jié)果時,擬人化mediator則使用客觀、嚴肅的表述語氣;

擬人化mediator支持通過聲音的前綴背景音樂來區(qū)分人機對話和翻譯結(jié)果輸出等不同狀態(tài),在進行人機對話時,擬人化mediator在對話前將插入簡短的啟發(fā)意味的輕快音樂,而在輸出翻譯結(jié)果時,擬人化mediator則在輸出前將插入簡短的告知意味的厚重音樂。

(5)向?qū)υ捔硪环街悄茌敵龇g結(jié)果語音

擬人化mediator通過人機對話、智能處理獲取說話者的上述聲學、語義、韻律等信息,在必要時附加于翻譯結(jié)果中同步輸出給對話另一方,輸出方式包括但不限于:利用輸出語音的重音、重復等方式顯示說話者的情感及語義重心。

需要說明的是,在附圖或說明書正文中,未繪示或描述的實現(xiàn)方式,均為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式,并未進行詳細說明。此外,上述對各元件和方法的定義并不僅限于實施例中提到的各種具體結(jié)構(gòu)、形狀或方式,本領(lǐng)域普通技術(shù)人員可對其進行簡單地更改或替換。

綜上所述,本發(fā)明提供一種具有人機對話功能的擬人化口語翻譯方法及系統(tǒng)。本發(fā)明的核心點是在原有語音識別和翻譯的基礎(chǔ)上,加入一個人機對話模塊,該模塊捕捉、處理和識別當時的聲學場景、話者場景、韻律場景、語言場景等,根據(jù)翻譯任務需要在必要時跟用戶進行人機對話,確切地獲得能夠顯著提升復雜應用場景下用戶的翻譯體驗,并提高翻譯語義的準確度。

以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
准格尔旗| 金湖县| 柏乡县| 惠州市| 图们市| 黄浦区| 城固县| 乐东| 嫩江县| 错那县| 登封市| 宽甸| 道真| 和硕县| 鄂伦春自治旗| 镇平县| 广安市| 虹口区| 绥滨县| 宜章县| 开阳县| 鄂托克旗| 通河县| 微山县| 洛扎县| 青铜峡市| 昔阳县| 隆林| 得荣县| 名山县| 灵石县| 无为县| 砀山县| 信宜市| 崇文区| 萨迦县| 浦县| 沁阳市| 芜湖市| 长泰县| 罗源县|