用于運行通信服務的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種能夠根據(jù)設置或用戶操作來自適應地運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個的操作方法及其系統(tǒng)。所述方法包括:由發(fā)送側(cè)終端向接收側(cè)終端請求特定類型的通信服務連接,并在接收側(cè)終端與發(fā)送側(cè)終端之間執(zhí)行提供基于語音識別的文本的語音轉(zhuǎn)文本服務和將文本轉(zhuǎn)換為語音數(shù)據(jù)的文本轉(zhuǎn)語音服務中的至少一個的操作,并且所述方法包括基于支持連接到發(fā)送側(cè)終端的第一語音處理支持裝置來進行以下步驟中的一個步驟:識別從發(fā)送側(cè)終端提供的語音數(shù)據(jù)和將語音數(shù)據(jù)轉(zhuǎn)換為文本。
【專利說明】用于運行通信服務的方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及一種終端的通信服務操作。更具體地講,本發(fā)明涉及一種運行能夠通過操作語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務來自適應地傳送信息的通信服務的方法及其系統(tǒng),其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
【背景技術】
[0002]因為便攜式終端支持特定用戶功能并且其尺寸較小以便允許用戶攜帶便攜式終端,所以便攜式終端在很多工業(yè)和生活領域得到重視。此外,在這些年,整體支持各種用戶功能的便攜式終端已被引入。這樣的便攜式終端在支持用戶功能的同時通過顯示單元提供與所述用戶功能相應的屏幕。因此,用戶使用特定用戶功能通過根據(jù)相應功能的操作的屏幕來消費內(nèi)容項。
[0003]同時,便攜式終端可與另一終端執(zhí)行語音通話、字符通話和圖像通話。為此,便攜式終端輸入另一終端的電話號碼并隨后從語音通話、字符通話和圖像通話選擇一種通信服務。如果終端用戶接受選擇的通信服務,則便攜式終端可使用選擇的通信服務。
【發(fā)明內(nèi)容】
[0004]技術問題
[0005]在這種情況下,當用戶不接受針對選擇的通信服務的連接時,相應的通信服務可能不會運行。這種狀況可根據(jù)終端用戶的當前狀況而被不同的產(chǎn)生。例如,當用戶位于對通話具有特定限制的場所或環(huán)境(例如,會議室、浴室或圖書館)時,便攜式終端用戶請求的通信服務可能不會運行。然而,因為便攜式終端用戶可能不了解其他終端的狀況(例如,情境),該用戶持續(xù)嘗試通話連接。這種狀況會造成非常困擾的問題。此外,即使實現(xiàn)了通話連接,但根據(jù)終端用戶的狀況可能也不能頻繁地執(zhí)行正常通話。
[0006]解決方案
[0007]根據(jù)本發(fā)明的第一方面,該目標在于實現(xiàn)一種用于運行通信服務的系統(tǒng),所述系統(tǒng)包括:發(fā)送側(cè)終端,用于請求連接通信服務,并且用于在通信服務被連接之后根據(jù)預設輸A/輸出模式和用戶確定的輸入/輸出模式中的至少一種輸入/輸出模式來轉(zhuǎn)換接收數(shù)據(jù)或用戶輸入數(shù)據(jù);接收側(cè)終端,用于接收根據(jù)對連接通信服務的請求的通信服務連接接受請求,用于當通信服務連接接受請求被接受時使用預設輸入/輸出模式和用戶確定的輸入/輸出模式中的所述至少一種輸入/輸入模式來啟動通信服務,用于根據(jù)接收數(shù)據(jù)的類型和輸入/輸出模式來轉(zhuǎn)換接收數(shù)據(jù)或用戶輸入數(shù)據(jù)或者通過將用戶輸入數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換用戶輸入數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù),用于顯示與接收數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù)以及用于發(fā)送與用戶輸入數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù);語音處理支持裝置,用于將輸入的語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)并用于輸出經(jīng)過轉(zhuǎn)換的文本數(shù)據(jù),或者用于將輸入的文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)以輸出經(jīng)過轉(zhuǎn)換的語音數(shù)據(jù)。
[0008]根據(jù)本發(fā)明的第二方面,該目標在于實現(xiàn)一種用于運行通信服務的方法,所述方法包括:接收通信服務連接請求;通過接受通信服務連接請求來形成通信路徑;根據(jù)當輸入/輸出模式先前被設置時或當通信服務連接請求被接受時由用戶確定的輸入/輸出模式來設置輸入/輸出模式;從另一方接收數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)的類型和輸入/輸出模式來轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收并顯示經(jīng)過轉(zhuǎn)換的數(shù)據(jù);接收用戶輸入數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)的類型和輸入/輸出模式來轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù);以及將經(jīng)過轉(zhuǎn)換的數(shù)據(jù)發(fā)送到所述另一方。
[0009]根據(jù)本發(fā)明的另一方面,提供了一種用于運行通信服務的系統(tǒng)。所述系統(tǒng)包括:發(fā)送側(cè)終端,用于請求連接通信服務,用于接收關于另一方的輸入/輸出模式的信息,用于在通信服務被連接之后,根據(jù)接收到的所述另一方的輸入/輸出模式來轉(zhuǎn)換用戶輸入數(shù)據(jù)和從所述另一方接收到的數(shù)據(jù),或者通過將數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換用戶輸入數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù),用于輸出與接收到的數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù)以及用于發(fā)送與用戶輸入數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù);接收側(cè)終端,用于接收根據(jù)對連接通信服務的請求的通信服務連接接受請求,用于當通信服務連接接受請求被接受時根據(jù)預設輸入/輸出模式或用戶確定的輸入/輸出模式中的至少一種輸入/輸出模式來啟動通信服務,用于將關于輸入/輸出模式的信息發(fā)送到發(fā)送側(cè),用于顯示從發(fā)送側(cè)接收到的轉(zhuǎn)換數(shù)據(jù)以及用于發(fā)送用戶輸入數(shù)據(jù);語音處理支持裝置,用于提供將輸入的語音數(shù)據(jù)提供為文本數(shù)據(jù)的STT服務和將文本轉(zhuǎn)換為語音數(shù)據(jù)的TTS服務中的至少一種服務。
[0010]根據(jù)本發(fā)明的另一方面,提供了一種運行通信服務的方法。所述方法包括:發(fā)送通信服務連接請求;根據(jù)當輸入/輸出模式先前被設置時或者當通信服務連接請求被接受時用戶確定的輸入/輸出模式來設置輸入/輸出模式;接收針對通信服務連接請求的接受以及關于另一方的輸入/輸出模式的信息;接收用戶輸入數(shù)據(jù);根據(jù)接收到的用戶輸入數(shù)據(jù)的類型和輸入/輸出模式,轉(zhuǎn)換接收到的用戶輸入數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的用戶輸入數(shù)據(jù)的語音處理支持裝置來接收和發(fā)送經(jīng)過轉(zhuǎn)換的數(shù)據(jù);從另一方接收數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)的類型和用戶確定的輸入/輸出模式,轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收并顯示經(jīng)過轉(zhuǎn)換的數(shù)據(jù)。
[0011]進一步的有利實施例在從屬權利要求中被限定。
[0012]從以下結合附圖公開本發(fā)明的示例性實施例的詳細描述中,本發(fā)明的其他方面、優(yōu)點和顯著特征對于本領域技術人員而言將變得清楚。
[0013]有益效果
[0014]本發(fā)明的一方面在于提供一種能夠根據(jù)設置或用戶操作來自適應地運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一種服務的操作方法及其系統(tǒng)。
【專利附圖】
【附圖說明】
[0015]從以下結合附圖的描述中,本發(fā)明的特定示例性實施例的目的、特征和優(yōu)點將更加清楚,其中:
[0016]圖1是示出根據(jù)本發(fā)明的示例性實施例的用于運行通信服務的系統(tǒng)的配置的框圖;
[0017]圖2是示出根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端的配置和接收側(cè)終端的配置(例如,圖1的終端)的框圖;
[0018]圖3是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的第一控制器的配置的框圖;
[0019]圖4是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的第一語音轉(zhuǎn)文本(311)管理器的配置的框圖;
[0020]圖5是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的媒體同步器的配置的框圖;
[0021]圖6是示出根據(jù)本發(fā)明的第一示例性實施例的將文本與圖像數(shù)據(jù)進行組合的過程的流程圖;
[0022]圖7是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的第一文本轉(zhuǎn)語音(113)/311確定器的配置的框圖;
[0023]圖8是示出根據(jù)本發(fā)明的第一示例性實施例的接收側(cè)終端的第二控制器的配置的框圖;
[0024]圖9是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖;
[0025]圖10是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖;
[0026]圖11是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖;
[0027]圖12是示出根據(jù)本發(fā)明的第一示例性實施例的接收側(cè)終端的屏幕界面的示例的示圖;
[0028]圖13是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖;
[0029]圖14是示出根據(jù)本發(fā)明的第二示例性實施例的發(fā)送側(cè)終端的第一控制器的配置和接收側(cè)終端的第二控制器的配置的框圖;
[0030]圖15是示出根據(jù)本發(fā)明的第二示例性實施例的用于通信服務的操作方法的信號流程圖;
[0031]圖16是示出根據(jù)本發(fā)明的第二示例性實施例的接收側(cè)終端的屏幕界面的示例的示圖;
[0032]圖17是示出根據(jù)本發(fā)明的第三示例性實施例的發(fā)送側(cè)終端的第一控制器的配置和接收側(cè)終端的第二控制器的配置的框圖;
[0033]圖18是示出根據(jù)本發(fā)明的第三示例性實施例的用于通信服務的操作方法的信號流程圖;
[0034]圖19是示出根據(jù)本發(fā)明的第三示例性實施例的由接收側(cè)終端運行通信服務的方法的流程圖;
[0035]圖20是示出根據(jù)本發(fā)明的示例性實施例的根據(jù)311服務和113服務的同時運行的發(fā)送側(cè)終端和接收側(cè)終端的屏幕界面的示例的示圖。
[0036]貫穿附圖,應注意,相同的標號被用于描繪相同或相似的元件、特征和結構。
【具體實施方式】
[0037]提供參照附圖的以下描述以幫助全面理解由權利要求及其等同物限定的本發(fā)明的示例性實施例。所述描述包括各種特定細節(jié)以幫助理解,但是這些特定細節(jié)將被視為僅是示例性的。因此,本領域普通技術人員將認識到,可在不脫離本發(fā)明的范圍的情況下對在此描述的實施例進行各種改變和修改。此外,為了清楚和簡明,可省略公知功能和構造的描述。
[0038]在以下描述和權利要求中使用的術語和詞語不限于書面含義,而是僅被發(fā)明人使用以使得本發(fā)明得以清楚和一致的理解。因此,本領域技術人員應該清楚的是,提供本發(fā)明的示例性實施例的以下描述僅是為了說明的目的,而不是為了限制由權利要求及其等同物限定的本發(fā)明的目的。
[0039]將理解,除非上下文另有清楚的指示,否則單數(shù)形式包括復數(shù)指示物。因此,例如,提到“組件表面”包括提到一個或更多個這樣的表面。
[0040]根據(jù)本發(fā)明的示例性實施例,兩個通信單元可使用各自的優(yōu)選通信方法進行通信。例如,第一通信單元可優(yōu)選使用語音通信進行通信,第二通信單元可優(yōu)選使用文本通信進行通信。
[0041]根據(jù)本發(fā)明的示例性實施例,發(fā)送通信單元可對輸入到該通信單元的數(shù)據(jù)執(zhí)行處理以便將所述數(shù)據(jù)轉(zhuǎn)換為接收通信單元優(yōu)選的形式。例如,如果接收通信單元優(yōu)選使用文本通信進行通信,則發(fā)送通信單元可對輸入到發(fā)送通信單元的語音數(shù)據(jù)進行處理以便將語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)以發(fā)送到接收通信單元。
[0042]根據(jù)本發(fā)明的示例性實施例,接收通信單元可對從發(fā)送通信單元接收到的數(shù)據(jù)執(zhí)行處理以便將所述數(shù)據(jù)轉(zhuǎn)換為接收通信單元優(yōu)選的形式。例如,如果接收通信單元優(yōu)選使用文本通信進行通信,則接收通信單元可將從發(fā)送通信單元接收到的語音數(shù)據(jù)處理為文本數(shù)據(jù)。
[0043]根據(jù)本發(fā)明的示例性實施例,接收通信單元可在通信會話期間響應于初始通信而向發(fā)送通信單元提供關于接收通信單元優(yōu)選進行通信的通信形式的指示。例如,在發(fā)送通信單元嘗試呼叫接收通信單元進行語音通信的情況下,接收通信單元可能發(fā)送接收通信單元優(yōu)選經(jīng)由文本通信進行通信的指示。關于優(yōu)選通信形式的指示可由在通信會話期間提供響應的通信形式確定。
[0044]根據(jù)本發(fā)明的示例性實施例,發(fā)送通信單元和接收通信單元中的一個可負責對通信數(shù)據(jù)進行可操作地處理以便向發(fā)送通信單元和接收通信單元提供優(yōu)選通信形式。例如,如果發(fā)送通信單元優(yōu)選使用語音通信進行通信并且接收通信單元優(yōu)選使用文本通信進行通信,并且如果發(fā)送通信單元負責對通信數(shù)據(jù)進行可操作地處理,則發(fā)送通信單元可將輸入到發(fā)送通信單元的語音數(shù)據(jù)可操作地處理為文本數(shù)據(jù)以發(fā)送到接收通信單元;發(fā)送通信單元可將從接收通信單元接收到的文本數(shù)據(jù)可操作地處理為語音數(shù)據(jù)以由發(fā)送通信單元使用。
[0045]根據(jù)本發(fā)明的示例性實施例,至少一個服務器可對通信數(shù)據(jù)進行處理以便為發(fā)送通信單元和接收通信單元中的至少一個提供優(yōu)選通信形式的數(shù)據(jù)。根據(jù)本發(fā)明的示例性實施例,所述服務器可對所有的通信數(shù)據(jù)進行處理或者可對在發(fā)送通信單元與接收通信單元之間傳送或?qū)魉偷耐ㄐ艛?shù)據(jù)的子集進行處理。例如,如果通信數(shù)據(jù)將從語音轉(zhuǎn)換為文本,則服務器可將所有的通信數(shù)據(jù)從語音轉(zhuǎn)換為文本,或者發(fā)送通信單元和接收通信單元中的一個可轉(zhuǎn)換通信數(shù)據(jù)中的一部分,并可向服務器提供通信數(shù)據(jù)的另一部分以進行轉(zhuǎn)換。作為示例,關于哪部分通信數(shù)據(jù)將被本地(例如,在各自的通信單元)處理(轉(zhuǎn)換)以及哪部分通信數(shù)據(jù)將被遠程(例如,在服務器)處理的確定可基于本地存儲的數(shù)據(jù)庫的范圍(以仏社〉、本地處理能力、處理通信數(shù)據(jù)的效率以及通信數(shù)據(jù)是否可被本地處理中的至少一個來進行,以便達到服務質(zhì)量(?)?閾值。
[0046]圖1是示出根據(jù)本發(fā)明的示例性實施例的用于運行通信服務的系統(tǒng)的配置的框圖。
[0047]參照圖1,用于運行通信服務的系統(tǒng)10可包括發(fā)送側(cè)終端100、通信系統(tǒng)300、接收側(cè)終端200、第一語音處理支持裝置400和第二語音處理支持裝置500。
[0048]當通信服務在發(fā)送側(cè)終端100和接收側(cè)終端200之間運行時,具有上述構造的根據(jù)本發(fā)明的示例性實施例的用于運行通信服務的系統(tǒng)通過根據(jù)用戶的選擇或外部環(huán)境或終端的無線環(huán)境操作第一語音處理支持裝置400和第二語音處理支持裝置500來產(chǎn)生并發(fā)送收發(fā)數(shù)據(jù)的附加信息,使得適合于用戶環(huán)境或狀況的通信服務可被運行。所述附加信息可包括識別采集到的用戶的語音信號的文本和通過將輸入的文本轉(zhuǎn)換為語音而獲得的語音數(shù)據(jù)中的至少一個。
[0049]為此,發(fā)送側(cè)終端100基于包交換系統(tǒng)與接收側(cè)終端200形成數(shù)據(jù)通信信道。在該過程中,系統(tǒng)10可根據(jù)發(fā)送終端100用戶的請求,接收終端200用戶的請求、每個終端的設置、控制器關于周圍環(huán)境的確定以及每個終端的網(wǎng)絡狀態(tài)中的至少一個來操作第一語音處理支持裝置400和第二語音處理支持裝置500中的至少一個。例如,發(fā)送側(cè)終端100將請求形成數(shù)據(jù)通信信道的消息發(fā)送到接收側(cè)終端200,從接收側(cè)終端200接收對語音轉(zhuǎn)文本(311)服務操作的請求,并對所述請求進行操作,其中,所述311服務操作提供通過識別語音信號而產(chǎn)生的文本。發(fā)送側(cè)終端100根據(jù)用戶的請求識別將被用戶發(fā)送的語音并接收作為文本的發(fā)送,并且運行317服務。發(fā)送側(cè)終端100可基于預設安排信息根據(jù)控制器的請求來運行317服務。在這種情況下,發(fā)送側(cè)終端100可在采集到的語音數(shù)據(jù)到達接收側(cè)終端200之前通過通信系統(tǒng)300向第一語音處理支持裝置400請求語音識別,或者可基于內(nèi)部提供的語音識別數(shù)據(jù)庫執(zhí)行語音識別,并將語音轉(zhuǎn)換為文本。
[0050]此外,發(fā)送側(cè)終端100將根據(jù)語音識別而產(chǎn)生的文本作為基于圖像通話而發(fā)送的圖像數(shù)據(jù)的字幕發(fā)送到接收側(cè)終端200。當沒有將被發(fā)送的圖像數(shù)據(jù)時,發(fā)送側(cè)終端100可使用先前定義的圖像產(chǎn)生字幕屏幕并將所述字幕屏幕提供給接收側(cè)終端200。
[0051]發(fā)送側(cè)終端100可在不執(zhí)行針對采集到的語音數(shù)據(jù)的單獨語音識別的情況下請求接收側(cè)終端200。發(fā)送側(cè)終端100識別采集到的語音信號并將所述語音信號轉(zhuǎn)換為文本,在將經(jīng)過轉(zhuǎn)換的文本提供給接收側(cè)終端200的同時將采集到的語音信號提供給接收側(cè)終端200,使得語音識別可被另外地執(zhí)行。
[0052]接收側(cè)終端200通過通信系統(tǒng)300與發(fā)送側(cè)終端100形成通信信道。在該過程期間,接收側(cè)終端200可基于包交換系統(tǒng)與發(fā)送側(cè)終端100形成數(shù)據(jù)通信信道。數(shù)據(jù)通信信道可包括能夠收發(fā)用于支持各種通信服務信道(諸如圖像通話服務信道、聊天服務信道和同時支持語音、圖像和字幕的通話服務信道)中的至少一種服務信道的數(shù)據(jù)的信道。接收側(cè)終端200可從發(fā)送側(cè)終端100接收圖像相關數(shù)據(jù)、語音相關數(shù)據(jù)和文本相關數(shù)據(jù)中的至少一種數(shù)據(jù),并通過揚聲器和顯示單元中的至少一個來輸出接收到的所述至少一種數(shù)據(jù)(例如,接收到的圖像相關數(shù)據(jù)、接收到的語音相關數(shù)據(jù)和接收到的文本相關數(shù)據(jù)中的至少一種數(shù)據(jù))。具體地講,接收側(cè)終端200接收與發(fā)送側(cè)終端100采集到的語音信號相應的文本,并可將所述文本與圖像一起輸出到顯示單元,并且可在不存在單獨的圖像輸出的狀態(tài)下通過單獨產(chǎn)生的字幕屏幕來輸出所述文本。同時,接收側(cè)終端200可從發(fā)送側(cè)終端100接收語音數(shù)據(jù)。在這種情況下,接收側(cè)終端200根據(jù)終端設置或用戶請求將相應的語音數(shù)據(jù)傳送到第二語音處理支持裝置500,使得語音識別可被執(zhí)行。此外,接收側(cè)終端200可將被語音識別出的文本輸出到顯示單元。當發(fā)送側(cè)終端100將文本與語音數(shù)據(jù)一起發(fā)送到接收側(cè)終端200時,發(fā)送側(cè)終端100可將最新被語音識別出的文本和接收到的文本中的至少一個文本輸出到顯示單元。在這種情況下,接收側(cè)終端200可單獨提供被語音識別出的文本和接收到的文本。發(fā)送側(cè)終端100和接收側(cè)終端200可在使用第一語音處理支持裝置400和第二語音處理支持裝置500之一的過程期間對網(wǎng)絡進行評估,并且根據(jù)網(wǎng)絡狀態(tài)在接收側(cè)終端200的控制之下進行協(xié)作或執(zhí)行,以選擇性地運行第一語音處理支持裝置400和第二語音處理支持裝置500之一。
[0053]通信系統(tǒng)300布置在發(fā)送側(cè)終端100與接收側(cè)終端200之間,并且進行支持使得通信信道形成在發(fā)送側(cè)終端100與接收側(cè)終端200之間。通信系統(tǒng)300可根據(jù)發(fā)送側(cè)終端100和接收側(cè)終端200的裝置特性而由各種類型的通信網(wǎng)絡裝置配置。具體地講,通信系統(tǒng)300可由能夠收發(fā)包的包交換系統(tǒng)來配置,以便支持基于語音識別的文本提供服務。如果必要,包交換系統(tǒng)和線路交換系統(tǒng)可被可兼容地或獨立地配置。當發(fā)送側(cè)終端100和接收側(cè)終端200作為移動裝置被提供時,通信系統(tǒng)300可由移動通信系統(tǒng)來建立以便支持終端的移動性。例如,通信系統(tǒng)300可由支持各代(例如,2G、3G、4G、LTE等)通信系統(tǒng)和通信方案的網(wǎng)絡裝置來配置。因此,可理解,根據(jù)本發(fā)明的示例性實施例的通信系統(tǒng)300是可由能夠?qū)l(fā)送側(cè)終端100采集到的音頻、視頻和文本發(fā)送到接收側(cè)終端200的網(wǎng)絡裝置以及能夠發(fā)送接收側(cè)終端200產(chǎn)生的音頻、視頻和文本的網(wǎng)絡裝置配置的各種通信網(wǎng)絡中的至少一種。
[0054]第一語音處理支持裝置400根據(jù)發(fā)送側(cè)終端100的請求識別從發(fā)送側(cè)終端100提供的語音數(shù)據(jù),并將被語音識別出的文本提供給發(fā)送側(cè)終端100。第一語音處理支持裝置400可由以下類型的裝置或服務器中的至少一個來配置:以有線/無線方案直接連接到發(fā)送終端100的特定裝置或轉(zhuǎn)換服務器的類型、發(fā)送側(cè)終端100可通過單獨提供的接入點接入的轉(zhuǎn)換服務器的類型、以及發(fā)送側(cè)終端100通過通信系統(tǒng)300接入的轉(zhuǎn)換服務器的類型。例如,第一語音處理支持裝置400可由發(fā)送側(cè)終端100以有線方案連接到的單獨的PC裝置來配置。第一語音處理支持裝置400可由發(fā)送側(cè)終端100可按無線方案(諸如,例如通過W1-Fi模塊、近場無線通信模塊等)接入的單獨的服務器裝置來配置。第一語音處理支持裝置400可由可通過移動通信系統(tǒng)和互聯(lián)網(wǎng)網(wǎng)絡接入的單獨服務器的類型來提供。第一語音處理支持裝置400基于巨大的語音識別數(shù)據(jù)庫支持整句形式的語音識別,并可提供相對快速的語音識別處理速率和較高的語音識別可靠性。
[0055]同時,第一語音處理支持裝置400可支持終端之間的113服務。為此,第一語音處理支持裝置400包括用于將傳送的文本轉(zhuǎn)換為語音數(shù)據(jù)的數(shù)據(jù)庫,并可基于所述數(shù)據(jù)庫為發(fā)送側(cè)終端100提供針對傳送的文本的語音數(shù)據(jù)轉(zhuǎn)換和傳送。當用于運行通信服務的系統(tǒng)支持113服務時,如果先前存儲在發(fā)送側(cè)終端100中的數(shù)據(jù)庫被設計為將被使用,則第一語音處理支持裝置400可不包括用于支持173服務的數(shù)據(jù)庫。用于支持173服務的語音處理支持裝置可由第一語音處理支持裝置400和單獨的服務器裝置來配置。
[0056]與第一語音處理支持裝置400類似,第二語音處理支持裝置500可基于巨大的語音識別數(shù)據(jù)庫提供相對快速的語音識別處理速率和較高的語音識別可靠性。第二語音處理支持裝置500可與接收側(cè)終端200形成通信信道,并可由以下裝置中的至少一個來配置:按有線/無線方案連接到接收側(cè)終端200的裝置、通過單獨提供的無線接入點連接到接收側(cè)終端200的轉(zhuǎn)換服務器裝置、通過單獨提供的移動通信系統(tǒng)連接到接收側(cè)終端200的轉(zhuǎn)換服務器裝置、通過單獨提供的互聯(lián)網(wǎng)網(wǎng)絡連接到接收側(cè)終端200的轉(zhuǎn)換服務器裝置、以及通過可兼容地使用多種通信方案而連接的轉(zhuǎn)換服務器裝置。第二語音處理支持裝置500可識別從接收側(cè)終端200提供的語音數(shù)據(jù)并可將識別出的語音數(shù)據(jù)轉(zhuǎn)換為文本,并且可將所述文本提供給接收側(cè)終端200。從接收側(cè)終端200提供的語音數(shù)據(jù)可包括從發(fā)送側(cè)終端100接收的語音數(shù)據(jù)和由接收側(cè)終端200采集到的語音數(shù)據(jù)中的至少一個。
[0057]第二語音處理支持裝置500可包括支持將傳送的數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)以支持接收側(cè)終端200的173服務的數(shù)據(jù)庫。如果文本與對173服務的支持請求一起從接收側(cè)終端200被接收,則第二語音處理支持裝置500可產(chǎn)生與所述文本相應的語音數(shù)據(jù)并將所述語音數(shù)據(jù)提供給接收側(cè)終端200。當用于運行通信服務的系統(tǒng)支持113服務時,如果先前存儲在接收側(cè)終端200中的數(shù)據(jù)庫被設計為將被使用,則第二語音處理支持裝置500可不包括用于支持了了3服務的數(shù)據(jù)庫。用于支持173服務的語音處理支持裝置可由第二語音處理支持裝置500和單獨的服務器裝置來配置。
[0058]如上所述,用于運行通信服務的系統(tǒng)10使用語音識別功能將語音信號轉(zhuǎn)換為文本,使得用戶可根據(jù)終端用戶的狀況(例如,情境)來使用合適的通信服務環(huán)境。在下文中,將參照附圖詳細描述用于運行前述各種服務的系統(tǒng)的操作示例。
[0059]圖2是示出根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端的配置和接收側(cè)終端的配置(例如,圖1的終端)的框圖。
[0060]參照圖2,發(fā)送側(cè)終端100被示出,其中,發(fā)送側(cè)終端100使用第一語音處理支持裝置400將語音信號轉(zhuǎn)換為文本并將所述文本發(fā)送到接收側(cè)終端200。圖2的示例可在控制器的控制下根據(jù)接收側(cè)終端200的請求或接收側(cè)終端200的噪聲評估來執(zhí)行,或者根據(jù)發(fā)送側(cè)終端100的安排信息來執(zhí)行,或者根據(jù)發(fā)送側(cè)終端100的外部環(huán)境或網(wǎng)絡評估來執(zhí)行。將參照以下附圖描述各個情況。在下文中,發(fā)送側(cè)終端100的配置和接收側(cè)終端200的配置被單獨示出和說明。然而,本發(fā)明的示例性實施例不限于此。例如,當發(fā)送側(cè)終端100與接收側(cè)終端200 —起使用通信服務時,發(fā)送側(cè)終端100可用作接收側(cè)終端,并且接收側(cè)終端可用作發(fā)送側(cè)終端。結果,在下文中,發(fā)送側(cè)終端100和接收側(cè)終端200的配置可被組合為一個通信終端。因此,在下文中,可理解,當接收側(cè)終端200執(zhí)行發(fā)送功能時可包括發(fā)送側(cè)終端100的配置??衫斫?,當發(fā)送側(cè)終端100執(zhí)行接收功能時可包括接收側(cè)終端200的配置。
[0061]為了運行根據(jù)本發(fā)明的第一示例性實施例的通信服務,發(fā)送側(cè)終端100可包括第一通信單兀110、第一輸入單兀120、第一麥克風131、第一揚聲器133、第一顯不單兀140、第一存儲器150、第一控制器160和第一相機170。
[0062]具有上述構造的發(fā)送側(cè)終端100支持操作第一語音處理支持裝置400以將采集到的語音信號轉(zhuǎn)換為文本并將所述文本發(fā)送到接收側(cè)終端200的STT服務。為此,發(fā)送側(cè)終端100可根據(jù)菜單選擇、預設安排信息、接收側(cè)終端200的請求、外部環(huán)境或網(wǎng)絡評估的變化來確認用戶輸入信號,并且識別第一麥克風131采集到的語音信號并將識別出的語音信號轉(zhuǎn)換為文本。發(fā)送側(cè)終端100可包括各種傳感器(例如,加速度傳感器、照明傳感器、溫度傳感器、陀螺儀傳感器、位置信息采集傳感器等),以便確認外部環(huán)境的變化。此外,發(fā)送側(cè)終端100可進行控制,使得語音數(shù)據(jù)基于內(nèi)部提供的語音識別數(shù)據(jù)庫被識別出。發(fā)送側(cè)終端100可支持將用戶輸入的字符信息轉(zhuǎn)換為語音并將所述語音發(fā)送到接收側(cè)終端200的TTS服務。發(fā)送側(cè)終端100可在使用聊天服務和圖像通話服務的過程期間提供前述STT服務和TTS服務中的至少一種服務。由發(fā)送側(cè)終端100與接收側(cè)終端200形成的聊天服務可根據(jù)用戶的選擇、先前的安排信息或控制器的控制,包括支持語音、圖像和字幕收發(fā)功能以及文本收發(fā)功能中的至少一個的服務。
[0063]為此,第一通信單元110可通過通信系統(tǒng)300與接收側(cè)終端200形成數(shù)據(jù)通信信道。第一通信單元110可根據(jù)發(fā)送側(cè)終端100的裝置特性而由支持各種類型的通信方案的通信模塊來配置。例如,第一通信單元110可由各種通信模塊(諸如支持移動通信模塊、W1-Fi的通信模塊(諸如2G、3G、4G等))來配置。具體地講,第一通信單元110可與接收側(cè)終端200形成根據(jù)本發(fā)明的示例性實施例的用于文本轉(zhuǎn)錄的基于語音識別的數(shù)據(jù)通信信道。在這種情況下,形成的通信信道可發(fā)送語音、圖像、從第一單元120輸入的字符以及通過語音識別產(chǎn)生的文本中的至少一個。此外,數(shù)據(jù)通信信道可發(fā)送通過將從輸入單元120輸入的字符轉(zhuǎn)換為語音而獲得的信息。
[0064]同時,在與接收側(cè)終端200的用于聊天服務或圖像通話服務的數(shù)據(jù)通信信道被基礎形成的狀態(tài)下,第一通信單元110還可發(fā)送通過前述語音識別產(chǎn)生的文本中的至少一個。當發(fā)送側(cè)終端100執(zhí)行接收側(cè)終端的功能時,第一通信單元110可采集用于評估網(wǎng)絡的信號。第一通信單元110在支持與接收側(cè)終端200的通信服務的過程中可支持單向或雙向的各個通信服務。詳細地講,第一通信單元110與接收側(cè)終端200形成雙向的信道服務信道和圖像通話服務信道,其中,在所述信道服務信道和圖像通話服務信道中,語音服務信道和語音識別文本提供服務信道可根據(jù)用戶的選擇或終端設置而僅在一個方向上被執(zhí)行。將參照以下附圖詳細描述每個服務信道的方向性。
[0065]第一輸入單元120產(chǎn)生操作發(fā)送側(cè)終端200所必需的各種輸入信號。第一輸入單元120可以以特定鍵(諸如按鈕鍵、側(cè)鍵和歸位鍵)或用于支持全觸摸屏的觸摸圖的形式來提供。觸摸圖顯示在第一顯示單元140上,并可根據(jù)用戶觸摸產(chǎn)生輸入信號。第一輸入單元120可根據(jù)用戶控制,在特定通信服務的運行期間產(chǎn)生用于與接收側(cè)終端200的通信服務連接的輸入信號、用于運行所連接的通信服務的輸入信號、用于輸入字符的輸入信號以及用于指示其他通信服務激活的輸入信號。產(chǎn)生的輸入信號被傳送到第一控制器160,使得根據(jù)輸入信號的功能可被執(zhí)行。
[0066]第一麥克風131根據(jù)發(fā)送側(cè)終端100的功能操作被激活并采集外部音頻信號(具體地,語音信號)。由第一麥克風131米集到的語音信號被傳送到第一控制器160,使得語音根據(jù)控制器160的控制被識別出并且識別出的語音被轉(zhuǎn)換為文本,所述文本按照采集的形式被編碼并被傳送到接收側(cè)終端200。
[0067]第一揚聲器133輸出發(fā)送側(cè)終端100的音頻信號。第一揚聲器133可輸出根據(jù)存儲在發(fā)送側(cè)終端100中的音頻文件的重放的音頻數(shù)據(jù)和根據(jù)從外部服務器或其他終端接收到的音頻文件的重放的音頻數(shù)據(jù)。具體地,揚聲器133可輸出從接收側(cè)終端200提供的音頻數(shù)據(jù)。當字符或視頻信號從接收側(cè)終端200被發(fā)送時,第一揚聲器133可輸出相應的警告聲音或指導聲音。根據(jù)本發(fā)明的不例性實施例的第一揚聲器133可輸出用于報告通過識別由第一麥克風131采集到的語音信號而產(chǎn)生的文本的發(fā)送的警告聲音、用于報告從接收側(cè)終端200提供的文本的接收的警告聲音、以及與根據(jù)來自接收側(cè)終端200的173服務的請求而接收到的文本相應的指導聲音。
[0068]第一相機170布置在發(fā)送側(cè)終端100 —側(cè)并米集對象的圖像。從第一相機170米集到的圖像可被傳送到第一控制器160。第一控制器160可將根據(jù)當前激活的功能和用戶控制而采集到的圖像存儲在存儲器150中,或?qū)⑺鰣D像發(fā)送到接收側(cè)終端200。具體地講,第一相機170可采集操作與接收側(cè)終端200的圖像通話所必要的圖像。第一相機170作為一個構造被示出并被說明,但用于捕捉照片的相機和用于捕捉用于圖像通話的圖像的相機可被單獨提供。
[0069]第一顯示單元140提供操作發(fā)送側(cè)終端100所必需的各種屏幕界面。第一顯示單元140可包括用于支持觸摸功能的觸摸面板和顯示面板。第一顯示單元140可根據(jù)與接收側(cè)終端200的通信服務的類型來提供相應的屏幕或組合屏幕。例如,第一顯示單元140可根據(jù)每種通信服務的操作而單獨輸出與接收終端200的聊天服務支持屏幕、語音服務支持屏幕、字符服務支持屏幕、基于語音識別的字幕服務支持屏幕和圖像通話服務支持屏幕中的至少一個。
[0070]第一顯示單元140可提供前述屏幕中的至少一個的組合。例如,第一顯示單元140可在支持基于聊天服務支持屏幕的語音服務的同時在屏幕的一側(cè)輸出指示語音服務正被支持的圖像或文本。第一顯示單元140可在聊天服務支持屏幕的輸出期間輸出用于支持圖像通話服務的圖像顯示區(qū)域,并在一側(cè)輸出被語音識別出的文本。顯示單元140可在輸出聊天服務支持屏幕期間輸出圖像顯示區(qū)域以及文本或字幕,并可在屏幕的一側(cè)輸出指示語音服務正被支持的圖像或文本。
[0071]此外,第一顯示單元140可提供菜單屏幕,使得用戶可從前述各種通信服務選擇至少一種通信服務。此外,第一顯示單元140可輸出使用戶識別出根據(jù)外部環(huán)境或網(wǎng)絡評估而自動運行特定通信服務的狀況的屏幕信息、用于建議操作特定類型的通信服務的屏幕信息、以及指導根據(jù)用戶的選擇運行通信服務的屏幕信息。從第一顯示單元140提供的各個屏幕根據(jù)裝置的顯示區(qū)域的尺寸而具有各種格式。具體地講,在基于便攜式的裝置中,第一顯示單元140可使各種信息重疊并對頁面進行轉(zhuǎn)換,以便在有限的顯示區(qū)域上輸出信肩、0
[0072]第一存儲器150可存儲操作發(fā)送側(cè)終端100所必需的操作系統(tǒng)以及用于支持從發(fā)送側(cè)終端100提供的功能的應用程序。具體地講,第一存儲器150可存儲用于支持根據(jù)本發(fā)明的示例性實施例的通信服務的操作的通信服務操作程序151、用于支持內(nèi)部語音識別的語音識別數(shù)據(jù)庫153、用于支持TTS服務的語音轉(zhuǎn)換數(shù)據(jù)庫155和用于評估外部環(huán)境和網(wǎng)絡的參考值157。
[0073]通信服務操作程序151包括運行操作根據(jù)本發(fā)明的示例性實施例的通信服務的各種例程。例如,通信服務操作程序151可包括用于與接收側(cè)終端200形成聊天服務信道并對所述聊天服務信道進行操作的例程、用于形成并操作語音服務信道的例程、用于形成并操作字符服務信道的例程以及用于形成并操作圖像通話服務信道的例程。具體地講,通信服務操作程序151可包括用于轉(zhuǎn)換基于語音識別的文本以輸出字符或字幕的例程以及用于將經(jīng)過轉(zhuǎn)換的文本發(fā)送到接收側(cè)終端200的例程。通信服務操作程序151還可包括用于識別從接收側(cè)終端200接收到的語音信號、用于將所述語音信號轉(zhuǎn)換為文本并用于輸出所述文本的例程、以及用于將接收到的文本轉(zhuǎn)換為語音并輸出所述語音的例程。此外,通信服務操作程序151可包括用于使用傳感器確認外部環(huán)境、用于根據(jù)相應的環(huán)境自動激活特定通信服務或允許用戶選擇特定通信服務的例程、以及用于評估網(wǎng)絡或外部環(huán)境(諸如噪聲)并用于根據(jù)評估結果確定是由發(fā)送側(cè)執(zhí)行語音識別還是將語音識別傳送到接收側(cè)的例程。將被發(fā)送側(cè)處理的例程還可包括用于確定是使用發(fā)送側(cè)終端100可訪問的第一語音處理支持裝置400還是基于內(nèi)部語音識別數(shù)據(jù)庫來對語音識別進行處理并根據(jù)確定結果來對語音識別進行處理的例程。當確定接收側(cè)終端200對語音識別進行處理時,接收側(cè)終端200可確定是使用第二語音處理支持裝置500還是基于內(nèi)部語音識別數(shù)據(jù)庫對語音識別進行處理。
[0074]在發(fā)送側(cè)終端100不使用第一語音處理支持裝置400或者同時使用第一語音處理支持裝置400來執(zhí)行語音識別時,語音識別數(shù)據(jù)庫153內(nèi)部支持語音識別功能。與第一語音處理支持裝置400相比,語音識別數(shù)據(jù)庫153關于語音識別結果可能提供較低的可靠度和低計算速率,但是可對用戶支持特定類型的語音識別功能。例如,存儲在語音識別數(shù)據(jù)庫153中的語音識別數(shù)據(jù)庫153可包括通過識別用戶輸入的語音信號和通過將語音信號存儲為文本與具有特定模式的用戶語音信號相應的歷史的結果。因此,與各種終端訪問的且請求語音識別的第一語音處理支持裝置400不同,內(nèi)部存儲的語音識別數(shù)據(jù)庫153可對用戶支持特定類型的語音識別功能。因此,語音識別數(shù)據(jù)庫153可根據(jù)采集到的語音信號提供具有與從第一語音處理支持裝置400提供的語音識別結果相似的可靠度和準確性的結果,并可提供快速語音識別結果。為此,語音識別數(shù)據(jù)庫153可在控制器160的控制下提供學習功能。學習功能可以是當諸如校正的輸入被產(chǎn)生時記錄輸入以在之后反映語音識別結果的功能,使得通過特定語音識別結果調(diào)整的事件在針對用戶輸入的語音信號匹配特定語音識別結果的過程期間被產(chǎn)生。學習功能可通過重復前述過程增加針對用戶輸入的語音信號的語音識別結果的準確度。
[0075]語音轉(zhuǎn)換數(shù)據(jù)庫155包括用于將作為字符或文本輸入的轉(zhuǎn)換詞語、短語、后置詞或句子轉(zhuǎn)換為語音信號的語音。語音轉(zhuǎn)換數(shù)據(jù)庫155可被用于支持TTS服務。在用于支持TTS服務的模式被激活的狀態(tài)下,如果用于字符輸入的輸入信號在第一輸入單元120和包括第一顯示單元140的輸入工具(諸如鍵圖)中被產(chǎn)生,則語音轉(zhuǎn)換數(shù)據(jù)庫155被第一控制器160調(diào)用并可提供針對相應字符的語音數(shù)據(jù)。所提供的語音數(shù)據(jù)可被第一控制器160發(fā)送到另一終端。
[0076]參考值157可以是用于評估外部環(huán)境和網(wǎng)絡的參考值。例如,用于評估網(wǎng)絡的參考值可以是用于識別網(wǎng)絡的延遲的值。此外,用于評估外部環(huán)境的參考值可包括由第一麥克風131采集到的音頻信號的噪聲信號的分貝度和頻率度中的至少一個。為了從第一麥克風131采集到的音頻信號分離出噪聲信號,濾波過程可被執(zhí)行。除了先前定義的用戶語音信號的頻帶以外的信號被確定為噪聲信號,使得噪聲信號可被確認。此外,參考值157可包括用于評估外部環(huán)境的特定位置(例如,圖書館的位置信息)和用于區(qū)分日夜的照明信息。因為時間信息和照明信息可被用于區(qū)分日夜,所以用于區(qū)分日夜的參考值157可包括照明信息和時間信息。參考值157可包括關于發(fā)送側(cè)終端100將與第一語音處理支持裝置400形成的接收狀態(tài)信息的參考值。例如,參考值157可包括先前定義的針對發(fā)送側(cè)終端100與第一語音處理支持裝置400之間的數(shù)據(jù)傳輸延遲程度和丟包率的參考值。
[0077]第一控制器160提供各種功率并控制操作根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端100所必需的各種信號。具體地講,第一控制器160可控制信號和數(shù)據(jù)的傳送以支持根據(jù)本發(fā)明的示例性實施例的通信服務的操作。為此,第一控制器160可包括圖3中示出的組成元件。
[0078]圖3是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的第一控制器的配置的框圖。
[0079]參照圖3,第一控制器160可包括第一網(wǎng)絡打包解包(11即狀^丨叩)支持器161、第一網(wǎng)絡監(jiān)控器162、第一 113/311確定器163、第一 311管理器164、第一丁丁3管理器165、媒體同步器166、第一語音處理器167、第一文本處理器168和第一視頻處理器169。
[0080]語音處理器167對麥克風131采集到的語音信號進行處理以產(chǎn)生語音數(shù)據(jù)。例如,第一語音處理器167可以是用于處理語音信號的編碼器。由語音處理器167處理的語音數(shù)據(jù)可被傳送到第一 317管理器164。
[0081]文本處理器168將從輸入單元120和具有輸入功能的顯示單元140輸入的信號轉(zhuǎn)換為字符。來自文本處理器168的轉(zhuǎn)換得到的字符可被傳送到第一 173管理器165。
[0082]第一視頻處理器169控制根據(jù)與接收側(cè)終端200形成的通信服務信道激活第一相機170。例如,當與接收側(cè)終端200運行圖像通話服務時,第一視頻處理器169被激活并控制第一相機170和對采集到的圖像的處理。第一視頻處理器169可將第一相機170采集到的圖像傳送到媒體同步器166,使得圖像可被傳送到接收側(cè)終端200。
[0083]第一 311管理器164控制發(fā)送側(cè)終端100的語音識別功能。第一 311管理器164從第一語音處理器167識別語音數(shù)據(jù),并將所述語音數(shù)據(jù)轉(zhuǎn)換為文本。在這種情況下,8X1管理器164可實時或以預定周期將語音數(shù)據(jù)從第一語音處理器167傳送到第一語音處理支持裝置400。第一 311管理器164可根據(jù)控制,基于存儲在第一存儲器150中的語音識別數(shù)據(jù)庫153執(zhí)行語音識別。第一 317管理器164可根據(jù)控制,通過使用第一語音處理支持裝置400的語音識別與使用語音識別數(shù)據(jù)庫153的語音識別的組合,將語音數(shù)據(jù)轉(zhuǎn)換為文本。在該過程中,第一 311管理器164可基于來自第一語音處理支持裝置400的文本,執(zhí)行語音識別數(shù)據(jù)庫的學習功能。例如,第一 317管理器164將語音識別數(shù)據(jù)庫153的識別結果與從第一語音處理支持裝置400接收到的文本進行比較以校正錯誤,并且基于從第一語音處理支持裝置400接收到的文本來更新針對相應語音信號的信息。由第一 317管理器164處理的文本可被傳送到媒體同步器166和第一網(wǎng)絡打包/解包支持器161中的至少一個。同時,第一 STT管理器164可在第一 TTS/STT確定器163的控制下支持語音識別功能。第一STT管理器174可包括如圖4中所示的組成元件。
[0084]圖4是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的第一 STT管理器的配置的框圖。
[0085]參照圖4,第一 STT管理器164可包括ARS控制器41和內(nèi)部ASR處理器,提供該縮寫處理器43的全文本。ASR控制器41控制對發(fā)送側(cè)終端100的第一語音處理支持裝置400的使用。如果用于使用第一語音處理支持裝置400的控制信號從第一 TTS/STT確定器163被傳送,則ARS控制器41將語音數(shù)據(jù)從第一語音處理器167發(fā)送到第一語音處理支持裝置400,使得語音識別可被控制。為此,ASR控制器41可控制第一通信單元110與第一語音處理支持裝置400形成通信信道,并可將語音數(shù)據(jù)從第一語音處理器167傳送到第一語音處理支持裝置400。在這種情況下,ARS控制器41可進行控制,使得在必要的情況下語音數(shù)據(jù)通過移動通信系統(tǒng)被傳送到第一語音處理支持裝置400。當接收到針對從第一語音處理支持裝置400提供的語音數(shù)據(jù)的文本時,ASR控制器41可進行控制,使得接收到的文本被傳送到媒體同步器166。此外,ASR控制器41可進行控制,使得接收到的文本被傳送到第一網(wǎng)絡打包/解包支持器161。
[0086]同時,內(nèi)部ARS處理器43可進行控制,使得根據(jù)系統(tǒng)設計或在對第一語音處理支持裝置400的訪問不可行時,使用位于第一存儲器150中的語音識別數(shù)據(jù)庫153將語音數(shù)據(jù)轉(zhuǎn)換為文本。當系統(tǒng)的設計方案被設計為使用內(nèi)部語音識別數(shù)據(jù)庫153或者是對第一語音處理支持裝置400的訪問不可行時,內(nèi)部ASR處理器43可基于存儲在第一存儲器150中的語音識別數(shù)據(jù)庫153,識別語音數(shù)據(jù)并將識別出的語音數(shù)據(jù)轉(zhuǎn)換為文本。當對第一語音處理支持裝置400的訪問不可行時,發(fā)送側(cè)終端100不能與第一語音處理支持裝置400正常形成通信信道的無線環(huán)境可能由于發(fā)送側(cè)終端100與第一語音處理支持裝置400之間的網(wǎng)絡問題以及第一語音處理支持裝置400的問題而被建立。同時,內(nèi)部ASR處理器43可如ASR控制器41中一樣將轉(zhuǎn)換所得的文本傳送到第一網(wǎng)絡打包/解包支持器161和媒體同步器 166。
[0087]第一 STT管理器164可激活ASR控制器41和內(nèi)部ASR處理器43兩者。例如,當語音信號從第一麥克風131被傳送并且第一語音處理器167將所述語音信號作為語音數(shù)據(jù)傳送時,第一 STT管理器164可對ASR控制器41和內(nèi)部ASR處理器43兩者進行操作,以便識別語音數(shù)據(jù)。第一 STT管理器164可根據(jù)ASR控制器41和內(nèi)部ASR處理器43的操作,將采集到的結果發(fā)送到接收側(cè)終端200,或從采集到的結果選擇至少一個并將選擇的結果發(fā)送到接收側(cè)終端200。
[0088]返回參照圖3,第一 STT管理器165將從第一文本處理器168提供的字符轉(zhuǎn)換為語音。此外,第一 TTS管理器165可在第一 TTS/STT確定器163的控制下被激活,并控制字符到語音的轉(zhuǎn)換。在這種情況下,第一 TTS管理器165可根據(jù)因素單位、詞語單位、短語單位、句子單位等中的至少一個來控制字符到語音的轉(zhuǎn)換。來自第一 TTS管理器165的轉(zhuǎn)換的語音可被傳送到媒體同步器166和第一網(wǎng)絡打包/解包支持器161中的至少一個。同時,來自第一TTS管理器165的轉(zhuǎn)換的語音不被傳送到媒體同步器166,而是可通過第一網(wǎng)絡打包/解包支持器161被發(fā)送到接收側(cè)終端200。第一語音處理支持裝置400提供用于將字符轉(zhuǎn)換為語音的服務,并可被布置在發(fā)送側(cè)終端100的外部。第一 TTS管理器165可根據(jù)系統(tǒng)設計者的意圖,基于存儲在第一存儲器150中的語音轉(zhuǎn)換數(shù)據(jù)庫155將字符轉(zhuǎn)換為語音。
[0089]媒體同步器166根據(jù)系統(tǒng)的設計方案使采集到的信號同步。例如,媒體同步器166可在將由第一麥克風131采集到的語音信號轉(zhuǎn)換為文本的過程期間,控制從第一視頻處理器169提供的圖像數(shù)據(jù)與被語音識別出的文本的同步、以及從第一語音處理器167提供的語音數(shù)據(jù)與被語音識別出的文本的同步中的至少一個。此外,媒體同步器166可控制將通過轉(zhuǎn)換來自第一!"13管理器165的文本而獲得的語音與從第一視頻處理器169提供的屏幕進行同步。媒體同步器166的同步數(shù)據(jù)可被傳送到第一打包/解包支持器161。媒體同步器166可包括圖5中示出的組成元件。
[0090]圖5是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的媒體同步器的配置的框圖。
[0091]參照圖5,媒體同步器166包括文本緩沖器61、圖像轉(zhuǎn)換器61、圖像緩沖器63、組合控制器64、時間戳比較器65、圖像緩沖器66和延遲單元67。媒體同步器166可選擇性地包括圖像重疊單元68。
[0092]文本緩沖器61對從第一 311管理器164提供的文本進行緩沖。在這種情況下,文本緩沖器61可將從311管理器164提供的文本緩沖預定量。例如,文本緩沖器61可以以詞語單位、短語單位、句子單位等中的一個來緩沖從第一 317管理器164提供的文本。文本緩沖器61對文本進行緩沖并在經(jīng)過預設時間之后或在組合控制器64的控制下將相應的文本傳送到圖像轉(zhuǎn)換器62。此外,文本緩沖器61向第一語音處理支持裝置400請求文本緩沖和語音識別的時間信息,并將用于接收相應文本所花費的時間信息和用于基于語音識別數(shù)據(jù)庫153將語音轉(zhuǎn)換為文本所花費的時間信息中的至少一個傳送到組合控制器64和時間戳比較器65。
[0093]圖像轉(zhuǎn)換器62將從文本緩沖器61提供的文本轉(zhuǎn)換為圖像或字幕,或者將所述文本插入到特定圖像。圖像轉(zhuǎn)換器62將接收到的文本轉(zhuǎn)換為圖像并將所述圖像傳送到圖像緩沖器63。圖像轉(zhuǎn)換器62可將接收文本轉(zhuǎn)換為字幕信息,并將字幕信息傳送到圖像緩沖器63。此外,圖像轉(zhuǎn)換器62將接收到的文本與由第一視頻處理器169采集到的圖像中的例如至少一些背景圖像進行整合,以產(chǎn)生寫有文本的圖像,并將產(chǎn)生的圖像傳送到圖像緩沖器63。圖像轉(zhuǎn)換器62可將接收到的文本寫入透明層,并可將與透明層相應的圖像傳送到圖像緩沖器63。
[0094]圖像緩沖器63在發(fā)送從圖像轉(zhuǎn)換器62提供的文本相關圖像之前進行緩沖。被圖像緩沖器63緩沖的文本相關圖像可被傳送到第一網(wǎng)絡打包/解包支持器161或圖像重疊單元68。
[0095]組合控制器64控制被語音識別出的文本與將被發(fā)送到接收側(cè)終端200的信息(例如,從第一視頻處理器169提供的圖像)的同步和發(fā)送。組合控制器64基于來自第一輸入單元120和具有輸入功能的第一顯示單元140的語音識別,確定是否存在針對作為文本提供服務的317服務的用戶選項設置或默認設置。當相應設置被激活時,組合控制器64可控制圖像轉(zhuǎn)換器62將被語音識別出的文本轉(zhuǎn)換為圖像。組合控制器64可控制圖像重疊單元68將文本相關圖像與由第一視頻處理器169采集到的圖像重疊。例如,當根據(jù)本發(fā)明的示例性實施例的被語音識別出的文本的提供服務被去激活時,組合控制器64可在不單獨地重疊文本相關圖像的情況下,控制圖像重疊單元68將由第一視頻處理器169采集到的圖像或者是根據(jù)用戶設置或安排設置的圖像發(fā)送到接收側(cè)終端200。
[0096]時間戳比較器65將來自文本緩沖器61的用于對由第一麥克風131采集到的語音信號進行轉(zhuǎn)換所花費的時間信息的時間戳與用于緩沖相應文本所花費的時間信息的時間戳進行比較。為此,發(fā)送側(cè)終端100的第一控制器160可將時間戳分配給第一視頻處理器169采集特定圖像的時間點和第一麥克風131采集語音信號的時間點。結果,第一 311管理器164傳送到媒體同步器166的被語音識別出的文本包括與所述文本相應的語音信號被采集到的時間戳信息。時間戳比較器65可接收針對從圖像緩沖器66緩沖的圖像的時間戳,并可控制延遲單元67,使得具有相同時間戳的信息彼此相應。
[0097]圖像緩沖器66對第一視頻處理器169處理的圖像數(shù)據(jù)進行緩沖。圖像緩沖器166接收到的圖像數(shù)據(jù)可包括相應圖像被采集到的時間點的時間戳信息。圖像緩沖器66可將相應圖像的時間戳信息傳送到時間戳比較器65,并將緩沖的圖像數(shù)據(jù)發(fā)送到延遲單元67。
[0098]延遲單元67在時間戳比較器65的控制下使從圖像緩沖器66提供的圖像數(shù)據(jù)延遲。因為第一視頻處理器169通過圖像緩沖器66處理的圖像數(shù)據(jù)的傳送速度可能大于被語音識別出的文本通過第一語音處理支持裝置400的接收速度,所以延遲單元67可相應于相應時間差來延遲圖像數(shù)據(jù)的傳送。當來自文本緩沖器61的緩沖的文本與來自圖像緩沖器66的緩沖的圖像數(shù)據(jù)之間的時間戳的差等于或大于預設值時,延遲單元67釋放圖像數(shù)據(jù)的額外延遲,并將相應的圖像數(shù)據(jù)傳送到圖像重疊單元68。因此,盡管緩沖的文本與緩沖的圖像數(shù)據(jù)不同,但包括相同的文本相關圖像的圖像數(shù)據(jù)可被傳送到接收側(cè)終端200。當相同的文本相關圖像必須被傳送時,在組合控制器64的控制下,發(fā)送側(cè)終端100可不傳送相應的文本相關圖像,而是可將包括指示相同文本相關圖像必須被插入的信息的相應圖像數(shù)據(jù)傳送到接收側(cè)終端200。當相同的文本相關圖像在組合控制器64的控制下必須被發(fā)送時,發(fā)送側(cè)終端100在不提供單獨的信息的情況下可不使文本相關圖像重疊。
[0099]圖像重疊單元68將從延遲單元67提供的圖像數(shù)據(jù)與從圖像緩沖器63提供的文本相關圖像整合。在這種情況下,圖像覆蓋單元68可將文本相關圖像覆蓋在圖像數(shù)據(jù)上,以便配置組合圖像幀,并將組合圖像幀傳送到第一網(wǎng)絡打包/解包服務器161。因此,組合圖像幀可包括圖像層和文本層。當文本相關圖像被配上字幕時,圖像重疊單元68可在圖像數(shù)據(jù)中將圖像寫為字幕信息以配置圖像幀,并可將相應的圖像幀傳送到第一網(wǎng)絡打包/解包支持器161。圖像重疊單元68可將文本相關圖像與圖像數(shù)據(jù)組合為一個圖像。例如,圖像重疊單元68可將文本相關圖像區(qū)域分配給圖像數(shù)據(jù)的預定區(qū)域,并由文本相關圖像替換相應區(qū)域的圖像數(shù)據(jù)或在圖像數(shù)據(jù)區(qū)域上對圖像數(shù)據(jù)進行處理,使得文本可被識別出,從而產(chǎn)生圖像幀。圖像重疊單元68可將組合圖像幀傳送到第一網(wǎng)絡打包/解包支持器161。
[0100]本發(fā)明的前述示例性實施例已示出文本相關圖像與圖像數(shù)據(jù)組合并且組合數(shù)據(jù)被傳送到第一打包/解包支持器161。然而,本發(fā)明的示例性實施例不限于此。例如,前述文本相關圖像和圖像數(shù)據(jù)的組合可由第一網(wǎng)絡打包/解包支持器161來實現(xiàn),并且各個數(shù)據(jù)可在無需單獨組合的情況下被單獨地發(fā)送到接收側(cè)終端200。然后,接收側(cè)終端200可控制第二顯示單元240輸出接收到的文本相關圖像和圖像數(shù)據(jù)。在這種情況下,接收側(cè)終端200可接收時間戳信息以及文本相關圖像和圖像數(shù)據(jù),并基于所述時間戳信息來控制文本相關圖像和圖像數(shù)據(jù)的同步。在這種情況下,可從發(fā)送側(cè)終端100的配置省略圖像重疊單元68的配置。
[0101]在下文中,將參照圖6詳細描述根據(jù)本發(fā)明的示例性實施例的媒體同步器166的操作。
[0102]圖6是示出根據(jù)本發(fā)明的第一示例性實施例的將文本與圖像數(shù)據(jù)進行組合的過程的流程圖。
[0103]參照圖6,在根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端100的媒體同步過程中,在步驟601,媒體同步器166可從第一視頻處理器169接收圖像幀。然后,在步驟603,組合控制器64可確定新的文本相關圖像是否被產(chǎn)生。例如,圖像轉(zhuǎn)換器62將從第一 STT管理器164提供的文本轉(zhuǎn)換為圖像幀。在該過程中,組合控制器64從文本緩沖器61接收至圖像幀的轉(zhuǎn)換并可執(zhí)行步驟603。
[0104]當在步驟603產(chǎn)生了新的文本相關圖像時,在步驟605,組合控制器64可重設先前布置的計時器(例如,設置t = O)。在步驟607,組合控制器64可將用于將新的文本相關圖像與圖像數(shù)據(jù)進行組合的命令發(fā)送到圖像重疊單元68。同時,組合控制器64可進行控制,使得存儲在圖像緩沖器63中的所述新的文本相關圖像被發(fā)送到圖像重疊單元68。接下來,在步驟609,組合控制器64增加計時器的時間t(例如,t — t+Ι),并返回到步驟601。
[0105]當在步驟603未產(chǎn)生新的文本相關圖像時,在步驟611,組合控制器64確定計時器的當前時間是否大于預設時間Ti。在計時器的當前時間大于所述預設時間Ti時,在步驟613,組合控制器64可進行控制,使得文本相關圖像不與圖像數(shù)據(jù)組合。例如,在新的文本相關圖像針對圖像數(shù)據(jù)被產(chǎn)生之前,組合控制器64可在預定時間期間將相同的文本相關圖像與圖像數(shù)據(jù)結合。當預定時間過去時,組合控制器64停止使用相應的文本相關圖像,并進行控制使得所述相應文本相關圖像從緩沖器被移除。接下來,組合控制器64進入步驟609并重復前述過程。
[0106]相反,在計時器的當前時間小于預設時間Ti時,組合控制器可進行到步驟607,其中,在步驟607中,組合控制器64可將用于將新的文本相關圖像與圖像數(shù)據(jù)進行組合的命令傳送到圖像重疊單元68。
[0107]如上所述,根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端100可將被語音識別出的文本轉(zhuǎn)換為圖像,并在將所述圖像與圖像數(shù)據(jù)進行組合的過程期間,在預定時間期間將同一文本相關圖像與多個圖像數(shù)據(jù)結合。在這種情況下,在新的文本相關圖像被產(chǎn)生的情況下,如果預設文本輸出最小時間過去,則通過將新的文本相關圖像與新的圖像數(shù)據(jù)進行組合,由于新產(chǎn)生的文本相關圖像引起的信息可被快速傳送。同時,盡管本發(fā)明的前述示例性實施例已示出第一視頻處理器169處理并提供由第一相機170采集的圖像,但存儲在第一存儲器150中的特定圖像可替換第一相機170的圖像信號,以便提供除了第一相機170采集到的圖像以外的單獨的文本相關圖像。圖像信號的替換功能可由不具有第一相機170的發(fā)送側(cè)終端100來操作。盡管存在第一相機170,但是在第一相機170未被運行的狀況下(例如,在圖像通話未被執(zhí)行的通信服務環(huán)境中)可使用圖像信號的替換功能。
[0108]同時,返回參照圖3,第一 TTS/STT確定器163可根據(jù)用戶選項、所測量的接收側(cè)終端200周圍的從接收側(cè)終端200接收到的噪聲值或第一網(wǎng)絡監(jiān)控器162的網(wǎng)絡評估確定運行STT服務和TTS服務中的至少一個。為此,第一 TTS/STT確定器163可從第一網(wǎng)絡監(jiān)控器162接收包括與網(wǎng)絡評估相關聯(lián)的丟包率和延遲程度的信息。此外,第一 TTS/STT確定器163可從第一網(wǎng)絡打包/解包支持器161接收從接收側(cè)終端200提供的噪聲信息。此外,第一 118/8X1確定器163可基于根據(jù)對發(fā)送側(cè)終端100的外部環(huán)境的評估的信息來確定173服務和311服務中的至少一個。根據(jù)對外部環(huán)境的評估的信息可包括由包括在發(fā)送側(cè)終端100中的各種傳感器和第一麥克風131采集到的以下信息中的至少一個:外部溫度信息、夕卜部照明信息、外部噪聲信息、移動信息、位置信息。結果,第一 1^3/311'確定器163可根據(jù)發(fā)送側(cè)終端100所在的區(qū)域或時間、在外部檢測到的噪聲、移動速度或移動環(huán)境來確定173服務或317服務的運行的存在。對服務的運行的存在的確定可基于從接收側(cè)終端200提供的信息而被執(zhí)行。
[0109]例如,盡管本發(fā)明的前述示例性實施例已示出接收側(cè)終端200僅發(fā)送在外部檢測到的噪聲信息,但接收側(cè)終端200包括各種傳感器,并可采集位置信息、移動速度、移動方向和關于接收側(cè)終端200的移動區(qū)域的信息、以及接收側(cè)終端200所位于的區(qū)域的時間信息。當接收側(cè)終端200采集到的信息超出為了運行預設113服務或311服務而設置的參考值時,第一 173/317確定器163可基于前述信息和預設參考值來控制運行173服務或317服務。參考值的比較可由第一 113/311確定器163來執(zhí)行,但也可由接收側(cè)終端200來執(zhí)行。當參考值的比較由接收側(cè)終端200來執(zhí)行時,可根據(jù)對參考值的比較從接收側(cè)終端200接收請求運行113服務或311服務的消息。第一 113/311確定器163可包括如圖7中示出的組成元件。
[0110]圖7是示出根據(jù)本發(fā)明的第一示例性實施例的第一控制器的配置之中的第一1X8/811確定器的配置的框圖。
[0111]參照圖7,第一 173/311'確定器163可包括基礎確定器31和最終確定器33。
[0112]基礎確定器31可從第一輸入單元120和具有輸入功能的第一顯示單元140接收發(fā)送側(cè)終端100的通信服務選擇信號,例如,根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端100的用戶的語音通話選擇信號或基于語音識別的文本提供服務選擇信號。此外,基礎確定器31可接收將在發(fā)送側(cè)終端100的用戶與接收側(cè)終端200的用戶之間通信的另一類型的通信服務,例如,選擇圖像通話服務或聊天服務的信號。此外,基礎確定器31可對關于接收側(cè)終端200的用戶根據(jù)發(fā)送側(cè)終端100的用戶的通信服務連接請求而響應的通信服務的類型的信號進行確認?;A確定器31可根據(jù)各種選擇信號確定將被發(fā)送側(cè)終端100運行的通信服務的類型。確定的信息可被傳送到最終確定器33。
[0113]最終確定器33基于從基礎確定器31提供的信息和和其他信息,最終確定將被發(fā)送側(cè)終端100運行的通信服務的類型。例如,最終確定器33可進行控制,使得根據(jù)其他信息而選擇的通信服務的類型基于從基礎確定器31提供的通信服務的類型的操作被轉(zhuǎn)換為另一類型或者被限制。所述其他信息可包括以下信息中的至少一個:網(wǎng)絡的丟包信息、具有網(wǎng)絡的延遲信息的網(wǎng)絡評估信息、從接收側(cè)終端200提供的接收側(cè)終端200的外部噪聲信息、發(fā)送側(cè)終端100的外部噪聲信息等。網(wǎng)絡評估信息可包括以下通信網(wǎng)絡中的至少一個通信網(wǎng)絡:發(fā)送側(cè)終端100與接收側(cè)終端200之間的通信網(wǎng)絡、發(fā)送側(cè)終端100與第一語音處理支持裝置400之間的通信網(wǎng)絡以及接收側(cè)終端200與第二語音處理支持裝置500之間的通信網(wǎng)絡。最終確定器33基于前述信息在任何通信服務中提供類型。例如,最終確定器33可執(zhí)行對311服務的激活或去激活控制以及對113服務的激活或去激活控制中的至少一個。
[0114]返回參照圖3,第一網(wǎng)絡監(jiān)控器162從第一網(wǎng)絡打包/解包支持器161接收網(wǎng)絡相關信息。網(wǎng)絡監(jiān)控器162可基于相應的網(wǎng)絡相關信息來采集針對當前網(wǎng)絡狀態(tài)的信息。例如,第一網(wǎng)絡監(jiān)控器162可采集針對當前網(wǎng)絡狀態(tài)中的丟包率的信息、當前網(wǎng)絡狀態(tài)中的包傳送延遲程度或傳送速度。第一網(wǎng)絡監(jiān)控器162可將采集到的信息提供給第一 TTS/STT確定器136。第一網(wǎng)絡監(jiān)控器162可通過第一網(wǎng)絡打包/解包支持器161與接收側(cè)終端200收發(fā)預設測試信號,以便采集前述信息。接下來,第一網(wǎng)絡監(jiān)控器162將接收到的測試信號與傳送的測試信號進行比較以對網(wǎng)絡進行評估。在這種情況下,第一網(wǎng)絡監(jiān)控器162可評估與接收側(cè)終端200的網(wǎng)絡以及與第一語音處理支持裝置400的網(wǎng)絡。從第一網(wǎng)絡監(jiān)控器162采集到的網(wǎng)絡評估結果可被發(fā)送到接收側(cè)終端200。此外,第一網(wǎng)絡監(jiān)控器162通過測試信號來替換在與接收側(cè)終端200的通信服務信道形成之后收發(fā)的語音數(shù)據(jù)或圖像數(shù)據(jù),從而在不使用單獨的測試信號的情況下對網(wǎng)絡進行評估。
[0115]第一網(wǎng)絡打包/解包支持器161可控制第一通信單元110的激活,并通過第一通信單元I1與接收側(cè)終端200形成特定通信服務信道。第一網(wǎng)絡打包/解包支持器161可對從第一 STT管理器164提供的語音數(shù)據(jù)、文本和被語音識別出的文本進行打包,并通過第一通信單元110將打包的數(shù)據(jù)傳送到接收側(cè)終端200。此外,第一網(wǎng)絡打包/解包支持器161可對從第一 TTS管理器165提供的文本以及通過轉(zhuǎn)換所述文本而獲得的語音數(shù)據(jù)進行打包,并將打包的文本或數(shù)據(jù)傳送到接收側(cè)終端200。網(wǎng)絡打包/解包支持器161可對從媒體同步器66提供的圖像幀進行打包。在這種情況下,由第一網(wǎng)絡打包/解包支持器161打包的圖像幀可根據(jù)當前提供的通信服務的類型,包括以下圖像數(shù)據(jù)中的至少一個:由第一視頻處理器169處理的圖像數(shù)據(jù)和與從第一 STT管理器提供的文本相關圖像組合的圖像數(shù)據(jù)。第一網(wǎng)絡打包/解包支持器161執(zhí)行對通過第一通信單元110從接收側(cè)終端200接收到的信號進行解包的功能。例如,第一網(wǎng)絡打包/解包支持器161可在從第一通信單元110接收到的數(shù)據(jù)之中確認接收側(cè)終端200提供的噪聲信息,并可將確認的噪聲信息提供給第一 TTS/STT確定器163。此外,第一網(wǎng)絡打包/解包支持器161可確認從接收側(cè)終端200提供的接收側(cè)終端200的語音數(shù)據(jù)和文本,并可將所述語音數(shù)據(jù)和文本傳送給第一TTS/STT確定器163。第一網(wǎng)絡打包/解包支持器161可將預設測試信號傳送到接收側(cè)終端,或者可將從接收側(cè)終端200提供的測試信號傳送給第一網(wǎng)絡監(jiān)控器162,以便評估第一網(wǎng)絡監(jiān)控器162的網(wǎng)絡。
[0116]如上所述,根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端100可根據(jù)用戶請求、終端設置、外部環(huán)境信息或網(wǎng)絡信息來自適應地運行STT服務和TTS服務中的至少一個服務。根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端100可支持基于圖像通話服務屏幕和聊天服務屏幕的STT服務和TTS服務,使得與其他通信服務的合成操作是可行的。
[0117]返回參照圖2,接收側(cè)終端200可包括第二通信單元210、第二輸入單元220、第二麥克風231、第二揚聲器233、第二顯示單元240、第二存儲器250、第二顯示單元240、第二控制器1260和第二相機270。
[0118]具有上述構造的接收側(cè)終端200根據(jù)發(fā)送側(cè)終端100的通信服務連接請求和與用戶所確定的輸入/輸出模式相應的用戶操作,連接相應的通信服務。用戶確定的輸入/輸出模式可以是根據(jù)對運行STT服務和TTS服務中的至少一個的確定的模式。在這種情況下,接收側(cè)終端200可根據(jù)來自對發(fā)送側(cè)終端100的用戶請求的特定通信服務方案來請求運行STT服務和TTS服務。例如,當發(fā)送側(cè)終端100請求語音通話服務連接時,接收側(cè)終端200可請求發(fā)送側(cè)終端100使得發(fā)送側(cè)終端100使用作為接收功能的基于語音識別的文本服務,并使用作為發(fā)送功能的發(fā)送服務或113服務。接下來,當發(fā)送側(cè)終端100接受相應的請求時,接收側(cè)終端200可基于請求的方案,支持通話服務所必需的數(shù)據(jù)處理和收發(fā)。
[0119]為此,第二通信單元210可與發(fā)送側(cè)終端100的第一通信單元110形成通信信道。第二通信單元210可包括等同于第一通信單元110的通信模塊和能夠與第一通信單元110形成通信信道的通信模塊。例如,第二通信單元210可以是移動通信模塊。在這種情況下,第二通信單元210可通過基站與第一通信單元110形成通信信道。由第二通信單元210形成的通信信道可包括通過將文本相關圖像與支持語音通話服務信道、圖像通話服務信道和字符服務信道的圖像數(shù)據(jù)進行組合而獲得的服務支持信道。第二通信單元210可與第一通信單元110形成聊天服務信道。第二通信單元210還可將上述語音通話服務信道、圖像通話服務信道、字符服務信道中的至少一個信道與聊天服務信道的信息一起形成,或者是基于聊天服務信道收發(fā)語音數(shù)據(jù)、圖像數(shù)據(jù)和文本中的至少一個。第二通信單元210可基于圖像通話服務信道形成用于支持將語音數(shù)據(jù)輸出為文本的311服務的信道。
[0120]第二輸入單元220產(chǎn)生操作接收側(cè)終端200所必需的輸入信號。第二輸入單元220可包括各種鍵,諸如鍵按鈕、側(cè)鍵、菜單鍵、歸位鍵等。第二輸入單元220可被設置為包括觸摸面板和顯示在顯示面板上的觸摸圖的第二顯示單元240。當接收到通信服務連接請求時,第二輸入單元220產(chǎn)生用于拒絕或接受相應通信服務連接的輸入信號、用于運行發(fā)送側(cè)終端100根據(jù)響應于所述接受的通信服務的連接所請求的通信服務的輸入信號、根據(jù)用戶設置或控制器260的控制請求除發(fā)送側(cè)終端100所請求的通信服務方案以外的方案的通信服務連接的輸入信號、以及用于根據(jù)用戶控制基于選擇的其他方案的通信服務的連接來運行相應的通信服務的輸入信號。通信服務方案可包括311服務支持方案和113服務支持方案中的至少一個方案,8X1服務和113服務可與各種通信方案(諸如語音通話、圖像通話和聊天)一起被執(zhí)行。此外,第二輸入單元220可根據(jù)用戶控制產(chǎn)生用于通信服務連接釋放或終止的輸入信號。
[0121]第二麥克風231采集接收側(cè)終端200的音頻信號。第二麥克風231可采集接收側(cè)終端200用戶的語音信號,并將所述語音信號傳送到第二控制器260。同時,第二麥克風231可在第二控制器260的控制之下采集和傳送外部音頻信號,以便采集噪聲信息。在語音通話服務正被運行的同時,第二麥克風231可被激活。如上所述,為了采集噪聲信息,盡管單獨的語音通話服務未被運行,但第二麥克風231可被激活并在預設時間期間采集接收側(cè)終端200的外部音頻信號。當聊天服務信道和圖像通話服務信道中的至少一個被操作時,第二麥克風231可被激活以便更進一步地支持語音通話服務,或執(zhí)行基于語音識別的文本提供服務。
[0122]第二揚聲器233輸出接收側(cè)終端200的音頻信號。第二揚聲器233可支持根據(jù)接收側(cè)終端200的音頻文件的重放的音頻信號的輸出,并支持第二通信單元210接收的音頻信號的輸出。具體地講,當特定通信服務被運行時,第二揚聲器233在第二控制器260的控制下被激活,并輸出音頻信號。第二揚聲器233可根據(jù)對特定通信服務的選擇來輸出音頻信號。例如,當運行與發(fā)送側(cè)終端100的語音通話服務或圖像通話服務時,第二揚聲器233被激活并輸出從發(fā)送側(cè)終端100提供的音頻信號。在操作與發(fā)送側(cè)終端100的基于語音識別的文本提供服務的功能的同時,即使圖像通話服務被運行,第二揚聲器233也可停止輸出單獨的音頻信號。此外,當TTS服務正被支持時,第二揚聲器233可輸出與發(fā)送側(cè)終端100的用戶輸入的文本相應的語音信號。
[0123]第二相機270支持接收側(cè)終端200的圖像通話服務,以采集對象的圖像。為此,第二相機270可包括用于支持圖像通話服務的相機和用于采集對象的圖像的相機。同時,第二相機270可根據(jù)接收側(cè)終端200的用戶對通信服務的選擇而被激活。第二相機270采集到的圖像可通過第二通信單元210被發(fā)送到發(fā)送側(cè)終端100。當接收側(cè)終端不支持單獨的圖像通話服務時,相機270可被省略。
[0124]第二存儲器250可包括操作接收側(cè)終端200所必需的各種應用程序和用于支持基礎操作的操作系統(tǒng)。第二存儲器250可包括存儲在第一存儲器150中的各種組成元件,例如,與發(fā)送側(cè)終端類似的語音識別數(shù)據(jù)庫、語音轉(zhuǎn)換數(shù)據(jù)庫和參考值。具體地講,第二存儲器250可存儲與第一存儲器150中的語音識別數(shù)據(jù)庫153相同或不同的單獨語音識別數(shù)據(jù)庫。存儲在第二存儲器250中的語音識別數(shù)據(jù)庫可以是對接收側(cè)終端200的用戶指定的信息。例如,存儲在第二存儲器250中的語音識別數(shù)據(jù)庫可以是用于將接收側(cè)終端200的用戶的語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)的信息。
[0125]第二顯示單元240提供操作接收側(cè)終端200所必需的各種屏幕。此外,第二顯示單元240可被提供以支持輸入功能。為此,第二顯示單元240可包括觸摸面板和顯示面板之間的重疊配置。第二顯示單元240可輸出報告發(fā)送側(cè)終端100的通信服務連接請求的屏幕、能夠選擇連接到發(fā)送側(cè)終端100的通信服務的類型之一的屏幕、以及根據(jù)用戶的選擇或以默認設置的特定通信服務的類型而操作的屏幕。將參照附圖詳細描述通過第二顯示單元240提供的接收側(cè)終端200的屏幕的示例。
[0126]第二控制器260控制、處理并傳送操作接收側(cè)終端200所必需的信號。第二控制器260可支持對接收側(cè)終端200的供電,進入睡眠模式,并對運行通信服務所必需的各種信號進行傳送和處理。第二控制器260可包括圖8中示出的組成元件。
[0127]圖8是示出根據(jù)本發(fā)明的第一示例性實施例的接收側(cè)終端的第二控制器的配置的框圖。
[0128]參照圖8,第二控制器260可包括噪聲測量單元261、第二網(wǎng)絡打包/解包支持器261、第二網(wǎng)絡監(jiān)控器262、圖像組合器266、第二語音處理器267、第二文本處理器268和第二視頻處理器269。
[0129]第二網(wǎng)絡打包/解包支持器261對通過第二通信單元210接收到的發(fā)送側(cè)終端100的信號進行解包,并將打包的信號傳送給第二網(wǎng)絡監(jiān)控器261、第二語言處理器267、第二文本處理器268和第二視頻處理器269中的至少一個。當接收的信號之中與網(wǎng)絡評估相關聯(lián)的測試信號被接收時,第二網(wǎng)絡打包/解包支持器261可將接收到的測試信號傳送到第二網(wǎng)絡監(jiān)控器262。第二網(wǎng)絡打包/解包支持器261可將接收到的信號之中的語音信號傳送到第二語音處理器267,并可將文本傳送到第二文本處理器268。當與圖像幀相應的圖像數(shù)據(jù)被包括在接收到的信號中時,第二網(wǎng)絡打包/解包支持器261可將相應的圖像數(shù)據(jù)傳送到第二視頻處理器269。
[0130]同時,當被語音識別出的文本和接收到的信號之中的圖像數(shù)據(jù)被單獨接收時,第二網(wǎng)絡打包/解包支持器261可將被語音識別出的文本與圖像數(shù)據(jù)分別傳送到第二文本處理器268和第二視頻處理器269。實質(zhì)上,第二網(wǎng)絡打包/解包支持器261形成用于傳送被語音識別出的文本的單獨文本服務信道和用于發(fā)送圖像數(shù)據(jù)的單獨的圖像服務信號。如果前述信號通過相應的服務信道被接收,則第二網(wǎng)絡打包/解包支持器261可將被語音識別出的文本和圖像數(shù)據(jù)傳送到第二文本處理器268和第二視頻處理器269。當被語音識別出的文本被包括在圖像數(shù)據(jù)中時,第二網(wǎng)絡打包/解包支持器261可將相應的圖像數(shù)據(jù)傳送到第二視頻處理器269。
[0131]第二網(wǎng)絡監(jiān)控器262可從第二網(wǎng)絡打包/解包支持器261接收測試信號,并基于接收到的測試信號來評估網(wǎng)絡。所述測試信號可以是從發(fā)送側(cè)終端100提供的預設信號或者是與接收側(cè)終端200發(fā)送到發(fā)送側(cè)終端100的信號相應的返回信號。網(wǎng)絡監(jiān)控器262可基于測試信號確認發(fā)送側(cè)終端100和接收測終端200之間的丟包率以及網(wǎng)絡中的包傳輸延遲程度。網(wǎng)絡監(jiān)控器262可使用前述信號以便對第二網(wǎng)絡監(jiān)控器262與第二語音處理支持裝置500之間的網(wǎng)絡進行評估。例如,第二網(wǎng)絡監(jiān)控器262將測試信號傳送到第二語音處理支持裝置500,使得第二語音處理支持裝置500與接收側(cè)終端200之間的網(wǎng)絡狀態(tài)可被確認。關于與第二語音處理支持裝置500的網(wǎng)絡狀態(tài)的信息可被發(fā)送到發(fā)送側(cè)終端100。
[0132]噪聲測量單元201測量接收側(cè)終端200的外部噪聲信號。噪聲測量單元201可確認多少噪聲分量包括在從第二麥克風231提供的音頻信號中。具體地講,當請求了發(fā)送側(cè)終端100的通信服務連接時,噪聲測量單元201可激活第二麥克風231并檢測由第二麥克風231采集的信號的噪聲程度。噪聲測量單元201可通過第二網(wǎng)絡打包/解包支持器261將測量的噪聲信息傳送到發(fā)送側(cè)終端100。噪聲測量單元201可根據(jù)測量的噪聲信息控制自動激活特定通信服務,例如,識別語音信號并發(fā)送文本的311'服務傳輸功能。在該過程中,噪聲測量單元201可執(zhí)行用于去除噪聲的濾波處理并識別經(jīng)過濾波的語音信號,以便提高語音識別的識別率。
[0133]如果圖像幀從第二網(wǎng)絡打包/解包支持器261被傳送,則第二語音處理器267對圖像幀進行解碼。為此,第二語音處理器267可包括用于處理語音的解碼模塊。由第二語音處理器267處理的音頻信號可根據(jù)通信服務的類型通過第二揚聲器233被傳送。當耳機被連接時,由第二語音處理器267處理的音頻信號可通過耳機或近場通信模塊被傳送到另一輸出裝置。
[0134]第二文本處理器268對從第二網(wǎng)絡打包/解包支持器261接收到的文本進行處理。由第二文本處理器268處理的文本可被傳送到圖像組合器266。第二視頻處理器269對從第二網(wǎng)絡打包/解包支持器261接收到的圖像數(shù)據(jù)進行處理。例如,第二視頻處理器269可包括用于對圖像數(shù)據(jù)進行解碼的解碼模塊。由第二視頻處理器269解碼的圖像數(shù)據(jù)可被傳送到圖像組合器266。
[0135]圖像組合器266將從第二文本處理器268接收到的文本與來自第二視頻處理器269的圖像數(shù)據(jù)進行組合。在這種情況下,圖像組合器266通過使信號同步來組合相應的信號,并可通過第二顯示單元240輸出組合的圖像。為此,圖像組合器266可確認包括在每個數(shù)據(jù)中的時間戳,并可將文本與圖像數(shù)據(jù)進行組合,使得時間戳彼此相應。
[0136]在前述描述中,接收側(cè)終端200可采集除噪聲信息以外的外部環(huán)境信息作為用于確定運行317服務和173服務中的至少一個服務的信息。為此,如上所示,接收側(cè)終端200可包括各種傳感器。使用每個傳感器采集的信息可與用于運行317服務和173服務中的至少一個服務的參考值(諸如噪聲信息)進行比較。
[0137]如上所述,本發(fā)明的前述示例性實施例已通過示例的方式示出用于運行通信服務的系統(tǒng)通過使用第一語音處理支持裝置400的語音識別來產(chǎn)生文本并將所述文本發(fā)送到接收側(cè)終端200。
[0138]在下文中,將詳細描述終端的操作屏幕。
[0139]圖9是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖。例如,圖9是示出用于運行通信服務的屏幕界面的示圖。
[0140]參照圖9,提供了示出根據(jù)本發(fā)明的第一示例性實施例的用于操作發(fā)送側(cè)終端的語音識別功能的屏幕界面的示圖。
[0141]參照圖9,發(fā)送側(cè)終端100可根據(jù)用戶請求輸出如畫面901中所示出的用于輸入電話號碼的輸入屏幕。當接收側(cè)終端200的電話號碼被注冊時,發(fā)送側(cè)終端100可根據(jù)用戶控制在第一顯示單元140上輸出電話薄信息畫面。同時,用戶可使用畫面901輸入接收側(cè)終端200的電話號碼。輸入的電話號碼可被輸出到如所示的畫面的預定區(qū)域。
[0142]如果用于“通話”連接的輸入信號在輸入電話號碼之后被產(chǎn)生,則如屏幕903中所示,用于與相應于輸入的電話號碼的接收側(cè)終端200的通信服務的連接的畫面被輸出。在該過程中,發(fā)送側(cè)終端100針對與接收側(cè)終端200的通信服務的連接激活第一通信單元110,通話連接請求消息可通過被提供用于支持通信服務的基站而被傳送到接收側(cè)終端200。同時,發(fā)送側(cè)終端100的第一顯示單元140可輸出用于確認是否選擇激活STT服務的第一彈出窗口 910,其中,所述STT服務是基于語音識別的文本提供功能。
[0143]當發(fā)送側(cè)終端100的用戶通過第一彈出窗口 910選擇激活STT服務時,如畫面905中所示,發(fā)送側(cè)終端100可連接用于支持STT服務的第一語音處理支持裝置400。在該過程期間,發(fā)送側(cè)終端100可使用先前存儲的第一語音處理支持裝置400的地址信息來訪問第一語音處理支持裝置400,以與第一語音處理支持裝置400連接。在這種情況下,發(fā)送側(cè)終端100可通過通信系統(tǒng)300與第一語音處理支持裝置400連接。
[0144]如果完成了第一語音處理支持裝置400的連接,則發(fā)送側(cè)終端100可將第一麥克風131采集的語音信號傳送到第一語音處理支持裝置400。然后,發(fā)送終端100可從第一語音處理支持裝置400接收與接收到的語音數(shù)據(jù)相應的文本。在這種情況下,接收到的文本可通過通信系統(tǒng)300被再次傳送到接收側(cè)終端200。此外,如畫面907中所示,接收到的文本可被輸出到在顯示單元140的一側(cè)單獨提供的發(fā)送文本區(qū)域930。同時,發(fā)送側(cè)終端100可將從接收側(cè)終端200提供的文本輸出到接收文本區(qū)域920。發(fā)送側(cè)終端100可進行控制,使得輸出被語音識別出的文本的發(fā)送文本區(qū)域930不被輸出到第一顯示單元140。
[0145]發(fā)送側(cè)終端100和接收側(cè)終端200中的至少一個進行請求使得TTS服務被激活。當發(fā)送側(cè)終端100的用戶接受TTS服務的運行或者TTS服務被設置為默認運行時,從接收側(cè)終端200提供的文本被轉(zhuǎn)換為語音數(shù)據(jù)和語音信號,使得所述語音數(shù)據(jù)和語音信號可通過第一揚聲器133被輸出。在這種情況下,將文本轉(zhuǎn)換為語音數(shù)據(jù)的過程可包括以下過程中的至少一個過程:由接收側(cè)終端200將文本轉(zhuǎn)換為語音數(shù)據(jù)并傳送所述語音數(shù)據(jù)的過程,以及由發(fā)送側(cè)終端100將文本轉(zhuǎn)換為語音數(shù)據(jù)并傳送所述語音數(shù)據(jù)的過程。
[0146]同時,本發(fā)明的前述示例性實施例已示出在接收側(cè)終端200的電話號碼的輸入之后選擇了 STT服務的運行的呈現(xiàn),但畫面901可根據(jù)對STT服務的運行的呈現(xiàn)的選擇而被優(yōu)選地輸出。為此,發(fā)送側(cè)終端100提供能夠選擇STT服務的激活的畫面。如果相應項被選擇,則在輸出畫面901之后,發(fā)送側(cè)終端100不支持輸出畫面903,而是可進入畫面905。同時,盡管本發(fā)明的前述示例性實施例已示出發(fā)送側(cè)終端100可通過第一彈出窗口 910選擇311服務的運行,但第一彈出窗口 910可被提供使得311服務和113服務中的至少一個服務被選擇。然后,用戶可通過對在第一彈出窗口 910上輸出的項的選擇來請求接收側(cè)終端200運行311服務和113服務中的至少一個服務。
[0147]圖10是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖。例如,圖10是示出基于語音識別的文本提供服務的自動運行和推薦的示圖。
[0148]參照圖10,發(fā)送側(cè)終端100可輸出如畫面1001中所示的用于與接收側(cè)終端200的通話連接的畫面。為此,用戶可輸入接收側(cè)終端200的電話號碼或者可選擇與接收側(cè)終端200相應的電話薄信息。然后,第一顯示單元140可提供如所示的用于與接收側(cè)終端200的通話連接的畫面。
[0149]在該過程期間,當用戶產(chǎn)生用于“通話”的輸入信號時,發(fā)送側(cè)終端100的第一顯示單元140可輸出如畫面1003的網(wǎng)絡評估信息和噪聲信息中的至少一個信息,并可輸出指示基于語音識別的文本提供服務的自動運行的指導。為此,發(fā)送側(cè)終端100可將用于對在發(fā)送側(cè)終端100與接收側(cè)終端200之間形成的網(wǎng)絡進行評估的預設測試信號發(fā)送到通信系統(tǒng)300和接收側(cè)終端200,使得測試信號可反饋。同時,輸出到第一顯示單元140的噪聲信息可包括由發(fā)送側(cè)終端100的第一麥克風131采集的音頻信號的噪聲信息和由接收側(cè)終端200的第二麥克風231采集的音頻信號的噪聲信息中的至少一個。例如,僅一個噪聲信息被顯示在圖10中。然而,第一顯示單元140可分別輸出發(fā)送側(cè)終端100的噪聲信息和接收側(cè)終端200的噪聲信息。第一顯示單元140可僅輸出從接收側(cè)終端200接收到的噪聲信息。
[0150]同時,發(fā)送側(cè)終端100可基于網(wǎng)絡評估信息和噪聲信息確定是否自動執(zhí)行基于語音識別的文本提供服務,例如,311服務。為此,發(fā)送側(cè)終端100可使用存儲在第一存儲器150中的參考值157。此外,在自動執(zhí)行311'服務的情況下,發(fā)送側(cè)終端100可如所示提供使得用戶可確認311服務的自動運行。在這種情況下,在發(fā)送側(cè)終端100,如所示,為了便于用戶停止317服務,可在畫面的一側(cè)提供停止按鈕。
[0151]同時,如果在第一麥克風131采集到語音信號以便支持311服務,則發(fā)送側(cè)終端100可識別相應的語音信號,并將所述語音信號轉(zhuǎn)換為文本。在這種情況下,發(fā)送側(cè)終端100可使用第一語音處理支持裝置400或存儲在第一存儲器150中的語音識別數(shù)據(jù)庫153。同時,在當前選擇的通信服務是圖像通話服務時,發(fā)送側(cè)終端100可控制第一顯示單元140配置如畫面1005中所示的與圖像通話服務相應的畫面。例如,第一顯示單元140可包括發(fā)送人畫面區(qū)域1010和接收人畫面區(qū)域。被語音識別出的文本信息被輸出到的區(qū)域可被設置在顯示單元140上輸出的屏幕。例如,發(fā)送文本區(qū)域1020可被布置為與發(fā)送人畫面區(qū)域1010相鄰,接收文本區(qū)域1040可被布置為與接收人畫面區(qū)域1030相應。此外,第一顯示單元140還可顯示用于轉(zhuǎn)換揚聲器模式的按鈕圖和用于終止通信服務的按鈕圖。
[0152]本發(fā)明的前述示例性實施例已示出311服務的自動運行條件包括網(wǎng)絡評估信息和噪聲信息。然而,本發(fā)明的示例性實施例不限于此。例如,接收側(cè)終端200可與發(fā)送終端100協(xié)作以根據(jù)當前位置信息、外部照明信息、當前時間信息和接收側(cè)終端200的移動信息以及噪聲信息,自動執(zhí)行317服務或173服務。所述協(xié)作可包括發(fā)送側(cè)終端100與接收側(cè)終端200之間的用于運行317服務和173服務的信號傳輸。
[0153]在當前位置是由用戶先前限定的位置或由地圖信息先前限定的特定位置時,接收側(cè)終端200可根據(jù)終端的顯示單元的亮度對外部的環(huán)境(諸如劇院或?qū)嶒炇?的影響來自動執(zhí)行合適的STT服務和TTS服務中的至少一個服務。在特定時間(諸如睡眠時間)的情況下,接收側(cè)終端200允許用戶針對各種環(huán)境(諸如汽車駕駛或運動訓練)來自動運行STT服務和TTS服務中的至少一個。
[0154]接收側(cè)終端200可提供用于進行設置的屏幕界面,使得STT服務和TTS服務中的至少一個服務在多種情況下被執(zhí)行。用戶可通過屏幕界面設置終端針對各個情況下的操作。此外,在設計者設計的預定情況下,接收側(cè)終端200可具有針對所述預定情況的默認功能支持安排,并且用戶可通過調(diào)整相應的安排來調(diào)整期望的功能設置。
[0155]圖11是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖。例如,圖11是示出根據(jù)來自接收側(cè)終端的請求的發(fā)送側(cè)終端的基于識別的文本提供服務的示圖。
[0156]參照圖11,發(fā)送側(cè)終端100和接收側(cè)終端200可首先形成相互的聊天服務信道,并通過相應的聊天服務信道來收發(fā)聊天消息。在這種情況下,發(fā)送側(cè)終端100可在第一顯示單元140上輸出如畫面1101中示出的聊天服務畫面。發(fā)送側(cè)終端100和接收側(cè)終端200收發(fā)安排的聊天消息的結果在圖11中被示出。
[0157]當用戶根據(jù)所定義的方案從相應的畫面選擇接收側(cè)終端200的聊天消息1110時,所述畫面可被轉(zhuǎn)換為用于與接收側(cè)終端200的類型不同類型的通信服務連接的畫面,例如,如畫面1103中所示出的圖像通話服務連接。例如,當發(fā)送側(cè)終端100的用戶長按信道消息1110,連續(xù)觸摸信道消息1110至少預定次數(shù),或者產(chǎn)生預設手勢時,第一控制器160可自動采集與聊天消息1110相應的接收側(cè)終端200的電話號碼,并在顯示單元140上輸出用于確認是否執(zhí)行通話連接的畫面1103。
[0158]在這種情況下,當發(fā)送側(cè)終端100的用戶產(chǎn)生用于通話連接請求的輸入信號或產(chǎn)生相應事件時,發(fā)送側(cè)終端100可將相應的通話連接請求消息發(fā)送到接收側(cè)終端200。當發(fā)送側(cè)終端100從接收側(cè)終端200接收到請求按照作為基于語音識別的文本提供功能的STT功能執(zhí)行通話連接的消息時,畫面1105可被輸出到第一顯示單元140上。例如,第一顯示單元140顯示接收側(cè)終端200所請求的基于STT的通話連接,并可輸出詢問是否接受相應通話連接請求的彈出窗口 1120。
[0159]發(fā)送側(cè)終端100的用戶接受畫面1105上的基于STT的通話連接,發(fā)送側(cè)終端100可根據(jù)基于STT的通話連接接受而在第一顯示單元140上輸出如畫面1107中所示的畫面。在這種情況下,基于STT的通話連接接受畫面可被輸出覆蓋在屏幕1101上輸出的聊天服務畫面,或者可通過畫面轉(zhuǎn)換被配置為新畫面?;赟TT的通話連接接受畫面可基于圖像通話畫面的基礎配置來操作。如所示,例如,第一顯示單元140可包括發(fā)送人畫面區(qū)域1130、接收人畫面區(qū)域1150、將被發(fā)送的被語音識別出的文本被輸出到的發(fā)送文本區(qū)域1140和接收到的被語音識別出的文本被輸出到的接收文本區(qū)域1160。接收人畫面區(qū)域1150根據(jù)用戶請求或在接收側(cè)終端200是圖像通話非支持終端時,可不輸出單獨的圖像數(shù)據(jù)。在這種情況下,由用戶指定的特定畫面或由發(fā)送側(cè)終端100默認提供的特定畫面(例如,指示會議的畫面)可被輸出。
[0160]同時,本發(fā)明的前述示例性實施例示出發(fā)送文本區(qū)域1140和接收文本區(qū)域1160兩者被輸出在第一顯示單元140上。然而,本發(fā)明的示例性實施例不限于此。例如,發(fā)送文本區(qū)域1140和接收文本區(qū)域1160中的接收文本區(qū)域1160可由接收側(cè)終端200用戶輸入的字符或聊天消息而不是被語音識別出的文本被輸出到的區(qū)域來配置。相應的接收文本區(qū)域1160僅被提供給接收側(cè)終端200,并且不被提供給發(fā)送側(cè)終端100或者被173服務替換。
[0161]圖12是示出根據(jù)本發(fā)明的第一示例性實施例的接收側(cè)終端的屏幕界面的示例的示圖。例如,圖12是示出用于運行接收側(cè)終端的311服務的屏幕界面的示圖。
[0162]參照圖12,接收側(cè)終端200可根據(jù)用戶的操作如畫面1201中所示執(zhí)行特定終端功能或保持睡眠狀態(tài)。當在預定時間期間未接收到用于使用終端功能的單獨輸入信號時或者根據(jù)用于睡眠狀態(tài)改變的輸入信號的產(chǎn)生可進入所述睡眠狀態(tài)。所述睡眠狀態(tài)可以是在控制阻斷向第二顯示單元240供電的同時通過后臺處理保持接收側(cè)終端200的獨有功能或根據(jù)用戶設置的功能的狀態(tài)。例如,在畫面1201上呈現(xiàn)的睡眠狀態(tài)可以是能夠通過停止對第二顯示單元240的供電但保持對第二通信單元210的供電來接收發(fā)送側(cè)終端100的通話連接請求消息的狀態(tài)。
[0163]同時,本發(fā)明的前述示例性實施例已示出接收側(cè)終端200的狀態(tài)保持睡眠狀態(tài)。然而,本發(fā)明的示例性實施例不限于此。例如,畫面1201可包括根據(jù)用戶控制的各種畫面狀態(tài)。例如,畫面1201可包括用于播放存儲在接收側(cè)終端200中的特定文件的畫面、根據(jù)特定服務器的連接輸出從相應服務器提供的頁面的屏幕、輸出使用相機采集的圖像的畫面以及運行有與發(fā)送側(cè)終端100的聊天服務的畫面。以這種方式,接收側(cè)終端200的畫面1201可包括能夠從發(fā)送側(cè)終端100接收通信服務連接請求的至少一種狀態(tài)。在下文中,作為一個示例,接收側(cè)終端200保持睡眠狀態(tài)。
[0164]接收側(cè)終端200可從發(fā)送側(cè)終端100接收通信服務連接請求消息。然后,如畫面1203中所示,接收側(cè)終端200可輸出如畫面1203中所示出的用于指導從發(fā)送側(cè)終端100接收到通信服務連接請求消息的信息。例如,接收側(cè)終端200可通過第二顯示單元240輸出指示通信服務連接請求消息的接收的文本或圖像中的至少一個。此外,接收側(cè)終端200可根據(jù)用戶設置運行與通信服務連接請求消息的接收相應的預先定義的音頻信號、振動和燈光。
[0165]同時,接收側(cè)終端200可在第二顯示單元240上輸出“連接項” 1210、“311服務項” 1220,其中,所述“連接項”1210能夠選擇是否使用例如發(fā)送側(cè)終端100所請求的方案中的通信服務和根據(jù)接收側(cè)終端200的用戶環(huán)境的特定通信服務,“317服務項”1220能夠選擇基于語音識別的文本提供服務。為了使用發(fā)送側(cè)終端100針對連接所請求的諸如語音通話或圖像通話的通信服務,用戶可選擇“連接項” 1210。當難以使用利用語音的通信服務時,用戶可選擇“ 8X1服務項” 1220。
[0166]當用戶從畫面1203選擇“311服務項” 1220時,接收側(cè)終端200可基于311服務將用于通信服務連接的消息發(fā)送到發(fā)送側(cè)終端100。然后,發(fā)送側(cè)終端100可識別第一麥克風131采集的語音信號以使用第一語音處理支持裝置400或存儲在第一存儲器150中的語音識別數(shù)據(jù)庫153來產(chǎn)生文本,并可將所述文本發(fā)送到接收側(cè)終端200。當從發(fā)送側(cè)終端100接收到被語音識別出的文本時,接收側(cè)終端200可在畫面1205中所示的接收文本區(qū)域1230上輸出文本。同時,接收側(cè)終端200可輸出如畫面1205中所示的文本輸入屏幕,以將文本發(fā)送到發(fā)送側(cè)終端100。接收側(cè)終端200可使用文本輸入屏幕輸入特定文本,并將所述特定文本發(fā)送到發(fā)送側(cè)終端100。由接收側(cè)終端200的用戶輸入的文本可被輸出到發(fā)送文本區(qū)域1240。在這種情況下,接收側(cè)終端200可激活第二麥克風231,以采集外部音頻信號,并且第一麥克風231采集的音頻信號可被發(fā)送到發(fā)送側(cè)終端100。
[0167]同時,盡管前述示例性實施例已示出接收側(cè)終端200的用戶可通過畫面1203選擇特定通信服務,但根據(jù)本發(fā)明的示例性實施例的接收側(cè)終端200可支持根據(jù)默認設置的通信服務連接。例如,當作為默認設置,通信服務連接方案被設置為基于STT服務來執(zhí)行時,接收側(cè)終端200可移除通信服務選擇功能和從畫面1203提供的相應屏幕輸出,并可支持用于支持通信服務連接協(xié)作的信號處理和相應的通信服務。
[0168]本發(fā)明的前述示例性實施例僅示出STT服務的操作。然而,本發(fā)明的示例性實施例不限于此。例如,STT服務可被TTS服務替換。本發(fā)明的示例性實施例還提供如畫面1207中所示的用于使TTS服務與STT服務分開運行的畫面,使得STT服務和TTS服務中的至少一個可根據(jù)用戶請求而被選擇性地運行。當從畫面1207選擇了 TTS服務時,本發(fā)明的示例性實施例可包括用于支持TTS服務的文本創(chuàng)建器以及如畫面1209中所示的將創(chuàng)建的文本發(fā)送到發(fā)送側(cè)終端100的畫面。在這種情況下,接收側(cè)終端200的第二顯示單元240可如畫面1209中所示在屏幕的一側(cè)輸出指示TTS服務當前被支持的信息。
[0169]本發(fā)明的前述示例性實施例已示出根據(jù)本發(fā)明的第一示例性實施例的用于運行通信服務的系統(tǒng)以及每個系統(tǒng)的組成元件的角色和功能。在下文中,將參照附圖詳細描述根據(jù)本發(fā)明的示例性實施例的運行通信服務的方法。
[0170]圖13是示出根據(jù)本發(fā)明的第一示例性實施例的發(fā)送側(cè)終端的屏幕界面的示例的示圖。
[0171]參照圖13,在根據(jù)本發(fā)明的第一示例性實施例的運行通信服務的方法中,在步驟1301,發(fā)送側(cè)終端100可請求到接收側(cè)終端200的通話連接。為此,發(fā)送側(cè)終端100執(zhí)行用于選擇接收側(cè)終端200的電話號碼的過程,并可根據(jù)用戶請求將請求語音通話和圖像通話中的一個的通信服務連接的消息發(fā)送到接收側(cè)終端200。發(fā)送側(cè)終端100可基于用戶輸入的號碼信息來采集接收側(cè)終端200的電話號碼,通過對電話薄信息的選擇來采集接收側(cè)終端200的電話號碼,或采集從聊天服務環(huán)境提供的電話號碼。發(fā)送側(cè)終端100可將相應的消息發(fā)送到通信系統(tǒng)300以進行與接收側(cè)終端200的通信服務連接。
[0172]接下來,在步驟1303,發(fā)送側(cè)終端100和接收側(cè)終端200可執(zhí)行用于支持作為基于語音識別的文本提供功能的STT服務的協(xié)作。所述協(xié)作步驟可根據(jù)系統(tǒng)設計方案而被不同地改變,但是手動地識別出根據(jù)本發(fā)明的示例性實施例的基于語音識別的文本提供服務的操作。為此,在步驟1301,發(fā)送側(cè)終端100可創(chuàng)建指示運行基于STT服務的通信服務的消息,并將創(chuàng)建的消息發(fā)送到接收側(cè)終端200。同時,在步驟1303,接收側(cè)終端200可將請求運行基于STT服務的通信服務的消息發(fā)送到發(fā)送側(cè)終端100。
[0173]當接收到相應的消息時,發(fā)送側(cè)終端100可通過接受向接收側(cè)終端200提供作為被語音識別出的文本的采集到的語音信號。例如,在步驟1305,發(fā)送側(cè)終端100可基于第一語音處理支持裝置400和語音識別數(shù)據(jù)庫153中的至少一個產(chǎn)生文本。當默認基于第一語音處理支持裝置400執(zhí)行了語音識別并且與第一語音處理支持裝置400的連接狀態(tài)差使得語音識別未被正常地執(zhí)行時,發(fā)送側(cè)終端100可進行控制,使得進行基于語音識別數(shù)據(jù)庫153的語音識別。發(fā)送側(cè)終端100基于語音識別數(shù)據(jù)庫153執(zhí)行語音識別。根據(jù)與由用戶確定的輸入丨輸出模式相應的用戶操作,或者當?shù)谝徽Z音處理支持裝置400的連接環(huán)境等于或大于預設值時,針對第一語音處理支持裝置400的連接的數(shù)據(jù)收發(fā)以及語音識別可被支持。同時,當在使用第一語音處理支持裝置400時實現(xiàn)單獨記賬時,發(fā)送側(cè)終端100可根據(jù)用戶設置僅執(zhí)行基于語音識別數(shù)據(jù)庫153的語音識別。
[0174]接下來,在步驟1307,發(fā)送側(cè)終端100可將被語音識別出的文本發(fā)送到接收側(cè)終端200。為此,發(fā)送側(cè)終端100可使用用于發(fā)送與文本相應的包的通信信道。所述通信信道可以是在發(fā)送側(cè)終端100與接收側(cè)終端200之間形成的通信信道,或者是在發(fā)送側(cè)終端100與先前的接收側(cè)終端200之間形成的通信信道(例如,聊天服務信道)。當從發(fā)送側(cè)終端100接收到被語音識別出的文本時,接收側(cè)終端200可將相應的文本輸出到第二顯示單元240。當接收側(cè)終端200與發(fā)送側(cè)終端100形成圖像通話信道時,接收側(cè)終端200可從發(fā)送側(cè)終端100接收圖像數(shù)據(jù)和相應的文本。因此,接收側(cè)終端200可通過分配單獨的區(qū)域?qū)⑾鄳奈谋据敵鰹橹丿B在圖像數(shù)據(jù)或輸出的文本上。當系統(tǒng)被設計為使得接收側(cè)終端200輸出圖像數(shù)據(jù)和文本數(shù)據(jù)時,接收側(cè)終端200從接收到的數(shù)據(jù)獲取時間戳信息,并在輸出相應的數(shù)據(jù)時控制進行同步。當發(fā)送側(cè)終端100將文本與圖像數(shù)據(jù)進行組合并發(fā)送組合的數(shù)據(jù)時,接收側(cè)終端200可在無需時間戳信息的單獨采集和同步過程的情況下支持數(shù)據(jù)輸出。
[0175]同時,在步驟1309,接收側(cè)終端200可將用戶輸入的文本發(fā)送到發(fā)送側(cè)終端100。為此,接收側(cè)終端200可輸出用于將文本輸入到第二顯示單元240的輸入窗口。用戶輸入的文本被發(fā)送到發(fā)送側(cè)終端100,并可被輸出到第二顯示單元240。此外,接收側(cè)終端200可在使用317服務期間激活相機,采集外部圖像并將所述外部圖像發(fā)送到發(fā)送側(cè)終端100。
[0176]同時,在通信服務信道在發(fā)送側(cè)終端100與接收側(cè)終端200之間被釋放或用于釋放本發(fā)明的示例性實施例的317服務的輸入信號被產(chǎn)生之前,步驟1305至1309可被持續(xù)保持并被執(zhí)4丁。
[0177]例如,發(fā)送側(cè)終端100可提供基于語音或圖像數(shù)據(jù)的通信服務,接收側(cè)終端200可提供基于文本的通信服務。例如,發(fā)送側(cè)終端100使用第一麥克風131以語音傳送信息,接收側(cè)終端200輸出針對相應語音的文本并可以以創(chuàng)建的文本傳送信息。當接收側(cè)終端200發(fā)送文本時,發(fā)送側(cè)終端100可將所述文本輸出到第一顯示單元140。
[0178]在圖像通話的情況下,發(fā)送側(cè)終端100傳送基于由麥克風131和第一相機170采集的語音和圖像的信息,并且接收側(cè)終端200可在不輸出單獨的語音信號的情況下輸出與所述圖像相應的文本和相應的語音,并且通過對所述文本的創(chuàng)建來傳送信息。在這種情況下,接收側(cè)終端200激活相機和麥克風以將圖像和音頻信號發(fā)送到發(fā)送側(cè)終端100。然后,發(fā)送側(cè)終端100可通過第一顯示單元140和第一揚聲器133輸出從接收側(cè)終端200提供的圖像和音頻信號。當接收側(cè)終端200發(fā)送通過字符輸入創(chuàng)建的文本時,發(fā)送側(cè)終端100可將相應的文本輸出到單獨的文本區(qū)域或圖像輸出區(qū)域的一側(cè)。發(fā)送終端100可根據(jù)用戶設置將接收到的文本轉(zhuǎn)換為語音并通過第一揚聲器133輸出所述語音。
[0179]圖14是示出根據(jù)本發(fā)明的第二示例性實施例的發(fā)送側(cè)終端的第一控制器的配置和接收側(cè)終端的第二控制器的配置的框圖。
[0180]參照圖14,在根據(jù)本發(fā)明的第二示例性實施例的用于運行通信服務的終端中,接收側(cè)終端200使用第二語音處理支持裝置500識別語音信號,并根據(jù)語音識別將產(chǎn)生的文本輸出到第二顯示單元240。因此,發(fā)送側(cè)終端100不識別采集到的語音信號,并且基于包業(yè)務交換網(wǎng)絡將采集到的語音信號發(fā)送到接收側(cè)終端200。圖14示出發(fā)送側(cè)終端100的第一控制器160的組成元件和接收側(cè)終端200的第二控制器260的組成元件。
[0181]根據(jù)本發(fā)明的示例性實施例的發(fā)送側(cè)終端100的第一控制器可包括第一網(wǎng)絡打包/解包支持器161、第一網(wǎng)絡監(jiān)控器162、媒體同步器166、第一語音處理器167、第一文本處理器168和第一視頻處理器169。具有上述構造的發(fā)送側(cè)終端100可采集并發(fā)送語音信號,以支持基于語音識別的文本提供服務。
[0182]詳細地講,發(fā)送側(cè)終端100的第一控制器可控制第一通信單元110根據(jù)用戶請求通過通信系統(tǒng)300將通信服務連接請求消息發(fā)送到接收側(cè)終端200。在這種情況下,第一語音處理器167控制激活第一麥克風131,將第一麥克風131采集的語音信號轉(zhuǎn)換為語音數(shù)據(jù),并且將所述語音數(shù)據(jù)傳送到第一網(wǎng)絡打包/解包支持器161。第一文本處理器168可產(chǎn)生與從第一輸入單元120和具有輸入功能的第一顯示單元140輸入的輸入信號相應的文本,并將相應的文本傳送到第一網(wǎng)絡打包/解包支持器161。此外,第一文本處理器168可將產(chǎn)生的文本傳送到媒體同步器166。當圖像通話服務在發(fā)送側(cè)終端100和接收側(cè)終端200之間被運行時,第一視頻處理器169激活第一相機170,并將第一相機170米集的圖像信號轉(zhuǎn)換為圖像數(shù)據(jù)。此外,第一視頻處理器169可將所述圖像數(shù)據(jù)傳送到媒體同步器166。媒體同步器166可使從第一文本處理器168提供的文本與來自第一視頻處理器169的圖像數(shù)據(jù)同步,并可將同步的數(shù)據(jù)傳送到第一網(wǎng)絡打包/解包支持器161。
[0183]第一網(wǎng)絡監(jiān)控器162可通過第一網(wǎng)絡打包/解包支持器161對網(wǎng)絡進行評估。為此,第一網(wǎng)絡監(jiān)控器162可通過第一網(wǎng)絡打包/解包支持器161將預設測試信號發(fā)送到接收側(cè)終端200。接下來,第一網(wǎng)絡監(jiān)控器162可接收與所述測試信號相應的信號以對網(wǎng)絡進行評估。第一網(wǎng)絡監(jiān)控器162可接收關于將被發(fā)送到接收側(cè)終端200的語音數(shù)據(jù)、文本和圖像數(shù)據(jù)中的至少一個的質(zhì)量的反饋以對網(wǎng)絡進行評估。網(wǎng)絡監(jiān)控器162可基于與從通信系統(tǒng)提供的網(wǎng)絡質(zhì)量相關聯(lián)的信息和與從接收側(cè)終端200提供的網(wǎng)絡質(zhì)量相關聯(lián)的信息對網(wǎng)絡進行評估。由第一網(wǎng)絡監(jiān)控器162檢測到的網(wǎng)絡評估以及從接收側(cè)終端200提供的關于接收側(cè)終端200的外部環(huán)境的噪聲信息可被用于確定發(fā)送側(cè)終端100的STT服務。
[0184]第一網(wǎng)絡打包/解包支持器161對從第一語音處理器167提供的語音數(shù)據(jù)、從文本處理器168提供的文本和從媒體同步器166提供的圖像數(shù)據(jù)中的至少一個按照將它們發(fā)送到接收側(cè)終端200的形式進行打包。第一網(wǎng)絡打包/解包支持器161可通過第一通信單元110將經(jīng)過打包的數(shù)據(jù)發(fā)送到接收側(cè)終端200。此外,第一網(wǎng)絡打包/解包支持器161可對從接收側(cè)終端200提供的數(shù)據(jù)進行解包,并可將經(jīng)過解包的數(shù)據(jù)傳送到輸出裝置,例如,第一揚聲器133和第一顯不單兀140。
[0185]同時,根據(jù)本發(fā)明的示例性實施例的接收側(cè)終端200的第二控制器260可包括噪聲測量單元201、第二打包/解包支持器261、第二網(wǎng)絡監(jiān)控器262、第二 TTS/STT確定器263、第二 STT管理器264、第二 TTS管理器265、圖像組合器266、第二語音處理器267、第二文本處理器268和第二視頻處理器269。
[0186]當具有上述構造的接收側(cè)終端200從發(fā)送側(cè)終端100接收到通信服務連接請求時,接收側(cè)終端200可根據(jù)默認設置或用戶設置連接第二語音處理支持裝置50,以支持作為基于語音識別的文本提供服務的STT服務。接收側(cè)終端200可使用存儲在第二存儲器250中的用于支持STT服務的語音識別數(shù)據(jù)庫。例如,接收側(cè)終端200可識別從發(fā)送側(cè)終端100提供的語音數(shù)據(jù)以產(chǎn)生文本,并可將產(chǎn)生的文本輸出到第二顯示單元240。第二揚聲器233進行的語音數(shù)據(jù)的輸出功能可根據(jù)用戶設置或系統(tǒng)設計方案而被支持或阻止。例如,根據(jù)本發(fā)明的示例性實施例的STT服務的支持,語音數(shù)據(jù)可用被語音識別出的文本在接收側(cè)終2而200中被輸出并可被移除。
[0187]將詳細描述接收側(cè)終端2200的各個組成元件。第二網(wǎng)絡監(jiān)控器262通過第二網(wǎng)絡打包/解包支持器261對網(wǎng)絡進行評估。第二網(wǎng)絡監(jiān)控器262可通過第二網(wǎng)絡打包/解包支持器261將預設測試信號發(fā)送到網(wǎng)絡或發(fā)送側(cè)終端100,并接收相應的反饋信號以對網(wǎng)絡狀態(tài)進行評估。第二網(wǎng)絡監(jiān)控器可替換將被發(fā)送到通信系統(tǒng)300或發(fā)送側(cè)終端100的信號(例如,在信道形成過程期間收發(fā)的信號、由第二麥克風231采集的語音信號、由相機采集并將被發(fā)送到發(fā)送側(cè)終端100的圖像數(shù)據(jù)以及用于文本信號的由用戶創(chuàng)建并且將被發(fā)送到發(fā)送側(cè)終端100的文本)。同時,第二網(wǎng)絡監(jiān)控器262從發(fā)送側(cè)終端100和通信系統(tǒng)300中的至少一個接收網(wǎng)絡狀態(tài)(例如,關于數(shù)據(jù)傳輸中的包的延遲程度和丟失率的信息),并可基于接收到的網(wǎng)絡狀態(tài)來對網(wǎng)絡狀態(tài)進行評估。由第二網(wǎng)絡監(jiān)控器262執(zhí)行的網(wǎng)絡評估結果可被提供給第二 TTS/STT確定器263。
[0188]第二網(wǎng)絡打包/解包支持器261對將被接收側(cè)終端200發(fā)送的數(shù)據(jù)以及接收側(cè)終端將接收的數(shù)據(jù)進行打包和解包。詳細地講,第二網(wǎng)絡打包/解包支持器261對從發(fā)送側(cè)終端100接收到的數(shù)據(jù)進行解包,并按類型對經(jīng)過解包的數(shù)據(jù)分類。例如,第二網(wǎng)絡打包/解包支持器261可根據(jù)數(shù)據(jù)特征將從發(fā)送側(cè)終端100提供的數(shù)據(jù)分類為語音數(shù)據(jù)、文本數(shù)據(jù)、視頻數(shù)據(jù)和字幕數(shù)據(jù)中的至少一個。此外,第二網(wǎng)絡打包/解包支持器261可將分類后的數(shù)據(jù)傳送到與相應數(shù)據(jù)相關聯(lián)的配置,以對分類后的數(shù)據(jù)進行處理。例如,第二網(wǎng)絡打包/解包支持器261可將語音數(shù)據(jù)傳送到第二語音處理器267,可將文本數(shù)據(jù)傳送到第二文本處理器268并可將視頻數(shù)據(jù)傳送到第二視頻處理器269。字幕數(shù)據(jù)可根據(jù)字幕數(shù)據(jù)的特征而被傳送到第二文本處理器268或第二視頻處理器269。例如,當字幕數(shù)據(jù)以文本的形式被產(chǎn)生和接收時,字幕數(shù)據(jù)可被傳送到第二文本處理器268,使得第二文本處理器268可對字幕數(shù)據(jù)進行處理。當字幕數(shù)據(jù)以圖像幀類型被產(chǎn)生和接收時,字幕數(shù)據(jù)可被傳送到第二視頻處理器269,使得第二視頻處理器269可對字幕數(shù)據(jù)進行處理。
[0189]同時,第二網(wǎng)絡打包/解包支持器261對由第二語音處理器267對從接收側(cè)終端200的第二麥克風231采集到的語音信號進行處理而產(chǎn)生的語音數(shù)據(jù)進行打包,并通過第二通信單元210將打包后的語音數(shù)據(jù)傳送到發(fā)送側(cè)終端100。第二網(wǎng)絡打包/解包支持器261可使用第二輸入單元220和具有輸入功能的第二顯示單元240中的至少一個根據(jù)預設標準對創(chuàng)建的文本進行打包,并通過第二通信單元210將打包后的文本發(fā)送到發(fā)送側(cè)終端100。當安裝的相機發(fā)送采集的圖像數(shù)據(jù)時,第二網(wǎng)絡打包/解包支持器261可對組合有輸入的文本的圖像數(shù)據(jù)進行打包。第二網(wǎng)絡打包/解包支持器261可根據(jù)終端設置或與具有請求的圖像通話連接的發(fā)送側(cè)終端100相應的用戶操作來對預設特定圖像數(shù)據(jù)進行打包和發(fā)送。在這種情況下,所述特定圖像數(shù)據(jù)可根據(jù)用戶控制被轉(zhuǎn)換為與輸入文本組合的圖像數(shù)據(jù),并且所述圖像數(shù)據(jù)可被第二網(wǎng)絡打包/解包支持器261打包。此外,第二網(wǎng)絡打包/解包支持器261可對由噪聲測量單元201采集到的接收側(cè)終端200的外部噪聲信息進行打包,并可通過第二通信單元210將打包后的外部噪聲信息傳送到接收側(cè)終端200和發(fā)送側(cè)終端100。
[0190]噪聲測量單元201產(chǎn)生從接收側(cè)終端200的外部環(huán)境出現(xiàn)的噪聲以產(chǎn)生噪聲信息,并將相應的噪聲信息發(fā)送到第二 173/317確定器263和發(fā)送側(cè)終端100中的至少一個。為此,噪聲測量單元201可激活包括在接收側(cè)終端200中的第二麥克風231,并可對由第二麥克風231采集到的在預定時間期間的音頻信號進行分析,以確定包括噪聲的存在。在這種情況下,當從發(fā)送側(cè)終端100接收到通話連接請求消息時,噪聲測量單元201激活第二麥克風231以在預定時間期間采集外部音頻信號并且基于采集到的信號來測量噪聲。噪聲測量單元201可根據(jù)預設安排信息以預定時間間隔來采集音頻信號,并將音頻信號的噪聲測量值的均值或噪聲測量值的最大值采用為噪聲信息。
[0191]第二 113/311確定器263確定是否運行接收側(cè)終端的113服務或311服務。為此,第二 113/311確定器263可基于以下項中的至少一個來確定是否運行113服務或31'丁服務:從噪聲測量單元201提供的噪聲信息、從第二輸入單元220和具有輸入功能的第二顯示單元240輸入的用戶控制、從第二網(wǎng)絡打包/解包支持器261提供的發(fā)送側(cè)終端100的語音和文本。例如,當從噪聲測量單元201接收到關于大于預定值的噪聲測量值的噪聲信息時,第二 173/317確定器263可控制第二 317管理器264,使得不管用戶控制或發(fā)送側(cè)終端100的請求如何,311服務都被執(zhí)行。以相同的方式,當從噪聲測量單元201接收到包括大于預定參考值的噪聲測量值的信息時,第二 173/317確定器263可控制第二 173管理器265執(zhí)行173服務。當接收側(cè)終端200的用戶產(chǎn)生用于運行317服務或173服務的輸入信號時,第二 173/317確定器263可控制第二 173管理器265或第二 317管理器264分別運行相應的服務。當從發(fā)送側(cè)終端100請求激活311服務或113服務時,第二 113/311確定器263可進行控制,使得根據(jù)發(fā)送側(cè)終端100的請求的311服務或113服務被運行。
[0192]此外,第二 113/311確定器263從發(fā)送側(cè)終端100采集噪聲信息。當從發(fā)送側(cè)終端100提供的噪聲信息大于參考值時,第二 173/317確定器263可進行控制,使得317服務被自動運行。
[0193]第二 113/311確定器263可從第二網(wǎng)絡監(jiān)控器262接收網(wǎng)絡評估信息,并可根據(jù)網(wǎng)絡評估信息控制用于支持113服務的第二 113管理器265或用于支持311服務的第二 317管理器264。詳細地講,當包括在網(wǎng)絡評估信息中的網(wǎng)絡的數(shù)據(jù)傳輸延遲程度和丟包率中的至少一個大于參考值時,第二 113/317確定器263可控制317服務和173服務中的至少一個的運行。文本類型的文本和字幕數(shù)據(jù)的傳輸量小于語音數(shù)據(jù)和圖像數(shù)據(jù)的傳輸量,并且文本和字幕數(shù)據(jù)以字符的形式被提供。因此,當網(wǎng)絡狀態(tài)差時,語音數(shù)據(jù)和圖像數(shù)具有丟失和延遲地被發(fā)送,使得文本和字幕數(shù)據(jù)具有丟失和延遲地被發(fā)送并被準確地識別出的概率可比語音數(shù)據(jù)和圖像數(shù)據(jù)具有丟失和延遲地被發(fā)送并被準確地識別出的概率相對更高。因此,當網(wǎng)絡評估信息大于預設參考值時,第二 113/311確定器263與語音數(shù)據(jù)一起或與語音數(shù)據(jù)分離地發(fā)送針對語音數(shù)據(jù)的測試,使得發(fā)送側(cè)終端100的用戶可準確地識別出將從接收側(cè)終端200的用戶發(fā)送的信息。
[0194]第二 113管理器265在第二 113/311確定器263的控制下控制對接收側(cè)終端200的丁13服務的113服務的支持。當?shù)诙?173/317確定器263請求支持173服務時,第二 173管理器265可進行控制,使得從第二網(wǎng)絡打包/解包支持器261提供的文本被轉(zhuǎn)換為語音數(shù)據(jù),并可將所述語音數(shù)據(jù)傳送到第二語音處理器267。在這種情況下,從第二網(wǎng)絡打包/解包支持器261提供的文本可由發(fā)送側(cè)終端100的文本創(chuàng)建器創(chuàng)建,或者可通過根據(jù)STT服務的運行對語音信號進行轉(zhuǎn)換來創(chuàng)建。
[0195]第二 TTS管理器265可與第二語音處理支持裝置500連接,以支持接收側(cè)終端200的TTS服務。第二 TTS管理器265先前可被設置為支持接收側(cè)終端200的TTS服務,并可使用存儲在第二存儲器250中的語音轉(zhuǎn)換數(shù)據(jù)庫。例如,第二 TTS管理器265可通過執(zhí)行第二語音處理支持裝置500的連接或者無需執(zhí)行第二語音處理支持裝置500的單獨連接,支持基于語音轉(zhuǎn)換數(shù)據(jù)庫的語音轉(zhuǎn)換,從而支持接收側(cè)終端200的TTS服務。當發(fā)送側(cè)終端100使用第一語音處理支持裝置400將用戶輸入的文本轉(zhuǎn)換為語音數(shù)據(jù)時,第二 TTS管理器265可進行控制,使得單獨的語音轉(zhuǎn)換不被執(zhí)行。
[0196]同時,第二 TTS管理器265可在第二 TTS/STT確定器263的控制下將接收側(cè)終端200的用戶輸入的文本轉(zhuǎn)換為語音信號,并將所述語音信號發(fā)送到發(fā)送側(cè)終端100。為此,第二 TTS管理器265可基于第二語音處理支持裝置500和語音轉(zhuǎn)換數(shù)據(jù)庫中的至少一個將文本輸入轉(zhuǎn)換為語音,并通過第二網(wǎng)絡打包/解包支持器261將所述語音發(fā)送到發(fā)送側(cè)終端 100。
[0197]第二 STT管理器264控制對接收側(cè)終端200的STT服務的支持。當從第二 TTS/STT確定器263接收到對支持STT服務的請求時,第二 STT管理器264可根據(jù)相應的請求支持STT服務。具體地講,第二 STT管理器264可支持接收側(cè)終端200的STT接收服務和STT發(fā)送服務中的至少一個服務。
[0198]首先,在支持STT接收服務的情況下,第二 STT管理器264從第二網(wǎng)絡打包/解包支持器261接收語音數(shù)據(jù),并將相應的語音數(shù)據(jù)轉(zhuǎn)換為文本。第二 STT管理器264可將轉(zhuǎn)換為文本的語音數(shù)據(jù)傳送到第二文本處理器268。為此,第二 STT管理器264可使用用于支持STT服務的第二語音處理支持裝置的連接或存儲在第二存儲器250中的語音識別數(shù)據(jù)庫中的至少一個。例如,第二 STT管理器264可與第二語音處理支持裝置500形成信道,并可將語音數(shù)據(jù)從第二網(wǎng)絡打包/解包支持器261發(fā)送到第二語音處理支持裝置500。當從第二通信單元210和第二網(wǎng)絡打包/解包支持器261接收到來自第二語音處理支持裝置500的文本時,第二 STT管理器264可將相應的文本傳送到第二文本處理器268。
[0199]在支持STT發(fā)送服務的情況下,第二 STT管理器264可將從語音處理器267提供的語音數(shù)據(jù)轉(zhuǎn)換為文本。在這種情況下,第二 STT管理器264可根據(jù)策略而使用第二語音處理支持裝置500或存儲在第二存儲器250中的語音識別數(shù)據(jù)庫來將語音數(shù)據(jù)轉(zhuǎn)換為文本。第二 STT管理器264將轉(zhuǎn)換后的文本傳送到第二網(wǎng)絡打包/解包支持器261,并且請求第二網(wǎng)絡打包/解包支持器261使得轉(zhuǎn)換后的文本被發(fā)送到發(fā)送側(cè)終端100。
[0200]語音處理器267將從第二 TTS管理器265提供的語音數(shù)據(jù)轉(zhuǎn)換為允許語音數(shù)據(jù)被傳送到揚聲器、耳機和其他語音信號輸出裝置的形式,并將轉(zhuǎn)換后的語音信號傳送到相應的配置。第二語音處理器267可從第二網(wǎng)絡打包/解包支持器261直接接收語音數(shù)據(jù),將所述語音數(shù)據(jù)轉(zhuǎn)換為語音信號,并將所述語音信號傳送到揚聲器、耳機和其他語音信號輸出裝置。所述其他語音信號輸出裝置可以是能夠通過藍牙通信模塊形成與接收側(cè)終端200的通信信道的單獨裝置或耳機。
[0201]第二文本處理器268將從第二 STT管理器264提供的信息轉(zhuǎn)換為可從接收側(cè)終端200被輸出的形式的文本。例如,第二 STT管理器264按可被輸出到接收側(cè)終端200的第二顯示單元240的詞語、短語和句子來配置被語音識別出的文本信息,并將所述文本信息傳送到圖像組合器266。第二文本處理器268可從第二網(wǎng)絡打包/解包支持器261直接接收文本,并將所述文本處理為可被輸出到顯示單元240的形式。
[0202]第二視頻處理器269將從第二網(wǎng)絡打包/解包支持器261提供的圖像數(shù)據(jù)處理為可被輸出到第二顯示單元240的形式。例如,第二視頻處理器269可使用由從第二網(wǎng)絡打包/解包支持器261提供的包配置的圖像數(shù)據(jù)來產(chǎn)生圖像幀。此外,第二視頻處理器269可包括圖像編解碼器,其中,所述圖像編解碼器將當前接收到的圖像幀與先前的圖像幀進行比較,并對差異信息進行處理以配置運動圖像幀。
[0203]圖像組合器266將來自第二文本處理器268的文本與來自第二視頻處理器269的圖像幀進行組合。例如,圖像組合器266可通過將文本插入到由圖像幀構成的圖像幀上或者將文本重疊在圖像幀上,產(chǎn)生將被輸出到第二顯示單元240的新圖像幀。因此,第二顯示單元240可同時顯示文本和圖像幀。圖像組合器266從接收到的信息獲取時間戳信息以使文本與將被輸出的圖像幀同步,并基于時間戳信息確定哪個文本被插入到任意圖像幀??蓮牡诙W(wǎng)絡打包/解包支持器261或第二 311管理器264提取和提供時間戳信息。同時,當發(fā)送側(cè)終端100先前在提供311服務的過程期間將文本插入到將被發(fā)送的圖像幀時,圖像組合器266可被移除。在這種情況下,第二視頻處理器269可將插入有文本的圖像幀傳送到第二顯示單元240。
[0204]圖15是示出根據(jù)本發(fā)明的第二示例性實施例的用于通信服務的操作方法的信號流程圖。將在關注311服務的運行的同時進行以下描述。然而,本發(fā)明的示例性實施例不限于此。根據(jù)發(fā)送側(cè)終端100和接收側(cè)終端200之間的協(xié)作,8X1服務被113服務替換或者311服務和113服務可被同時運行。
[0205]參照圖15,在根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法中,在步驟1501,發(fā)送側(cè)終端100可請求與接收側(cè)終端200的通話連接。為此,發(fā)送側(cè)終端100可輸入接收側(cè)終端200的電話號碼,并請求特定類型的通信服務連接。所述請求可以以消息的形式通過通信系統(tǒng)300被傳送到接收側(cè)終端200。
[0206]當在步驟1501接收側(cè)終端200接受通信服務的運行時,在步驟1503,發(fā)送側(cè)終端100和接收側(cè)終端200可執(zhí)行用于支持基于語音識別的文本提供服務的協(xié)作。例如,發(fā)送側(cè)終端100可選擇請求運行根據(jù)本發(fā)明的示例性實施例的317服務的菜單。根據(jù)對相應菜單的選擇,發(fā)送側(cè)終端100可請求接收側(cè)終端200使得接收側(cè)終端200運行基于311服務的通信服務。接收側(cè)終端200可將與發(fā)送側(cè)終端100的通話連接請求相應的指示接收側(cè)終端200是否按照317服務運行的消息傳送到發(fā)送側(cè)終端100。在這種情況下,接收側(cè)終端200可基于噪聲信息和網(wǎng)絡評估中的至少一個自動運行311服務,或者根據(jù)用戶控制運行317服務。當用于支持311服務的協(xié)作未被執(zhí)行時,發(fā)送側(cè)終端100可根據(jù)請求連接的通信服務的類型形成通信信道。同時,發(fā)送側(cè)終端100和接收側(cè)終端200可形成用于支持通信服務的通信信道。
[0207]如果針對接收側(cè)終端200的317服務的運行的協(xié)作被完成,則發(fā)送側(cè)終端100在步驟1505采集語音信號,并在步驟1507將采集到的語音信號傳送到接收側(cè)終端200。為此,發(fā)送側(cè)終端100激活第一麥克風131以采集語音數(shù)據(jù),并將采集到的語音數(shù)據(jù)轉(zhuǎn)換為可被發(fā)送到接收側(cè)終端200的形式的語音數(shù)據(jù)。此外,發(fā)送側(cè)終端100可通過與接收側(cè)終端200形成的通信信道將語音數(shù)據(jù)發(fā)送到接收側(cè)終端200。
[0208]當從發(fā)送側(cè)終端100接收到語音數(shù)據(jù)時,在步驟1509,接收側(cè)終端200可基于第二語音處理支持裝置500和語音識別數(shù)據(jù)庫中的至少一個,將接收到的語音數(shù)據(jù)轉(zhuǎn)換為文本。在這一方面,接收側(cè)終端200可執(zhí)行第二語音處理支持裝置500的連接,并提供將被識別的語音數(shù)據(jù),或者調(diào)用存儲在第二存儲器250中的語音識別數(shù)據(jù)庫。
[0209]如果語音數(shù)據(jù)到文本的轉(zhuǎn)換被完成,則在步驟1511,接收側(cè)終端200可將產(chǎn)生的文本輸出到第二顯示單元240。在這種情況下,接收側(cè)終端200可以以彈出窗口或文字氣球的形式在第二顯示單元240的一側(cè)獨立提供產(chǎn)生的文本,或者可將產(chǎn)生的文本顯示在預設特定格式(例如,聊天窗口)的一側(cè)。接收側(cè)終端200可將產(chǎn)生的文本輸出為重疊在由從發(fā)送側(cè)終端100提供的圖像數(shù)據(jù)構成的圖像幀上,或者將產(chǎn)生的文本插入到圖像幀的一側(cè)或?qū)a(chǎn)生的文本與圖像幀的一側(cè)組合。
[0210]同時,在步驟1513,從接收側(cè)終端200創(chuàng)建的文本可被發(fā)送到發(fā)送側(cè)終端100。為此,接收側(cè)終端200可激活用于支持STT服務的文本創(chuàng)建器,并可將用戶通過文本創(chuàng)建器輸入的文本提供給發(fā)送側(cè)終端100。文本創(chuàng)建器的激活功能可根據(jù)對STT服務的選擇被自動執(zhí)行。可在輸出與從發(fā)送側(cè)終端100提供的語音數(shù)據(jù)相應的文本的同時自動執(zhí)行文本創(chuàng)建器的激活功能,或者可根據(jù)用戶調(diào)用執(zhí)行文本創(chuàng)建器的激活功能。
[0211]同時,接收側(cè)終端200可獨立于對STT服務的支持,根據(jù)發(fā)送側(cè)終端100的用戶選擇的通信服務的類型采集并傳送語音信號和圖像信號。例如,當發(fā)送側(cè)終端100的用戶請求用于形成語音通話信道的通話連接時,接收側(cè)終端200可激活用于語音通話的第二麥克風231,并可采集并傳送音頻信號。這樣的功能可根據(jù)用戶控制或STT服務的支持策略來提供。例如,當STT服務被默認提供,并且音頻信號的采集和傳送的運行在連接語音通話時被設置時,接收側(cè)終端200可采集并處理信號,以獨立于STT服務地采集和傳送音頻信號。
[0212]如上所述,在根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法中,當發(fā)送側(cè)終端100將語音數(shù)據(jù)提供給接收側(cè)200時,接收側(cè)終端200識別相應的語音數(shù)據(jù)并在第二顯示單元240上輸出識別出的語音數(shù)據(jù)。當發(fā)送側(cè)終端100的第一語音處理支持裝置400的連接困難或不可行時,在第一語音處理支持裝置400的語音識別結果提供速度低于第二語音處理支持裝置500的語音識別結果提供速度時,該功能可被使用。當?shù)谝徽Z音處理支持裝置400的語音識別可靠度低于第二語音處理支持裝置500的語音識別可靠度或者是低于預定參考值時,可執(zhí)行根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法。為了確認前述情況,發(fā)送側(cè)終端100和接收側(cè)終端200可執(zhí)行用于共享關于以下項的信息的過程:關于第一語音處理支持裝置400和第二語音處理支持裝置500的連接的概率、語音識別提供速度和關于語音識別結果的可靠度。
[0213]根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法可在無需請求接收側(cè)終端200的STT服務協(xié)作的情況下被執(zhí)行。例如,當發(fā)送側(cè)終端100采集語音信號并將語音信號提供給接收側(cè)終端200時,接收側(cè)終端200可基于第二語音處理支持裝置500和存儲在存儲器250中的語音識別數(shù)據(jù)庫來獨立地支持STT服務,而無需與發(fā)送側(cè)終端100的單獨協(xié)作。因此,在前述描述中,根據(jù)本發(fā)明的示例性實施例的運行通信服務的方法可在不包括步驟1503的情況下被執(zhí)行。在根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法中,發(fā)送側(cè)終端100單方面地將語音信號發(fā)送到接收側(cè)終端200,而不執(zhí)行網(wǎng)絡監(jiān)控過程,并且接收側(cè)終端200可識別相應的語音信號以提供文本。結果,在根據(jù)本發(fā)明的第二示例性實施例的運行通信服務的方法中,每個終端可在不包括監(jiān)控單元的配置的情況下被配置。
[0214]圖16是示出根據(jù)本發(fā)明的第二示例性實施例的接收側(cè)終端的屏幕界面的示例的示圖。
[0215]參照圖16,接收側(cè)終端200根據(jù)用戶的操作可具有如畫面1601中示出的特定畫面狀態(tài)。例如,當在預定時間期間未產(chǎn)生輸入信號或者產(chǎn)生了進入睡眠模式的輸入信號時,接收側(cè)終端200可如所示隨著進入“睡眠模式”在第二顯示單元240上輸出睡眠模式畫面。睡眠模式可以是通過抑制第二顯示單元240的供電來省電的模式。睡眠模式可以是特定用戶功能(例如,文件重放功能)通過后臺處理被執(zhí)行的狀態(tài),如第二顯示單元240的供電被抑制的狀態(tài)。同時,本發(fā)明的前述示例性實施例在畫面1601中已示出接收側(cè)終端200具有睡眠模式進入狀態(tài)。然而,本發(fā)明的示例性實施例不限于此。例如,接收側(cè)終端可根據(jù)用戶對終端的操作而具有各種畫面狀態(tài)。例如,接收側(cè)終端200可輸出文件重放畫面166服務器或特定服務器訪問畫面以及游戲畫面。
[0216]同時,當從發(fā)送側(cè)終端100接收到特定類型的通話連接請求時,接收側(cè)終端200可根據(jù)對通話連接請求消息的接收輸出如畫面1603中所示的畫面。發(fā)送側(cè)終端100的電話號碼或與發(fā)送側(cè)終端100的電話號碼相關聯(lián)的電話薄信息可被輸出在通話連接請求消息接收畫面上。具體地講,接收側(cè)終端200可如所示在第二顯示單元240上顯示連接按鈕1610和317按鈕1620,其中,連接按鈕1610針對根據(jù)發(fā)送終端100的用戶請求的通信服務的類型的通話連接,8X1按鈕1620用于運行基于語音識別的文本提供服務。連接按鈕1610和8X1按鈕1620可以以映射的形式被輸出。因此,用戶可通過選擇特定按鈕來使用根據(jù)相應按鈕的終端功能。
[0217]當用戶選擇畫面1603上的311按鈕1620時,接收側(cè)終端200可如畫面1605中所示在第二顯示單元240上輸出與317服務的運行相關聯(lián)的信息。例如,接收側(cè)終端200可執(zhí)行用于第二語音處理支持裝置500的連接的過程,并可如所示輸出與相應的連接過程相關聯(lián)的信息。第二語音處理支持裝置500可將針對從接收側(cè)終端200提供的語音數(shù)據(jù)的語音識別結果提供為文本。第二語音處理支持裝置500可由外部服務器裝置來配置,其中,所述外部服務器裝置可通過單獨提供接收側(cè)終端200的通信網(wǎng)絡被連接。同時,當用戶選擇31'丁按鈕1620時,接收側(cè)終端200可與發(fā)送側(cè)終端100形成通信信道。因此,當在畫面1605中第二語音處理支持裝置500的連接被完成時,接收側(cè)終端200可與發(fā)送側(cè)終端100形成通信服務信道。在這種情況下,接收側(cè)終端200可使用用于與第二語音處理支持裝置500連接的通信模塊或用于與發(fā)送側(cè)終端100連接的通信模塊,與第二語音處理支持裝置500連接。
[0218]如果與發(fā)送側(cè)終端100的通信信道的形成以及第二語音處理支持裝置500的連接被完成,則接收側(cè)終端200可識別從發(fā)送側(cè)終端100提供的語音數(shù)據(jù),并可將語音數(shù)據(jù)轉(zhuǎn)換為文本。為此,接收側(cè)終端200可支持從提供自發(fā)送側(cè)終端100提供的數(shù)據(jù)提取語音數(shù)據(jù)的過程、將提取的語音數(shù)據(jù)提供給第二語音處理支持裝置500的過程、以及從第二語音處理支持裝置500接收語音識別結果的過程。在這種情況下,當?shù)诙Z音處理支持裝置500的連接不可行或者是根據(jù)用戶控制,接收側(cè)終端200可基于存儲在第二存儲器250中的語音識別數(shù)據(jù)庫識別從發(fā)送側(cè)終端100提供的語音數(shù)據(jù)。
[0219]如果因語音識別產(chǎn)生了文本,則接收側(cè)終端200可如畫面1607中所示將產(chǎn)生的文本輸出到第二顯示單元240上。在這種情況下,接收側(cè)終端200可分開輸出STT服務區(qū)域1630和文本區(qū)域1640,其中,STT服務區(qū)域1630輸出從發(fā)送側(cè)終端100提供的被語音識別出的文本,文本區(qū)域1640輸出由用戶創(chuàng)建并被發(fā)送到接收側(cè)終端100的文本。此外,接收側(cè)終端200可在屏幕的一側(cè)輸出報告STT服務當前被運行的信息。用戶可確認哪個語音信號是由發(fā)送側(cè)終端100的用戶通過STT服務區(qū)域1630發(fā)送的。此外,用戶可通過文本區(qū)域1640創(chuàng)建將被發(fā)送到發(fā)送側(cè)終端100的文本。當用戶觸摸文本區(qū)域1640時,接收側(cè)終端200可激活用于創(chuàng)建文本的文本創(chuàng)建器,并支持與其相應的畫面輸出。
[0220]同時,本發(fā)明的前述示例性實施例已示出畫面1603和1605被顯示使得畫面針對STT服務的選擇和運行過程。例如,在接收終端200的用戶將STT服務設置為默認,并且發(fā)送側(cè)終端100的用戶發(fā)送請求消息或者發(fā)送側(cè)終端100的用戶發(fā)送請求,使得特定電話號碼的發(fā)送側(cè)終端100的用戶發(fā)送用于通話連接的請求消息的情況下,畫面1603和1605可被省略。同時,接收側(cè)終端200可向接收側(cè)終端200的第二顯示單元240僅提供畫面1601和 1607。
[0221]圖17是示出根據(jù)本發(fā)明的第三示例性實施例的發(fā)送側(cè)終端的第一控制器的配置和接收側(cè)終端的第二控制器的配置的框圖。例如,圖17示出根據(jù)本發(fā)明的第三示例性實施例的用于運行通信服務的系統(tǒng)的配置的配置。
[0222]參照圖17,根據(jù)本發(fā)明的第三示例性實施例的用于運行通信服務的系統(tǒng)確認支持由發(fā)送側(cè)終端100和接收側(cè)終端200進行的語音識別的語音處理支持裝置的連接狀態(tài),并可基于呈現(xiàn)更好的連接狀態(tài)的特定語音處理支持裝置來執(zhí)行語音識別。
[0223]為此,如所示,發(fā)送側(cè)終端100的第一控制器160可包括第一網(wǎng)絡打包/解包支持器161、第一網(wǎng)絡監(jiān)控器162、第一 TTS/STT確定器163、第一 STT管理器164、第一 TTS管理器165、媒體同步器166、第一語音處理器167、第一文本處理器168和第一視頻處理器169。
[0224]具有上述構造的第一控制器160可控制用于與接收側(cè)終端200的通信服務連接的信號和數(shù)據(jù)收發(fā)。具體地講,第一控制器160可支持用于支持與接收側(cè)終端200的特定類型的通信服務的通話連接請求消息的傳輸。在該過程期間,可根據(jù)發(fā)送側(cè)終端100和接收側(cè)終端200中的至少一個的STT服務運行請求來執(zhí)行用于支持STT服務的處理。例如,當從接收側(cè)終端200接收到STT服務運行請求時,第二控制器160可采集關于第一語音處理支持裝置400的連接狀態(tài)的信息。為此,第一控制器160可向第一語音處理支持裝置400提供預設測試信號,并可針對相應測試信號采集與語音識別結果相應的接收狀態(tài)信息。接收狀態(tài)信息可包括語音信息,其中,在所述語音信息中,根據(jù)發(fā)送側(cè)終端100和第一語音處理支持裝置400之間的連接狀態(tài)來收發(fā)信息。第一控制器160可將接收側(cè)終端200與第二語音處理支持裝置500之間的接收狀態(tài)信息與發(fā)送側(cè)終端100的接收狀態(tài)信息進行比較,以進行控制使得具有極好接收狀態(tài)信息的終端執(zhí)行語音識別。為此,第一控制器160可從接收側(cè)終端200接收接收側(cè)終端200的接收狀態(tài)信息。同時,當由接收側(cè)終端200設計用于確定語音識別的運行的終端時,第一控制器160可進行控制使得接收狀態(tài)信息被發(fā)送到接收側(cè)終端200。
[0225]第一網(wǎng)絡監(jiān)控器162基于第一網(wǎng)絡打包/解包支持器161確認將被收發(fā)的包,并基于確認的包來對網(wǎng)絡進行評估以確認網(wǎng)絡的狀態(tài)。第一網(wǎng)絡監(jiān)控器162可采集能夠確認發(fā)送側(cè)終端100和通信系統(tǒng)300之間的網(wǎng)絡狀態(tài)以及發(fā)送側(cè)終端100和第一語音處理支持裝置400之間的網(wǎng)絡狀態(tài)的網(wǎng)絡評估信息。在這種情況下,網(wǎng)絡監(jiān)控器162可通過網(wǎng)絡打包/解包支持器161發(fā)送用于確認網(wǎng)絡狀態(tài)的測試信號,并從接收側(cè)終端200接收相應信號的反饋以確認網(wǎng)絡狀態(tài),或接收針對網(wǎng)絡狀態(tài)的網(wǎng)絡評估信息。第一網(wǎng)絡監(jiān)控器162可從網(wǎng)絡的組成元件(例如,組成通信系統(tǒng)300的基站或路由器以及交換其他數(shù)據(jù)包的元件)接收與網(wǎng)絡狀態(tài)相關聯(lián)的網(wǎng)絡評估信息。具體地講,由第一網(wǎng)絡監(jiān)控器161采集的網(wǎng)絡評估信息可包括針對第一語音處理支持裝置400與發(fā)送側(cè)終端400之間的數(shù)據(jù)傳輸送速率、數(shù)據(jù)傳輸延遲程度和數(shù)據(jù)丟失率的接收狀態(tài)信息。第一網(wǎng)絡監(jiān)控器162可將接收狀態(tài)信息傳送到第一 113/311確定器163。
[0226]第一 113/311確定器163控制第一 311管理器164和第一 113管理器165執(zhí)行發(fā)送側(cè)終端100的311服務和113服務中的至少一個服務。第一 113/311確定器163可從第一網(wǎng)絡監(jiān)控器162接收網(wǎng)絡評估信息(具體地講,發(fā)送側(cè)終端100與第一語音處理支持裝置400之間的第一接收狀態(tài)信息以及接收側(cè)終端200與第二語音處理支持裝置500之間的第二接收狀態(tài)信息),并可基于接收到的網(wǎng)絡評估信息控制第一 317管理器164和第一丁丁3管理器165。當?shù)谝唤邮諣顟B(tài)信息好于第二接收狀態(tài)信息時,第一 173/317確定器163可控制第一 311管理器164和第一 113管理器165中的至少一個連接第一語音處理支持裝置400。同時,第一 113/311確定器163可將報告發(fā)送側(cè)終端100將處理語音識別的信息提供給接收側(cè)終端200。
[0227]第一網(wǎng)絡打包/解包支持器161對數(shù)據(jù)進行打包以發(fā)送發(fā)送側(cè)終端100的數(shù)據(jù),并對從接收側(cè)終端200接收到的數(shù)據(jù)進行解包。第一網(wǎng)絡打包/解包支持器161可在第一網(wǎng)絡監(jiān)控器162的控制下采集網(wǎng)絡評估信息,并將采集到的網(wǎng)絡評估信息傳送到第一網(wǎng)絡監(jiān)控器162。此外,第一網(wǎng)絡打包/解包支持161可在第一網(wǎng)絡監(jiān)控器162的控制下,將發(fā)送側(cè)終端100的接收狀態(tài)信息發(fā)送到接收側(cè)終端200。
[0228]同時,如果與接收側(cè)終端200的通信服務信道被形成,則第一網(wǎng)絡打包/解包支持器161可對各種數(shù)據(jù)進行打包并經(jīng)由相應的通信服務信道發(fā)送所述數(shù)據(jù)。例如,第一網(wǎng)絡打包/解包支持器161在執(zhí)行與接收側(cè)終端200的圖像通話的同時根據(jù)預設標準對來自相機的采集到的圖像和語音進行打包,并將打包后的圖像和語音發(fā)送到接收側(cè)終端200。第一網(wǎng)絡打包/解包支持器161可對從接收側(cè)終端200接收到的數(shù)據(jù)進行確認,以從相應的包提取與所述圖像和語音相應的數(shù)據(jù)。具體地講,當發(fā)送側(cè)終端100基于第一語音處理支持裝置400或存儲在第一存儲器150中的語音識別數(shù)據(jù)庫執(zhí)行語音識別以產(chǎn)生文本時,第一網(wǎng)絡打包/解包支持器161可將相應的文本發(fā)送到接收側(cè)終端200。在這種情況下,第一網(wǎng)絡打包/解包支持器161可將相應的文本與圖像數(shù)據(jù)進行組合,或者可將相應的文本發(fā)送為與圖像數(shù)據(jù)重疊。
[0229]當根據(jù)網(wǎng)絡評估確定接收側(cè)終端200執(zhí)行語音識別功能時,第一網(wǎng)絡打包/解包支持器161可不執(zhí)行語音識別文本發(fā)送功能,而是可發(fā)送根據(jù)與接收側(cè)終端200連接的通信服務的類型的數(shù)據(jù)。例如,第一網(wǎng)絡打包/解包支持器161可根據(jù)通信服務的類型,發(fā)送輸入到接收側(cè)終端200的圖像數(shù)據(jù)、語音數(shù)據(jù)和字符中的至少一個。具體地講,與由第一麥克風131采集的語音信號相應的語音數(shù)據(jù)可被發(fā)送到接收側(cè)終端200,而無需單獨的文本轉(zhuǎn)換。
[0230]同時,第一網(wǎng)絡打包/解包支持器161可從接收側(cè)終端200接收包括被語音識別出的文本的數(shù)據(jù)。在這種情況下,第一網(wǎng)絡打包/解包支持器161可從相應的數(shù)據(jù)提取被語音識別出的文本,并在第一顯示單元140上輸出提取的被語音識別出的文本。包括被語音識別出的文本的數(shù)據(jù)可包括:通過將被語音識別出的文本與圖像數(shù)據(jù)進行組合或重疊而獲得的數(shù)據(jù)、通過將被語音識別出的文本與預設特定圖像進行組合或重疊而獲得的數(shù)據(jù)、以及僅包括被語音識別出的文本的數(shù)據(jù)。
[0231]語音處理器167將第一麥克風131采集的語音信號轉(zhuǎn)換為語音數(shù)據(jù)。由第一語音處理器167處理的語音數(shù)據(jù)可被傳送到第一 STT管理器164。
[0232]第一 STT管理器164可根據(jù)對STT服務的支持的存在,使用第一語音處理支持裝置400和語音識別數(shù)據(jù)庫153中的至少一個來識別從第一語音處理器167提供的語音數(shù)據(jù)。當確定接收側(cè)終端200處理語音識別功能時,第一 STT管理器164可在不執(zhí)行單獨的語音識別功能的情況下將相應的語音數(shù)據(jù)傳送到第一網(wǎng)絡打包/解包支持器161。同時,根據(jù)系統(tǒng)設計方案,由第一語音處理器167處理的語音數(shù)據(jù)可在不經(jīng)過第一 STT管理器164的情況下被直接傳送到第一網(wǎng)絡打包/解包支持器161。
[0233]第一文本處理器168對發(fā)送側(cè)終端100的文本進行處理。如果從包括鍵區(qū)、鍵盤、觸摸類型的鍵圖和鍵按鈕的第一輸入單元120或具有輸入功能的第一顯示單元140接收到用于輸入文本的信號,則第一文本處理器168寫下與輸入信號相應的文本。第一文本處理器168可根據(jù)對TTS服務的支持的存在,將輸入文本傳送到第一 TTS管理器165。第一文本處理器168可將輸入文本直接傳送到第一網(wǎng)絡打包/解包支持器161,而不將輸入文本傳送到第一 TTS管理器165。
[0234]第一 TTS管理器165根據(jù)來自第一 TTS/STT確定器163的TTS服務支持設置,將從第一文本處理器168提供的文本轉(zhuǎn)換為語音。當確定發(fā)送側(cè)終端100支持TTS服務時,第一 TTS管理器165可執(zhí)行支持TTS服務的第一語音處理支持裝置400的連接。第一 TTS管理器165可調(diào)用存儲在第一存儲器150中的語音轉(zhuǎn)換數(shù)據(jù)庫155來執(zhí)行與輸入文本相應的語音數(shù)據(jù)的轉(zhuǎn)換。被TTS管理器165從文本轉(zhuǎn)換的語音數(shù)據(jù)被傳送到第一網(wǎng)絡打包/解包支持器161,使得語音數(shù)據(jù)可被傳送到接收側(cè)終端200。在圖像通話服務被支持的同時,由第一 TTS管理器165轉(zhuǎn)換的語音數(shù)據(jù)可被傳送到媒體同步器166。
[0235]當發(fā)送側(cè)終端100的用戶產(chǎn)生用于運行與接收側(cè)終端200的圖像通話服務的輸入信號時,第一視頻處理器169激活相機以將接收到的圖像信號轉(zhuǎn)換為圖像數(shù)據(jù)。由第一視頻處理器169處理的圖像數(shù)據(jù)可被傳送到媒體同步器166。
[0236]媒體同步器166使發(fā)送側(cè)終端100的數(shù)據(jù)彼此同步。當發(fā)送側(cè)終端100運行圖像通話服務時,媒體同步器166可使語音數(shù)據(jù)與圖像數(shù)據(jù)同步。具體地講,當根據(jù)網(wǎng)絡評估確定發(fā)送側(cè)終端100支持TTS服務和STT服務中的至少一個時,根據(jù)本發(fā)明的示例性實施例的媒體同步器166可使從提供自第一 STT管理器164的語音轉(zhuǎn)換的文本和從提供自第一TTS管理器165的文本轉(zhuǎn)換的語音中的至少一個與圖像數(shù)據(jù)同步。為此,媒體同步器166可確認各個數(shù)據(jù)的時間戳。所述時間戳被用于使在產(chǎn)生圖像數(shù)據(jù)的過程期間采集到的語音數(shù)據(jù)和文本數(shù)據(jù)中的至少一個與圖像數(shù)據(jù)的采集時間點同步。例如,時間戳可被等同地應用于當圖像數(shù)據(jù)被采集時所采集的語音數(shù)據(jù)和文本數(shù)據(jù),使得各個數(shù)據(jù)的時間點可彼此相應。
[0237]媒體同步器166可通過使被語音識別出的文本與圖像數(shù)據(jù)同步來產(chǎn)生與一幀相應的新圖像數(shù)據(jù),并可將新圖像數(shù)據(jù)傳送到第一網(wǎng)絡打包/解包支持器161。此外,媒體同步器166可使從文本轉(zhuǎn)換的語音數(shù)據(jù)與圖像數(shù)據(jù)同步以布置數(shù)據(jù)使得相應的語音數(shù)據(jù)被布置在與語音數(shù)據(jù)的時間戳相應的圖像幀,并可將所述數(shù)據(jù)傳送到第一網(wǎng)絡打包/解包支持器161。
[0238]同時,根據(jù)本發(fā)明的第三示例性實施例的用于運行通信服務的系統(tǒng)中的接收側(cè)終端200的第二控制器260可包括噪聲測量單元201、第二網(wǎng)絡打包/解包支持器261、第二網(wǎng)絡監(jiān)控器262、第二 113/311確定器263、第二 311管理器264、第二 113管理器265、圖像組合器266、第二語音處理器267、第二文本處理器268和第二視頻處理器269。當確定接收側(cè)終端200在與發(fā)送側(cè)終端100的協(xié)作期間根據(jù)網(wǎng)絡評估支持311服務和113服務中的至少一個服務時,具有上述構造的第二控制器260可與第二語音處理支持裝置500執(zhí)行連接。第二控制器260可使用存儲在第二存儲器250中的語音識別數(shù)據(jù)庫或語音轉(zhuǎn)換數(shù)據(jù)庫支持8X1服務和113服務中的至少一個。當確定發(fā)送側(cè)終端100支持311服務和113服務中的至少一個時,第二控制器260可從發(fā)送側(cè)終端100接收被語音識別出的文本或從文本轉(zhuǎn)換的語音數(shù)據(jù),并可單獨地或與圖像數(shù)據(jù)一起輸出接收到的文本或語音數(shù)據(jù)。
[0239]為了前述功能,第二網(wǎng)絡監(jiān)控器262可采集用于評估網(wǎng)絡的信息。例如,第二網(wǎng)絡監(jiān)控器262可采集包括接收狀態(tài)信息的網(wǎng)絡評估信息,其中,所述接收狀態(tài)信息用于確定是否由接收側(cè)終端200執(zhí)行311服務和113服務中的至少一個。例如,第二網(wǎng)絡監(jiān)控器262可采集包括第二語音處理支持裝置500與接收側(cè)終端200之間的數(shù)據(jù)傳輸延遲程度、數(shù)據(jù)傳輸速率和數(shù)據(jù)丟失率的接收狀態(tài)信息。為此,第二網(wǎng)絡監(jiān)控器262可將預設測試信號發(fā)送到第二語音處理支持裝置500,并可接收相應的反饋信號。此外,第二網(wǎng)絡監(jiān)控器262可將采集到的接收狀態(tài)信息與發(fā)送側(cè)終端100的接收狀態(tài)信息進行比較,以確定采集的接收狀態(tài)信息或發(fā)送側(cè)終端100的接收狀態(tài)信息是否極好。當設計發(fā)送側(cè)終端100將所述采集到的接收狀態(tài)信息與發(fā)送側(cè)終端100的接收狀態(tài)信息進行比較時,接收側(cè)終端200可從發(fā)送側(cè)終端100接收接收狀態(tài)信息的極好狀態(tài)。例如,接收側(cè)終端200可從發(fā)送側(cè)終端100接收針對與用于支持317服務或173服務的第二語音處理支持裝置500的連接的存在的確定。當接收到所述確定時,第二網(wǎng)絡監(jiān)控器262可將相應的信息傳送到第二 113/311確定器 263。
[0240]第二網(wǎng)絡打包/解包支持器261傳送和接收信號,使得第二網(wǎng)絡監(jiān)控器262可采集網(wǎng)絡估計信息。此外,第二網(wǎng)絡打包/解包支持器261可根據(jù)接收側(cè)終端200的第二語音處理支持裝置500的連接的存在,對從發(fā)送側(cè)終端100提供的信號進行解包,并可將解包后的信號傳送到第二 1^3/317確定器263、第二 173管理器265和第二 317管理器264。
[0241]詳細地講,當確定發(fā)送側(cè)終端100執(zhí)行第一語音處理支持裝置400的連接時,第二網(wǎng)絡打包/解包支持器261可接收從提供自發(fā)送側(cè)終端100的語音轉(zhuǎn)換的文本以及從文本轉(zhuǎn)換的語音數(shù)據(jù)。然后,第二網(wǎng)絡打包/解包支持器261可將從文本轉(zhuǎn)換的語音數(shù)據(jù)傳送到第二語音處理器267,并可將從語音轉(zhuǎn)換的文本傳送到第二文本處理器268。在這種情況下,第二網(wǎng)絡打包/解包支持器261可通過第二 317管理器265將語音數(shù)據(jù)傳送到第二文本處理器267,并可通過第二 317管理器264將文本傳送到第二文本處理器268。在該過程期間,第二了了3管理器265和第二 317管理器264可僅傳送文本和語音數(shù)據(jù),而不對信號進行單獨地處理。
[0242]同時,當接收側(cè)終端200執(zhí)行用于支持311服務或113服務的第二語音處理支持裝置500的連接時,第二網(wǎng)絡打包/解包支持器261可將接收到的文本傳送到第二 173管理器265。然后,第二 173管理器265可將文本轉(zhuǎn)換為語音并將語音傳送到第二語音處理器267。當接收側(cè)終端200執(zhí)行用于支持317服務或173服務的第二語音處理支持單元500的連接時,第二網(wǎng)絡打包/解包支持器261可將接收到的語音數(shù)據(jù)傳送到第二 317管理器264。然后,第二 317管理器264可將相應的語音數(shù)據(jù)傳送到第二語音處理支持裝置500,使得語音數(shù)據(jù)可被轉(zhuǎn)換為文本。轉(zhuǎn)換后的文本可被傳送到第二文本處理器268。如上所述,第二網(wǎng)絡打包/解包支持器261可根據(jù)發(fā)送側(cè)終端100的第一語音處理支持裝置400的連接的存在和接收側(cè)終端200的第二語音處理支持裝置500的連接的存在,不同地處理傳送到第二 317管理器264和第二 173管理器265的數(shù)據(jù)。
[0243]第二 173/317確定器263確定在接收側(cè)終端200對311服務和173服務的支持的存在。例如,第二 173/317確定器263可從第二網(wǎng)絡監(jiān)控器262接收用于支持317服務或I'丁3服務的網(wǎng)絡評估信息,并可基于網(wǎng)絡評估信息確定對相應服務的支持。第二 113/311'確定器263可根據(jù)用戶輸入確定對317服務或173服務的支持的存在。具體地講,當確定接收側(cè)終端200執(zhí)行第二語音處理支持裝置500的連接時,第二 173/317確定器263可控制第二 317管理器264和第二 173管理器265,使得相應服務的運行被請求。
[0244]噪聲測量單元201可激活第二麥克風231來采集接收側(cè)終端200的外部音頻信號,并可檢測包括在采集到的音頻信號中的噪聲測量值。檢測到的噪聲測量值可被傳送到第二 173/311'確定器263。為了測量噪聲,噪聲測量單元201可使用先前設計的濾波器,并可測量包括在除了語音信號頻段以外的頻段中的噪聲程度。第二 113/311確定器263可將從噪聲測量單元201提供的噪聲測量值與預設參考值進行比較,以自動確定是否執(zhí)行31'丁服務或173服務。
[0245]當從第二 113/311確定器263接收到執(zhí)行113服務的請求時,第二 113管理器265將從第二網(wǎng)絡打包/解包支持器261提供的文本傳送到第二語音處理支持裝置500,使得與所述文本相應的語音數(shù)據(jù)被轉(zhuǎn)換。此外,第二 1^3管理器265可將語音數(shù)據(jù)傳送到第二語音處理器267。同時,第二 113管理器265可進行控制,使得存儲在第二存儲器250中的用于支持113服務的語音轉(zhuǎn)換數(shù)據(jù)庫被使用。
[0246]當從第二 113/311確定器263接收到執(zhí)行311服務的請求時,第二 311管理器264可進行控制,使得從第二網(wǎng)絡打包/解包支持器261提供的語音數(shù)據(jù)被傳送到第二語音處理支持器500。此外,第二 311'管理器264可將從提供自第二語音處理支持器500的語音轉(zhuǎn)換的文本傳送到第二文本處理器268。在這種情況下,第二 317管理器264可進行控制,使得存儲在第二存儲器250中的語音識別數(shù)據(jù)庫被使用,以將從第二網(wǎng)絡打包/解包支持器261提供的語音數(shù)據(jù)轉(zhuǎn)換為文本。
[0247]第二語音處理器267可將從第二 113管理器265提供的語音數(shù)據(jù)轉(zhuǎn)換為可被輸出到揚聲器的信號格式。第二語音處理器267可將轉(zhuǎn)換后的語音信號傳送到揚聲器、耳機和另一語音信號輸出裝置。從第二語音處理器267輸出的語音信號可以是由發(fā)送側(cè)終端100的第一麥克風131采集的語音信號、和使用第二語音處理支持裝置500或存儲在第二存儲器250中的語音轉(zhuǎn)換數(shù)據(jù)庫從來自發(fā)送側(cè)終端100的文本轉(zhuǎn)換的語音信號。
[0248]第二文本處理器268可將從第二 STT管理器264提供的文本數(shù)據(jù)轉(zhuǎn)換為可被輸出到第二顯示單元240的文本圖像或字符的格式。第二文本處理器268可將轉(zhuǎn)換后的文本傳送到第二顯示單元240或圖像組合器266。從第二文本處理器268提供的文本可以是通過發(fā)送側(cè)終端100的文本創(chuàng)建器輸入的文本、或使用第二語音處理支持裝置500或存儲在第二存儲器250中的語音識別數(shù)據(jù)庫從提供自發(fā)送側(cè)終端100的語音信號轉(zhuǎn)換的文本。
[0249]第二視頻處理器269可對從第二網(wǎng)絡打包/解包支持器261提供的圖像數(shù)據(jù)進行處理并將其轉(zhuǎn)換為可被輸出到第二顯示單元240的格式。由第二視頻處理器269處理的圖像幀可被傳送到圖像組合器266。
[0250]圖像組合器266將從第二文本處理器268提供的文本與從第二視頻處理器269提供的圖像幀進行組合,并將組合的圖像幀傳送到第二顯示單元240。圖像組合器266可在將文本與圖像幀進行組合的過程期間執(zhí)行同步。為此,圖像組合器266可在傳送文本和圖像幀的同時接收相應數(shù)據(jù)的時間戳信息。
[0251]同時,本發(fā)明的前述示例性實施例已示出第一語音處理支持裝置400和第二語音處理支持裝置500作為一個元件。然而,本發(fā)明的示例性實施例不限于此。用于分別支持發(fā)送側(cè)終端100的STT服務和TTS服務的語音處理支持裝置可被單獨地提供,并且接收側(cè)終端200的第二語音處理支持裝置500可作為單個元件被提供以支持每個裝置。
[0252]圖18是示出根據(jù)本發(fā)明的第三示例性實施例的用于通信服務的操作方法的信號流程圖。為了便于描述,在關注TTS服務與STT服務之間的對STT服務的支持的同時將進行以下描述。
[0253]參照圖18,在根據(jù)本發(fā)明的第三示例性實施例的用于運行通信服務的方法中,在步驟1801,發(fā)送側(cè)終端100可將用于請求通話連接的消息發(fā)送到接收側(cè)終端200。為此,發(fā)送側(cè)終端100可通過輸入接收側(cè)終端200的電話號碼來產(chǎn)生消息,并通過通信系統(tǒng)300將相應的消息發(fā)送到接收側(cè)終端200。
[0254]當已接收到通話連接請求消息的接收側(cè)終端200接受通話連接時,在步驟1803,發(fā)送側(cè)終端100和接收側(cè)終端200可執(zhí)行用于STT運行的協(xié)作。在該過程期間,發(fā)送側(cè)終端100可采集與第一語音處理支持裝置400的第一接收狀態(tài)信息,并且接收側(cè)終端200可采集與第二語音處理支持裝置500的第二接收狀態(tài)信息。
[0255]當?shù)谝唤邮諣顟B(tài)信息好于第二接收狀態(tài)信息時,在步驟1805,發(fā)送側(cè)終端100可基于第一語音處理支持裝置400執(zhí)行STT服務。例如,在步驟1807,發(fā)送側(cè)終端100可識別由第一麥克風131采集的語音信號,并將識別出的語音信號轉(zhuǎn)換為第一文本,并可將第一文本傳送到接收側(cè)終端200。在步驟1807,發(fā)送側(cè)終端100還可將通過對由第一麥克風131采集的語音信號進行處理而獲得的語音數(shù)據(jù)發(fā)送到接收側(cè)終端200。
[0256]同時,當?shù)诙邮諣顟B(tài)信息好于第一接收狀態(tài)信息時,發(fā)送終端100省略步驟1805,并可在步驟1807將通過對由第一麥克風采集的語音信號進行處理而獲得的語音數(shù)據(jù)發(fā)送到接收側(cè)終端200。然后,在步驟1809,接收側(cè)終端200可基于第二語音處理支持裝置500識別從發(fā)送終端100提供的語音數(shù)據(jù),并將識別出的語音數(shù)據(jù)轉(zhuǎn)換為第二文本。
[0257]同時,當在步驟1811從發(fā)送側(cè)終端100接收到第一文本時,接收側(cè)終端200將第一文本輸出到第二顯示單元240。當基于第二語音處理支持器500產(chǎn)生了第二文本時,接收側(cè)終端200可將第二文本輸出到第二顯示單元240。在步驟1813,接收側(cè)終端200可將通過文本創(chuàng)建器創(chuàng)建的文本發(fā)送到發(fā)送側(cè)終端100。
[0258]根據(jù)本發(fā)明的第三示例性實施例的運行通信服務的方法根據(jù)發(fā)送側(cè)終端100和接收側(cè)終端200的語音處理支持裝置之間的接收狀態(tài),使用特定終端側(cè)的語音處理支持裝置。然而,在根據(jù)本發(fā)明的示例性實施例的運行通信服務的方法中,發(fā)送側(cè)終端100可將基于語音處理支持裝置400產(chǎn)生的第一文本和與第一麥克風131采集的語音信號相應的語音數(shù)據(jù)兩者發(fā)送到接收側(cè)終端200。此外,接收側(cè)終端200可識別從發(fā)送側(cè)終端100提供的語音數(shù)據(jù)以產(chǎn)生第二數(shù)據(jù),并可將第一文本和第二文本中的至少一個輸出到第二顯示單元240。
[0259]因此,根據(jù)本發(fā)明的示例性實施例的運行通信服務的方法可在對于語音識別低可靠度的環(huán)境中運行兩個語音處理支持裝置,使得發(fā)送側(cè)終端100的用戶可準確地識別出將被傳送的信息。
[0260]圖19是示出根據(jù)本發(fā)明的第三示例性實施例的由接收側(cè)終端運行通信服務的方法的流程圖。例如,圖19是示出根據(jù)本發(fā)明的第三示例性實施例的在運行通信服務的過程期間運行接收側(cè)終端的311服務的方法的流程圖。
[0261]參照圖19,接收側(cè)終端200可首先從發(fā)送側(cè)終端100接收預設測試信號或語音數(shù)據(jù)。然后,在步驟1901,接收側(cè)終端200可使用第二語音處理支持裝置500識別接收到的語音數(shù)據(jù)。在這種情況下,接收側(cè)終端200基于第二語音處理支持裝置500提取語音數(shù)據(jù)的語音時間戳信息^和被語音識別出的文本的文本時間戳信息&。
[0262]接下來,在步驟1903,接收側(cè)終端200從文本時間戳信息3丨減去語音時間戳信息巧,并確定相減結果是否大于預設參考值!'8。參考值!'8可以是基于第一語音處理支持裝置400由發(fā)送側(cè)終端100從被語音識別出的文本時間戳信息義減去語音時間戳信息巧而獲得的值,并且針對第一語音處理支持裝置400的語音識別結果的可靠度值可被進一步反映在該參考值18上。例如,在步驟1903,接收側(cè)終端200可確定發(fā)送側(cè)終端100的語音數(shù)據(jù)的語音識別處理是否極好。
[0263]當減法結果小于參考值18時,例如,當使用第一語音的發(fā)送側(cè)終端10的語音識別處理比接收側(cè)終端200的語音識別處理更快時,接收側(cè)終端200可進行指導,使得在步驟1905,發(fā)送側(cè)終端100執(zhí)行317服務。為此,接收側(cè)終端200可發(fā)送請求發(fā)送側(cè)終端100識別語音數(shù)據(jù)的消息,并將文本發(fā)送到發(fā)送側(cè)終端100。
[0264]同時,當在步驟1903,相減結果大于參考值18時,例如,當使用第二語音處理支持裝置500的接收側(cè)終端200的語音識別處理好于使用第一語音處理支持裝置400的發(fā)送側(cè)終端100的語音識別處理時,在步驟1907,接收側(cè)終端2000可確定丟包率?I是否大于第一預設參考值邛以及傳輸延遲程度是否大于第二預設參考值!'1例如,接收側(cè)終端200可確定第二語音處理支持裝置500的接收狀態(tài)是否極好,其中,所述接收狀態(tài)大于預設參考值。在該步驟中,當丟包率和傳輸延遲程度低于參考值時,在步驟1909,接收側(cè)終端200可進行控制,使得對從發(fā)送側(cè)終端100提供的語音數(shù)據(jù)的識別基于第二語音處理支持裝置500被執(zhí)行。當丟包率和傳輸延遲程度小于參考值時,在步驟1911,接收側(cè)終端200可基于存儲在第二存儲器250中的語音識別數(shù)據(jù)庫識別語音數(shù)據(jù)。
[0265]接收側(cè)終端200可以以預定周期或?qū)崟r地檢查與第二語音處理支持裝置500的接收狀態(tài)。因此,接收側(cè)終端200可基于存儲在第二存儲器250中的語音識別數(shù)據(jù)庫自適應地執(zhí)行內(nèi)部語音識別過程,并根據(jù)網(wǎng)絡狀態(tài)基于第二語音處理支持裝置500自適應地執(zhí)行內(nèi)部語音識別過程。
[0266]同時,當根據(jù)通信服務連接協(xié)作結果選擇了第一語音處理支持裝置400或第二語音處理支持裝置500中的一個時,根據(jù)本發(fā)明的第三示例性實施例的用于運行通信服務的屏幕界面可以是圖9至圖12中示出的屏幕界面和圖16中示出的屏幕界面之一。例如,當?shù)谝徽Z音處理支持裝置400被用于支持STT服務和TTS服務中的至少一個時,圖9至圖12中示出的屏幕界面可從發(fā)送側(cè)終端和接收側(cè)終端來提供。此外,當?shù)诙Z音處理支持裝置500被用于支持STT服務和TTS服務中的至少一個時,圖16中示出的屏幕界面可被提供給接收側(cè)終端。
[0267]圖20是示出根據(jù)本發(fā)明的示例性實施例的根據(jù)STT服務和TTS服務的同時操作的發(fā)送側(cè)終端和接收側(cè)終端的屏幕界面的示例的示圖。
[0268]參照圖20,當從發(fā)送側(cè)終端100接收到特定類型的通信服務請求時,接收側(cè)終端200可根據(jù)用戶操作接受特定類型的通信服務連接。具體地講,接收側(cè)終端200可提供能夠選擇STT服務和TTS服務中的至少一個的屏幕界面。當用戶選擇激活STT服務和TTS服務時,接收側(cè)終端200可運行STT服務和TTS服務。在該過程期間,當?shù)谝徽Z音處理支持裝置400被設計或確定為被使用以便運行STT服務時,接收側(cè)終端200可向發(fā)送側(cè)終端100請求運行STT服務。當?shù)谝徽Z音處理支持裝置400被設計或確定為被使用以便操作TTS服務時,接收側(cè)終端200可向發(fā)送側(cè)終端100傳送請求運行TTS服務的消息,當STT服務和TTS服務基于第二語音處理支持裝置500和存儲在第二存儲器250中的數(shù)據(jù)庫被執(zhí)行時,接收側(cè)終端200可不向發(fā)送側(cè)終端100單獨請求服務運行。
[0269]同時,接收側(cè)終端200可在第二顯示單元240的一側(cè)輸出用于支持STT服務的接收側(cè)STT服務輸出區(qū)域2010以及用于支持TTS服務的接收側(cè)TTS服務輸出區(qū)域2020。因此,接收側(cè)終端200的用戶可將從發(fā)送側(cè)終端100提供的文本輸出到接收側(cè)STT服務輸出區(qū)域2010。輸出到接收側(cè)STT服務輸出區(qū)域2010的文本可以是發(fā)送側(cè)終端100基于第一語音處理支持裝置400和存儲在第一存儲器150中的數(shù)據(jù)庫的語音識別結果,或者是接收側(cè)終端200基于第二語音處理支持裝置500和存儲在第二存儲器250中的數(shù)據(jù)庫的語音識別結果。
[0270]如上所述,接收側(cè)終端100可將用戶輸入的文本輸出到接收側(cè)TTS服務輸出區(qū)域2020,以支持TTS服務。在這種情況下,接收側(cè)終端200可在用于輸入文本的第二顯示單元240的一側(cè)輸出文本創(chuàng)建器2411。在這種情況下,當完成了文本輸入時,接收側(cè)終端200可從第二顯示單元240移除文本創(chuàng)建器2011。在畫面2011中僅安排內(nèi)容被顯示在接收側(cè)STT服務輸出區(qū)域2010和接收側(cè)TTS服務輸出區(qū)域2020,但發(fā)送側(cè)終端100和另外收發(fā)的信息可根據(jù)文本創(chuàng)建器2411的顯示和移除而被進一步顯示。例如,當文本創(chuàng)建器2411可輸出在第二顯示單元2400上時,接收側(cè)終端200考慮畫面尺寸而將最近收發(fā)的信息輸出到接收側(cè)STT服務輸出區(qū)域2010和接收側(cè)TTS服務輸出區(qū)域2020。當從第一顯示單元240移除了文本創(chuàng)建器2411時,接收側(cè)終端200可支持屏幕尺寸調(diào)整和顯示格式改變,使得預定數(shù)量的收發(fā)的信息被輸出到接收側(cè)STT服務輸出區(qū)域2010和接收側(cè)TTS服務輸出區(qū)域2020中的至少一個。
[0271]同時,發(fā)送側(cè)終端100可在不單獨輸出文本的情況下支持基于語音輸入的通信服務。然而,如畫面2003中所示,發(fā)送側(cè)終端100可在第一顯示單元140上提供發(fā)送側(cè)STT服務輸出區(qū)域2030和發(fā)送側(cè)TTS服務輸出區(qū)域2040,使得根據(jù)用戶請求或終端設置而提供的服務內(nèi)容可被確認。因此,發(fā)送側(cè)終端100的用戶可確認發(fā)送到接收側(cè)終端200的哪些文本語音輸入被傳送。輸出到發(fā)送側(cè)STT服務輸出區(qū)域2030的文本可以是基于第一語音處理支持裝置400和存儲在第一存儲器150中的數(shù)據(jù)庫而產(chǎn)生的文本或從接收側(cè)終端200反饋的文本之一。發(fā)送側(cè)終端100的用戶可通過發(fā)送側(cè)TTS服務輸出區(qū)域2040另外確認接收側(cè)終端200的用戶接收到哪些文本輸入。發(fā)送側(cè)STT服務輸出區(qū)域2030和發(fā)送側(cè)TTS服務輸出區(qū)域2040可根據(jù)用戶設置被移除。當用戶將終端移動到距臉頰或耳朵預定距離處時,發(fā)送側(cè)STT服務輸出區(qū)域2030和發(fā)送側(cè)TTS服務輸出區(qū)域2040可被自動移除。為了對于終端的接近識別,發(fā)送側(cè)終端100可操作照明傳感器或接近傳感器。
[0272]如上所述,根據(jù)本發(fā)明的示例性實施例的運行通信服務的方法可在通信服務的運行過程中根據(jù)用戶的各種環(huán)境來自適應地運行服務。因此,用戶可根據(jù)用戶的通信服務環(huán)境來選擇合適方案的通信服務,使得信息可被準確地傳送并且丟失信息的概率或誤解的概率可被降低。
[0273]前述發(fā)送側(cè)終端和接收側(cè)終端可根據(jù)提供形式而進一步包括各種另外的模塊。例如,當終端是通信終端時,它可包括沒有提到的構造,諸如用于近場通信的近場通信模塊、以終端的有線通信方案或無線通信方案交換數(shù)據(jù)的接口、與互聯(lián)網(wǎng)進行通信以執(zhí)行互聯(lián)網(wǎng)功能的互聯(lián)網(wǎng)通信模塊、以及接收并廣播數(shù)字廣播的數(shù)字廣播模塊。因為結構元件可根據(jù)數(shù)字裝置的融合趨勢而被各種改變,因此沒有列出元件。然而,便攜式終端可包括與前述結構元件等同的結構元件。此外,根據(jù)本發(fā)明的示例性實施例的終端可根據(jù)提供形式或另一結構而被前述布置中的特定構造替代。這對于本領域技術人員而言可被容易理解。例如,根據(jù)本發(fā)明的示例性實施例的終端可包括信息通信裝置和多媒體裝置,諸如便攜式多媒體播放器(PMP)、數(shù)字廣播播放器、個人數(shù)字助理(PDA)、音樂播放器(例如,MP3播放器)、便攜式游戲終端、智能電話、筆記本計算機和手持個人計算機(PC)以及與各種通信系統(tǒng)相應的各種移動通信終端。
[0274]如上所述,基于根據(jù)本發(fā)明的示例性實施例的用于運行通信服務的方法和系統(tǒng),本發(fā)明可通過根據(jù)用戶的通信服務運行環(huán)境提供合適的內(nèi)容傳送功能,針對狀況或環(huán)境改善通信環(huán)境不足,從而提供極好的信息傳送性能。
[0275]本發(fā)明可被總結為以下幾條:
[0276]一種用于運行通信服務的系統(tǒng),所述系統(tǒng)包括:發(fā)送側(cè)終端,用于請求連接通信服務,用于接收關于另一方的輸入/輸出模式的信息,用于在通信服務被連接之后根據(jù)接收的所述另一方的輸入/輸出模式來轉(zhuǎn)換用戶輸入數(shù)據(jù)和從所述另一方接收到的數(shù)據(jù),或者通過將數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換用戶輸入數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù),用于輸出與接收到的數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù),以及用于發(fā)送與用戶輸入數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù);
[0277]接收側(cè)終端,用于接收根據(jù)對連接通信服務的請求的通信服務連接接受請求,用于當通信服務連接接受請求被接受時,使用預設輸入/輸出模式或用戶確定的輸入/輸出模式中的至少一種輸入/輸出模式來啟動通信服務,用于將關于輸入/輸出模式的信息發(fā)送到發(fā)送側(cè),用于顯示從發(fā)送側(cè)接收的轉(zhuǎn)換數(shù)據(jù),以及用于發(fā)送用戶輸入數(shù)據(jù);
[0278]語音處理支持裝置,用于提供將輸入的語音數(shù)據(jù)作為文本數(shù)據(jù)提供的語音轉(zhuǎn)文本(811)服務和用于將文本轉(zhuǎn)換為語音數(shù)據(jù)的文本轉(zhuǎn)語音(113)服務中的至少一個服務。
[0279]如條款1所述的系統(tǒng),其中,接收側(cè)終端被布置為基于網(wǎng)絡評估信息、發(fā)送側(cè)終端的外部環(huán)境信息和接收側(cè)終端的外部環(huán)境信息中的至少一個,請求自動運行語音轉(zhuǎn)文本(811)服務和文本轉(zhuǎn)語音(113)服務中的至少一個服務,其中,語音轉(zhuǎn)文本服務(311)提供基于語音識別的文本,文本轉(zhuǎn)語音(113)服務將文本轉(zhuǎn)換為語音數(shù)據(jù),網(wǎng)絡評估信息包括在發(fā)送側(cè)終端和接收側(cè)終端之間收發(fā)的數(shù)據(jù)包的丟失率和傳輸延遲程度中的至少一個。
[0280]如條款2所述的系統(tǒng),其中,外部環(huán)境信息包括:發(fā)送側(cè)終端和接收側(cè)終端中的至少一個的外部噪聲信息、移動信息、位置信息、照明信息和當前時間信息中的至少一個。
[0281]如條款1所述的系統(tǒng),其中,接收側(cè)終端形成以下信道中的至少一個:在與發(fā)送側(cè)終端形成聊天服務信道的狀態(tài)下用于支持317服務和173服務中的至少一個服務的單獨信道,以及在圖像通話服務信道被形成的狀態(tài)下用于支持311服務和113服務中的至少一個服務的單獨信道。
[0282]如條款4所述的系統(tǒng),其中,接收側(cè)終端被布置為從提供自發(fā)送側(cè)終端的數(shù)據(jù)提取當與產(chǎn)生的文本相應的語音信號被采集時所采集的時間戳信息和當語音信號被采集時針對圖像通話服務所采集的圖像數(shù)據(jù)的時間戳信息,以使文本與圖像數(shù)據(jù)同步
[0283]如條款1所述的系統(tǒng),其中,接收側(cè)終端包括:第二存儲器,包括識別采集的語音信號的語音識別數(shù)據(jù)庫和將輸入文本轉(zhuǎn)換為語音的語音轉(zhuǎn)換數(shù)據(jù)庫中的至少一個數(shù)據(jù)庫。
[0284]如條款6所述的系統(tǒng),其中,接收側(cè)終端被布置為進行控制,使得311服務和173服務中的至少一個服務根據(jù)語音處理支持裝置的連接狀態(tài)和用戶操作中的至少一個而被運行。
[0285]如條款1所述的系統(tǒng),其中,接收側(cè)終端包括:第二顯示單元,包括以下項中的至少一項:
[0286]彈出窗口,在通信連接請求被接收時從語音轉(zhuǎn)文本(311)服務和文本轉(zhuǎn)語音(118)服務選擇至少一個服務,其中,語音轉(zhuǎn)文本服務(311)提供基于語音識別的文本,文本轉(zhuǎn)語音(113)服務將文本轉(zhuǎn)換為語音數(shù)據(jù);
[0287]畫面包括用于輸出從發(fā)送側(cè)終端提供的文本的區(qū)域和用于輸出通過文本創(chuàng)建器輸入的文本的區(qū)域中的至少一個區(qū)域,其中,所述文本創(chuàng)建器用于創(chuàng)建文本。
[0288]一種用于運行通信服務的方法,所述方法包括:
[0289]發(fā)送通信服務連接請求;
[0290]根據(jù)當輸入/輸出模式先前被設置時或當通信服務連接請求被接受時由用戶確定的輸入/輸出模式來設置輸入/輸出模式;
[0291]接收針對通信服務連接請求的接受和關于另一方的輸入/輸出模式的信息;
[0292]接收用戶輸入數(shù)據(jù);
[0293]根據(jù)接收到的用戶輸入數(shù)據(jù)的類型和輸入/輸出模式,轉(zhuǎn)換接收到的用戶輸入數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的用戶輸入數(shù)據(jù)的語音處理支持裝置來接收和發(fā)送經(jīng)過轉(zhuǎn)換的數(shù)據(jù);
[0294]從另一方接收數(shù)據(jù);
[0295]根據(jù)接收到的數(shù)據(jù)的類型和用戶確定的輸入/輸出模式,轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收并顯示經(jīng)過轉(zhuǎn)換的數(shù)據(jù)。
[0296]如條款9所述的方法,其中,設置輸入/輸出模式的步驟包括:
[0297]采集網(wǎng)絡評估信息、發(fā)送側(cè)終端的外部環(huán)境信息和接收側(cè)終端的外部環(huán)境信息中的至少一個,其中,網(wǎng)絡評估信息包括在執(zhí)行通信服務連接請求的發(fā)送側(cè)終端和接收通信服務連接請求的接收側(cè)終端之間收發(fā)的數(shù)據(jù)包的丟失率和傳輸延遲程度中的至少一個。
[0298]由接收側(cè)終端請求運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務,其中,STT服務提供基于語音識別的文本,TTS服務基于所述信息將文本轉(zhuǎn)換為語音數(shù)據(jù)。
[0299]如條款10所述的系統(tǒng),其中,外部環(huán)境信息包括:發(fā)送側(cè)終端和接收側(cè)終端中的至少一個的外部噪聲信息、移動信息、位置信息、照明信息和當前時間信息中的至少一個。
[0300]如條款9所述的方法,還包括以下步驟中的至少一個:
[0301]由接收通信服務連接請求的接收側(cè)終端在與發(fā)送側(cè)終端形成聊天服務信道的狀態(tài)下形成用于支持語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務的單獨信道,其中,語音轉(zhuǎn)文本服務(STT)提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù);
[0302]由接收側(cè)終端在圖像通話服務信道被形成的狀態(tài)下形成用于支持STT服務和TTS服務中的至少一個服務的單獨信道,其中,STT提供基于語音識別的文本,TTS服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
[0303]如條款12所述的方法,還包括:
[0304]由接收側(cè)終端從提供自發(fā)送側(cè)終端的數(shù)據(jù)提取當與產(chǎn)生的文本相應的語音信號被采集時所采集的時間戳信息和當語音信號被采集時針對圖像通話服務所采集的圖像數(shù)據(jù)的時間戳信息;
[0305]由接收側(cè)終端使文本與圖像數(shù)據(jù)同步。
[0306]如條款9所述的方法,還包括:由接收通信服務連接請求的接收側(cè)終端使用存儲在第二存儲器中的語音識別數(shù)據(jù)庫和語音轉(zhuǎn)換數(shù)據(jù)庫執(zhí)行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務,其中,語音轉(zhuǎn)文本服務(STT)將與語音信號相應的語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),文本轉(zhuǎn)語音(TTS)服務將文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)。
[0307]如條款14所述的方法,還包括:進行控制,使得基于語音識別數(shù)據(jù)庫的STT服務和基于語音轉(zhuǎn)換數(shù)據(jù)庫的TTS服務中的至少一個服務根據(jù)語音處理支持裝置的連接狀態(tài)和用戶操作中的至少一個被運行。
[0308]如條款12所述的方法,還包括以下步驟中的至少一個:
[0309]顯示彈出窗口,其中,所述彈出窗口用于在通話連接請求被接收時從語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務選擇至少一個服務,其中,語音轉(zhuǎn)文本(STT)服務將語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),文本轉(zhuǎn)語音(TTS)服務將文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù);
[0310]顯示指導語音處理支持裝置的連接的畫面;
[0311]顯示包括用于輸出輸入的文本的區(qū)域和用于輸出根據(jù)STT服務的運行而產(chǎn)生的文本的區(qū)域中的至少一個區(qū)域的畫面。盡管已參照本發(fā)明的特定示例性實施例顯示并描述了本發(fā)明,但本領域技術人員將理解,在不脫離權利要求及其等同物限定的本發(fā)明的范圍的情況下,可在此進行形式和細節(jié)上的各種改變。
【權利要求】
1.一種用于運行通信服務的系統(tǒng),所述系統(tǒng)包括: 發(fā)送側(cè)終端,用于請求連接通信服務,并且用于在通信服務被連接之后根據(jù)預設輸入/輸出模式和用戶確定的輸入/輸出模式中的至少一種輸入/輸出模式來轉(zhuǎn)換接收數(shù)據(jù)或用戶輸入數(shù)據(jù); 接收側(cè)終端,用于接收根據(jù)對連接通信服務的請求的通信服務連接接受請求,用于當通信服務連接接受請求被接受時,使用預設輸入/輸出模式和用戶確定的輸入/輸出模式中的所述一種輸入/輸出模式來啟動通信服務,用于根據(jù)接收數(shù)據(jù)的類型和輸入/輸出模式來轉(zhuǎn)換接收數(shù)據(jù)和用戶輸入數(shù)據(jù)或者通過將用戶輸入數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換用戶輸入數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù),用于顯示與接收數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù),以及用于發(fā)送與用戶輸入數(shù)據(jù)相應的轉(zhuǎn)換數(shù)據(jù); 語音處理支持裝置,用于將輸入的語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)并且用于輸出轉(zhuǎn)換后的文本數(shù)據(jù),或者用于將輸入的文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)以輸出經(jīng)過轉(zhuǎn)換的語音數(shù)據(jù)。
2.如權利要求1所述的系統(tǒng),其中,發(fā)送側(cè)終端被布置為根據(jù)輸入/輸出模式將請求運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務的消息發(fā)送到接收側(cè)終端,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
3.如權利要求1所述的系統(tǒng),其中,接收側(cè)終端被布置為當通信服務連接請求從發(fā)送側(cè)終端被接收時,根據(jù)輸入/輸出模式向發(fā)送側(cè)終端請求運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
4.如權利要求1所述的系統(tǒng),其中,發(fā)送側(cè)終端和接收側(cè)終端中的至少一個終端被布置為基于網(wǎng)絡評估信息、發(fā)送側(cè)終端的外部環(huán)境信息和接收側(cè)終端的外部環(huán)境信息中的至少一個信息來請求自動運行語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù),網(wǎng)絡評估信息包括發(fā)送側(cè)終端和接收側(cè)終端之間收發(fā)的數(shù)據(jù)包的丟失率和傳輸延遲程度中的至少一個。
5.如權利要求4所述的系統(tǒng),其中,夕卜部環(huán)境信息包括以下信息中的至少一個信息:發(fā)送側(cè)終端和接收側(cè)終端中的至少一個的外部噪聲信息、移動信息、位置信息、照明信息和當前時間信息。
6.如權利要求1所述的系統(tǒng),其中,在聊天服務信道被形成的狀態(tài)下,發(fā)送側(cè)終端和接收側(cè)終端形成用于支持語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務的單獨信道,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
7.如權利要求1所述的系統(tǒng),其中,在圖像通話服務信道被形成的狀態(tài)下,發(fā)送側(cè)終端和接收側(cè)終端形成用于支持語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務的單獨信道,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
8.如權利要求7所述的系統(tǒng),其中,發(fā)送側(cè)終端被布置為把將被發(fā)送用于支持圖像通話服務的圖像數(shù)據(jù)與基于STT服務的運行而產(chǎn)生的文本進行組合,并將組合的數(shù)據(jù)發(fā)送到接收側(cè)終端。
9.如權利要求8所述的系統(tǒng),其中,發(fā)送側(cè)終端被布置為使用當與產(chǎn)生的文本相應的語音信號被采集時所采集的時間戳信息和當語音信號被采集時所采集的圖像數(shù)據(jù)的時間戳信息,使文本與圖像數(shù)據(jù)同步。
10.如權利要求8所述的系統(tǒng),其中,發(fā)送側(cè)終端被布置為進行控制,使得在通過識別新輸入的語音信號而獲得的文本之前的預定時間期間將先前被語音識別出的文本與圖像數(shù)據(jù)同步,并且發(fā)送側(cè)終端被布置為進行控制,使得當被語音識別出的文本被輸入時的輸入文本與圖像數(shù)據(jù)同步。
11.如權利要求1所述的系統(tǒng),其中,發(fā)送側(cè)終端包括:第一存儲器,包括識別采集的語音信號的語音識別數(shù)據(jù)庫和將輸入文本轉(zhuǎn)換為語音的語音轉(zhuǎn)換數(shù)據(jù)庫中的至少一個數(shù)據(jù)庫。
12.如權利要求11所述的系統(tǒng),其中,發(fā)送側(cè)終端被布置為進行控制,使得語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務中的至少一個服務根據(jù)語音處理支持裝置的連接狀態(tài)和用戶操作中的至少一個而被運行,其中,語音轉(zhuǎn)文本(STT)服務基于語音識別數(shù)據(jù)庫而將語音提供為文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù)。
13.如權利要求1所述的系統(tǒng),其中,發(fā)送側(cè)終端包括:第一顯示單元,包括以下項中的至少一項: 彈出窗口,用于從語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務選擇至少一個服務,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù); 用于根據(jù)STT服務的操作來指導語音處理支持裝置的連接的畫面; 包括用于輸出被語音識別出的文本的區(qū)域和用于輸出由接收側(cè)終端創(chuàng)建和發(fā)送的文本的區(qū)域中的至少一個區(qū)域的畫面。
14.如權利要求1所述的系統(tǒng),其中,接收側(cè)終端包括:第二顯示單元,包括以下項中的至少一項: 彈出窗口,用于當通話連接請求被接收時從語音轉(zhuǎn)文本(STT)服務和文本轉(zhuǎn)語音(TTS)服務選擇至少一個服務,其中,語音轉(zhuǎn)文本(STT)服務提供基于語音識別的文本,文本轉(zhuǎn)語音(TTS)服務將文本轉(zhuǎn)換為語音數(shù)據(jù); 包括用于輸出從發(fā)送側(cè)終端提供的文本的區(qū)域和用于輸出通過文本創(chuàng)建器輸入的文本的區(qū)域中的至少一個區(qū)域的畫面,其中,文本創(chuàng)建器用于創(chuàng)建文本。
15.一種運行通信服務的方法,所述方法包括: 接收通信服務連接請求; 通過接受通信服務連接請求來形成通信路徑; 根據(jù)當輸入/輸出模式先前被設置時或當通信服務連接請求被接受時由用戶確定的輸入/輸出模式來設置輸入/輸出模式; 從另一方接收數(shù)據(jù); 根據(jù)接收到的數(shù)據(jù)的類型和輸入/輸出模式,轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收并顯示經(jīng)過轉(zhuǎn)換的數(shù)據(jù); 接收用戶輸入數(shù)據(jù); 根據(jù)接收到的數(shù)據(jù)的類型和輸入/輸出模式,轉(zhuǎn)換接收到的數(shù)據(jù),或者通過將接收到的數(shù)據(jù)發(fā)送到用于轉(zhuǎn)換接收到的數(shù)據(jù)的語音處理支持裝置來接收經(jīng)過轉(zhuǎn)換的數(shù)據(jù),并將經(jīng)過轉(zhuǎn)換的數(shù)據(jù)發(fā)送到所述另一方。
【文檔編號】H04M3/42GK104285428SQ201380024592
【公開日】2015年1月14日 申請日期:2013年5月7日 優(yōu)先權日:2012年5月8日
【發(fā)明者】姜相機, 高禎完, 孔冀春, 金炅泰, 李相勛 申請人:三星電子株式會社