專利名稱:一種語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字電視技術(shù)領(lǐng)域,尤其涉及一種語音服務(wù)方法、系統(tǒng)及數(shù)字電視接
收終端和前端設(shè)備。
背景技術(shù):
隨著數(shù)字電視技術(shù)的迅猛發(fā)展,越來越多的家庭開始使用雙向數(shù)字電視接收終 端。雙向數(shù)字電視接收終端有一種很普遍的功能就是支持用戶通過數(shù)字電視瀏覽網(wǎng)頁。但 是很多電視的分辨率等性能還是較低,若用于上網(wǎng),時間長了用戶的眼睛難免會感到疲憊。 基于上述原因,部分終端生產(chǎn)廠家在數(shù)字電視接收終端上增加了朗讀功能,可以將網(wǎng)頁文 本轉(zhuǎn)化成語音朗讀出來。 目前數(shù)字電視接收終端上實現(xiàn)網(wǎng)頁朗讀功能的還比較少,現(xiàn)有的實現(xiàn)方案一般是 在數(shù)字電視接收終端集成相關(guān)語音引擎、載入相關(guān)資源包,將文本轉(zhuǎn)成語音數(shù)據(jù),然后播 放。 發(fā)明人在實施本發(fā)明的過程中發(fā)明,現(xiàn)有的在數(shù)字電視接收終端上實現(xiàn)網(wǎng)頁朗讀 功能的方案存在明顯缺點 現(xiàn)有的實現(xiàn)方案中數(shù)字電視接收終端不僅需要集成語音引擎,將資源包燒到閃存 (Flash)中,而且需要支持語音數(shù)據(jù)(如脈沖編碼調(diào)制數(shù)據(jù)(PCM,pulsecode modulation)、 動態(tài)景》像專家壓縮標準音頻層面3文件(MP3,Moving PictureExperts Group Audio Layer 3)等注入,即需要相應(yīng)的解碼器支持。 但是,數(shù)字電視接收終端Flash空間有限,載入資源包會浪費大量空間,而且對語 音質(zhì)量要求越高,資源包越大,需要占用的Flash空間也越大,對于機頂盒這種資源非常有 限的嵌入式系統(tǒng)來說,這無疑是個很大的弊端。不僅如此,資源包燒到Flash中是不可能輕 易改變,導(dǎo)致播音等處理不夠靈活,用戶選擇的機會少,給用戶的使用體驗不佳。
發(fā)明內(nèi)容
本發(fā)明提供一種語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備,可以充分 利用前端資源優(yōu)勢,使數(shù)字電視接收終端的朗讀網(wǎng)頁功能消耗終端資源減到最小,同時提 供更好的用戶體驗。 本發(fā)明提供的數(shù)字電視接收終端語音服務(wù)方法,該方法包括
數(shù)字電視接收終端獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù); 數(shù)字電視接收終端將所述純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并向前端設(shè)備發(fā)送所述語 音數(shù)據(jù); 數(shù)字電視接收終端接收所述前端設(shè)備發(fā)送的音頻流;所述音頻流為前端設(shè)備根據(jù) 其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流;
數(shù)字電視接收終端將音頻流解碼為音頻電信號并進行播放。 同時,本發(fā)明提供對應(yīng)的數(shù)字電視接收終端和前端設(shè)備,該數(shù)字電視接收終端包括 網(wǎng)頁處理模塊,用于確定需要朗讀的網(wǎng)頁,獲取該網(wǎng)頁的純文本數(shù)據(jù); 語音轉(zhuǎn)換模塊,用于將所述網(wǎng)頁處理模塊獲取的純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并
向前端設(shè)備發(fā)送所述語音數(shù)據(jù); 音頻接收模塊,用于接收所述前端設(shè)備發(fā)送的音頻流,所述音頻流為前端設(shè)備根 據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流;
語音朗讀模塊,用于將音頻流解碼為音頻電信號并播放。
該前端設(shè)備包括 語音資源庫,用于存儲配置信息;所述配置信息包括各種基本音頻、各種語音數(shù) 據(jù)的音頻合成算法; 音頻合成模塊,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻 流; 交互模塊,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)轉(zhuǎn)發(fā)給所述音頻合成模塊
處理;將所述音頻合成模塊合成的音頻流發(fā)送給數(shù)字電視接收終端;根據(jù)數(shù)字電視接收終
端的請求發(fā)送相應(yīng)的網(wǎng)頁數(shù)據(jù)給數(shù)字電視接收終端。 對應(yīng)的,本發(fā)明還提供一種語音服務(wù)系統(tǒng),該系統(tǒng)包括 前端設(shè)備,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻流; 數(shù)字電視接收終端,用于獲取網(wǎng)頁的純文本數(shù)據(jù),將其轉(zhuǎn)換為語音數(shù)據(jù)后發(fā)送給
前端設(shè)備;接收所述前端設(shè)備發(fā)送的音頻流,將其解碼為音頻電信號并播放。 實施本發(fā)明提供的語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備,可以充
分利用前端資源優(yōu)勢,使數(shù)字電視接收終端的朗讀網(wǎng)頁功能消耗終端資源減到最小,同時
提供更好的用戶體驗。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的語音服務(wù)方法第一實施例流程示意圖;
圖2為本發(fā)明提供的語音服務(wù)方法第二實施例流程示意圖;
圖3為本發(fā)明提供的語音服務(wù)系統(tǒng)實施例結(jié)構(gòu)示意圖;
圖4為本發(fā)明提供的數(shù)字電視接收終端第一實施例結(jié)構(gòu)示意圖;
圖5為本發(fā)明提供的數(shù)字電視接收終端第二實施例結(jié)構(gòu)示意圖;
圖6為本發(fā)明提供的前端設(shè)備實施例結(jié)構(gòu)示意圖。
具體實施例方式
本發(fā)明提供的語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備,可以充分利 用前端資源優(yōu)勢,使數(shù)字電視接收終端的朗讀網(wǎng)頁功能消耗終端資源減到最小,同時提供 更好的用戶體驗。
參見圖1,為本發(fā)明提供的語音服務(wù)方法第一實施例流程示意圖 在步驟100,數(shù)字電視接收終端獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù)。 在步驟101,數(shù)字電視接收終端將純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)。 在步驟102,數(shù)字電視接收終端向前端設(shè)備發(fā)送由純文本數(shù)據(jù)轉(zhuǎn)換得到的語音數(shù)據(jù)。 在步驟103,前端設(shè)備根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音 頻數(shù)據(jù)后,分組封裝形成音頻流,發(fā)送給數(shù)字電視接收終端。 在步驟104,數(shù)字電視接收終端接收前端設(shè)備發(fā)送的音頻流,解碼為音頻電信號, 并進行播放。
在本實施例中,所述數(shù)字電視接收終端包括機頂盒、數(shù)字電視一體機,若數(shù)字電
視接收終端自身具有音頻播放功能,如該數(shù)字電視接收終端為數(shù)字電視一體機,步驟104
具體為數(shù)字電視接收終端將音頻流轉(zhuǎn)換為數(shù)字或模擬的音頻電信號后,通過自身的音頻
播放裝置進行播放。若數(shù)字電視接收終端自身不具有音頻播放功能,如該數(shù)字電視接收終
端為機頂盒,步驟104具體為該數(shù)字電視接收終端將音頻流解碼為數(shù)字或模擬的音頻電
信號后,通過其它具有音頻播放功能的設(shè)備進行播放。所述其它具有音頻播放功能的設(shè)備
包括但不限于數(shù)字電視機、模擬電視機、音響、耳機等具有音頻播放功能的設(shè)備。
在本實施例中,所述前端設(shè)備包括網(wǎng)絡(luò)服務(wù)器、音視頻服務(wù)器等。 實施本發(fā)明提供的語音服務(wù)方法,可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,
使數(shù)字電視接收終端消耗最少的內(nèi)存資源,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端
因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,為用戶提供更好的使用體驗。
參見圖2,為本發(fā)明提供的語音服務(wù)方法第二實施例流程示意圖,在本實施例中,
將更為詳細的描述語音服務(wù)方法,特征是在前端設(shè)備中的處理過程。 在實施本發(fā)明實施例提供的語音服務(wù)方法流程之前,在前端設(shè)備中需要預(yù)置語音 資源庫,在語音資源庫中存儲配置信息;該配置信息包括各種基本音頻、各種語音數(shù)據(jù)的 音頻合成算法。更為具體的,該配置信息中記錄的基本音頻可用于合成各種音頻,包括不同 語種的音頻;語音數(shù)據(jù)的音頻合成算法是將一組語音數(shù)據(jù)合成為音頻的合成算法,對同一 語音數(shù)據(jù),其需要合成的語種不同,則其音頻合成算法也不同。
本發(fā)明實施例提供的語音服務(wù)方法如圖2所示 在步驟200,數(shù)字電視接收終端播放前端設(shè)備傳送的網(wǎng)頁。在本發(fā)明各實施例中, 若數(shù)字電視接收終端自身具有視頻播放功能,如該數(shù)字電視接收終端為數(shù)字電視一體機, 則步驟200具體為數(shù)字電視接收終端通過自身的視頻播放裝置播放前端設(shè)備傳送的網(wǎng) 頁。若數(shù)字電視接收終端自身不具有視頻播放功能,如該數(shù)字電視接收終端為機頂盒,則步 驟200具體為數(shù)字電視接收終端通過其它具有視頻播放功能的設(shè)備播放前端設(shè)備傳送的 網(wǎng)頁。所述具有視頻播放功能的設(shè)備包括但不限于數(shù)字電視機、模擬電視機、投影儀等具 有視頻播放功能的設(shè)備。 更為具體的,機頂盒接收到用戶瀏覽網(wǎng)頁的指令后,將網(wǎng)絡(luò)獲取請求發(fā)送至前端 設(shè)備,并接收前端設(shè)備下發(fā)的網(wǎng)頁數(shù)據(jù),機頂盒將所述網(wǎng)頁數(shù)據(jù)發(fā)解碼后通過電視機進行 播放,使用戶可以通過電視機瀏覽其指定的網(wǎng)頁。 在步驟201,數(shù)字電視接收終端根據(jù)用戶的操作,判斷是否需要朗讀該網(wǎng)頁。
更為具體的,數(shù)字電視接收終端在提供網(wǎng)頁供用戶瀏覽的同時,提供朗讀該網(wǎng)頁 的功能選項,并接收用戶的操作指令,判斷是否需要朗讀該網(wǎng)頁。在本發(fā)明實施例中,所述 用戶的操作指令包括用戶在數(shù)字電視接收終端上直接操作,或通過在遙控器上的操作所觸 發(fā)的指令。 在步驟202,數(shù)字電視接收終端獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù)。 更為具體的,數(shù)字電視接收終端在確定需要朗讀當前網(wǎng)頁后,獲取需要朗讀的網(wǎng)
頁的純文本數(shù)據(jù)。對于網(wǎng)頁的純文本數(shù)據(jù)的獲取方式,可以是由網(wǎng)頁服務(wù)器提供網(wǎng)頁的純
文本數(shù)據(jù),數(shù)字電視接收終端通過發(fā)送相應(yīng)的請求,直接獲取當前網(wǎng)頁的純文本數(shù)據(jù);也可
以是數(shù)字電視接收終端自身從前端設(shè)備發(fā)送的網(wǎng)頁數(shù)據(jù)中分離出純文本數(shù)據(jù),因為網(wǎng)頁數(shù)
據(jù)中,文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)的格式是不相同的,數(shù)字電視接收終端通過判斷數(shù)據(jù)
的格式,就可以從前端設(shè)備發(fā)送的網(wǎng)頁數(shù)據(jù)中識別出其包含的文本數(shù)據(jù),并將該文本數(shù)據(jù)
分離出來。 優(yōu)選的,若前端設(shè)備是基于數(shù)字電視接收終端提供的應(yīng)用程序編程接口 (API, Application Programming Interface)來開發(fā)的網(wǎng)頁,本步驟也可以通過軟件程序?qū)崿F(xiàn), 例如數(shù)字電視接收終端可以通過HTML語句
var test ; test = document, body. i皿erText ; 從前端設(shè)備提供的網(wǎng)頁中直接提取純文本數(shù)據(jù)。 在步驟203,數(shù)字電視接收終端將所述純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)。 更為具體的,數(shù)字電視接收終端只需支持文本合成語音數(shù)據(jù)功能的語音引擎,分
配盡量小的內(nèi)存,對網(wǎng)頁文本數(shù)據(jù)進行語音建模,將其轉(zhuǎn)換成對應(yīng)的語音數(shù)據(jù)。更進一步
的,對網(wǎng)頁文本數(shù)據(jù)進行語音建模的過程可以依據(jù)漢語語言模型(CLM, Chinese Language
Model,或隱馬爾可夫模型(HMM, Hidden MarkovModels)等進行建模。完成語音建模后,語
音數(shù)據(jù)的格式包括PCM格式。在本步驟中,數(shù)字電視接收終端沒有進行音頻的合成,只進
行最基本的數(shù)據(jù)轉(zhuǎn)換,使需要的內(nèi)存資源降到最低。 在步驟204,數(shù)字電視接收終端向前端設(shè)備發(fā)送其轉(zhuǎn)換得到的語音數(shù)據(jù)。 在步驟205,前端設(shè)備接收到語音數(shù)據(jù)后,向發(fā)送該語音數(shù)據(jù)的數(shù)字電視接收終端
反饋合成選項,所述合成選項包括前端設(shè)備可以提供的合成音頻的語種、或背景音樂等。
例如將語音數(shù)據(jù)合成為男聲、女聲、童聲、中文、英文等。數(shù)字電視接收終端通過數(shù)字電視,
以語音或視頻的方式向用戶提供所述合成選項,并根據(jù)用戶操作,確定用戶的合成要求后
向前端設(shè)備發(fā)送。本步驟為優(yōu)選的非必要步驟,不執(zhí)行本步驟,并不影響本實施例的效果。
執(zhí)行本步驟,可以給用戶更多的選擇以及更好的使用體驗。 在步驟206,前端設(shè)備接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)及合成要求;所述 合成要求是數(shù)字電視接收終端根據(jù)用戶操作,確定后發(fā)送的,所述合成要求包括合成音頻 的語種、或背景音樂。 在步驟207,前端設(shè)備根據(jù)語音資源庫中的配置信息,按照所述語音數(shù)據(jù)的合成要 求,將所述語音數(shù)據(jù)合成為音頻。更為具體的,前端設(shè)備按照語音數(shù)據(jù)的合成要求,在語音 資源庫中獲取基本音頻,根據(jù)語音數(shù)據(jù),將基本音頻合成為與語音數(shù)據(jù)對應(yīng)的音頻。
更進一步的,實現(xiàn)語音合成可以采用共振峰技術(shù),其原理為音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應(yīng)),對激勵源發(fā)出的信號進行調(diào)制,再經(jīng)過輻射模型就可以得到合成語音。 當然,在本發(fā)明中,也可以使用其它的語音合成技術(shù)實現(xiàn)語音合成,例如韻律修正的基音同步疊力口技術(shù)(PSOLA,ptich synchronous overlap add)。 在步驟208,前端設(shè)備將音頻分組封裝后形成音頻流。更進一步的,前端設(shè)備根據(jù)語音資源庫中的配置信息,按照合成要求,將語音數(shù)據(jù)合成為音頻后,前端設(shè)備將音頻轉(zhuǎn)換為機頂盒支持的格式,例如活動圖像及聲音編碼標準(MPEG2, Moving PictureE鄧erts Group)格式。然后前端設(shè)備將音頻分組封裝、形成的音頻流。更為具體的,分組封裝音頻的是前端常用設(shè)備,如復(fù)用器等,其打包后的音頻流包括傳輸流格式(MPEG2-TS,MPEG2-Transport Stream)、或程序流格式(MPEG2-Program Stream),以及其它數(shù)字電視接收終端可以實現(xiàn)解碼播放的格式。 在步驟209,前端設(shè)備向數(shù)字電視接收終端發(fā)送音頻流。 在步驟210,數(shù)字電視接收終端將音頻流,將其解碼為音頻電信號并播放。 更為具體的,在本實施例中,數(shù)字電視接收終端包括機頂盒、數(shù)字電視一體機。若
數(shù)字電視接收終端自身具有音頻播放功能,如該數(shù)字電視接收終端為數(shù)字電視一體機,步
驟210具體為數(shù)字電視接收終端將音頻流轉(zhuǎn)換為音頻電信號后通過自身的音頻播放裝置
進行播放。若數(shù)字電視接收終端自身不具有音頻播放功能,如該數(shù)字電視接收終端為機頂
盒,步驟210具體為該數(shù)字電視接收終端將音頻流解碼為音頻電信號后,通過其它具有音
頻播放功能的設(shè)備進行播放。所述其它具有音頻播放功能的設(shè)備包括但不限于數(shù)字電視
機、模擬電視機、音響、耳機等具有音頻播放功能的設(shè)備。 實施本發(fā)明提供的語音服務(wù)方法,可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,既可以為用戶提供更多選擇,更好的語音質(zhì)量,也可以使數(shù)字電視接收終端消耗最少的內(nèi)存資源,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,為用戶提供更好的使用體驗。 參見圖3,為本發(fā)明提供的語音服務(wù)系統(tǒng)實施例結(jié)構(gòu)示意圖,在本實施例中,將闡述本系統(tǒng)的基本架構(gòu)和語音服務(wù)處理流程,該語音服務(wù)系統(tǒng)包括 前端設(shè)備l,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻流。
數(shù)字電視接收終端2,用于獲取網(wǎng)頁的純文本數(shù)據(jù),將其轉(zhuǎn)換為語音數(shù)據(jù)后發(fā)送給前端設(shè)備;接收所述前端設(shè)備發(fā)送的音頻流,將其解碼為音頻電信號并播放。更為具體的,在本實施例中,數(shù)字電視接收終端2包括機頂盒、數(shù)字電視一體機。若數(shù)字電視接收終端2自身具有音頻播放功能,如該數(shù)字電視接收終端為數(shù)字電視一體機,則數(shù)字電視接收終端2將音頻流轉(zhuǎn)換為音頻電信號后通過自身的音頻播放裝置(圖中未示出)進行播放。
更進一步的,若數(shù)字電視接收終端2自身不具有音頻播放功能,如該數(shù)字電視接收終端為機頂盒,則本實施例提供的語音服務(wù)系統(tǒng)還包括音頻播放設(shè)備3,用于在該數(shù)字電視接收終端2將音頻流解碼為音頻電信號后,通過音頻播放設(shè)備3進行播放。該音頻播放設(shè)備3包括但不限于數(shù)字電視機、模擬電視機、音響、耳機等具有音頻播放功能的設(shè)備。
更為具體的,數(shù)字電視接收終端2獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù),將其轉(zhuǎn)換為語音數(shù)據(jù),并向前端設(shè)備1發(fā)送該語音數(shù)據(jù);前端設(shè)備1根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流發(fā)送到數(shù)字電視接收終端2。數(shù)字電視接收終端2將音頻流解碼為音頻電信號通過其自身的音頻播放裝置或外接的音頻播放設(shè)備3進行播放。 實施本發(fā)明提供的語音服務(wù)系統(tǒng),可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,使數(shù)字電視接收終端消耗最少的內(nèi)存資源,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,為用戶提供更好的使用體驗。
以下將具體描述系統(tǒng)中各設(shè)備的結(jié)構(gòu)及功能。 參見圖4,為本發(fā)明提供的數(shù)字電視接收終端第一實施例結(jié)構(gòu)示意圖,如圖4所示,該數(shù)字電視接收終端包括 網(wǎng)頁處理模塊21 ,用于確定需要朗讀的網(wǎng)頁,獲取該網(wǎng)頁的純文本數(shù)據(jù)。 語音轉(zhuǎn)換模塊22,用于將網(wǎng)頁處理模塊21獲取的純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并
向前端設(shè)備發(fā)送該語音數(shù)據(jù)。 音頻接收模塊23,用于接收前端設(shè)備發(fā)送的音頻流,所述音頻流為前端設(shè)備根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流。
語音朗讀模塊24,用于將音頻接收模塊23接收的音頻流解碼為音頻電信號并播放。 實施本發(fā)明提供的數(shù)字電視接收終端,可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,使數(shù)字電視接收終端消耗最少的內(nèi)存資源和存儲空間,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,另外,利用數(shù)字電視網(wǎng)絡(luò)下傳音頻流的傳輸速度非???,可以為用戶提供更好的使用體驗。 參見圖5,為本發(fā)明提供的數(shù)字電視接收終端第二實施例結(jié)構(gòu)示意圖,如圖5所示,該數(shù)字電視接收終端包括 網(wǎng)頁處理模塊21,用于確定需要朗讀的網(wǎng)頁,獲取該網(wǎng)頁的純文本數(shù)據(jù)。
更為具體的,在本實施例中,網(wǎng)頁處理模塊21具體包括 網(wǎng)頁播放單元211,用于將前端設(shè)備傳送的網(wǎng)頁通過數(shù)字電視進行播放。 更進一步的,數(shù)字電視接收終端接收到用戶瀏覽網(wǎng)頁的指令后,網(wǎng)頁播放單元211
將網(wǎng)絡(luò)獲取請求發(fā)送至前端設(shè)備,并接收前端設(shè)備下發(fā)的網(wǎng)頁數(shù)據(jù),網(wǎng)頁播放單元211將
接收的網(wǎng)頁數(shù)據(jù)解碼后進行播放,使用戶可以瀏覽其指定的網(wǎng)頁。 朗讀判斷單元212,用于根據(jù)用戶的操作,判斷是否需要朗讀所述網(wǎng)頁。 更進一步的,網(wǎng)頁播放單元211在提供網(wǎng)頁供用戶瀏覽的同時,朗讀判斷單元212
提供朗讀該網(wǎng)頁的功能選項,并接收用戶的操作指令,判斷是否需要朗讀該網(wǎng)頁。在本發(fā)明
實施例中,所述用戶的操作指令包括用戶在數(shù)字電視接收終端上直接操作,或通過在遙控
器上的操作所觸發(fā)的指令。 文本獲取單元213,用于在朗讀判斷單元212確定需要朗讀所述網(wǎng)頁時,獲取該網(wǎng)頁的純文本數(shù)據(jù)。 更進一步的,朗讀判斷單元212在確定需要朗讀當前網(wǎng)頁后,文本獲取單元213獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù)。對于網(wǎng)頁的純文本數(shù)據(jù)的獲取方式,可以是由網(wǎng)頁服務(wù)器提供網(wǎng)頁的純文本數(shù)據(jù),文本獲取單元213通過發(fā)送相應(yīng)的請求,直接獲取當前網(wǎng)頁的純文本數(shù)據(jù);也可以是文本獲取單元213從前端設(shè)備發(fā)送的網(wǎng)頁數(shù)據(jù)中分離出純文本數(shù)據(jù),因為網(wǎng)頁數(shù)據(jù)中,文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)的格式是不相同的,文本獲取單元213通過判斷數(shù)據(jù)的格式,就可以從前端設(shè)備發(fā)送的網(wǎng)頁數(shù)據(jù)中識別出其包含的文本數(shù)據(jù),并將該文本數(shù)據(jù)分離出來。 優(yōu)選的,若前端設(shè)備是基于數(shù)字電視接收終端提供的應(yīng)用程序編程接口 (API,Application Programming Interface)來開發(fā)的網(wǎng)頁,本步驟也可以通過軟件程序?qū)崿F(xiàn),例如文本獲取單元213可以通過HTML語句
var test ; test = document, body. i皿erText ; 從前端設(shè)備提供的網(wǎng)頁中直接提取純文本數(shù)據(jù)。 語音轉(zhuǎn)換模塊22,用于將網(wǎng)頁處理模塊21獲取的純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并向前端設(shè)備發(fā)送該語音數(shù)據(jù)。 更為具體的,語音轉(zhuǎn)換模塊22只需支持文本合成語音數(shù)據(jù)功能的語音引擎,分配盡量小的內(nèi)存,對網(wǎng)頁文本數(shù)據(jù)進行語音建模,將其轉(zhuǎn)換成對應(yīng)的語音數(shù)據(jù)。更進一步的,語音轉(zhuǎn)換模塊22對網(wǎng)頁文本數(shù)據(jù)進行語音建模的過程可以依據(jù)漢語語言模型(CLM,Chinese Language Model,或隱馬爾可夫模型(H匪,Hidden Markov Models)等語言模型進行建模。完成語音建模后,語音轉(zhuǎn)換模塊22轉(zhuǎn)換的該語音數(shù)據(jù)的格式包括PCM格式。在本實施例中,語音轉(zhuǎn)換模塊22沒有進行音頻的合成,只進行最基本的數(shù)據(jù)轉(zhuǎn)換,使需要的內(nèi)存資源降到最低。 音頻接收模塊23,用于接收前端設(shè)備發(fā)送的音頻流,所述音頻流為前端設(shè)備根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流。
更為具體的,前端設(shè)備根據(jù)語音資源庫中的配置信息,按照合成要求,將語音數(shù)據(jù)合成為音頻后,前端設(shè)備將音頻轉(zhuǎn)換為機頂盒支持的格式,例如MPEG2格式。然后前端設(shè)備將音頻分組封裝、形成音頻流。 語音朗讀模塊24,用于將音頻接收模塊23接收的音頻流解碼為音頻電信號并播放。 更為具體的在本實施例中,若語音朗讀模塊24自身具有音頻播放功能,則語音朗讀模塊24將音頻流轉(zhuǎn)換為音頻電信號后進行播放。若語音朗讀模塊24自身不具有音頻播放功能,則語音朗讀模塊24將音頻流解碼為音頻電信號后,通過外接其它具有音頻播放功能的設(shè)備進行播放。所述其它具有音頻播放功能的設(shè)備包括但不限于數(shù)字電視機、模擬電視機、音響、耳機等設(shè)備。 實施本發(fā)明提供的數(shù)字電視接收終端,可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,既可以為用戶提供更多選擇,更好的語音質(zhì)量,同時使數(shù)字電視接收終端消耗最少的內(nèi)存資源,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,為用戶提供更好的使用體驗。 參見圖6,為本發(fā)明提供的前端設(shè)備實施例結(jié)構(gòu)示意圖,如圖6所示,該前端設(shè)備包括 語音資源庫ll,用于存儲配置信息;所述配置信息包括各種基本音頻、各種語音數(shù)據(jù)的音頻合成算法。 更進一步的,本發(fā)明實施例提供的前端設(shè)備中,需要預(yù)置語音資源庫ll,在語音資源庫11中存儲配置信息;該配置信息包括各種基本音頻、各種語音數(shù)據(jù)的音頻合成算法。更為具體的,該配置信息中記錄的基本音頻可用于合成各種音頻的,包括不同語種的音頻;語音數(shù)據(jù)的音頻合成算法是將一組語音數(shù)據(jù)合成為音頻是的合成方法,對同一語音數(shù)據(jù),其需要合成的語種不同,則其音頻合成算法也不同。 音頻合成模塊12,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻流。
更進一步的,本發(fā)明實施例提供的音頻合成模塊12具體包括 合成控制單元121,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)合成要求,控制音頻合成單元122的音頻合成。所述合成要求是數(shù)字電視接收終端根據(jù)用戶操作發(fā)送的,所述合成要求包括合成音頻的語種、或背景音樂。例如用戶要求將語音數(shù)據(jù)合成為男聲、女聲、童聲、中文、英文等。 音頻合成單元122,用于根據(jù)語音資源庫中的配置信息,在所述合成控制單元121的控制下,按照所述語音數(shù)據(jù)合成要求,將語音數(shù)據(jù)合成為音頻。 優(yōu)選的,音頻合成單元122根據(jù)語音資源庫中的配置信息,按照合成要求,將語音數(shù)據(jù)合成為音頻后,音頻合成單元122將音頻轉(zhuǎn)換為機頂盒支持的格式,例如MPEG2格式。
更進一步的,音頻合成單元122實現(xiàn)語音合成可以采用共振峰技術(shù),其原理為音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。音頻合成單元122再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應(yīng)),對激勵源發(fā)出的信號進行調(diào)制,再經(jīng)過輻射模型就可以得到合成語音。
當然,在本發(fā)明中,也可以使用其它的語音合成技術(shù)實現(xiàn)語音合成,例如韻律修正的基音同步疊力口技術(shù)(PSOLA,ptich synchronous overlap add)。 分組封裝單元123,用于完成音頻格式的轉(zhuǎn)換,并將其分組封裝后形成的音頻流。更為具體的,分組封裝單元123將音頻合成單元122合成的音頻分組封裝、形成的音頻流。分組封裝單元123打包后的音頻流包括MPEG2-TS、或MPEG-PS),以及其它數(shù)字電視接收終端可以實現(xiàn)解碼播放的格式。 交互模塊13,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)轉(zhuǎn)發(fā)給音頻合成模塊12處理;將音頻合成模塊12合成的音頻流發(fā)送給數(shù)字電視接收終端;根據(jù)數(shù)字電視接收終端的請求發(fā)送相應(yīng)的網(wǎng)頁數(shù)據(jù)給數(shù)字電視接收終端。 實施本發(fā)明提供的前端設(shè)備,可以充分利用前端資源優(yōu)勢預(yù)置語音資源庫,既可以為用戶提供更多選擇,更好的語音質(zhì)量,同時使數(shù)字電視接收終端消耗最少的內(nèi)存資源,實現(xiàn)朗讀網(wǎng)頁的功能,避免數(shù)字電視接收終端因為朗讀網(wǎng)頁占用太多資源造成其它性能下降,另外,利用數(shù)字電視網(wǎng)絡(luò)下傳音頻流的傳輸速度非??欤梢詾橛脩籼峁└玫氖褂皿w驗。 以上所揭露的僅為本發(fā)明一種較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)
利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。 通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助
軟件加必需的硬件平臺的方式來實現(xiàn),當然也可以全部通過硬件來實施?;谶@樣的理解,
本發(fā)明的技術(shù)方案對背景技術(shù)做出貢獻的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,
該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
權(quán)利要求
一種語音服務(wù)方法,其特征在于,包括數(shù)字電視接收終端獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù);數(shù)字電視接收終端將所述純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并向前端設(shè)備發(fā)送所述語音數(shù)據(jù);數(shù)字電視接收終端接收所述前端設(shè)備發(fā)送的音頻流;所述音頻流為前端設(shè)備根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流;數(shù)字電視接收終端將音頻流解碼為音頻電信號并進行播放。
2. 如權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述數(shù)字電視接收終端獲取需要 朗讀的網(wǎng)頁的純文本數(shù)據(jù)之前,還包括在所述前端設(shè)備中預(yù)置語音資源庫,在所述語音資源庫中存儲配置信息;所述配置信 息包括各種基本音頻、各種語音數(shù)據(jù)的音頻合成算法。
3. 如權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述數(shù)字電視接收終端獲取需要 朗讀的網(wǎng)頁的純文本數(shù)據(jù)之前,還包括數(shù)字電視接收終端播放所述前端設(shè)備傳送的網(wǎng)頁; 數(shù)字電視接收終端根據(jù)用戶的操作,判斷是否需要朗讀該網(wǎng)頁。
4. 如權(quán)利要求3所述的語音服務(wù)方法,其特征在于,所述數(shù)字電視接收終端向前端設(shè) 備發(fā)送所述語音數(shù)據(jù)之后;數(shù)字電視接收終端接收所述前端設(shè)備發(fā)送的音頻流之前,還包 括前端設(shè)備接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)及合成要求;前端設(shè)備根據(jù)語音資源庫中的配置信息,按照所述語音數(shù)據(jù)的合成要求,將所述語音 數(shù)據(jù)合成為音頻數(shù)據(jù);所述數(shù)字電視接收終端向前端設(shè)備發(fā)送語音數(shù)據(jù)的步驟還包括向數(shù)字電視接收終端 向前端設(shè)備發(fā)送合成要求;所述合成要求包括合成音頻的語種和/或背景音樂。
5. —種數(shù)字電視接收終端,其特征在于,包括網(wǎng)頁處理模塊,用于確定需要朗讀的網(wǎng)頁,獲取該網(wǎng)頁的純文本數(shù)據(jù);語音轉(zhuǎn)換模塊,用于將所述網(wǎng)頁處理模塊獲取的純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并向前 端設(shè)備發(fā)送所述語音數(shù)據(jù);音頻接收模塊,用于接收所述前端設(shè)備發(fā)送的音頻流,所述音頻流為前端設(shè)備根據(jù)其 語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流;語音朗讀模塊,用于將音頻流解碼為音頻電信號并播放。
6. 如權(quán)利要求5所述的數(shù)字電視接收終端,其特征在于,所述網(wǎng)頁處理模塊包括 網(wǎng)頁播放單元,用于播放前端設(shè)備傳送的網(wǎng)頁;朗讀判斷單元,用于根據(jù)用戶的操作,判斷是否需要朗讀所述網(wǎng)頁; 文本獲取單元,用于在朗讀判斷單元確定需要朗讀所述網(wǎng)頁時,獲取該網(wǎng)頁的純文本 數(shù)據(jù)。
7. —種前端設(shè)備,其特征在于,所述前端設(shè)備包括語音資源庫,用于存儲配置信息;所述配置信息包括各種基本音頻、各種語音數(shù)據(jù)的 音頻合成算法;音頻合成模塊,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻流;交互模塊,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)轉(zhuǎn)發(fā)給所述音頻合成模塊處 理;將所述音頻合成模塊合成的音頻流發(fā)送給數(shù)字電視接收終端;根據(jù)數(shù)字電視接收終端 的請求發(fā)送相應(yīng)的網(wǎng)頁數(shù)據(jù)給數(shù)字電視接收終端。
8. 如權(quán)利要求7所述的前端設(shè)備,其特征在于,所述音頻合成模塊包括 合成控制單元,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)和合成要求,控制音頻合成模塊的音頻合成;所述合成要求包括合成音頻的語種和/或背景音樂;音頻合成單元,用于根據(jù)語音資源庫中的配置信息,在所述合成控制單元的控制下,按照所述語音數(shù)據(jù)合成要求,將所述語音數(shù)據(jù)合成為音頻;分組封裝單元,用于完成音頻格式的轉(zhuǎn)換,并將其分組封裝后形成的音頻流。
9. 一種語音服務(wù)系統(tǒng),其特征在于,包括前端設(shè)備,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻數(shù)據(jù),并分組封裝為音頻流; 數(shù)字電視接收終端,用于獲取網(wǎng)頁的純文本數(shù)據(jù),將其轉(zhuǎn)換為語音數(shù)據(jù)后發(fā)送給前端 設(shè)備;接收所述前端設(shè)備發(fā)送的音頻流,將其解碼為音頻電信號并播放。
10. 如權(quán)利要求9所述的語音服務(wù)系統(tǒng),其特征在于,所述前端設(shè)備包括語音資源庫,用于存儲配置信息;所述配置信息包括各種基本音頻、各種語音數(shù)據(jù)的 音頻合成算法;音頻合成模塊,用于根據(jù)配置信息,將語音數(shù)據(jù)合成為音頻,并分組封裝為音頻流; 交互模塊,用于接收數(shù)字電視接收終端發(fā)送的語音數(shù)據(jù)轉(zhuǎn)發(fā)給所述音頻合成模塊處理;將所述音頻合成模塊合成的音頻流發(fā)送給數(shù)字電視接收終端;根據(jù)數(shù)字電視接收終端的請求發(fā)送相應(yīng)的網(wǎng)頁數(shù)據(jù)給數(shù)字電視接收終端。
全文摘要
本發(fā)明提供一種語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備。該方法包括數(shù)字電視接收終端獲取需要朗讀的網(wǎng)頁的純文本數(shù)據(jù);數(shù)字電視接收終端將所述純文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并向前端設(shè)備發(fā)送所述語音數(shù)據(jù);數(shù)字電視接收終端接收所述前端設(shè)備發(fā)送的音頻流;所述音頻流為前端設(shè)備根據(jù)其語音資源庫中的配置信息,將所述語音數(shù)據(jù)合成為音頻后,分組封裝形成的音頻流;數(shù)字電視接收終端將音頻流解碼為音頻電信號并進行播放。本發(fā)明提供一種語音服務(wù)方法、系統(tǒng)及數(shù)字電視接收終端和前端設(shè)備,可以充分利用前端資源優(yōu)勢,使數(shù)字電視接收終端的朗讀網(wǎng)頁功能消耗終端資源減到最小,同時提供更好的用戶體驗。
文檔編號H04N7/173GK101729827SQ20091018891
公開日2010年6月9日 申請日期2009年12月14日 優(yōu)先權(quán)日2009年12月14日
發(fā)明者陳亞杰 申請人:深圳市同洲電子股份有限公司