專利名稱:語音識(shí)別到視頻的轉(zhuǎn)換裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及々某體服務(wù)器應(yīng)用和語音識(shí)別領(lǐng)域,并且特別地,涉 及利用媒體服務(wù)器提供語音識(shí)別到視頻的轉(zhuǎn)換裝置。
背景技術(shù):
下 一代網(wǎng)絡(luò)是業(yè)務(wù)驅(qū)動(dòng)的網(wǎng)絡(luò),媒體服務(wù)器是提供專用媒體資 源功能的獨(dú)立設(shè)備,也是分組網(wǎng)絡(luò)中的重要設(shè)備,它在體系中的位 置如附圖l所示,其中,圖1是業(yè)務(wù)驅(qū)動(dòng)網(wǎng)絡(luò)組成的示意圖,媒體 服務(wù)器在應(yīng)用服務(wù)器的控制下,提供軟交換上各種業(yè)務(wù)所需的媒體
資源功能,包4舌方文音,錄音,3又音多頻(dual-tone multi-frequency, DTMF)收號(hào),傳真,會(huì)議、語音合成(text to speech, TTS)及自 動(dòng)i吾音i口、另l1 ( automatic speech recognition, ASR)等功能,同時(shí)提 供語音加載、刪除等功能,其中,圖2示出了媒體服務(wù)器的組成。
隨著科技的發(fā)展,用戶對(duì)多媒體生活化的需求會(huì)越來越廣泛, 不但需要文字聲音,還要有視覺的感官需求,這就迫使新業(yè)務(wù)的開 展尤為重要,其中,從語音識(shí)別到時(shí)頻的轉(zhuǎn)換技術(shù)就是一項(xiàng)值得的 研究和開發(fā)的i果題,然而,目前鮮見有與》匕相關(guān)的4支術(shù)成果。
發(fā)明內(nèi)容
考慮到上述問題而做出本發(fā)明,為此,本發(fā)明提供了一種利用 々某體月良務(wù)器來實(shí)現(xiàn)i吾音識(shí)別到 一見頻的轉(zhuǎn)換的才幾制,其可以實(shí)現(xiàn)聲音 到視頻的轉(zhuǎn)換,從而滿足用戶的需求。
本發(fā)明的主要發(fā)明思想是,基于媒體服務(wù)器語音識(shí)別的功能, 將其輸出作為輸入到媒體服務(wù)器的轉(zhuǎn)換處理程序,通過轉(zhuǎn)換處理程 序轉(zhuǎn)換輸出視頻,輸出的視頻流由媒體服務(wù)器發(fā)送到終端。也就是 說,在現(xiàn)有硬件資源的基礎(chǔ)上,充分利用資源,適當(dāng)增加軟件資源 的投入,即可根據(jù)網(wǎng)絡(luò)發(fā)展的需求來擴(kuò)充業(yè)務(wù)。
在本發(fā)明的實(shí)施例中,4是供了 一種語音識(shí)別到—見頻的轉(zhuǎn)換裝置。
該裝置包括識(shí)別碼建立模塊,用于在媒體服務(wù)器在啟動(dòng)時(shí)根 據(jù)視頻資源的類型建立對(duì)應(yīng)的識(shí)別碼;音頻流接收模塊,連接至識(shí) 別碼建立模塊,用于在媒體服務(wù)器在接收到應(yīng)用服務(wù)器的請(qǐng)求后, 建立音頻流的連4妄通道并接收音頻流;語音識(shí)別模塊,連接至音頻 流接收模塊,用于識(shí)別音頻數(shù)據(jù),并將識(shí)別后的數(shù)據(jù)輸出到轉(zhuǎn)換處 理模塊;轉(zhuǎn)換處理模塊,連接至語音識(shí)別模塊和識(shí)別碼建立模塊, 用于在接收到語音識(shí)別模塊的數(shù)據(jù)之后進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù) 據(jù)與識(shí)別碼建立模塊建立的識(shí)別碼對(duì)照,從而實(shí)現(xiàn)視頻轉(zhuǎn)換;以及 視頻流輸出模塊,連接至轉(zhuǎn)換處理模塊,用于將轉(zhuǎn)換后的視頻流通 過網(wǎng)絡(luò)輸出到終端設(shè)備。
其中,如果纟見頻資源的類型為新添加的類型,則識(shí)別碼建立才莫 塊提供接口,以實(shí)時(shí)地添加一見頻資源對(duì)應(yīng)的識(shí)別碼。并且,音頻流 接收4莫塊在"f妾收音頻流后通知語音識(shí)別纟莫塊開始處理。
另外,語音識(shí)別才莫塊在輸出識(shí)別后的凄丈據(jù)之后,通知轉(zhuǎn)換處理 才莫塊開始處理。然后,轉(zhuǎn):換處理纟莫塊在4姿收到開始處理的通知后, 將由語音識(shí)別模塊輸出的數(shù)據(jù)讀取到自己的緩存中。其中,轉(zhuǎn)換處 理才莫塊在將轉(zhuǎn)換后的凄t據(jù)與由識(shí)別碼建立沖莫塊建立的識(shí)別碼對(duì)照
后,將轉(zhuǎn)換后的視頻索引添加到緩存中。
并且,轉(zhuǎn)換處理模塊對(duì)視頻索引排序,并且在完成排序后通知 視頻流輸出模塊開始發(fā)送。然后,視頻流輸出模塊在接收到轉(zhuǎn)換處 理模塊的通知后,4艮據(jù)視頻索引找到視頻資源,并且開始發(fā)送。
通過上述技術(shù)方案,本發(fā)明可以通過々某體服務(wù)器實(shí)現(xiàn)語音識(shí)別
到^L頻的轉(zhuǎn)換。
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申 請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并 不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中
圖1是業(yè)務(wù)驅(qū)動(dòng)網(wǎng)絡(luò)組成的示意圖2是根據(jù)本發(fā)明實(shí)施例的媒體服務(wù)器的組成的示意圖3是根據(jù)本發(fā)明第一實(shí)施例的語音到視頻轉(zhuǎn)換方法的流程
圖4是根據(jù)本發(fā)明實(shí)施例的語音到視頻轉(zhuǎn)換方法的示意圖;以
及
圖5是根據(jù)本發(fā)明實(shí)施例的語音到視頻轉(zhuǎn)換裝置的框圖。
具體實(shí)施例方式
下面將參考附圖詳細(xì)i兌明本發(fā)明。 第一實(shí)施例
首先,將參照?qǐng)D3和圖4描述本發(fā)明的第一實(shí)施例。圖3是根 據(jù)本發(fā)明第一實(shí)施例的語音到視頻轉(zhuǎn)換方法的流程圖,圖4是根據(jù) 本發(fā)明實(shí)施例的語音到纟見頻轉(zhuǎn)換方法的示意圖。
如圖3所示,根據(jù)本發(fā)明第一實(shí)施例的語音識(shí)別到視頻的轉(zhuǎn)換 方法包括以下步驟步驟S302:媒體服務(wù)器在啟動(dòng)時(shí)根據(jù)視頻資源 的類型建立對(duì)應(yīng)的識(shí)別碼;步驟S304:媒體服務(wù)器在接收到應(yīng)用服 務(wù)器的請(qǐng)求后,建立音頻流的連接通道并接收音頻流;步驟S306: 媒體服務(wù)器的語音識(shí)別模塊識(shí)別音頻數(shù)據(jù),并將識(shí)別后的數(shù)據(jù)輸出 到轉(zhuǎn)換處理程序;步驟S308:轉(zhuǎn)換處理程序在4妄收到識(shí)別后的^t據(jù) 之后進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù)據(jù)與在步驟S302中建立的識(shí)別碼 對(duì)照,從而實(shí)現(xiàn)視頻轉(zhuǎn)換;以及步驟S310:媒體服務(wù)器將轉(zhuǎn)換后的 視頻流通過網(wǎng)絡(luò)輸出到終端設(shè)備。
其中,在步驟S302中,如果一見頻資源的類型為新添加的類型, 則媒體服務(wù)器提供接口,以實(shí)時(shí)地添加視頻資源對(duì)應(yīng)的識(shí)別碼。并 且,在步驟S304中,々某體服務(wù)器在接收音頻流后通知語音識(shí)別模 塊開始處理。另外,在步驟S306中,語音識(shí)別才莫塊在輸出識(shí)別后 的數(shù)據(jù)之后,通知轉(zhuǎn)換處理程序開始處理。
另外,在步驟S308中,轉(zhuǎn)換處理程序在4矣收到開始處理的通 知后,將由語音識(shí)別模塊輸出的數(shù)據(jù)讀取到自己的緩存中。并且, 在步驟S308中,轉(zhuǎn)換處理程序在將轉(zhuǎn)換后的數(shù)據(jù)與在步驟S302中 建立的識(shí)別碼對(duì)照后,將轉(zhuǎn)換后的視頻索引添加到緩存中。
其中,轉(zhuǎn)換處理程序?qū)σ曨l索引排序,并且在完成排序后通知 々某體服務(wù)器開始發(fā)送。另外,々某體服務(wù)器在接收到轉(zhuǎn)換處理程序的 通知后,根據(jù)視頻索引找到視頻資源,并且開始發(fā)送。
例如,參照?qǐng)D3和圖4,首先,J 某體月良務(wù)器啟動(dòng)時(shí),4艮據(jù):枧頻資
源類型建立對(duì)應(yīng)識(shí)別碼,具體如下
(1) 媒體服務(wù)器啟動(dòng)時(shí),搜索該類型資源,為該類型資源建 立對(duì)應(yīng)識(shí)別石馬;
(2) 如果新添加該類資源,J 某體服務(wù)器提供接口,能夠?qū)崟r(shí) 進(jìn)4亍該資源對(duì)應(yīng)的識(shí)別碼添加;
其次,媒體服務(wù)器在接收到應(yīng)用服務(wù)器的請(qǐng)求后,建立音頻流 的連4妄通道,4妾收i吾音流進(jìn)^S吾音識(shí)別處理
(3) 應(yīng)用服務(wù)器發(fā)送請(qǐng)求到媒體服務(wù)器,媒體服務(wù)器根據(jù)請(qǐng) 求建立音頻流的連4妾通道;
(4) i某體服務(wù)器在通道建立后,接收音頻流,并通知語音識(shí) 別才莫塊開始處理;
然后,由媒體服務(wù)器的語音識(shí)別模塊識(shí)別音頻數(shù)據(jù),將識(shí)別數(shù) 據(jù)輸出到轉(zhuǎn)換處理程序中
(5) 媒體服務(wù)器的語音識(shí)別模塊接到指令后,開始處理音頻
數(shù)據(jù);
(6 )語音識(shí)別才莫塊將處理后的數(shù)據(jù)輸出到轉(zhuǎn)換處理程序中, 并通知它開始處理;
之后,媒體服務(wù)器轉(zhuǎn)換程序在接收到識(shí)別數(shù)據(jù)后進(jìn)行轉(zhuǎn)換,將
轉(zhuǎn)換后的數(shù)據(jù)與識(shí)別碼對(duì)照,實(shí)現(xiàn)一見頻的轉(zhuǎn)換
(7 )媒體服務(wù)器的轉(zhuǎn)換程序接到通知,將數(shù)據(jù)讀到自己的緩
存中;
(8) 對(duì)應(yīng)相應(yīng)的識(shí)別碼,將轉(zhuǎn)換后的^L頻索引添加到緩存中, 同時(shí)用優(yōu)化算法排序,整理好后,通知開始發(fā)送;
(9) 媒體服務(wù)器接到通知,根據(jù)轉(zhuǎn)換程序轉(zhuǎn)換的視頻索引找 到視頻資源,開始發(fā)送;
最后,視頻流通過網(wǎng)絡(luò)輸出到終端設(shè)備中。
下面舉例i兌明小王新買了個(gè)3G手才幾,同時(shí)他辦理了語音轉(zhuǎn) -f見頻業(yè)務(wù),可以通過手^L對(duì)業(yè)務(wù)類型進(jìn)4于配置。小王通過平時(shí)i吾音 識(shí)別練習(xí),語音識(shí)別率得到了很大提高。某天,小王的母親過生日, 小王因在外工作原因不能回家,為了表達(dá)對(duì)母親的祝愿,就通過手 機(jī)對(duì)母親說了些祝愿母親生日快樂的話,音頻通過應(yīng)用服務(wù)器傳輸 到媒體服務(wù)器中,媒體服務(wù)器進(jìn)行語音識(shí)別,同時(shí)將識(shí)別后的數(shù)據(jù) 對(duì)應(yīng)一見頻識(shí)別碼進(jìn)4亍轉(zhuǎn)4奐(^L頻識(shí)別碼可以由小王配置的一見頻業(yè)務(wù) 類型決定),媒體服務(wù)器將轉(zhuǎn)換后的視頻傳送到母親的手機(jī)里。這 才羊,母親不^旦可以看到自己的孩子,聽到孩子的聲音,還可以看到
傳送來的生日快樂業(yè)務(wù)^見頻, 一見頻中蛋糕、鮮花、文字加上音樂, 母親體會(huì)到孩子的一片孝心。
該方法能夠?qū)⒄Z音識(shí)別的數(shù)據(jù)轉(zhuǎn)換成附帶視頻畫面,動(dòng)感十 足,而且娛樂性強(qiáng),能夠提高人們的強(qiáng)大興趣,可用于教學(xué)、娛樂 等方面。隨著網(wǎng)絡(luò)帶寬的拓寬,3G的使用,用戶對(duì)多媒體生活化 的需求會(huì)越來越廣泛,都會(huì)使此功能顯的更加重要。
這是對(duì)本發(fā)明的場(chǎng)景舉例說明,并不局限本發(fā)明的用途,本發(fā) 明提供了 一種利用媒體服務(wù)器提供語音識(shí)別轉(zhuǎn)視頻的方法,填補(bǔ)了 利用々某體服務(wù)器進(jìn)行語音識(shí)別轉(zhuǎn)—見頻的方法的空白,從而實(shí)現(xiàn)了 一 種語音和一見頻之間的轉(zhuǎn)換關(guān)系。
第二實(shí)施例
下面將參照?qǐng)D5描述本發(fā)明的第二實(shí)施例。圖5是根據(jù)本發(fā)明 實(shí)施例的語音識(shí)別到視頻的轉(zhuǎn)換裝置500的框圖。
如圖5所示,根據(jù)本發(fā)明實(shí)施例的語音識(shí)別到視頻的轉(zhuǎn)換裝置 500包括識(shí)別碼建立模塊502,用于在4某體服務(wù)器在啟動(dòng)時(shí)根據(jù) 視頻資源的類型建立對(duì)應(yīng)的識(shí)別碼;音頻流接收模塊504,連接至 識(shí)別碼建立模塊502,用于在媒體服務(wù)器在接收到應(yīng)用服務(wù)器的請(qǐng) 求后,建立音頻流的連4妄通道并接收音頻流;語音識(shí)別才莫塊506, 連接至音頻流接收模塊504,用于識(shí)別音頻數(shù)據(jù),并將識(shí)別后的數(shù) 據(jù)輸出到轉(zhuǎn)換處理模塊508;轉(zhuǎn)換處理才莫塊508,連接至語音識(shí)別 才莫塊506和識(shí)別碼建立才莫塊502,用于在4妄收到語音識(shí)別才莫塊506 的數(shù)據(jù)之后進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù)據(jù)與識(shí)別碼建立模塊502建 立的識(shí)別碼對(duì)照,從而實(shí)現(xiàn)—見頻轉(zhuǎn)換;以及—見頻流輸出才莫塊510, 連接至轉(zhuǎn)換處理模塊,用于將轉(zhuǎn)換后的視頻流通過網(wǎng)絡(luò)輸出到終端 設(shè)備。
其中,如果視頻資源的類型為新添加的類型,則識(shí)別碼建立模 塊502 4是供4妄口 ,以實(shí)時(shí)地添加一見頻資源對(duì)應(yīng)的識(shí)別碼。并且,音 頻流接收模塊504在接收音頻流后通知語音識(shí)別模塊506開始處理。
另夕卜,語音識(shí)別模塊506在輸出識(shí)別后的數(shù)據(jù)之后,通知轉(zhuǎn)換 處理模塊508開始處理。然后,轉(zhuǎn)換處理模塊508在接收到開始處
理的通知后,將由語音識(shí)別模塊506輸出的數(shù)據(jù)讀取到自己的緩存 中。其中,轉(zhuǎn)換處理模塊S08在將轉(zhuǎn)換后的數(shù)據(jù)與由識(shí)別碼建立模 塊502建立的識(shí)別碼對(duì)照后,將轉(zhuǎn)換后的—見頻索引添加到緩存中。
并且,轉(zhuǎn)換處理才莫塊508對(duì)一見頻索引排序,并且在完成排序后 通知視頻流輸出才莫塊開始發(fā)送。然后,視頻流輸出模塊在接收到轉(zhuǎn) 換處理模塊的通知后,根據(jù)視頻索引找到視頻資源,并且開始發(fā)送。
以上所述 <又為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā) 明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。 凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn) 等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在于,包括識(shí)別碼建立模塊,用于在媒體服務(wù)器在啟動(dòng)時(shí)根據(jù)視頻資源的類型建立對(duì)應(yīng)的識(shí)別碼;音頻流接收模塊,連接至所述識(shí)別碼建立模塊,用于在所述媒體服務(wù)器在接收到應(yīng)用服務(wù)器的請(qǐng)求后,建立音頻流的連接通道并接收音頻流;語音識(shí)別模塊,連接至所述音頻流接收模塊,用于識(shí)別音頻數(shù)據(jù),并將識(shí)別后的數(shù)據(jù)輸出到轉(zhuǎn)換處理模塊;轉(zhuǎn)換處理模塊,連接至所述語音識(shí)別模塊和所述識(shí)別碼建立模塊,用于在接收到所述語音識(shí)別模塊的數(shù)據(jù)之后進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù)據(jù)與所述識(shí)別碼建立模塊建立的所述識(shí)別碼對(duì)照,從而實(shí)現(xiàn)視頻轉(zhuǎn)換;以及視頻流輸出模塊,連接至所述轉(zhuǎn)換處理模塊,用于將轉(zhuǎn)換后的視頻流通過網(wǎng)絡(luò)輸出到終端設(shè)備。
2. 根據(jù)權(quán)利要求1所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,如果視頻資源的類型為新添加的類型,則所述識(shí)別碼建立模塊提供接口,以實(shí)時(shí)地添加所述視頻資源對(duì)應(yīng)的識(shí)別碼。
3. 根據(jù)權(quán)利要求1所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述音頻流接收模塊在接收音頻流后通知所述語音識(shí)別模 塊開始處理。
4. 根據(jù)權(quán)利要求1所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述語音識(shí)別才莫塊在輸出識(shí)別后的數(shù)據(jù)之后,通知所述轉(zhuǎn) 換處理模塊開始處理。
5. 根據(jù)權(quán)利要求1所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述轉(zhuǎn)換處理模塊在接收到開始處理的通知后,將由所述 語音識(shí)別模塊輸出的數(shù)據(jù)讀取到自己的緩存中。
6. 根據(jù)權(quán)利要求5所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述轉(zhuǎn)換處理模塊在將轉(zhuǎn)換后的數(shù)據(jù)與由所述識(shí)別碼建立 才莫塊建立的所述識(shí)別碼對(duì)照后,將轉(zhuǎn)換后的^L頻索引添加到所 述緩存中。
7. 根據(jù)權(quán)利要求6所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述轉(zhuǎn)換處理模塊對(duì)所述視頻索引排序,并且在完成排序 后通知所述視頻流輸出模塊開始發(fā)送。
8. 根據(jù)權(quán)利要求7所述的語音識(shí)別到視頻的轉(zhuǎn)換裝置,其特征在 于,所述纟見頻流輸出模塊在接收到所述轉(zhuǎn)換處理模塊的通知 后,4艮據(jù)所述^L頻索引找到一見頻資源,并且開始發(fā)送。
全文摘要
本發(fā)明公開了一種語音識(shí)別到視頻的轉(zhuǎn)換裝置,包括識(shí)別碼建立模塊,用于在媒體服務(wù)器在啟動(dòng)時(shí)根據(jù)視頻資源的類型建立對(duì)應(yīng)的識(shí)別碼;音頻流接收模塊,連接至識(shí)別碼建立模塊,用于在媒體服務(wù)器在接收到應(yīng)用服務(wù)器的請(qǐng)求后,建立音頻流的連接通道并接收音頻流;語音識(shí)別模塊,連接至音頻流接收模塊,用于識(shí)別音頻數(shù)據(jù),并將識(shí)別后的數(shù)據(jù)輸出到轉(zhuǎn)換處理模塊;轉(zhuǎn)換處理模塊,連接至語音識(shí)別模塊和識(shí)別碼建立模塊,用于在接收到語音識(shí)別模塊的數(shù)據(jù)之后進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù)據(jù)與識(shí)別碼建立模塊建立的識(shí)別碼對(duì)照,從而實(shí)現(xiàn)視頻轉(zhuǎn)換;以及視頻流輸出模塊,連接至轉(zhuǎn)換處理模塊,用于將轉(zhuǎn)換后的視頻流通過網(wǎng)絡(luò)輸出到終端設(shè)備。
文檔編號(hào)G10L21/06GK101202049SQ20061016099
公開日2008年6月18日 申請(qǐng)日期2006年12月11日 優(yōu)先權(quán)日2006年12月11日
發(fā)明者嵩 張, 東 王, 罡 鄭 申請(qǐng)人:中興通訊股份有限公司