專利名稱:帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法及服務(wù)端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,特別涉及一種帶有個(gè)性化語音的多媒 體轉(zhuǎn)換的方法,以及實(shí)施這種方法的服務(wù)端。
背景技術(shù):
隨著手機(jī)娛樂業(yè)的日益發(fā)展,基于無線網(wǎng)絡(luò)的多媒體傳輸已經(jīng)越來越 普及,而且人們對(duì)多媒體通信內(nèi)容的要求日益提高,人們不再滿足于單一、 被動(dòng)的傳統(tǒng)媒體娛樂方式,而是需要更加個(gè)性化、互動(dòng)化的多媒體通信方 式。特別是隨著移動(dòng)網(wǎng)絡(luò)通信技術(shù)的進(jìn)一步發(fā)展,以及移動(dòng)多媒體業(yè)務(wù)的 日益普及,移動(dòng)多媒體已經(jīng)越來越顯示其廣泛和越趨成熟的用戶認(rèn)知以及 接受度。
現(xiàn)階段,由服務(wù)提供商所提供的多媒體所發(fā)出的語音,其音色特征和 韻律特征都是服務(wù)端固有的,無法滿足用戶的個(gè)性化需求。
發(fā)明內(nèi)容
本發(fā)明要解決的問題是提供一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方 法,使得在用戶端可以個(gè)性化地定制多媒體,有效提高用戶體驗(yàn)度。
為達(dá)到上述目的, 一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,發(fā)送端 向服務(wù)端發(fā)送文本信息,服務(wù)端接收之后將所述文本信息轉(zhuǎn)換成多媒體文 件,其特征在于所述文本信息包括語句信息,服務(wù)端接收到該文本信息 并且轉(zhuǎn)換成多媒體文件之后,再根據(jù)發(fā)送端預(yù)先上傳的語音文件,將所述 文本信息中的語句信息轉(zhuǎn)換為與發(fā)送端預(yù)先上傳的語音文件相對(duì)應(yīng)的個(gè)性 化的語音文件,然后將轉(zhuǎn)換得到的語音文件替換所述多媒體文件中的音頻 部分。
4進(jìn)一步地,上述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,其中,服務(wù) 端將所述語句信息轉(zhuǎn)換為個(gè)性化的語音文件的方法是,服務(wù)端利用現(xiàn)已成 熟的個(gè)性化語音生成技術(shù),通過與發(fā)送端相對(duì)應(yīng)的語音文件,將所述語句 信息轉(zhuǎn)換為個(gè)性化的語音文件。
再進(jìn)一步地,上述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,其中,服 務(wù)端將所述文本信息轉(zhuǎn)換為多媒體文件的方法是,服務(wù)端從多媒體文件庫 中直接獲取與所述文本信息當(dāng)中的語句信息相匹配的多媒體文件,得到轉(zhuǎn) 換后的多媒體文件。
更進(jìn)一步地,上述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,其中,服 務(wù)端將所述文本信息轉(zhuǎn)換為多媒體文件的方法是,服務(wù)端先將所述文本信 息當(dāng)中的語句信息分解為單獨(dú)的字或詞,然后從多媒體文件庫中分別獲取 與每一個(gè)單獨(dú)的字或詞相匹配的多媒體文件,繼而將獲取的與每一個(gè)單獨(dú)
的字或詞相匹配的多媒體文件進(jìn)行合并,得到轉(zhuǎn)換后的多媒體文件。 本發(fā)明還提供了實(shí)施上述方法的服務(wù)端,包括
接收單元,用于接收來自于發(fā)送端的文本信息,并將所述文本信息送 至處理單元處理;以及用于接收來與所述發(fā)送端相對(duì)應(yīng)的語音文件,并將 所述語音文件發(fā)送至存儲(chǔ)單元存儲(chǔ);
存儲(chǔ)單元,用于存儲(chǔ)來自于接收單元的語音文件;
處理單元,用于將所述來自于接收單元的文本信息轉(zhuǎn)換成多媒體文件; 以及用于根據(jù)所述存儲(chǔ)單元中存儲(chǔ)的所述與發(fā)送端相對(duì)應(yīng)的語音文件,將 所述語句信息轉(zhuǎn)換成個(gè)性化的語音文件,并將所述語音文件替換所述多媒 體文件中的音頻部分。
上述服務(wù)端還可以包括發(fā)送單元,用于將所述多媒體文件發(fā)送出去。
總之,本發(fā)明為網(wǎng)絡(luò)通信技術(shù)提供了新體會(huì),通過實(shí)施本發(fā)明所揭示 的技術(shù)方案,服務(wù)端能更好地個(gè)性化定制多媒體,接收端接收到來自于發(fā) 送端以文本方式發(fā)送、并經(jīng)服務(wù)端轉(zhuǎn)換成的多媒體之后,其音頻部分與發(fā)送方的個(gè)性特征相吻合,就像是發(fā)送方在對(duì)接收方說話,網(wǎng)絡(luò)通訊技術(shù)的 用戶體驗(yàn)度得到極大提升。
圖1是本發(fā)明提供的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法的流程示
意圖2是本發(fā)明一種具體實(shí)施方式
的流程示意圖; 圖3是本發(fā)明揭示的服務(wù)端的示意圖。
具體實(shí)施例方式
利用個(gè)性化語音生成技術(shù),只要給出任意文字和目標(biāo)人的一段語音文 件,就能獲得該任意文字所對(duì)應(yīng)的語音文件,且該語音文件聽起來就像是 目標(biāo)人說的。這種個(gè)性化語音生成技術(shù)實(shí)現(xiàn)方法,通過對(duì)輸入的文本進(jìn)行 分析,獲得語音合成技術(shù)(Text-to-Speech,簡(jiǎn)稱TTS)參數(shù),然后轉(zhuǎn)化為 目標(biāo)人的語音參數(shù),最終合成并獲得接近于目標(biāo)人的語音。
本發(fā)明實(shí)施例提供一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,使得在 用戶端可以個(gè)性化的定制多媒體,有效提高了用戶體驗(yàn)度。下面對(duì)本發(fā)明 的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。
實(shí)施例一
本實(shí)施例所揭示的一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,如圖1 所示,包括以下步驟
步驟101:服務(wù)端接收到來自于發(fā)送端的文本信息;
文本信息的來源可以包括發(fā)送方終端通過鍵盤輸入的文本信息, 或者終端話筒輸入的語音通過語音識(shí)別軟件轉(zhuǎn)化后得到的文本信息。
本實(shí)施例所稱的文本信息,可以包括
接收端信息,具體地,可以是接收方的手機(jī)號(hào)碼;接收端信息也可 以是發(fā)送端本身,比如省略接收端信息的情況下,系統(tǒng)可以默認(rèn)為接收端即為發(fā)送端本身;
類型指示信息,用于指示該文本信息要轉(zhuǎn)化成的多媒體類型; 語句信息,比如用戶發(fā)送給接受方的信息如"祝你生日快樂"等文
字信息。
步驟102:服務(wù)端將所述文本信息轉(zhuǎn)換成多媒體文件; 本步驟中, 一種具體的方式包括所述服務(wù)端獲取多媒體文件庫中與 所述語句信息相匹配的多媒體文件作為所述轉(zhuǎn)換成的多媒體文件,即將所 述語句信息比如"祝你生日快樂"作為一個(gè)整體去匹配多媒體文件庫,獲 取相應(yīng)的多媒體文件作為所述轉(zhuǎn)換后得到的多媒體文件;或者, 本步驟中,另一種具體的方式包括
所述服務(wù)端將所述語句信息分解為單獨(dú)的字或詞;比如將語句信息"祝 你生日快樂"分解為一個(gè)個(gè)單獨(dú)的字和詞,然后所述服務(wù)端分別獲取多媒 體文件庫中,與所述每一個(gè)單獨(dú)的字或詞相匹配的多媒體文件;將獲取的 與所述每一個(gè)單獨(dú)的字或詞相匹配的多媒體文件合并,得到所述轉(zhuǎn)換成的 多媒體文件。
進(jìn)一步地,服務(wù)端還可以根據(jù)發(fā)送方號(hào)碼判斷發(fā)送方是否上傳過個(gè)人 語音文件。如果發(fā)送方從未上傳過個(gè)人語音文件,則當(dāng)前的多媒體文件就 是最終的多媒體文件,將直接發(fā)送給接收方。如果發(fā)送方之前上傳過個(gè)人 語音文件,則服務(wù)端可利用個(gè)性化語音生成技術(shù),對(duì)該多媒體文件進(jìn)一步 處理,即轉(zhuǎn)步驟103,使所述多媒體文件發(fā)出的語音無論從音色特征還是 韻律特征上都很接近其預(yù)上傳的個(gè)人語音文件。
發(fā)送方用戶可以通過把個(gè)人語音文件交給服務(wù)提供商營(yíng)業(yè)臺(tái)服務(wù)人員 或登錄相關(guān)Wap或者Web網(wǎng)站自行上傳語音文件或在線錄音等多種方式, 來使得服務(wù)端獲得個(gè)人語音文件,同時(shí)將用戶給出的手機(jī)號(hào)碼與所說的個(gè) 人語音文件實(shí)現(xiàn)一一對(duì)應(yīng)。
步驟103:當(dāng)存在與所述發(fā)送端相對(duì)應(yīng)的語音文件時(shí),所述服務(wù)端根
7據(jù)所述與發(fā)送端相對(duì)應(yīng)的語音文件,將所述語句信息轉(zhuǎn)換為個(gè)性化的語音
文件;
本步驟中,所說的將所述語句信息轉(zhuǎn)換為個(gè)性化的語音文件,可以是: 所述服務(wù)端利用現(xiàn)已成熟的個(gè)性化語音生成技術(shù),通過與發(fā)送端相對(duì)
應(yīng)的語音文件,將所述語句信息轉(zhuǎn)換為個(gè)性化的語音文件。
步驟104:所述服務(wù)端將所述轉(zhuǎn)換得到的語音文件替換所述多媒體文
件中的音頻部分。
本實(shí)施例所稱的終端或者發(fā)送端或者接收端,可以是有線終端,如連 接到Internet的個(gè)人電腦;也可以是無線終端,如手機(jī)。發(fā)送方式可以是 通過手機(jī)終端安裝的應(yīng)用軟件來發(fā)送,也可以通過無線應(yīng)用協(xié)議(WAP, Wireless Application Protocol)進(jìn)入WAP輸入界面后再編輯信息發(fā)送。
本實(shí)施例所稱的多媒體,包括但不限于MPEG、 AVI、 RMVB、 WMV、 SWF、 VIV、 ASF、腿、RA、 RP、 RT、 MOV、 QT、 3GPP、 MP4、 3D, JPEG、 PNG、 GIF、 BMP、 AMR、 MMF、 3GPP、 MP4、 RM、 AVI、 WAV、 APE、 MP3/MP2緣1緣GA、 WMA/ASF、 MID固ID、 VQF、 AIF/AIFF、 AU、 VOC、 AAC、 VOX等。
通過實(shí)施本實(shí)施例所揭示的技術(shù)方案,使得服務(wù)端可以個(gè)性化的定 制多媒體,大大增強(qiáng)了娛樂性,有效提高了用戶體驗(yàn)度。
實(shí)施例二
本實(shí)施例揭示的一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,可以基 于實(shí)施例一,如圖2所示,過程舉例包括
小張想要給小李發(fā)送有關(guān)生日祝福的多媒體文件,小張?jiān)诎l(fā)送端手機(jī) 201上輸入生日祝福語句,例如"祝你今天生日快樂",輸入小李的手機(jī)號(hào) 碼,以短消息的形式發(fā)送到指定的特服號(hào),經(jīng)短信中心202以及彩信/短信 服務(wù)器203后,上述信息被轉(zhuǎn)發(fā)給處理服務(wù)器204,處理服務(wù)器204收到 該短信后,將"祝你今天生日快樂"分解為單獨(dú)的字,然后為每個(gè)單獨(dú)的字匹配對(duì)應(yīng)的多媒體文件,再將這些多媒體文件合并為一個(gè)多媒體文件。 接著,根據(jù)發(fā)送方小張的手機(jī)號(hào)碼去査找小張是否預(yù)上傳過語音文件,如 果上傳過的話,使用個(gè)性化語音生成技術(shù)將文字"祝你今天生日快樂"轉(zhuǎn) 化為一個(gè)個(gè)性化的語音文件,該語音文件聽起來就像是小張說的。進(jìn)一步 地,該語音文件可以替換覆蓋多媒體文件的音頻部分。
進(jìn)一步地,最終生成的多媒體文件再經(jīng)"彩信/短信服務(wù)器"和"短
信中心"處理后,被發(fā)送到小李的手機(jī)205上。
通過實(shí)施本實(shí)施例所揭示的技術(shù)方案,使得服務(wù)端可以個(gè)性化地定制 多媒體,大大增強(qiáng)了娛樂性,有效提高了用戶體驗(yàn)度。
實(shí)施例三
本實(shí)施例提供了一種服務(wù)端,如圖3,包括
接收單元,用于接收來自于發(fā)送端的文本信息,并將所述文本信息送 至處理單元處理;以及用于接收來與所述發(fā)送端相對(duì)應(yīng)的語音文件,并將 所述語音文件發(fā)送至存儲(chǔ)單元存儲(chǔ);
存儲(chǔ)單元,用于存儲(chǔ)來自于接收單元的語音文件;
處理單元,用于將所述來自于接收單元的文本信息轉(zhuǎn)換成多媒體文件; 以及用于根據(jù)所述存儲(chǔ)單元中存儲(chǔ)的所述與發(fā)送端相對(duì)應(yīng)的語音文件,將 所述語句信息轉(zhuǎn)換成個(gè)性化的語音文件,并將所述語音文件替換所述多媒 體文件中的音頻部分。
進(jìn)一步地,所述服務(wù)端還可以包括發(fā)送單元,用于將所述多媒體文 件發(fā)送出去。
綜上所述,通過實(shí)施本實(shí)施例所揭示的技術(shù)方案,服務(wù)端能更好地 個(gè)性化定制多媒體,接收端接收到來自于發(fā)送端以文本方式發(fā)送、并經(jīng)服 務(wù)端轉(zhuǎn)換成的多媒體之后,其音頻部分與發(fā)送方的個(gè)性特征相吻合,就像 是發(fā)送方在對(duì)接收方說話,網(wǎng)絡(luò)通訊技術(shù)的用戶體驗(yàn)度得到極大提升。
以上所描述的具體實(shí)施例僅僅是示意性的,其中所述作為分離部件說
9明的單元既可以是、也可以不是物理上分開的,作為單元顯示的部件可以 是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多 個(gè)網(wǎng)絡(luò)單元上。本領(lǐng)域普通技術(shù)人員以本發(fā)明揭示的技術(shù)方案為基礎(chǔ),在 不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施其它種種具體方式。
通過以上實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā) 明可借助軟件以及必需的通用硬件平臺(tái)來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但 很多情況下前者是更佳的選擇。基于這樣的理解,本發(fā)明技術(shù)方案本質(zhì)上 或者說對(duì)背景技術(shù)做出貢獻(xiàn)的部分,可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令,運(yùn)行之后使 得一臺(tái)計(jì)算機(jī)設(shè)備執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上所述僅是本發(fā)明的實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通 技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn) 飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,發(fā)送端向服務(wù)端發(fā)送文本信息,服務(wù)端接收之后將所述文本信息轉(zhuǎn)換成多媒體文件,其特征在于所述文本信息包括語句信息,服務(wù)端接收到該文本信息并且轉(zhuǎn)換成多媒體文件之后,再根據(jù)發(fā)送端預(yù)先上傳的語音文件,將所述文本信息中的語句信息轉(zhuǎn)換為與發(fā)送端預(yù)先上傳的語音文件相對(duì)應(yīng)的個(gè)性化的語音文件,然后將轉(zhuǎn)換得到的語音文件替換所述多媒體文件中的音頻部分。
2、 根據(jù)權(quán)利要求1所述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,其特 征在于服務(wù)端將所述語句信息轉(zhuǎn)換為個(gè)性化的語音文件的方法是,服務(wù) 端利用現(xiàn)已成熟的個(gè)性化語音生成技術(shù),通過與發(fā)送端相對(duì)應(yīng)的語音文件, 將所述語句信息轉(zhuǎn)換為個(gè)性化的語音文件。
3、 根據(jù)權(quán)利要求1或2所述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法, 其特征在于服務(wù)端將所述文本信息轉(zhuǎn)換為多媒體文件的方法是,服務(wù)端 從多媒體文件庫中直接獲取與所述文本信息當(dāng)中的語句信息相匹配的多媒 體文件,得到轉(zhuǎn)換后的多媒體文件。
4、 根據(jù)權(quán)利要求1或2所述的帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,其特征在于服務(wù)端將所述文本信息轉(zhuǎn)換為多媒體文件的方法是,服務(wù)端先將所述文本信息當(dāng)中的語句信息分解為單獨(dú)的字或詞,然后從多媒體文件庫中分別獲取與每一個(gè)單獨(dú)的字或詞相匹配的多媒體文件,繼而將獲取 的與每一個(gè)單獨(dú)的字或詞相匹配的多媒體文件進(jìn)行合并,得到轉(zhuǎn)換后的多媒體文件。
5、 一種服務(wù)端,其特征在于包括,接收單元,用于接收來自于發(fā)送端的文本信息,并將所述文本信息送 至處理單元處理;以及用于接收與所述發(fā)送端相對(duì)應(yīng)的語音文件,并將所述語音文件發(fā)送至存儲(chǔ)單元存儲(chǔ);存儲(chǔ)單元,用于存儲(chǔ)來自于接收單元的語音文件;處理單元,用于將所述來自于接收單元的文本信息轉(zhuǎn)換成多媒體文件; 以及用于根據(jù)所述存儲(chǔ)單元中存儲(chǔ)的所述與發(fā)送端相對(duì)應(yīng)的語音文件,將 所述語句信息轉(zhuǎn)換成個(gè)性化語音文件,并將所述語音文件替換所述多媒體 文件中的音頻部分。
6、如權(quán)利要求5所述的服務(wù)端,其特征在于還包括發(fā)送單元,用于 將所述多媒體文件發(fā)送出去。
全文摘要
本發(fā)明公開了一種帶有個(gè)性化語音的多媒體轉(zhuǎn)換的方法,發(fā)送端向服務(wù)端發(fā)送文本信息,服務(wù)端接收之后將所述文本信息轉(zhuǎn)換成多媒體文件,所述文本信息包括語句信息,服務(wù)端接收到該文本信息并且轉(zhuǎn)換成多媒體文件之后,再根據(jù)發(fā)送端預(yù)先上傳的語音文件,將所述文本信息中的語句信息轉(zhuǎn)換為與發(fā)送端預(yù)先上傳的語音文件相對(duì)應(yīng)的個(gè)性化的語音文件,然后將轉(zhuǎn)換得到的語音文件替換所述多媒體文件中的音頻部分。本發(fā)明還提供了實(shí)施上述方法的服務(wù)端。依據(jù)本發(fā)明所揭示的技術(shù)方案,服務(wù)端能夠更好地個(gè)性化定制多媒體,進(jìn)一步提高了用戶體驗(yàn)度。
文檔編號(hào)H04M1/72GK101521853SQ20081002031
公開日2009年9月2日 申請(qǐng)日期2008年2月29日 優(yōu)先權(quán)日2008年2月29日
發(fā)明者李嘉輝 申請(qǐng)人:豐達(dá)軟件(蘇州)有限公司;李嘉輝