一種文字影音轉(zhuǎn)換方法和系統(tǒng)與流程

文檔序號：12888164閱讀：326來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及文字處理和電子技術(shù)領(lǐng)域，尤其涉及一種文字影音轉(zhuǎn)換方法和系統(tǒng)。

背景技術(shù)：

目前，人們看書的方式主要包括通過紙質(zhì)書、電子墨水屏和手機(jī)平板等進(jìn)行直接閱讀；也可以通過把文字轉(zhuǎn)化成語音，通過聽書的方式進(jìn)行間接閱讀。不管是通過何種方式看書，都存在過于單調(diào)的缺點(diǎn)，人們只能單方面從聽覺或者視覺上獲取文字信息，體驗(yàn)感不夠強(qiáng)。因此，提出一種新的閱讀方式，增強(qiáng)閱讀的互動性，是業(yè)界亟需解決的問題。

技術(shù)實(shí)現(xiàn)要素：

為了克服上述現(xiàn)有技術(shù)的不足，本發(fā)明提出了一種文字影音轉(zhuǎn)換方法和系統(tǒng)，能夠增強(qiáng)閱讀的互動性和體驗(yàn)感，閱讀效果更好，以滿足不同人群的需求。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下：一種文字影音轉(zhuǎn)換方法，具體包括步驟：

讀取數(shù)字化文件，所述數(shù)字化文件包括文字信息，所述文字信息包括若干文字；

把所述文字信息轉(zhuǎn)化為語音文件；

創(chuàng)建人物模型，并根據(jù)所述數(shù)字化文件控制所述人物模型，輸出所述人物模型的圖像文件；

整合所述語音文件和所述圖像文件，得到影音文件；

輸出所述影音文件。

本發(fā)明的有益效果在于：本技術(shù)方案先把數(shù)字化文件分成語音文件和圖像文件，再對語音文件和圖像文件進(jìn)行整合得到影音文件，再輸出影音文件就可以形成人物模型在為用戶朗讀書籍的場景。通過上述技術(shù)方案，本發(fā)明可以把數(shù)字化文件分別轉(zhuǎn)化為語音文件，創(chuàng)建人物模型并根據(jù)文字的順序控制所述人物模型，輸出圖像文件，再對語音文件和圖像文件合成為影音文件，輸出的影音文件既有語音，也有影像，有利提高閱讀的趣味性，并能夠增強(qiáng)閱讀的互動性和體驗(yàn)感，閱讀效果更好。

進(jìn)一步地，根據(jù)所述數(shù)字化文件控制所述人物模型的過程具體為：

預(yù)設(shè)唇形庫，所述唇形庫內(nèi)儲存有多個(gè)唇形文件；

分析數(shù)字化文件中各個(gè)文字的讀音；

根據(jù)各個(gè)文字的讀音，匹配得到對應(yīng)的所述唇形文件；

依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。

進(jìn)一步地，在讀取數(shù)字化文件后還進(jìn)一步獲取字幕文件，具體為：

提取所述文字信息，把所述文字信息轉(zhuǎn)化為字幕文件；

把所述字幕文件整合到所述影音文件。

進(jìn)一步地，所述數(shù)字化文件還包括圖片信息，在讀取數(shù)字化文件后還進(jìn)一步獲取圖片信息，具體為；

提取所述圖片信息，把所述圖片信息轉(zhuǎn)化為圖片文件；

把所述圖片文件整合到所述影音文件。

進(jìn)一步地，根據(jù)所述數(shù)字化文件控制所述人物模型還包括控制人物模型的肢體動作。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下：一種文字影音轉(zhuǎn)換系統(tǒng)，包括：

讀取模塊，用于讀取數(shù)字化文件，所述數(shù)字化文件包括文字信息，所述文字信息包括若干文字；

語音模塊，用于把所述文字信息轉(zhuǎn)化為語音文件；

圖像模塊，用于創(chuàng)建人物模型，并根據(jù)所述數(shù)字化文件控制所述人物模型，輸出所述人物模型的圖像文件；

整合模塊，用于整合所述語音文件和所述圖像文件，得到影音文件；

輸出模塊，用于輸出所述影音文件。

進(jìn)一步地，所述圖像模塊包括：

唇形庫單元，用于預(yù)設(shè)唇形庫，所述唇形庫內(nèi)儲存有多個(gè)唇形文件；

讀音分析單元，用于分析數(shù)字化文件中各個(gè)文字的讀音；

匹配單元，用于根據(jù)各個(gè)文字的讀音，匹配得到對應(yīng)的所述唇形文件；

唇形覆蓋單元，用于依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。

進(jìn)一步地，所述整合模塊還用于提取所述文字信息，并把所述文字信息轉(zhuǎn)化為字幕文件，然后把所述字幕文件整合到所述影音文件。

進(jìn)一步地，所述數(shù)字化文件還包括圖片信息，所述整合模塊還用于提取所述圖片信息，并把所述圖片信息轉(zhuǎn)化為圖片文件，然后把所述圖片文件整合到所述影音文件。

進(jìn)一步地，所述整合模塊還用于控制人物模型的肢體動作。

附圖說明

圖1為本發(fā)明一種文字影音轉(zhuǎn)換方法的流程圖；

圖2為本發(fā)明一種文字影音轉(zhuǎn)換系統(tǒng)的模塊示意圖；

圖3為本發(fā)明的應(yīng)用場景示意圖。

具體實(shí)施方式

以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述，所舉實(shí)例只用于解釋本發(fā)明，并非用于限定本發(fā)明的范圍。

本發(fā)明描述的是將數(shù)字化文件轉(zhuǎn)化為影音輸出的過程，構(gòu)建出一個(gè)人物模型在為用戶朗讀書籍的場景。數(shù)字化文件包括電子書、電子文檔、打字輸入，或是電腦自動生成的且可在電子設(shè)備中顯示文本等等。

如圖1所示，圖1為本發(fā)明一種文字影音轉(zhuǎn)換方法的流程圖。一種文字影音轉(zhuǎn)換方法，具體包括步驟：

s1.讀取數(shù)字化文件，所述數(shù)字化文件包括文字信息，所述文字信息包括若干文字；

s2.把所述文字信息轉(zhuǎn)化為語音文件；

s3.創(chuàng)建人物模型，并根據(jù)所述數(shù)字化文件控制所述人物模型，輸出所述人物模型的圖像文件；

s4.整合所述語音文件和所述圖像文件，得到影音文件；

s5.輸出所述影音文件。

對應(yīng)地，如圖2所示，圖2為本發(fā)明一種文字影音轉(zhuǎn)換系統(tǒng)的模塊示意圖。一種文字影音轉(zhuǎn)換系統(tǒng)，包括：

讀取模塊1，用于讀取數(shù)字化文件，所述數(shù)字化文件包括文字信息，所述文字信息包括若干文字；

語音模塊2，用于把所述文字信息轉(zhuǎn)化為語音文件；

圖像模塊3，用于創(chuàng)建人物模型，并根據(jù)所述數(shù)字化文件控制所述人物模型，輸出所述人物模型的圖像文件；

整合模塊4，用于整合所述語音文件和所述圖像文件，得到影音文件；

輸出模塊5，用于輸出所述影音文件。

本技術(shù)方案先把數(shù)字化文件分成語音文件和圖像文件，再對語音文件和圖像文件進(jìn)行整合得到影音文件，再輸出影音文件，就可以形成人物模型在為用戶朗讀書籍的場景。通過上述技術(shù)方案，本發(fā)明可以把數(shù)字化文件分別轉(zhuǎn)化為語音文件，創(chuàng)建人物模型并根據(jù)文字的順序控制所述人物模型，輸出圖像文件，再對語音文件和圖像文件合成為影音文件，輸出的影音文件既有語音，也有影像，有利提高閱讀的趣味性，并能夠增強(qiáng)閱讀的互動性和體驗(yàn)感，閱讀效果更好。

進(jìn)一步，根據(jù)所述數(shù)字化文件控制所述人物模型的過程具體為：

預(yù)設(shè)唇形庫，所述唇形庫內(nèi)儲存有多個(gè)唇形文件；

分析數(shù)字化文件中各個(gè)文字的讀音；

根據(jù)各個(gè)文字的讀音，匹配得到對應(yīng)的所述唇形文件；

依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。

對應(yīng)地，所述圖像模塊3包括：

唇形庫單元，用于預(yù)設(shè)唇形庫，所述唇形庫內(nèi)儲存有多個(gè)唇形文件；

讀音分析單元，用于分析數(shù)字化文件中各個(gè)文字的讀音；

匹配單元，用于根據(jù)各個(gè)文字的讀音，匹配得到對應(yīng)的所述唇形文件；

唇形覆蓋單元，用于依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。

目前，常用漢字的數(shù)量大約為3500個(gè)，每個(gè)漢字都有對應(yīng)的讀音，因此，先預(yù)設(shè)唇形庫，儲存與漢字發(fā)音對應(yīng)的唇形文件，唇形文件越豐富越好；然后，分析文字信息中所包括文字的讀音，為匹配唇形文件做準(zhǔn)備；再根據(jù)文字的讀音，匹配得到對應(yīng)的唇形文件，如根據(jù)“影”字的讀音，匹配得到“影”字對應(yīng)的唇形文件；最后，依次把匹配得到的唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上，如把“影”字對應(yīng)的唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上，人物模型的嘴唇就可以做出發(fā)出“影”字時(shí)的唇形。根據(jù)文字信息中所包括文字的順序，依次完成上述步驟，就可以模擬出人物模型朗讀對應(yīng)文字的圖像文件，易于實(shí)現(xiàn)，有利于提高閱讀增強(qiáng)閱讀的互動性。

通過唇形庫是其中的一種控制方式，也可通過其它的方式控制，只要能夠?qū)崿F(xiàn)人物模型的唇形與文字信息對應(yīng)即可。

另外，所述數(shù)字化文件還包括圖片信息，在讀取數(shù)字化文件后還進(jìn)一步獲取字幕文件和圖片信息。獲取字幕文件具體為：提取所述文字信息，把所述文字信息轉(zhuǎn)化為字幕文件；把所述字幕文件整合到所述影音文件。獲取圖片信息具體為：提取所述圖片信息，把所述圖片信息轉(zhuǎn)化為圖片文件；把所述圖片文件整合到所述影音文件。對應(yīng)地，所述整合模塊4還用于提取所述文字信息，并把所述文字信息轉(zhuǎn)化為字幕文件，然后把所述字幕文件整合到所述影音文件。所述整合模塊4還用于提取所述圖片信息，并把所述圖片信息轉(zhuǎn)化為圖片文件，然后把所述圖片文件整合到所述影音文件。

本發(fā)明的另一實(shí)施例為：

讀取數(shù)字化文件；

把所述文字信息轉(zhuǎn)化為語音文件；

創(chuàng)建人物模型，并根據(jù)所述數(shù)字化文件控制所述人物模型，輸出所述人物模型的圖像文件；

提取所述文字信息，把所述文字信息轉(zhuǎn)化為字幕文件；

提取所述圖片信息，把所述圖片信息轉(zhuǎn)化為圖片文件；

整合所述語音文件、所述圖像文件、所述字幕文件和所述圖片文件，得到影音文件；

輸出所述影音文件。

總的來說，本實(shí)施例先把數(shù)字化文件分別轉(zhuǎn)化為語音文件、圖像文件、字幕文件和圖片文件，再把語音文件、圖像文件、字幕文件和圖片文件整合到一起，得到影音文件。人物模型在為用戶朗讀書籍的場景中，除了聽到聲音和看到視頻外，還可以看到字幕和圖片，進(jìn)一步提升閱讀的體驗(yàn)。

需要說明的是，數(shù)字化文件包括文字信息和圖片信息，其中文字信息可被語音模塊2識別，而對于不能被識別的則作為圖片信息，進(jìn)一步轉(zhuǎn)化為圖片文件進(jìn)行顯示即可。

進(jìn)一步，除了對人物模型的唇形進(jìn)行匹配和覆蓋外，根據(jù)數(shù)字化文件控制人物模型還包括控制人物模型的肢體動作。對應(yīng)地，所述整合模塊4還用于控制人物模型的肢體動作。

進(jìn)一步，通過動畫技術(shù)控制人物模型的肢體動作。例如，采用骨骼動畫的方式模擬動畫模型在多個(gè)時(shí)間需要更新的骨骼運(yùn)動，從而生成骨骼動畫的變換矩陣；建立若干個(gè)情景模式，如歷史類情景和紀(jì)實(shí)類情景等，每個(gè)情景模式對應(yīng)有不同的變換矩陣；根據(jù)數(shù)字化文件的內(nèi)容，結(jié)合情景模式，采用不同的變換矩陣控制人物模型的肢體動作，提升閱讀的趣味性。

具體地，本技術(shù)方案的硬件系統(tǒng)可以通過多種方式來實(shí)現(xiàn)。

在一個(gè)實(shí)施例中，讀取模塊1、語音模塊2、圖像模塊3、整合模塊4和輸出模塊5集成在手機(jī)或者平板電腦或者個(gè)人電腦中，通過純軟件來實(shí)現(xiàn)，上述設(shè)備在對數(shù)字化文件進(jìn)行處理后，直接通過設(shè)備上的顯示屏輸出影音文件。

在另一個(gè)實(shí)施例中，讀取模塊1、語音模塊2、圖像模塊3和整合模塊4集成在手機(jī)或平板電腦等，輸出模塊5則為投影儀，手機(jī)或平板電腦通過連接并控制投影儀，在對數(shù)字化文件進(jìn)行處理后，輸出整合得到的影音文件。其中，可以通過連接掃描投影儀的二維碼的方式進(jìn)行連接。

在另一個(gè)實(shí)施例中，也可把讀取模塊1、語音模塊2、圖像模塊3、整合模塊4和輸出模塊5統(tǒng)一集成在vr設(shè)備中，vr設(shè)備在對數(shù)字化文件進(jìn)行處理后，直接輸出影音文件，用戶只需要戴上vr設(shè)備即可使用本系統(tǒng)。

如圖3所示，圖3為本發(fā)明的應(yīng)用場景示意圖。創(chuàng)建虛擬的人物模型，是人物模型為用戶朗讀書籍場景中的視覺基礎(chǔ)，此時(shí)只是一個(gè)無聲的人物模型，搭配相應(yīng)的場景與服裝，其唇形和肢體動作則根據(jù)文字信息的內(nèi)容不停變換，用戶就能看到且聽到一個(gè)虛擬的人在朗讀，其唇形和肢體動作都與自然人類似。優(yōu)選的，人物模型可以根據(jù)某個(gè)真人來創(chuàng)作，也可以自主設(shè)計(jì)合成。

把所述文字信息轉(zhuǎn)化為語音文件，即以數(shù)字化文件中的文字信息為參考，不斷合成相應(yīng)的聲音，是人物模型為用戶朗讀書籍場景中的聽覺基礎(chǔ)。如果沒有聲音，用戶只能看到人物模型在做無聲的動作。優(yōu)選的，合成的聲音可以是男聲或是女聲，也可以有孩童或是老人的聲音。

有了視覺基礎(chǔ)和聽覺基礎(chǔ)，需要進(jìn)一步整合得到影音文件，保持人物模型的唇形和正在發(fā)出的聲音一致。

數(shù)字化文件包括文字信息和圖片信息，其中文字信息較容易被識別，而對于不能被識別的再作為圖片信息

除此之外，數(shù)字化文件可能還會有圖片信息，還需要把正在朗讀的當(dāng)前頁中的圖片信息整合到輸出圖像中，比如顯示在人物模型旁邊的圖片顯示區(qū)中，當(dāng)此頁朗讀完畢，圖片信息也就不再顯示。優(yōu)選的，還可以整合當(dāng)前數(shù)字化文件的信息，如當(dāng)前朗讀的文檔縮略圖，顯示在書籍信息顯示區(qū)，當(dāng)此頁朗讀完畢，此區(qū)域則自動替換成下一頁的文檔縮略圖。進(jìn)一步，由于漢字同音字較多，把字幕文件整合到影音文件，整合正在朗讀的句子，以字幕的形式顯示在畫面下方的字幕顯示區(qū)。

當(dāng)然，這是只是用字幕和圖片信息舉例說明所顯示的信息，實(shí)際應(yīng)用中不只是這兩種，也可依據(jù)應(yīng)用場景的不同而顯示其他需要的信息。

具體的應(yīng)用場景包括：

在某寫字樓大廳，擺放著一個(gè)一人來高的顯示器，顯示器展示著一位虛擬的物業(yè)管理員，通過預(yù)先輸入的數(shù)字化文件，通過上述技術(shù)方案，物業(yè)管理員講解著電梯的分布位置，向來往人們問好，提醒人們保持秩序。

在某會議室中，工作人員將數(shù)字化文件導(dǎo)入到電子設(shè)備中，通過上述技術(shù)方案，然后輸出到投影儀上，畫面中顯示著一位虛擬工作人員，虛擬工作人員將數(shù)字化文件中的內(nèi)容一一念出，圖片則顯示在畫面一側(cè)。

在某家庭中，作為數(shù)字化文件的電子書經(jīng)過手機(jī)程序處理，然后把信號輸出到電視機(jī)，電視上出現(xiàn)一位圖書管理員，有聲有色地朗讀著電子書，書中的圖片和頁面縮略圖顯示在畫面兩側(cè)，下方還顯示著字幕，此時(shí)，人們可以放下手機(jī)，感受圖書管理員讀書所帶來的直觀體驗(yàn)。

以上所述僅為本發(fā)明的較佳實(shí)施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡志衛(wèi)
技術(shù)所有人：湖北燿影科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音轉(zhuǎn)換文字軟件相關(guān)技術(shù)

語音轉(zhuǎn)換成文字軟件相關(guān)技術(shù)

語音轉(zhuǎn)換成文字相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文字影音轉(zhuǎn)換方法和系統(tǒng)與流程