本發(fā)明涉及文字處理和電子技術(shù)領(lǐng)域,尤其涉及一種文字影音轉(zhuǎn)換方法和系統(tǒng)。
背景技術(shù):
目前,人們看書的方式主要包括通過紙質(zhì)書、電子墨水屏和手機(jī)平板等進(jìn)行直接閱讀;也可以通過把文字轉(zhuǎn)化成語音,通過聽書的方式進(jìn)行間接閱讀。不管是通過何種方式看書,都存在過于單調(diào)的缺點(diǎn),人們只能單方面從聽覺或者視覺上獲取文字信息,體驗(yàn)感不夠強(qiáng)。因此,提出一種新的閱讀方式,增強(qiáng)閱讀的互動性,是業(yè)界亟需解決的問題。
技術(shù)實(shí)現(xiàn)要素:
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種文字影音轉(zhuǎn)換方法和系統(tǒng),能夠增強(qiáng)閱讀的互動性和體驗(yàn)感,閱讀效果更好,以滿足不同人群的需求。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種文字影音轉(zhuǎn)換方法,具體包括步驟:
讀取數(shù)字化文件,所述數(shù)字化文件包括文字信息,所述文字信息包括若干文字;
把所述文字信息轉(zhuǎn)化為語音文件;
創(chuàng)建人物模型,并根據(jù)所述數(shù)字化文件控制所述人物模型,輸出所述人物模型的圖像文件;
整合所述語音文件和所述圖像文件,得到影音文件;
輸出所述影音文件。
本發(fā)明的有益效果在于:本技術(shù)方案先把數(shù)字化文件分成語音文件和圖像文件,再對語音文件和圖像文件進(jìn)行整合得到影音文件,再輸出影音文件就可以形成人物模型在為用戶朗讀書籍的場景。通過上述技術(shù)方案,本發(fā)明可以把數(shù)字化文件分別轉(zhuǎn)化為語音文件,創(chuàng)建人物模型并根據(jù)文字的順序控制所述人物模型,輸出圖像文件,再對語音文件和圖像文件合成為影音文件,輸出的影音文件既有語音,也有影像,有利提高閱讀的趣味性,并能夠增強(qiáng)閱讀的互動性和體驗(yàn)感,閱讀效果更好。
進(jìn)一步地,根據(jù)所述數(shù)字化文件控制所述人物模型的過程具體為:
預(yù)設(shè)唇形庫,所述唇形庫內(nèi)儲存有多個(gè)唇形文件;
分析數(shù)字化文件中各個(gè)文字的讀音;
根據(jù)各個(gè)文字的讀音,匹配得到對應(yīng)的所述唇形文件;
依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。
進(jìn)一步地,在讀取數(shù)字化文件后還進(jìn)一步獲取字幕文件,具體為:
提取所述文字信息,把所述文字信息轉(zhuǎn)化為字幕文件;
把所述字幕文件整合到所述影音文件。
進(jìn)一步地,所述數(shù)字化文件還包括圖片信息,在讀取數(shù)字化文件后還進(jìn)一步獲取圖片信息,具體為;
提取所述圖片信息,把所述圖片信息轉(zhuǎn)化為圖片文件;
把所述圖片文件整合到所述影音文件。
進(jìn)一步地,根據(jù)所述數(shù)字化文件控制所述人物模型還包括控制人物模型的肢體動作。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種文字影音轉(zhuǎn)換系統(tǒng),包括:
讀取模塊,用于讀取數(shù)字化文件,所述數(shù)字化文件包括文字信息,所述文字信息包括若干文字;
語音模塊,用于把所述文字信息轉(zhuǎn)化為語音文件;
圖像模塊,用于創(chuàng)建人物模型,并根據(jù)所述數(shù)字化文件控制所述人物模型,輸出所述人物模型的圖像文件;
整合模塊,用于整合所述語音文件和所述圖像文件,得到影音文件;
輸出模塊,用于輸出所述影音文件。
進(jìn)一步地,所述圖像模塊包括:
唇形庫單元,用于預(yù)設(shè)唇形庫,所述唇形庫內(nèi)儲存有多個(gè)唇形文件;
讀音分析單元,用于分析數(shù)字化文件中各個(gè)文字的讀音;
匹配單元,用于根據(jù)各個(gè)文字的讀音,匹配得到對應(yīng)的所述唇形文件;
唇形覆蓋單元,用于依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。
進(jìn)一步地,所述整合模塊還用于提取所述文字信息,并把所述文字信息轉(zhuǎn)化為字幕文件,然后把所述字幕文件整合到所述影音文件。
進(jìn)一步地,所述數(shù)字化文件還包括圖片信息,所述整合模塊還用于提取所述圖片信息,并把所述圖片信息轉(zhuǎn)化為圖片文件,然后把所述圖片文件整合到所述影音文件。
進(jìn)一步地,所述整合模塊還用于控制人物模型的肢體動作。
附圖說明
圖1為本發(fā)明一種文字影音轉(zhuǎn)換方法的流程圖;
圖2為本發(fā)明一種文字影音轉(zhuǎn)換系統(tǒng)的模塊示意圖;
圖3為本發(fā)明的應(yīng)用場景示意圖。
具體實(shí)施方式
以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
本發(fā)明描述的是將數(shù)字化文件轉(zhuǎn)化為影音輸出的過程,構(gòu)建出一個(gè)人物模型在為用戶朗讀書籍的場景。數(shù)字化文件包括電子書、電子文檔、打字輸入,或是電腦自動生成的且可在電子設(shè)備中顯示文本等等。
如圖1所示,圖1為本發(fā)明一種文字影音轉(zhuǎn)換方法的流程圖。一種文字影音轉(zhuǎn)換方法,具體包括步驟:
s1.讀取數(shù)字化文件,所述數(shù)字化文件包括文字信息,所述文字信息包括若干文字;
s2.把所述文字信息轉(zhuǎn)化為語音文件;
s3.創(chuàng)建人物模型,并根據(jù)所述數(shù)字化文件控制所述人物模型,輸出所述人物模型的圖像文件;
s4.整合所述語音文件和所述圖像文件,得到影音文件;
s5.輸出所述影音文件。
對應(yīng)地,如圖2所示,圖2為本發(fā)明一種文字影音轉(zhuǎn)換系統(tǒng)的模塊示意圖。一種文字影音轉(zhuǎn)換系統(tǒng),包括:
讀取模塊1,用于讀取數(shù)字化文件,所述數(shù)字化文件包括文字信息,所述文字信息包括若干文字;
語音模塊2,用于把所述文字信息轉(zhuǎn)化為語音文件;
圖像模塊3,用于創(chuàng)建人物模型,并根據(jù)所述數(shù)字化文件控制所述人物模型,輸出所述人物模型的圖像文件;
整合模塊4,用于整合所述語音文件和所述圖像文件,得到影音文件;
輸出模塊5,用于輸出所述影音文件。
本技術(shù)方案先把數(shù)字化文件分成語音文件和圖像文件,再對語音文件和圖像文件進(jìn)行整合得到影音文件,再輸出影音文件,就可以形成人物模型在為用戶朗讀書籍的場景。通過上述技術(shù)方案,本發(fā)明可以把數(shù)字化文件分別轉(zhuǎn)化為語音文件,創(chuàng)建人物模型并根據(jù)文字的順序控制所述人物模型,輸出圖像文件,再對語音文件和圖像文件合成為影音文件,輸出的影音文件既有語音,也有影像,有利提高閱讀的趣味性,并能夠增強(qiáng)閱讀的互動性和體驗(yàn)感,閱讀效果更好。
進(jìn)一步,根據(jù)所述數(shù)字化文件控制所述人物模型的過程具體為:
預(yù)設(shè)唇形庫,所述唇形庫內(nèi)儲存有多個(gè)唇形文件;
分析數(shù)字化文件中各個(gè)文字的讀音;
根據(jù)各個(gè)文字的讀音,匹配得到對應(yīng)的所述唇形文件;
依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。
對應(yīng)地,所述圖像模塊3包括:
唇形庫單元,用于預(yù)設(shè)唇形庫,所述唇形庫內(nèi)儲存有多個(gè)唇形文件;
讀音分析單元,用于分析數(shù)字化文件中各個(gè)文字的讀音;
匹配單元,用于根據(jù)各個(gè)文字的讀音,匹配得到對應(yīng)的所述唇形文件;
唇形覆蓋單元,用于依次把匹配得到的所述唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上。
目前,常用漢字的數(shù)量大約為3500個(gè),每個(gè)漢字都有對應(yīng)的讀音,因此,先預(yù)設(shè)唇形庫,儲存與漢字發(fā)音對應(yīng)的唇形文件,唇形文件越豐富越好;然后,分析文字信息中所包括文字的讀音,為匹配唇形文件做準(zhǔn)備;再根據(jù)文字的讀音,匹配得到對應(yīng)的唇形文件,如根據(jù)“影”字的讀音,匹配得到“影”字對應(yīng)的唇形文件;最后,依次把匹配得到的唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上,如把“影”字對應(yīng)的唇形文件覆蓋到人物模型嘴唇對應(yīng)的位置上,人物模型的嘴唇就可以做出發(fā)出“影”字時(shí)的唇形。根據(jù)文字信息中所包括文字的順序,依次完成上述步驟,就可以模擬出人物模型朗讀對應(yīng)文字的圖像文件,易于實(shí)現(xiàn),有利于提高閱讀增強(qiáng)閱讀的互動性。
通過唇形庫是其中的一種控制方式,也可通過其它的方式控制,只要能夠?qū)崿F(xiàn)人物模型的唇形與文字信息對應(yīng)即可。
另外,所述數(shù)字化文件還包括圖片信息,在讀取數(shù)字化文件后還進(jìn)一步獲取字幕文件和圖片信息。獲取字幕文件具體為:提取所述文字信息,把所述文字信息轉(zhuǎn)化為字幕文件;把所述字幕文件整合到所述影音文件。獲取圖片信息具體為:提取所述圖片信息,把所述圖片信息轉(zhuǎn)化為圖片文件;把所述圖片文件整合到所述影音文件。對應(yīng)地,所述整合模塊4還用于提取所述文字信息,并把所述文字信息轉(zhuǎn)化為字幕文件,然后把所述字幕文件整合到所述影音文件。所述整合模塊4還用于提取所述圖片信息,并把所述圖片信息轉(zhuǎn)化為圖片文件,然后把所述圖片文件整合到所述影音文件。
本發(fā)明的另一實(shí)施例為:
讀取數(shù)字化文件;
把所述文字信息轉(zhuǎn)化為語音文件;
創(chuàng)建人物模型,并根據(jù)所述數(shù)字化文件控制所述人物模型,輸出所述人物模型的圖像文件;
提取所述文字信息,把所述文字信息轉(zhuǎn)化為字幕文件;
提取所述圖片信息,把所述圖片信息轉(zhuǎn)化為圖片文件;
整合所述語音文件、所述圖像文件、所述字幕文件和所述圖片文件,得到影音文件;
輸出所述影音文件。
總的來說,本實(shí)施例先把數(shù)字化文件分別轉(zhuǎn)化為語音文件、圖像文件、字幕文件和圖片文件,再把語音文件、圖像文件、字幕文件和圖片文件整合到一起,得到影音文件。人物模型在為用戶朗讀書籍的場景中,除了聽到聲音和看到視頻外,還可以看到字幕和圖片,進(jìn)一步提升閱讀的體驗(yàn)。
需要說明的是,數(shù)字化文件包括文字信息和圖片信息,其中文字信息可被語音模塊2識別,而對于不能被識別的則作為圖片信息,進(jìn)一步轉(zhuǎn)化為圖片文件進(jìn)行顯示即可。
進(jìn)一步,除了對人物模型的唇形進(jìn)行匹配和覆蓋外,根據(jù)數(shù)字化文件控制人物模型還包括控制人物模型的肢體動作。對應(yīng)地,所述整合模塊4還用于控制人物模型的肢體動作。
進(jìn)一步,通過動畫技術(shù)控制人物模型的肢體動作。例如,采用骨骼動畫的方式模擬動畫模型在多個(gè)時(shí)間需要更新的骨骼運(yùn)動,從而生成骨骼動畫的變換矩陣;建立若干個(gè)情景模式,如歷史類情景和紀(jì)實(shí)類情景等,每個(gè)情景模式對應(yīng)有不同的變換矩陣;根據(jù)數(shù)字化文件的內(nèi)容,結(jié)合情景模式,采用不同的變換矩陣控制人物模型的肢體動作,提升閱讀的趣味性。
具體地,本技術(shù)方案的硬件系統(tǒng)可以通過多種方式來實(shí)現(xiàn)。
在一個(gè)實(shí)施例中,讀取模塊1、語音模塊2、圖像模塊3、整合模塊4和輸出模塊5集成在手機(jī)或者平板電腦或者個(gè)人電腦中,通過純軟件來實(shí)現(xiàn),上述設(shè)備在對數(shù)字化文件進(jìn)行處理后,直接通過設(shè)備上的顯示屏輸出影音文件。
在另一個(gè)實(shí)施例中,讀取模塊1、語音模塊2、圖像模塊3和整合模塊4集成在手機(jī)或平板電腦等,輸出模塊5則為投影儀,手機(jī)或平板電腦通過連接并控制投影儀,在對數(shù)字化文件進(jìn)行處理后,輸出整合得到的影音文件。其中,可以通過連接掃描投影儀的二維碼的方式進(jìn)行連接。
在另一個(gè)實(shí)施例中,也可把讀取模塊1、語音模塊2、圖像模塊3、整合模塊4和輸出模塊5統(tǒng)一集成在vr設(shè)備中,vr設(shè)備在對數(shù)字化文件進(jìn)行處理后,直接輸出影音文件,用戶只需要戴上vr設(shè)備即可使用本系統(tǒng)。
如圖3所示,圖3為本發(fā)明的應(yīng)用場景示意圖。創(chuàng)建虛擬的人物模型,是人物模型為用戶朗讀書籍場景中的視覺基礎(chǔ),此時(shí)只是一個(gè)無聲的人物模型,搭配相應(yīng)的場景與服裝,其唇形和肢體動作則根據(jù)文字信息的內(nèi)容不停變換,用戶就能看到且聽到一個(gè)虛擬的人在朗讀,其唇形和肢體動作都與自然人類似。優(yōu)選的,人物模型可以根據(jù)某個(gè)真人來創(chuàng)作,也可以自主設(shè)計(jì)合成。
把所述文字信息轉(zhuǎn)化為語音文件,即以數(shù)字化文件中的文字信息為參考,不斷合成相應(yīng)的聲音,是人物模型為用戶朗讀書籍場景中的聽覺基礎(chǔ)。如果沒有聲音,用戶只能看到人物模型在做無聲的動作。優(yōu)選的,合成的聲音可以是男聲或是女聲,也可以有孩童或是老人的聲音。
有了視覺基礎(chǔ)和聽覺基礎(chǔ),需要進(jìn)一步整合得到影音文件,保持人物模型的唇形和正在發(fā)出的聲音一致。
數(shù)字化文件包括文字信息和圖片信息,其中文字信息較容易被識別,而對于不能被識別的再作為圖片信息
除此之外,數(shù)字化文件可能還會有圖片信息,還需要把正在朗讀的當(dāng)前頁中的圖片信息整合到輸出圖像中,比如顯示在人物模型旁邊的圖片顯示區(qū)中,當(dāng)此頁朗讀完畢,圖片信息也就不再顯示。優(yōu)選的,還可以整合當(dāng)前數(shù)字化文件的信息,如當(dāng)前朗讀的文檔縮略圖,顯示在書籍信息顯示區(qū),當(dāng)此頁朗讀完畢,此區(qū)域則自動替換成下一頁的文檔縮略圖。進(jìn)一步,由于漢字同音字較多,把字幕文件整合到影音文件,整合正在朗讀的句子,以字幕的形式顯示在畫面下方的字幕顯示區(qū)。
當(dāng)然,這是只是用字幕和圖片信息舉例說明所顯示的信息,實(shí)際應(yīng)用中不只是這兩種,也可依據(jù)應(yīng)用場景的不同而顯示其他需要的信息。
具體的應(yīng)用場景包括:
在某寫字樓大廳,擺放著一個(gè)一人來高的顯示器,顯示器展示著一位虛擬的物業(yè)管理員,通過預(yù)先輸入的數(shù)字化文件,通過上述技術(shù)方案,物業(yè)管理員講解著電梯的分布位置,向來往人們問好,提醒人們保持秩序。
在某會議室中,工作人員將數(shù)字化文件導(dǎo)入到電子設(shè)備中,通過上述技術(shù)方案,然后輸出到投影儀上,畫面中顯示著一位虛擬工作人員,虛擬工作人員將數(shù)字化文件中的內(nèi)容一一念出,圖片則顯示在畫面一側(cè)。
在某家庭中,作為數(shù)字化文件的電子書經(jīng)過手機(jī)程序處理,然后把信號輸出到電視機(jī),電視上出現(xiàn)一位圖書管理員,有聲有色地朗讀著電子書,書中的圖片和頁面縮略圖顯示在畫面兩側(cè),下方還顯示著字幕,此時(shí),人們可以放下手機(jī),感受圖書管理員讀書所帶來的直觀體驗(yàn)。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。