基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法與流程

文檔序號：12068738閱讀：574來源：國知局

本發(fā)明涉及立體影像技術(shù)領(lǐng)域，特別是涉及基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法。

背景技術(shù)：

360°全息成像技術(shù)(360-degree holographic imaging)是一種新興的3D技術(shù)，也可簡單稱為全息或360全息。此技術(shù)根據(jù)光的反射原理，配合人眼的視覺誤差，進行集成制作出多角度、全方位的360°立體懸浮影像?？蓪⒊上癃毩⒄故?，也可與實物相結(jié)合。

目前，以360°全息成像技術(shù)(360-degree holographic imaging)為基礎(chǔ)的360°全息成像系統(tǒng)主要由光學成像系統(tǒng)、計算機控制系統(tǒng)、影視播放系統(tǒng)和音響系統(tǒng)組成。就國內(nèi)發(fā)展狀況看，360°全息成像系統(tǒng)應用場景只是進行科技展覽(科技館的展示)，并未得到大量的實際應用?？蛇M行人機交互的360°全息成像系統(tǒng)也不存在。

語音識別技術(shù)，也被稱為自動語音識別Automatic Speech Recognition，(ASR)，其目標是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同，后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。一個完整的語音識別系統(tǒng)包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng)，對于不同的語音識別系統(tǒng)，人們所采用的具體識別方法及技術(shù)不同，但其基本原理都是相同的，即將采集到的語音信號送到特征提取模塊處理，將所得到的語音特征參數(shù)送入模型庫模塊，由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別，最后得出識別結(jié)果。當前的語音識別在模型庫進行匹配時，現(xiàn)有的搜索算法為利用語音學與語言學信息，把輸入的語音特征向量序列X＝X₁，X₂，……，X_T轉(zhuǎn)化成詞序列W＝W₁，W₂，…，W_N并輸出。

現(xiàn)有的360°全息成像系統(tǒng)和語音識別技術(shù)存在以下缺點：

1、360°全息成像系統(tǒng)無法實現(xiàn)人機交互。

2、360°全息成像系統(tǒng)需要用戶自主處理適合360°全息成像系統(tǒng)的視頻源。

3.360°全息成像系統(tǒng)的語音識別精度不佳。

綜上所述，現(xiàn)有技術(shù)中對于360°全息成像系統(tǒng)所存在的人機交互及使用不便等的問題，尚缺乏有效的解決方案。

技術(shù)實現(xiàn)要素：

為了解決現(xiàn)有技術(shù)的不足，本發(fā)明提供了基于全息成像和語音識別的交互三維立體影像系統(tǒng)，將語音識別應用于360°全息成像系統(tǒng)以達到人機交互的目的。開發(fā)相關(guān)配套軟件，對語音識別與360°全息成像系統(tǒng)進行實時控制，并能自動處理適合360°全息成像系統(tǒng)的視頻源。采用“定向使用人群”的語音識別技術(shù)來提高語音識別的精準度。

基于全息成像和語音識別的交互三維立體影像系統(tǒng)，包括計算機控制系統(tǒng)，所述計算機控制系統(tǒng)分別與影視播放與音響系統(tǒng)及光學成像系統(tǒng)相連，所述影像播放與音響系統(tǒng)用于畫面與聲音的輸出，所述光學成像系統(tǒng)用于實現(xiàn)三維立體畫面的展示，所述計算機控制系統(tǒng)包括語音識別模塊，所述語音識別模塊包括數(shù)據(jù)庫，通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配，實現(xiàn)對用戶的人群定向識別。

進一步的，所述數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫，所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫，該數(shù)據(jù)庫包括高頻專業(yè)詞匯，以便對使用者進行人群定向，所述第二數(shù)據(jù)庫包括定向人群的專業(yè)用語和常用語。

進一步的，所述語音識別模塊在實現(xiàn)語音識別時具體為：自動收集用戶語音信息，將收集的用戶語音信息與人群定向數(shù)據(jù)庫進行匹配，對用戶進行人群定向，該定向結(jié)果為人群的行業(yè)，通過對人群定向的正確性進行檢測直至符合要求為止。

進一步的，計算機控制系統(tǒng)對人群定向的正確性進行檢測的方法為：計算機控制系統(tǒng)在對人群定向后，(用戶在使用本產(chǎn)品時)計算機控制系統(tǒng)依然自動收集用戶語音信息，并依據(jù)當前人群定向結(jié)果(該定向結(jié)果為人群的行業(yè))繼續(xù)與第一數(shù)據(jù)庫進行反向匹配(即根據(jù)人群定向結(jié)果匹配專業(yè)高頻詞匯)得到反向匹配結(jié)果(該結(jié)果為專業(yè)高頻詞匯)，如果用戶語音信息與反向匹配結(jié)果誤差小于等于設(shè)定值(例如10％)，計算機控制系統(tǒng)則認為人群定向正確。

進一步的，計算機控制系統(tǒng)根據(jù)人群定向的結(jié)果，進一步從第二數(shù)據(jù)庫即定向人群專業(yè)用語和常用語數(shù)據(jù)庫進行搜索得到最終結(jié)果，該結(jié)果為符合定向人群的專業(yè)用語和常用語。

進一步的，所述計算機控制系統(tǒng)中還包括視頻源處理模塊，視頻源處理模塊通過以下方式實現(xiàn)對視頻源的處理：在容器中添加四個JMF播放器、一個播放器的視頻組件和控制組件，采用十字分割的方式對四個JMF播放器進行分割，四個JMF播放器分別播放用戶導入的正面、后面、左面、右面視頻，其中正面和后面、左面和右面互為對稱。播放器的視頻組件用于支持JMF播放器對視頻的播放，播放器的控制組件實現(xiàn)對視頻播放行為的控制。

進一步的，本發(fā)明還公開了基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng)的實現(xiàn)方法，包括：

計算機控制系統(tǒng)實現(xiàn)對語音識別，通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配，實現(xiàn)對用戶的人群定向識別；

影像播放與音響系統(tǒng)用于對計算機控制系統(tǒng)的畫面與聲音的輸出；

光學成像系統(tǒng)用于實現(xiàn)對計算機控制系統(tǒng)的三維立體畫面的展示。

進一步的，計算機控制系統(tǒng)實現(xiàn)對語音識別時，首先建立數(shù)據(jù)庫，所述數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫，所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫，該數(shù)據(jù)庫包括高頻專業(yè)詞匯，以便對使用者進行人群定向，所述第二數(shù)據(jù)庫包括定向人群的專業(yè)用語和常用語。

進一步的，計算機控制系統(tǒng)實現(xiàn)對語音識別時具體為：自動收集用戶語音信息，將收集的用戶語音信息與人群定向數(shù)據(jù)庫進行匹配，對用戶進行人群定向，該定向結(jié)果為人群的行業(yè)，通過對人群定向的正確性進行檢測直至符合要求為止。

進一步的，計算機控制系統(tǒng)實現(xiàn)對視頻源處理，視頻源處理通過以下方式實現(xiàn)對視頻源的處理：在容器中添加四個JMF播放器、一個播放器的視頻組件和控制組件，采用十字分割的方式對四個JMF播放器進行分割，四個JMF播放器分別播放用戶導入的正面、后面、左面、右面視頻，其中正面和后面、左面和右面互為對稱。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

1、使得360°全息成像系統(tǒng)可進行人機交互，使用更加靈活，實用性大大增強。

2、優(yōu)化語音識別速度，提高了用戶體驗。

3、為產(chǎn)品提供的配套軟件，使得非專業(yè)人士不經(jīng)培訓便可應用，使用難度降低，普及也相對容易。

4、交互式3維立體影像系統(tǒng)不再是專業(yè)設(shè)備，娛樂家居亦可使用。

附圖說明

構(gòu)成本申請的一部分的說明書附圖用來提供對本申請的進一步理解，本申請的示意性實施例及其說明用于解釋本申請，并不構(gòu)成對本申請的不當限定。

圖1交互式3維立體影像系統(tǒng)構(gòu)成圖；

圖2改進后的語音識別過程圖；

圖3配套軟件中視頻源處理功能的原理圖；

圖4配套軟件界面展示圖；

圖5配套軟件導入視頻源展示圖；

圖6配套軟件相關(guān)語音、畫面設(shè)置展示圖；

圖7交互式3維立體影像系統(tǒng)實地測試展示圖。

具體實施方式

應該指出，以下詳細說明都是例示性的，旨在對本申請?zhí)峁┻M一步的說明。除非另有指明，本文使用的所有技術(shù)和科學術(shù)語具有與本申請所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。

需要注意的是，這里所使用的術(shù)語僅是為了描述具體實施方式，而非意圖限制根據(jù)本申請的示例性實施方式。如在這里所使用的，除非上下文另外明確指出，否則單數(shù)形式也意圖包括復數(shù)形式，此外，還應當理解的是，當在本說明書中使用術(shù)語“包含”和/或“包括”時，其指明存在特征、步驟、操作、器件、組件和/或它們的組合。

術(shù)語解釋部分:定向使用人群，即通過對用戶行為數(shù)據(jù)的分析，找出潛在目標客群的共同行為特征的受眾。

正如背景技術(shù)所介紹的，現(xiàn)有技術(shù)中存在360°全息成像系統(tǒng)所存在的人機交互及使用不便等不足，為了解決如上的技術(shù)問題，本申請?zhí)岢隽嘶?60°全息成像和語音識別的交互式三維立體影像系統(tǒng)。

本申請的一種典型的實施方式中，如圖1所示，包括計算機控制系統(tǒng)，所述計算機控制系統(tǒng)分別與影視播放與音響系統(tǒng)及光學成像系統(tǒng)相連，所述計算機控制系統(tǒng)包括語音識別模塊，所述語音識別模塊建立數(shù)據(jù)庫，通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配，實現(xiàn)對用戶的人群定向識別。

其中，影像播放與音響系統(tǒng)負責畫面與聲音的輸出，光學成像系統(tǒng)負責三維立體畫面的展示，配套軟件則在計算機控制系統(tǒng)運行，實時對語音識別、畫面、聲音進行控制。

圖2為改進后的語音識別過程圖，在計算機控制系統(tǒng)中的語音識別功能的語言模型匹配環(huán)節(jié)進行“定向使用人群”的改進，數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫，所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫，該數(shù)據(jù)庫包括高頻專業(yè)詞匯，以便對使用者進行人群定向，所述第二數(shù)據(jù)庫為定向人群專業(yè)用語和常用語數(shù)據(jù)庫，包括定向人群的專業(yè)用語和常用語。

語音識別模塊在實現(xiàn)語音識別時具體步驟為：

1)用戶在使用語音識別時，計算機控制系統(tǒng)自動收集用戶語音信息。

2)將收集的用戶語音信息與人群定數(shù)據(jù)庫一進行匹配，對使用者進行人群定向，該定向結(jié)果為人群的行業(yè)。

3)反復重復步驟二，計算機控制系統(tǒng)對人群定向的正確性進行檢測，計算機控制系統(tǒng)對人群定向的正確性進行檢測的方法為：計算機控制系統(tǒng)在對人群定向后，用戶在使用本產(chǎn)品時，計算機控制系統(tǒng)依然自動收集用戶語音信息，并依據(jù)當前人群定向結(jié)果(該定向結(jié)果為人群的行業(yè))繼續(xù)與第一數(shù)據(jù)庫進行反向匹配(即根據(jù)人群定向結(jié)果匹配專業(yè)高頻詞匯)得到反向匹配結(jié)果(該結(jié)果為專業(yè)高頻詞匯)，如果用戶語音信息與反向匹配結(jié)果誤差小于等于10％,計算機控制系統(tǒng)會認為人群定向正確。

4)根據(jù)人群定向的結(jié)果，系統(tǒng)將從定向人群專業(yè)用語和常用語數(shù)據(jù)庫進行搜索得到最終結(jié)果，即符合定向人群的專業(yè)用語和常用語。

計算機控制系統(tǒng)中還包括視頻源處理模塊，如圖3所示，為配套軟件中視頻源處理功能的原理圖，視頻源處理模塊通過以下方式實現(xiàn)對視頻源的處理：在容器(JPanel)中添加四個JMF播放器(Player)、一個播放器的視頻組件和控制組件(Component)，采用十字分割的方式對四個JMF播放器(Player)進行分割，四個JMF播放器(Player)分別播放用戶導入的正面、后面、左面、右面視頻，其中正面和后面、左面和右面互為對稱。如圖中JMF播放器1對應用戶導入的視頻源正面，如圖中JMF播放器2對應用戶導入的視頻源后面，如圖中JMF播放器3對應用戶導入的視頻源左面，如圖中JMF播放器4對應用戶導入的視頻源右面。該技術(shù)無需計算機大量運算便可得到處理后的視頻源，處理時間大大降低。

本申請的另一種典型的實施方式中，提供了基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng)，該基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng)中還包括開發(fā)適用于交互式3維立體影像系統(tǒng)的配套軟件，集成對語音識別控制、用戶信息、視頻源處理等功能。為方便后期軟件的維護與跨平臺性，該配套軟件采用java程序語言開發(fā)設(shè)計。

上述配套軟件安裝在計算機中，配套軟件界面如圖4所示。配套軟件導入視頻源展示如圖5所述。用戶導入視頻源后，點擊圖4中的開始按鈕即可運行整個系統(tǒng)。圖6為配套軟件相關(guān)語音、畫面設(shè)置展示圖，包括語音識別的語言，視頻的清晰度與音量的大小。圖7為交互式3維立體影像系統(tǒng)實地測試展示圖。

以上所述僅為本申請的優(yōu)選實施例而已，并不用于限制本申請，對于本領(lǐng)域的技術(shù)人員來說，本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應包含在本申請的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：燕小成;呂蕾;吳艷娜;周棟梁
技術(shù)所有人：山東師范大學
我是此專利的發(fā)明人

上一篇：NEXT系列產(chǎn)品ARM和LINUX測量系統(tǒng)的制作方法與工藝
上一篇：三鏡頭全景3D相機的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

三維立體成像相關(guān)技術(shù)

三維立體成像儀相關(guān)技術(shù)

全息成像技術(shù)相關(guān)技術(shù)

全息成像系統(tǒng)相關(guān)技術(shù)

全息成像相關(guān)技術(shù)

透鏡成像記錄像全息圖相關(guān)技術(shù)

360全息成像相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法與流程