欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法與流程

文檔序號:12068738閱讀:574來源:國知局
基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法與流程

本發(fā)明涉及立體影像技術(shù)領(lǐng)域,特別是涉及基于全息成像和語音識別的交互三維立體影像系統(tǒng)及方法。



背景技術(shù):

360°全息成像技術(shù)(360-degree holographic imaging)是一種新興的3D技術(shù),也可簡單稱為全息或360全息。此技術(shù)根據(jù)光的反射原理,配合人眼的視覺誤差,進行集成制作出多角度、全方位的360°立體懸浮影像??蓪⒊上癃毩⒄故?,也可與實物相結(jié)合。

目前,以360°全息成像技術(shù)(360-degree holographic imaging)為基礎(chǔ)的360°全息成像系統(tǒng)主要由光學成像系統(tǒng)、計算機控制系統(tǒng)、影視播放系統(tǒng)和音響系統(tǒng)組成。就國內(nèi)發(fā)展狀況看,360°全息成像系統(tǒng)應用場景只是進行科技展覽(科技館的展示),并未得到大量的實際應用??蛇M行人機交互的360°全息成像系統(tǒng)也不存在。

語音識別技術(shù),也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。一個完整的語音識別系統(tǒng)包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別,最后得出識別結(jié)果。當前的語音識別在模型庫進行匹配時,現(xiàn)有的搜索算法為利用語音學與語言學信息,把輸入的語音特征向量序列X=X1,X2,……,XT轉(zhuǎn)化成詞序列W=W1,W2,…,WN并輸出。

現(xiàn)有的360°全息成像系統(tǒng)和語音識別技術(shù)存在以下缺點:

1、360°全息成像系統(tǒng)無法實現(xiàn)人機交互。

2、360°全息成像系統(tǒng)需要用戶自主處理適合360°全息成像系統(tǒng)的視頻源。

3.360°全息成像系統(tǒng)的語音識別精度不佳。

綜上所述,現(xiàn)有技術(shù)中對于360°全息成像系統(tǒng)所存在的人機交互及使用不便等的問題,尚缺乏有效的解決方案。



技術(shù)實現(xiàn)要素:

為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于全息成像和語音識別的交互三維立體影像系統(tǒng),將語音識別應用于360°全息成像系統(tǒng)以達到人機交互的目的。開發(fā)相關(guān)配套軟件,對語音識別與360°全息成像系統(tǒng)進行實時控制,并能自動處理適合360°全息成像系統(tǒng)的視頻源。采用“定向使用人群”的語音識別技術(shù)來提高語音識別的精準度。

基于全息成像和語音識別的交互三維立體影像系統(tǒng),包括計算機控制系統(tǒng),所述計算機控制系統(tǒng)分別與影視播放與音響系統(tǒng)及光學成像系統(tǒng)相連,所述影像播放與音響系統(tǒng)用于畫面與聲音的輸出,所述光學成像系統(tǒng)用于實現(xiàn)三維立體畫面的展示,所述計算機控制系統(tǒng)包括語音識別模塊,所述語音識別模塊包括數(shù)據(jù)庫,通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配,實現(xiàn)對用戶的人群定向識別。

進一步的,所述數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫,所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫,該數(shù)據(jù)庫包括高頻專業(yè)詞匯,以便對使用者進行人群定向,所述第二數(shù)據(jù)庫包括定向人群的專業(yè)用語和常用語。

進一步的,所述語音識別模塊在實現(xiàn)語音識別時具體為:自動收集用戶語音信息,將收集的用戶語音信息與人群定向數(shù)據(jù)庫進行匹配,對用戶進行人群定向,該定向結(jié)果為人群的行業(yè),通過對人群定向的正確性進行檢測直至符合要求為止。

進一步的,計算機控制系統(tǒng)對人群定向的正確性進行檢測的方法為:計算機控制系統(tǒng)在對人群定向后,(用戶在使用本產(chǎn)品時)計算機控制系統(tǒng)依然自動收集用戶語音信息,并依據(jù)當前人群定向結(jié)果(該定向結(jié)果為人群的行業(yè))繼續(xù)與第一數(shù)據(jù)庫進行反向匹配(即根據(jù)人群定向結(jié)果匹配專業(yè)高頻詞匯)得到反向匹配結(jié)果(該結(jié)果為專業(yè)高頻詞匯),如果用戶語音信息與反向匹配結(jié)果誤差小于等于設(shè)定值(例如10%),計算機控制系統(tǒng)則認為人群定向正確。

進一步的,計算機控制系統(tǒng)根據(jù)人群定向的結(jié)果,進一步從第二數(shù)據(jù)庫即定向人群專業(yè)用語和常用語數(shù)據(jù)庫進行搜索得到最終結(jié)果,該結(jié)果為符合定向人群的專業(yè)用語和常用語。

進一步的,所述計算機控制系統(tǒng)中還包括視頻源處理模塊,視頻源處理模塊通過以下方式實現(xiàn)對視頻源的處理:在容器中添加四個JMF播放器、一個播放器的視頻組件和控制組件,采用十字分割的方式對四個JMF播放器進行分割,四個JMF播放器分別播放用戶導入的正面、后面、左面、右面視頻,其中正面和后面、左面和右面互為對稱。播放器的視頻組件用于支持JMF播放器對視頻的播放,播放器的控制組件實現(xiàn)對視頻播放行為的控制。

進一步的,本發(fā)明還公開了基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng)的實現(xiàn)方法,包括:

計算機控制系統(tǒng)實現(xiàn)對語音識別,通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配,實現(xiàn)對用戶的人群定向識別;

影像播放與音響系統(tǒng)用于對計算機控制系統(tǒng)的畫面與聲音的輸出;

光學成像系統(tǒng)用于實現(xiàn)對計算機控制系統(tǒng)的三維立體畫面的展示。

進一步的,計算機控制系統(tǒng)實現(xiàn)對語音識別時,首先建立數(shù)據(jù)庫,所述數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫,所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫,該數(shù)據(jù)庫包括高頻專業(yè)詞匯,以便對使用者進行人群定向,所述第二數(shù)據(jù)庫包括定向人群的專業(yè)用語和常用語。

進一步的,計算機控制系統(tǒng)實現(xiàn)對語音識別時具體為:自動收集用戶語音信息,將收集的用戶語音信息與人群定向數(shù)據(jù)庫進行匹配,對用戶進行人群定向,該定向結(jié)果為人群的行業(yè),通過對人群定向的正確性進行檢測直至符合要求為止。

進一步的,計算機控制系統(tǒng)對人群定向的正確性進行檢測的方法為:計算機控制系統(tǒng)在對人群定向后,(用戶在使用本產(chǎn)品時)計算機控制系統(tǒng)依然自動收集用戶語音信息,并依據(jù)當前人群定向結(jié)果(該定向結(jié)果為人群的行業(yè))繼續(xù)與第一數(shù)據(jù)庫進行反向匹配(即根據(jù)人群定向結(jié)果匹配專業(yè)高頻詞匯)得到反向匹配結(jié)果(該結(jié)果為專業(yè)高頻詞匯),如果用戶語音信息與反向匹配結(jié)果誤差小于等于設(shè)定值(例如10%),計算機控制系統(tǒng)則認為人群定向正確。

進一步的,計算機控制系統(tǒng)根據(jù)人群定向的結(jié)果,進一步從第二數(shù)據(jù)庫即定向人群專業(yè)用語和常用語數(shù)據(jù)庫進行搜索得到最終結(jié)果,該結(jié)果為符合定向人群的專業(yè)用語和常用語。

進一步的,計算機控制系統(tǒng)實現(xiàn)對視頻源處理,視頻源處理通過以下方式實現(xiàn)對視頻源的處理:在容器中添加四個JMF播放器、一個播放器的視頻組件和控制組件,采用十字分割的方式對四個JMF播放器進行分割,四個JMF播放器分別播放用戶導入的正面、后面、左面、右面視頻,其中正面和后面、左面和右面互為對稱。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

1、使得360°全息成像系統(tǒng)可進行人機交互,使用更加靈活,實用性大大增強。

2、優(yōu)化語音識別速度,提高了用戶體驗。

3、為產(chǎn)品提供的配套軟件,使得非專業(yè)人士不經(jīng)培訓便可應用,使用難度降低,普及也相對容易。

4、交互式3維立體影像系統(tǒng)不再是專業(yè)設(shè)備,娛樂家居亦可使用。

附圖說明

構(gòu)成本申請的一部分的說明書附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。

圖1交互式3維立體影像系統(tǒng)構(gòu)成圖;

圖2改進后的語音識別過程圖;

圖3配套軟件中視頻源處理功能的原理圖;

圖4配套軟件界面展示圖;

圖5配套軟件導入視頻源展示圖;

圖6配套軟件相關(guān)語音、畫面設(shè)置展示圖;

圖7交互式3維立體影像系統(tǒng)實地測試展示圖。

具體實施方式

應該指出,以下詳細說明都是例示性的,旨在對本申請?zhí)峁┻M一步的說明。除非另有指明,本文使用的所有技術(shù)和科學術(shù)語具有與本申請所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。

需要注意的是,這里所使用的術(shù)語僅是為了描述具體實施方式,而非意圖限制根據(jù)本申請的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復數(shù)形式,此外,還應當理解的是,當在本說明書中使用術(shù)語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。

術(shù)語解釋部分:定向使用人群,即通過對用戶行為數(shù)據(jù)的分析,找出潛在目標客群的共同行為特征的受眾。

正如背景技術(shù)所介紹的,現(xiàn)有技術(shù)中存在360°全息成像系統(tǒng)所存在的人機交互及使用不便等不足,為了解決如上的技術(shù)問題,本申請?zhí)岢隽嘶?60°全息成像和語音識別的交互式三維立體影像系統(tǒng)。

本申請的一種典型的實施方式中,如圖1所示,包括計算機控制系統(tǒng),所述計算機控制系統(tǒng)分別與影視播放與音響系統(tǒng)及光學成像系統(tǒng)相連,所述計算機控制系統(tǒng)包括語音識別模塊,所述語音識別模塊建立數(shù)據(jù)庫,通過對輸入的用戶語音信息與數(shù)據(jù)庫進行匹配,實現(xiàn)對用戶的人群定向識別。

其中,影像播放與音響系統(tǒng)負責畫面與聲音的輸出,光學成像系統(tǒng)負責三維立體畫面的展示,配套軟件則在計算機控制系統(tǒng)運行,實時對語音識別、畫面、聲音進行控制。

圖2為改進后的語音識別過程圖,在計算機控制系統(tǒng)中的語音識別功能的語言模型匹配環(huán)節(jié)進行“定向使用人群”的改進,數(shù)據(jù)庫包括第一數(shù)據(jù)庫及第二數(shù)據(jù)庫,所述第一數(shù)據(jù)庫為人群定向數(shù)據(jù)庫,該數(shù)據(jù)庫包括高頻專業(yè)詞匯,以便對使用者進行人群定向,所述第二數(shù)據(jù)庫為定向人群專業(yè)用語和常用語數(shù)據(jù)庫,包括定向人群的專業(yè)用語和常用語。

語音識別模塊在實現(xiàn)語音識別時具體步驟為:

1)用戶在使用語音識別時,計算機控制系統(tǒng)自動收集用戶語音信息。

2)將收集的用戶語音信息與人群定數(shù)據(jù)庫一進行匹配,對使用者進行人群定向,該定向結(jié)果為人群的行業(yè)。

3)反復重復步驟二,計算機控制系統(tǒng)對人群定向的正確性進行檢測,計算機控制系統(tǒng)對人群定向的正確性進行檢測的方法為:計算機控制系統(tǒng)在對人群定向后,用戶在使用本產(chǎn)品時,計算機控制系統(tǒng)依然自動收集用戶語音信息,并依據(jù)當前人群定向結(jié)果(該定向結(jié)果為人群的行業(yè))繼續(xù)與第一數(shù)據(jù)庫進行反向匹配(即根據(jù)人群定向結(jié)果匹配專業(yè)高頻詞匯)得到反向匹配結(jié)果(該結(jié)果為專業(yè)高頻詞匯),如果用戶語音信息與反向匹配結(jié)果誤差小于等于10%,計算機控制系統(tǒng)會認為人群定向正確。

4)根據(jù)人群定向的結(jié)果,系統(tǒng)將從定向人群專業(yè)用語和常用語數(shù)據(jù)庫進行搜索得到最終結(jié)果,即符合定向人群的專業(yè)用語和常用語。

計算機控制系統(tǒng)中還包括視頻源處理模塊,如圖3所示,為配套軟件中視頻源處理功能的原理圖,視頻源處理模塊通過以下方式實現(xiàn)對視頻源的處理:在容器(JPanel)中添加四個JMF播放器(Player)、一個播放器的視頻組件和控制組件(Component),采用十字分割的方式對四個JMF播放器(Player)進行分割,四個JMF播放器(Player)分別播放用戶導入的正面、后面、左面、右面視頻,其中正面和后面、左面和右面互為對稱。如圖中JMF播放器1對應用戶導入的視頻源正面,如圖中JMF播放器2對應用戶導入的視頻源后面,如圖中JMF播放器3對應用戶導入的視頻源左面,如圖中JMF播放器4對應用戶導入的視頻源右面。該技術(shù)無需計算機大量運算便可得到處理后的視頻源,處理時間大大降低。

本申請的另一種典型的實施方式中,提供了基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng),該基于360°全息成像和語音識別的交互式三維立體影像系統(tǒng)中還包括開發(fā)適用于交互式3維立體影像系統(tǒng)的配套軟件,集成對語音識別控制、用戶信息、視頻源處理等功能。為方便后期軟件的維護與跨平臺性,該配套軟件采用java程序語言開發(fā)設(shè)計。

上述配套軟件安裝在計算機中,配套軟件界面如圖4所示。配套軟件導入視頻源展示如圖5所述。用戶導入視頻源后,點擊圖4中的開始按鈕即可運行整個系統(tǒng)。圖6為配套軟件相關(guān)語音、畫面設(shè)置展示圖,包括語音識別的語言,視頻的清晰度與音量的大小。圖7為交互式3維立體影像系統(tǒng)實地測試展示圖。

以上所述僅為本申請的優(yōu)選實施例而已,并不用于限制本申請,對于本領(lǐng)域的技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本申請的保護范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
莒南县| 武宁县| 龙口市| 惠州市| 长白| 通城县| 肃北| 通山县| 苏尼特左旗| 浏阳市| 同德县| 乐清市| 汉沽区| 通许县| 肥城市| 瑞昌市| 含山县| 体育| 防城港市| 吉安县| 得荣县| 西贡区| 桑日县| 玛沁县| 旬阳县| 石柱| 观塘区| 芜湖县| 台东市| 定州市| 荣昌县| 兴城市| 阿巴嘎旗| 鹿泉市| 达孜县| 务川| 荣成市| 虞城县| 龙山县| 西昌市| 栖霞市|