專利名稱:融合聲對象信息的設(shè)備和方法
技術(shù)領(lǐng)域:
以下說明涉及增強(qiáng)現(xiàn)實(shí)(Augmented Reality ( “AR”)),更具體地講,涉及用于融合聲對象信息以提供將圖像與聲音融合起來的增強(qiáng)現(xiàn)實(shí)(“AR”)服務(wù)的設(shè)備和方法。
背景技術(shù):
增強(qiáng)現(xiàn)實(shí)(“AR”)是提供了其中用戶的眼睛所看到的真實(shí)世界與提供了附加信息的虛擬世界融合起來的圖像的虛擬現(xiàn)實(shí)(“VR”)的一種。AR類似于現(xiàn)有的VR。VR只為用戶提供了虛擬的空間和對象,而AR基于真實(shí)世界合成虛擬對象以提供不能在真實(shí)世界中容易地成為對象的附加信息。不同于基于完全虛擬世界的VR,AR將虛擬對象與真實(shí)環(huán)境結(jié)合起來以向用戶提供更逼真的感覺。在美國和日本已經(jīng)從1990年代的下半期開始對AR 進(jìn)行研究。隨著諸如移動電話和個人數(shù)字助理(“PDA”)之類的移動裝置的計算能力的提高、以及無線網(wǎng)絡(luò)裝置的發(fā)展,各種AR服務(wù)當(dāng)前正被提供。例如,與由移動電話的相機(jī)拍攝到的真實(shí)環(huán)境中的對象相關(guān)聯(lián)的細(xì)節(jié)和附加信息被虛擬地生成且與對象的圖像融合起來,并且其后輸出到顯示器。然而,傳統(tǒng)的AR服務(wù)是基于圖像的服務(wù),并且對于提供各種附加AR服務(wù)存在限制。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施方式提供了一種用于提供將實(shí)際圖像與聲音融合起來的增強(qiáng)現(xiàn)實(shí)(“AR”)服務(wù)的設(shè)備和方法。本發(fā)明的附加特征將在以下描述中被闡述,并且將根據(jù)該描述部分地變得清楚, 或者可通過對本發(fā)明的實(shí)踐而被了解。本發(fā)明的示例性實(shí)施方式披露了一種聲對象信息融合設(shè)備,包括聲對象化單元, 用于估計接收到的聲音的方向和位置,用于基于估計出的接收到的聲音的方向和位置來對接收到的聲音的聲音模式進(jìn)行分類,并且用于基于接收到的聲音的聲音模式來識別接收到的聲音的對象;聲對象信息生成器,用于獲取與識別出的接收到的聲音的對象相關(guān)的附加信息,并且用于由此生成聲對象信息;以及融合單元,用于將聲對象信息與真實(shí)的圖像或真實(shí)的聲音融合起來。本發(fā)明的示例性實(shí)施方式披露了一種生成與聲音相關(guān)聯(lián)的聲對象信息并且在用戶終端中將聲對象信息與真實(shí)的圖像或聲音融合起來的方法,包括步驟估計通過麥克風(fēng)陣列接收到的聲音的方向和位置;基于估計出的接收到的聲音的方向和位置來對接收到的聲音的聲音模式進(jìn)行分類;通過參考存儲有多個對象的聲音峰值的聲音模式數(shù)據(jù)庫來識別與聲音模式的聲音峰值相關(guān)聯(lián)的對象;獲取與所確定的對象相關(guān)的附加信息以生成接收到的聲音的聲對象信息;以及將聲對象信息與真實(shí)的圖像或聲音融合起來。應(yīng)該理解,前述總體描述和以下詳細(xì)描述是示例性的和說明性的,并且旨在提供對所要求保護(hù)的本發(fā)明的進(jìn)一步的說明。其它特征和方面將根據(jù)以下詳細(xì)的描述、附圖、和權(quán)利要求而變得清楚。
被包括以提供對本發(fā)明的進(jìn)一步理解并且結(jié)合到該說明書中且構(gòu)成該說明書的一部分的
了本發(fā)明的實(shí)施方式,并且與說明書一起用于說明本發(fā)明的原理。圖1是說明根據(jù)示例性實(shí)施方式的聲對象信息融合設(shè)備的圖。圖2示出了根據(jù)示例性實(shí)施方式的聲對象信息融合設(shè)備的麥克風(fēng)陣列。圖3是描述了根據(jù)示例性實(shí)施方式的聲對象信息融合方法的流程圖。圖4示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。圖5示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。圖6示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。圖7示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。
具體實(shí)施例方式以下參照示出了本發(fā)明的實(shí)施方式的附圖來更全面地描述本發(fā)明。然而,本發(fā)明可以多種不同形式實(shí)施,并且不應(yīng)被理解為限于本文陳述的實(shí)施方式。相反,提供這些實(shí)施方式使本公開變得完善,并且將向本領(lǐng)域技術(shù)人員完全地傳達(dá)本發(fā)明的范圍。在附圖中,為了清楚起見可能夸大層和區(qū)域的大小和相對大小。在附圖中相同的標(biāo)號表示相同的元件。應(yīng)該理解,盡管可在此使用術(shù)語第一、第二、第三等來描述各種元件或部件,但是這些元件或部件不應(yīng)受到這些術(shù)語的限制。這些術(shù)語僅被用于區(qū)分一個元件或部件。因此, 在不脫離本發(fā)明的教導(dǎo)的情況下,以下所述的第一元件或部件可被稱為第二元件或部件。 應(yīng)該理解,當(dāng)一個元件或?qū)颖环Q作“在”另一元件或?qū)印爸稀?,“與”另一元件或?qū)印斑B接”或 “與”另一元件或?qū)印榜罱印睍r,其可直接地在另一元件或?qū)又?,與另一元件或?qū)舆B接,或與另一元件或?qū)玉罱?,或者可能存在介于其間的元件或?qū)印O喾?,?dāng)一個元件或?qū)颖环Q作“直接在”另一元件或?qū)印爸稀?,“直接與”另一元件或?qū)印斑B接”或“直接與”另一元件或?qū)印榜罱印睍r,不會存在介于其間的元件或?qū)?。在此使用的術(shù)語僅為了描述特定實(shí)施方式,并非意圖限制本發(fā)明。如在本文所使用的那樣,單數(shù)形式“一”、“一個”和“該”還意圖包括復(fù)數(shù)形式,除非上下文清楚地表明并非如此。還應(yīng)理解,當(dāng)用在該說明書中時,術(shù)語“包括”和/或“包含”指的是所述特征、要件、步驟、操作、元件、和/或部件的存在,而非排除一個或多個其它特征、要件、步驟、操作、 元件、部件、和/或它們的組的存在或添加。提供以下描述以幫助讀者獲取對本文描述的方法、設(shè)備、和/或系統(tǒng)的詳盡理解。 因此,將使本領(lǐng)域普通技術(shù)人員能夠想到本文描述的方法、設(shè)備、和/或系統(tǒng)的各種改變、 變形和等同物。另外,可以省略對公知的功能和結(jié)構(gòu)的描述以提高清楚度和簡明度。圖1是說明根據(jù)示例性實(shí)施方式的聲對象信息融合設(shè)備的圖。聲對象信息融合設(shè)備(“Α0ΙΜ設(shè)備”)包括聲對象化單元110、聲對象信息生成器 120和融合單元130??稍诶绶涓C電話、PDA、臺式計算機(jī)、平板計算機(jī)、便攜式計算機(jī)等終端中實(shí)現(xiàn)AOIM設(shè)備。聲對象化單元110估計通過麥克風(fēng)陣列100接收到的多個聲音的方向和位置,以將聲音分類為多個聲音模式并且根據(jù)聲音模式確定與聲音相對應(yīng)的對象。聲對象化單元110根據(jù)接收到的聲音的聲音模式確定與接收到的聲音相對應(yīng)的對象。在示例性實(shí)施方式中,接收到的聲音的聲音模式可以是聲音峰值。聲對象化單元110可包括波束形成應(yīng)用單元111和聲對象判斷單元113。波束形成應(yīng)用單元111使用波束形成技術(shù)將通過麥克風(fēng)陣列100接收到的聲音分類為多個聲音音調(diào)。圖2示出了根據(jù)示例性實(shí)施方式的聲對象信息融合設(shè)備的麥克風(fēng)陣列。通常,麥克風(fēng)陣列100可以是多個麥克風(fēng)的組合,并且可以接收聲音并獲得與方向性(例如聲音的方向或位置)有關(guān)的附加特征,諸如聲音的角度和強(qiáng)度。麥克風(fēng)陣列100接收來自不同的點(diǎn)a、b、c和d的聲音以分別確定其位置。在點(diǎn) a、b、c和d產(chǎn)生的聲音形成了以麥克風(fēng)陣列為中心的多個同心圓。因此,麥克風(fēng)陣列100 可獲得從不同的點(diǎn)a、b、c和d接收到的聲音的角度和強(qiáng)度。因?yàn)樵诓煌臅r刻從點(diǎn)a、b、c 和d接收到聲音,所以聲音在不同的時刻到達(dá)麥克風(fēng)陣列100,并且因此麥克風(fēng)陣列100可獲得在點(diǎn)a、b、c和d產(chǎn)生的聲音的角度和強(qiáng)度。再次參照圖1,當(dāng)麥克風(fēng)陣列100接收到多個聲音時,波束形成應(yīng)用單元111使用波束形成技術(shù)對接收到的聲音進(jìn)行分類。在示例性實(shí)施方式中,波束形成技術(shù)可以調(diào)整麥克風(fēng)陣列的方向性模式以從接收到的聲音中僅獲取所期望的方向的聲音。波束形成應(yīng)用單元111使用接收到的聲音的角度和強(qiáng)度獲取由麥克風(fēng)陣列100接收到的多個接收到的聲音的方向和位置。波束形成應(yīng)用單元111根據(jù)聲音的方向和位置將聲音分類為多個聲音音調(diào)。聲對象判斷單元113獲取聲音音調(diào)的聲音峰值(聲音峰值是聲音特性信息或聲音模式的一種),并且從聲音模式數(shù)據(jù)庫(“DB”) 115獲取與該聲音峰值相關(guān)聯(lián)的對象。與聲音峰值相關(guān)的對象可以是發(fā)出該聲音的人或物。另選地或附加地,與聲音峰值相關(guān)的對象可以使聲音自身。聲音模式DB 115存儲作為諸如鋼琴、汽車、狗和鳥等各種對象的聲音特征信息的聲音峰值、和與各種聲音峰值相對應(yīng)的對象相關(guān)的信息。然而,各方面不限于此, 聲音模式DB 115可被包括在AOIM設(shè)備中,并且可以以任一適當(dāng)?shù)姆绞竭B接到AOIM設(shè)備。 聲對象判斷單元113獲取由波束形成應(yīng)用單元111分類的獨(dú)立的聲音音調(diào)的聲音峰值、并從聲音模式DB 115獲取與聲音峰值相對應(yīng)的對象。在示例性實(shí)施方式中,聲對象判斷單元 113使用離散傅里葉變換(“DFT”)或快速傅里葉變換(“FFT”)提取聲音音調(diào)的聲音峰值。在提取了聲音音調(diào)的聲音峰值之后,聲對象判斷單元113從聲音模式DB 115獲取與聲音音調(diào)的聲音峰值相對應(yīng)的對象。因此,聲對象判斷單元可識別與麥克風(fēng)陣列接收到的每一聲音音調(diào)相對應(yīng)的對象。當(dāng)聲對象判斷單元Il3沒有獲取到與接收到的聲音中的至少一個聲音相對應(yīng)的對象時,聲對象化單元110可通過使用濾波應(yīng)用單元117來確定與聲音相對應(yīng)的對象。作為示例,當(dāng)在同一位置產(chǎn)生的兩個或多個不同聲音被同時輸入到麥克風(fēng)陣列100時,聲對象判斷單元113可能無法識別與接收到的聲音相對應(yīng)的對象。在該示例中,因?yàn)椴ㄊ纬蓱?yīng)用單元111可能將從同一位置接收到的聲音分類為一個聲音音調(diào),所以波束形成應(yīng)用單元111可能無法將兩個或多個不同聲音彼此區(qū)分開。因此,聲對象判斷單元113可能無法從聲音模式DB 115中識別與組合的兩個或多個不同聲音的聲音峰值相對應(yīng)的對象。濾波應(yīng)用單元117使用來自接收到的聲音的頻率和幅度信息來使得接收到的聲音被分為單獨(dú)的聲音音調(diào)。濾波應(yīng)用單元117可通過使用帶通濾波器來將聲音分類為第二聲音音調(diào)。聲對象判斷單元113獲取由濾波應(yīng)用單元117分類出的第二聲音音調(diào)的聲音峰值,并且從聲
6音模式DB 115中識別與該聲音峰值相對應(yīng)的對象。通過獲取第二聲音音調(diào)的聲音峰值,即使接收到的聲音與噪聲混合,與聲音音調(diào)相對應(yīng)的對象也可被清楚地識別。在聲對象判斷單元113識別出分類的聲音音調(diào)的對象之后,聲對象信息生成器 120獲取與識別出的對象相關(guān)的細(xì)節(jié)和附加信息以生成聲對象信息。AOIM設(shè)備還可包括存儲有與多個對象相關(guān)的細(xì)節(jié)和附加信息的對象信息DB 121。然而,各方面不需要被限于此, 對象信息DB 121可獨(dú)立于AOIM設(shè)備,并且可以以任一適當(dāng)?shù)姆绞竭B接到AOIM設(shè)備。聲對象信息生成器120從對象信息DB 121獲取與對象相關(guān)的細(xì)節(jié)和附加信息以生成聲對象信肩、ο作為示例,如果由波束形成應(yīng)用單元111分類的聲音音調(diào)被聲對象判斷單元113 確定為汽車聲音,則聲對象信息生成器120從對象信息DB 121獲取諸如汽車型號信息類型和關(guān)于汽車的附加信息之類的與汽車相關(guān)的信息。聲對象信息生成器120基于接收到的汽車型號信息和關(guān)于汽車的附加信息來生成聲對象信息。聲對象信息可以是字符、圖像或運(yùn)動圖像形式的。也就是說,聲音對象信息可以是有關(guān)于發(fā)出該聲音的物體的信息。作為示例,如果由波束形成應(yīng)用單元111分類的聲音音調(diào)被聲對象判斷單元113 確定為是音樂,則聲對象信息生成器120從對象信息DB 121獲取諸如演唱者、曲名之類的與該音樂相關(guān)的信息。聲對象信息生成器120基于接收到的信息來生成聲對象信息。聲對象信息可以是字符、圖像或運(yùn)動圖像形式的。也就是說,聲音對象信息可以是有關(guān)于該聲音自身的信息。融合單元130被用于將聲對象信息生成器120所生成的每一聲對象信息與真實(shí)的圖像或聲音融合。融合單元130包括圖像信息融合器131、聲信息融合器133和聲音消除器 135。圖像信息融合器131將用戶終端的相機(jī)所拍攝到的真實(shí)的圖像和有關(guān)于該真實(shí)的圖像中發(fā)出該聲音的對象的聲對象信息融合起來,并且將所得到的圖像輸出到用戶終端的顯示器上。融合單元130可響應(yīng)于來自用戶的請求將真實(shí)的圖像和聲對象信息融合起來。作為示例,在如圖4所示的多人正在會議室中講話的會議期間拍攝到的圖像中,圖像信息融合器131將拍攝到的真實(shí)的圖像與有關(guān)于參與討論的人的聲對象信息融合起來。圖像信息融合器131可將所得到的圖像輸出到與AOIM設(shè)備連接的用戶終端的顯示器上。在示例性實(shí)施方式中,聲對象信息可以是與真實(shí)的圖像融合起來的說話氣泡(speech bubble)形式的。聲信息融合器133輸出有關(guān)于真實(shí)的聲音的聲對象信息。在另選的實(shí)施方式中, 聲信息融合器133還將聲對象信息與真實(shí)的圖像融合起來。真實(shí)的聲音可以由與AOIM設(shè)備相連接的用戶終端的麥克風(fēng)接收,并且輸出的聲對象信息可以被輸出到用戶終端的顯示器。在示例性實(shí)施方式中,接收到的聲音可被存儲在與AOIM設(shè)備相連接的用戶終端中。真實(shí)的圖像可以是由與AOIM設(shè)備相連接的用戶終端的相機(jī)拍攝的所拍攝的圖像,并且響應(yīng)于來自用戶的請求,該融合所獲得的圖像可被輸出到用戶終端的顯示器。作為示例,如果通過與示例的AOIM設(shè)備相連接的用戶終端的麥克風(fēng)接收到街上的音樂聲,則聲信息融合器 133可將包括與音樂相關(guān)的信息的聲對象信息輸出到用戶終端的顯示器上,或者可將聲對象信息與真實(shí)的圖像融合起來,并且其后將融合的結(jié)果輸出到用戶終端的顯示器。聲音消除器135消除與圖像中的對象中的所選擇的對象不相對應(yīng)的聲音。用戶可從輸出到與AOIM設(shè)備相連接的用戶終端的顯示器的圖像中選擇被選擇的對象圖像。作為示例,用戶可請求從由用戶終端的相機(jī)拍攝到的管弦樂隊(duì)演奏的圖像中消除除小提琴的聲音之外的與全部樂器相對應(yīng)的聲音。如果接收到這樣的請求,則聲音消除器135消除由其余樂器產(chǎn)生的聲音。因此,用戶可通過用戶終端的揚(yáng)聲器聽到的輸出的聲對象信息可以是對小提琴聲音的再現(xiàn)。圖3是描述了根據(jù)示例性實(shí)施方式的聲對象信息融合方法的流程圖。參照圖3,在操作300中,當(dāng)通過麥克風(fēng)陣列接收到在多個不同位置產(chǎn)生的聲音時,AOIM設(shè)備使用波束形成技術(shù)來估計接收到的聲音的方向和位置,并且根據(jù)聲音的方向和位置將聲音分類為多個聲音音調(diào)。波束形成技術(shù)可調(diào)整麥克風(fēng)陣列的方向性模式,并且從接收到的聲音中僅獲取所期望的聲音。AOIM設(shè)備使用波束形成技術(shù),例如可基于聲音的角度和強(qiáng)度,來確定麥克風(fēng)陣列接收到的聲音的方向和位置,從而將聲音分類為多個聲音音調(diào)。在將聲音分類為聲音音調(diào)之后,AOIM設(shè)備獲取每一聲音音調(diào)的聲音峰值。在示例性實(shí)施方式中,用戶終端可使用DFT或FFT提取每一聲音音調(diào)的聲音峰值。在操作310中,AOIM設(shè)備通過參考存儲有各種對象的聲音峰值的聲音模式DB來識別與每一提取出的聲音峰值相對應(yīng)的對象。在操作320中,AOIM設(shè)備確定針對至少一個接收到的聲音通過參考聲音模式DB是否沒有識別出對象。如果針對至少一個接收到的聲音沒有識別出的對象,則在操作330中,AOIM設(shè)備使用帶通濾波器來對其相關(guān)聯(lián)的對象尚未被確定的聲音進(jìn)行第二次分類。例如,當(dāng)AOIM設(shè)備通過麥克風(fēng)陣列接收到在相同的位置和時刻或近似相同的位置和時刻產(chǎn)生的兩個或多個不同的聲音時,AOIM設(shè)備可能無法使用波束形成技術(shù)來將不同的聲音分類為不同的聲音音調(diào)。因此,在操作310中,AOIM設(shè)備可能無法確定與不同的聲音相對應(yīng)的對象。AOIM設(shè)備基于聲音的頻率和幅度來將其相關(guān)聯(lián)的對象尚未被識別出的聲音分類為至少一個第二聲音音調(diào)。其后,AOIM設(shè)備獲取由帶通濾波器分類的每一獨(dú)立的第二聲音音調(diào)的聲音峰值。 其后,AOIM設(shè)備從聲音模式DB中獲取具有與所述聲音峰值相對應(yīng)的聲音峰值的對象。如果針對所有接收到的聲音識別出了對象,則該方法進(jìn)行到操作340。在操作340中,在針對單獨(dú)的聲音音調(diào)識別出對象之后,用戶終端還獲取與被確定為與獨(dú)立的聲音音調(diào)相對應(yīng)的對象相關(guān)的細(xì)節(jié)和附加信息以生成聲對象信息。例如, AOIM設(shè)備通過參考存儲有與多個對象相關(guān)的這種細(xì)節(jié)和附加信息的對象信息DB來獲取與被確定為與獨(dú)立的聲音音調(diào)相對應(yīng)的識別出的對象相關(guān)的細(xì)節(jié)和附加信息。例如,在聲音音調(diào)的對象被確定為是汽車的情況下,AOIM設(shè)備獲取汽車型號信息和關(guān)于汽車的附加信息,并且根據(jù)所獲取的汽車型號信息和關(guān)于汽車的附加信息生成聲對象信息。聲對象信息可以是字符、圖標(biāo)、圖像或運(yùn)動圖像形式的。在操作350中,基于用戶請求,AOIM設(shè)備將每一聲對象信息與真實(shí)的圖像或聲音融合起來。例如,AOIM設(shè)備確定是否存在將至少一條聲對象信息與真實(shí)的圖像或聲音融合起來的用戶請求。如果確定存在將至少一條聲對象信息與真實(shí)的圖像融合起來的用戶請求,則AOIM設(shè)備將相機(jī)所拍攝到的真實(shí)的圖像和與該真實(shí)的圖像相關(guān)聯(lián)的聲對象信息融合起來。真實(shí)的圖像可以是由與AOIM設(shè)備相連接的用戶終端的相機(jī)拍攝的圖像,并且該融合所獲得的圖像可被輸出到用戶終端的顯示器。作為示例,在多人正在會議室中講話的會議期間拍攝到的照片中,圖像信息融合器將拍攝到的真實(shí)的圖像與關(guān)于參與討論的人的聲對象信息融合起來。在示例性實(shí)施方式中,聲對象信息可以是與真實(shí)的圖像融合起來的說話氣泡形式的。如果確定存在將至少一條聲對象信息與真實(shí)的聲音融合起來的用戶請求,則用戶終端可輸出與接收到的真實(shí)的聲音相關(guān)聯(lián)的聲對象信息。聲音可通過與AOIM設(shè)備相連接的用戶終端的麥克風(fēng)而被接收,并且可被存儲在AOIM設(shè)備的用戶終端中。聲對象信息可被投影到用戶終端的顯示器上。作為示例,當(dāng)由與示例的AOIM設(shè)備相連接的用戶終端的麥克風(fēng)接收到街上的音樂聲時,用戶終端將包括與音樂相關(guān)的信息的聲對象信息輸出到用戶終端的顯示器上。然而,各方面不限于此,AOIM設(shè)備可將與真實(shí)的聲音相關(guān)聯(lián)的聲對象信息與真實(shí)的圖像融合起來,并且將融合的結(jié)果輸出到與AOIM設(shè)備相連接的用戶終端的顯示器上。而且,根據(jù)用戶請求,AOIM設(shè)備可消除與在和AOIM設(shè)備相連接的用戶終端的顯示器上的圖像中的對象相對應(yīng)的聲音。作為示例,接收消除聲音的用戶請求。用戶請求從由用戶終端的相機(jī)拍攝到的管弦樂隊(duì)演奏的圖像中指定小提琴作為其聲音不被消除的對象。 因此,聲音消除器135消除由其余樂器產(chǎn)生的聲音。因此,用戶可通過用戶終端的揚(yáng)聲器聽到的輸出的聲對象信息是對由用戶終端的相機(jī)拍攝到的小提琴聲音的再現(xiàn)。圖4示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。圖4對應(yīng)于由與示例性的AOIM設(shè)備相連接的用戶終端的相機(jī)拍攝的審判視頻的情況。AOIM設(shè)備基于參與審判的參與者的語音來對參與者進(jìn)行對象化。其后,AOIM設(shè)備使用語音識別來識別對象化的參與者的語音以將語音轉(zhuǎn)換為文本,以生成說話氣泡的形式的文本,其后將說話氣泡與審判視頻融合起來。其后,如果用戶從輸出到用戶終端的顯示器上的融合的審判視頻中選擇了至少一個參與者,則AOIM設(shè)備可將與所選擇的參與者的語音相關(guān)聯(lián)地生成的說話氣泡輸出到審判視頻上,并且/或者消除其余參與者的語音以通過揚(yáng)聲器僅輸出所選擇的參與者的語音。因此,用戶可通過用戶終端的顯示器或揚(yáng)聲器看到或聽到參與者的講話。然而,各方面不限于此,可在顯示器上顯示字幕。圖5示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。在圖5中,與示例的AOIM設(shè)備相連接的用戶終端的相機(jī)拍攝汽車的發(fā)動機(jī)的圖像。AOIM設(shè)備對通過麥克風(fēng)陣列接收到的由發(fā)動機(jī)產(chǎn)生的聲音進(jìn)行對象化,將與聲音相關(guān)聯(lián)的聲對象信息(即,關(guān)于發(fā)動機(jī)部件的信息)與由相機(jī)拍攝到的真實(shí)的圖像融合起來,并且將與各部件相對應(yīng)的聲對象信息輸出到用戶終端的顯示器。AOIM設(shè)備可將示出了汽車中的發(fā)動機(jī)部件的真實(shí)的圖像和與在真實(shí)的圖像中所示的發(fā)動機(jī)部件相關(guān)聯(lián)的聲對象信息融合起來。AOIM設(shè)備輸出融合的結(jié)果,并且在用戶終端的顯示器上的發(fā)動機(jī)圖像的位置附近顯示聲對象信息。而且,AOIM設(shè)備將與接收到的獨(dú)立部件的聲音相關(guān)的特征信息與與數(shù)據(jù)庫中所存儲的部件的聲音相關(guān)的特征信息相比較,以確定接收到的部件的聲音是處于正常狀態(tài)還是處于異常狀態(tài)。因此,AOIM設(shè)備通過與AOIM設(shè)備相連接的用戶終端上的顯示器基于確定的結(jié)果向用戶通知各部件的狀態(tài)。如果確定接收到的部件的聲音中的發(fā)動機(jī)聲音處于異常狀態(tài),則AOIM設(shè)備生成包括發(fā)動機(jī)需要維修的通知的聲對象信息。其后,AOIM 設(shè)備將真實(shí)的圖像與包括該通知的聲對象信息融合起來,從而聲對象信息出現(xiàn)在真實(shí)的圖像上的發(fā)動機(jī)圖像附近,并且將所獲得的圖像輸出到用戶終端的顯示器上。因此,用戶可容易且快速地識別發(fā)動機(jī)出現(xiàn)某些故障的事實(shí)。
9
圖6示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。在圖6中,用戶使用與示例性的AOIM設(shè)備相連接的用戶終端中的相機(jī)拍攝他或她正行走在的街道。如果通過AOIM設(shè)備的麥克風(fēng)陣列從不同的商店中接收多段音樂,則AOIM 設(shè)備使用波束形成技術(shù)來將所述多段音樂分類以獲得所述多段音樂的聲音峰值,并且識別與所獲得的聲音峰值相對應(yīng)的諸如音樂名稱之類的對象。AOIM設(shè)備還獲取與對象(即對象化的音樂)相關(guān)的諸如演唱者、唱片公司等細(xì)節(jié)以生成聲對象信息。其后,AOIM設(shè)備將聲對象信息與由相機(jī)拍攝到的真實(shí)的圖像融合起來,并且將所得到的圖像輸出到用戶終端的顯示器上。因此,用戶終端在顯示在顯示器上的圖像上的相對應(yīng)的商店附近顯示每一聲對象信息。因此,用戶可使用AOIM設(shè)備來容易地確定與由每一商店播放的音樂相關(guān)的信息, 并且可進(jìn)一步選擇一段音樂以下載到用戶終端。圖7示出了根據(jù)示例性實(shí)施方式的對聲對象信息與真實(shí)的圖像或聲音的融合。在圖7中,用戶通過與示例性的AOIM設(shè)備相連接的用戶終端的相機(jī)拍攝管弦樂隊(duì)演奏。當(dāng)通過麥克風(fēng)陣列接收到各種樂器的聲音時,AOIM設(shè)備使用波束形成技術(shù)來對樂器的聲音進(jìn)行分類以獲得接收到的樂器的聲音的聲音峰值,并且識別與每一聲音峰值相對應(yīng)的對象(即,樂器)。其后,AOIM設(shè)備還獲取與對象相關(guān)的細(xì)節(jié)和附加信息以生成聲對象信息。AOIM設(shè)備將聲對象信息與由相機(jī)拍攝到的真實(shí)的圖像融合起來,并且將所得到的圖像輸出到用戶終端的顯示器上。因此,用戶可從顯示在用戶終端的顯示器上的圖像中獲取與每一樂器相關(guān)的信息。而且,當(dāng)用戶從由用戶終端的相機(jī)所記錄的管弦樂隊(duì)演奏中選擇了特定的樂器(例如,小提琴)時,AOIM設(shè)備消除其余樂器的聲音。因此,用戶可聽到再現(xiàn)的特定樂器的聲音。本文公開的融合聲對象信息的設(shè)備和方法提供了將真實(shí)的圖像與聲音融合起來的AR服務(wù)。通過用戶終端接收到的多個聲音音調(diào)可被分類對象,并且可以創(chuàng)建例如圖像的聲對象信息,并且創(chuàng)建的聲對象信息可被與用戶能夠感覺到的任何真實(shí)融合起來??蓪νㄟ^用戶終端接收到的多個聲音進(jìn)行對象化和信息化以將聲音分類對象,從而對象化的聲音能夠與用戶能夠感覺到的任一類型的真實(shí)環(huán)境融合起來。對于本領(lǐng)域技術(shù)人員明顯的是,可在不脫離本發(fā)明的精神或范圍的情況下在本發(fā)明中進(jìn)行各種變形和變化。因此,意圖是本發(fā)明覆蓋進(jìn)入到所附權(quán)利要求及其等同物范圍內(nèi)的所提供的本發(fā)明的變形和變化。相關(guān)申請的交叉引用本申請要求于2010年7月觀日提交的第10-2010-00730M號韓國專利申請的優(yōu)先權(quán)和權(quán)益,其全部內(nèi)容通過弓I用并入本文,就好像在此被全部陳述一樣。
權(quán)利要求
1.一種聲對象信息融合設(shè)備,所述聲對象信息融合設(shè)備包括聲對象化單元,用于估計接收到的聲音的方向和位置,基于估計出的接收到的聲音的方向和位置分類接收到的聲音的聲音模式,并且基于接收到的聲音的聲音模式來識別接收到的聲音的對象;聲對象信息生成器,用于獲取與識別出的接收到的聲音的對象相關(guān)的附加信息,并且用于根據(jù)所述附加信息生成聲對象信息;以及融合單元,用于將所述聲對象信息與真實(shí)的圖像或真實(shí)的聲音融合起來。
2.如權(quán)利要求1所述的設(shè)備,其中由麥克風(fēng)陣列接收所述接收到的聲音。
3.如權(quán)利要求1所述的設(shè)備,其中所述接收到的聲音的聲音模式是聲音峰值。
4.如權(quán)利要求1所述的設(shè)備,所述聲對象信息融合設(shè)備還包括用于存儲多個聲對象的多個聲音模式的聲音模式數(shù)據(jù)庫。
5.如權(quán)利要求4所述的設(shè)備,其中所述聲對象化單元還包括波束形成應(yīng)用單元,用于將接收到的聲音分類為至少一個聲音音調(diào);以及聲對象判斷單元,用于獲取由波束形成應(yīng)用單元分類出的聲音音調(diào)的聲音峰值并從聲音模式數(shù)據(jù)庫中獲取與所述聲音峰值相對應(yīng)的對象。
6.如權(quán)利要求4所述的設(shè)備,其中所述聲對象化單元還包括濾波應(yīng)用單元,所述濾波應(yīng)用單元用于基于接收到的聲音的頻率和幅度來將接收到的聲音分類為至少一個聲音音調(diào);并且其中,所述聲對象判斷單元獲取由所述濾波應(yīng)用單元分類出的聲音音調(diào)的聲音峰值,并且從所述聲音模式數(shù)據(jù)庫中獲取與聲音峰值相對應(yīng)的對象。
7.如權(quán)利要求1所述的設(shè)備,其中所述融合單元包括圖像信息融合單元,所述圖像信息融合單元用于將真實(shí)的圖像和與真實(shí)的圖像中發(fā)出所接收到的聲音的對象相關(guān)聯(lián)的聲對象信息融合起來。
8.如權(quán)利要求7所述的設(shè)備,其中所述真實(shí)的圖像是由與所述聲對象信息融合設(shè)備相連接的用戶終端的相機(jī)拍攝到的圖像。
9.如權(quán)利要求8所述的設(shè)備,其中所述融合的圖像被輸出到所述用戶終端的顯示器。
10.如權(quán)利要求7所述的設(shè)備,其中所述聲對象信息是字符、圖標(biāo)、圖像或運(yùn)動圖像形式的。
11.如權(quán)利要求7所述的設(shè)備,其中所述融合單元還包括聲信息融合單元,用于將真實(shí)的聲音或真實(shí)的圖像與和所接收的聲音自身相關(guān)聯(lián)的聲對象信息融合起來。
12.如權(quán)利要求11所述的設(shè)備,其中通過與所述聲對象信息融合設(shè)備相連接的用戶終端的麥克風(fēng)接收真實(shí)的聲音。
13.如權(quán)利要求11所述的設(shè)備,其中所述真實(shí)的圖像是由與所述聲對象信息融合設(shè)備相連接的用戶終端的相機(jī)拍攝到的圖像。
14.如權(quán)利要求13所述的設(shè)備,其中所述融合的圖像被輸出到用戶終端上的顯示器。
15.如權(quán)利要求11所述的設(shè)備,其中所述聲對象信息是字符、圖標(biāo)、圖像或運(yùn)動圖像形式的。
16.如權(quán)利要求7所述的設(shè)備,其中所述融合單元還包括聲音消除器,所述聲音消除器用于消除與輸出到用戶終端的融合的圖像中的對象中選擇出的對象不相對應(yīng)的聲音。
17.如權(quán)利要求11所述的設(shè)備,其中所述融合單元還包括聲音消除器,所述聲音消除器用于消除與輸出到用戶終端的融合的圖像中的對象中的選擇出的對象不相對應(yīng)的聲音。
18.如權(quán)利要求17所述的設(shè)備,其中所述設(shè)備還包括揚(yáng)聲器,所述揚(yáng)聲器用于輸出剩下的與輸出到所述用戶終端的融合的圖像中的對象中選擇出的對象相對應(yīng)的聲音。
19.一種生成與聲音相關(guān)聯(lián)的聲對象信息并且將聲對象信息與真實(shí)的圖像或聲音融合起來的方法,該方法包括以下步驟估計通過麥克風(fēng)陣列接收到的聲音的方向和位置;基于估計出的接收到的聲音的方向和位置來分類接收到的聲音的聲音模式; 通過參考存儲有多個對象的聲音模式的聲音模式數(shù)據(jù)庫來識別與所述聲音模式相關(guān)聯(lián)的對象;獲取與所確定的對象相關(guān)的附加信息以生成接收到的聲音的聲對象信息;以及將聲對象信息與真實(shí)的圖像或聲音融合起來。
20.如權(quán)利要求19所述的方法,其中所述方法還包括以下步驟 確定是否獲取到了與接收到的聲音相關(guān)聯(lián)的對象;使用接收到的聲音的頻率和幅度來分類接收到的聲音的第二聲音模式;以及通過參考存儲有多個對象的聲音模式的聲音模式數(shù)據(jù)庫使用分類出的第二聲音模式的聲音模式來識別與分類出的第二聲音模式相關(guān)聯(lián)的對象。
21.如權(quán)利要求19所述的方法,其中將所述聲對象信息與真實(shí)的圖像或聲音融合起來的步驟包括確定所述聲對象信息是否將與真實(shí)的圖像融合; 將由用戶終端的相機(jī)拍攝到的真實(shí)的圖像與聲對象信息融合起來;以及將真實(shí)的圖像和聲對象信息輸出到所述用戶終端的顯示器。
22.如權(quán)利要求20所述的方法,其中將所述聲對象信息與真實(shí)的圖像或聲音融合起來的步驟包括確定所述聲對象信息是否要與真實(shí)的聲音融合;將通過用戶終端的麥克風(fēng)接收到的真實(shí)的聲音與所述聲對象信息融合起來;以及將真實(shí)的聲音和聲對象信息輸出到用戶終端的顯示器。
全文摘要
用于融合聲對象信息以提供將真實(shí)的圖像與聲音融合起來的增強(qiáng)現(xiàn)實(shí)(“AR”)服務(wù)的設(shè)備和方法。該聲對象信息融合設(shè)備包括聲對象化單元、聲對象信息生成器、和融合單元。該方法對麥克風(fēng)陣列中接收到的聲音進(jìn)行分類以識別與接收到的聲音相對應(yīng)的對象。如果無法識別每一聲音的對象,則應(yīng)用帶通濾波器來對接收到的聲音進(jìn)行第二次分類。聲對象信息被生成,并且被與拍攝到的圖像或記錄的聲音融合。聲對象信息可包括與被識別為與接收到的聲音相對應(yīng)的對象相關(guān)的附加信息。
文檔編號G10L15/26GK102404667SQ20111021199
公開日2012年4月4日 申請日期2011年7月27日 優(yōu)先權(quán)日2010年7月28日
發(fā)明者全海助, 孫宰官, 安相坤, 崔賢德, 曺泰鉉, 李晟瑍 申請人:株式會社泛泰