專利名稱:基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng)和基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法。
背景技術(shù):
隨著視頻壓縮和視頻增強領(lǐng)域技術(shù)的發(fā)展,遠(yuǎn)程視頻系統(tǒng)越來越廣泛地使用。遠(yuǎn)程視頻系統(tǒng)的典型代表例如遠(yuǎn)程視頻會議系統(tǒng)、遠(yuǎn)程醫(yī)療系統(tǒng)等等,其特點是在至少兩個終端分別設(shè)置視頻采集和視頻顯示設(shè)備,通過有線或無線的通信手段將各個終端互聯(lián),以便各個終端的用戶分別獲得對方的實時或離線的視頻。在遠(yuǎn)程視頻系統(tǒng)的應(yīng)用中,通過動態(tài)檢測感興趣區(qū)域,將可能的感興趣區(qū)域的場景突出顯示給對方,將顯著提高遠(yuǎn)程視頻系統(tǒng)的用戶友好性。關(guān)于通過動態(tài)檢測感興趣區(qū)域來改變顯示的場景,已經(jīng)提出了以下技術(shù)。根據(jù)專利文件I (美國專利US 20100103245 Al)提出的技術(shù),動態(tài)檢測感興趣區(qū)域,對感興趣區(qū)域進(jìn)行最優(yōu)化顯示,而忽略非感興趣區(qū)域的顯示。其中,基于不同的感興趣區(qū)域的內(nèi)容,顯示區(qū)域的尺寸比例可以自動調(diào)整。但是,在專利文件I中,感興趣區(qū)域僅僅限于人臉,也就意味著,圖像的尺寸僅與人臉尺寸成正比,而沒有對視頻會議的場景狀態(tài)進(jìn)行分類。另一方面,如果感興趣區(qū)域的尺寸比較小,則單純依靠等比例放大,對視頻質(zhì)量有一定限制。專利文件2 (美國專利US 7580054 B2)提供了一種利用全角攝像頭攝制會議并且能夠為用戶提供實時和離線的視頻顯示的技術(shù)。該技術(shù)包含自動的攝像頭管理系統(tǒng)以控制攝像頭、以及分析模塊以定位在場人員。但是,在專利文件2中,需要全角攝像頭或者多個普通攝像頭組成的陣列來提供每個在場人員的影像,在硬件設(shè)備方面,這是很重的負(fù)擔(dān)。并且,用戶只能在單個人員的影像之間切換,從而可能丟失用戶其它的感興趣區(qū)域的重要信肩、O專利文件3 (美國專利US 20090015658 Al)利用視頻檢測技術(shù)在攝像頭捕捉到的視頻幀內(nèi)進(jìn)行在場人員的檢測,然后基于檢測到的在場人員的位置和尺寸信息,自動調(diào)整攝像頭的方位和放縮比例,從而提供一個包含所有在場人員的最佳影像。但是,專利文件3 僅提供了包含所有在場人員的影像,在單個在場人員的影像方面有局限性。并且,在專利文件3中,在場人員的離開可以有效地檢測到,但是對于新人員的加入,該專利文件3通過在檢測區(qū)域外進(jìn)行音頻信息定位,因而也具有一定的局限性。專利文件4(US 6611281 B2)提供了一種在視頻會議下跟蹤多個在場人員的方法, 該方法包括對視頻會議進(jìn)行監(jiān)視;生成視頻定位輸出;生成音頻定位輸出;基于視頻和音頻的定位輸出,來調(diào)整攝像頭的參數(shù)。在專利文件4中,顯示僅能在發(fā)言人和全部在場人員的場景影像間切換,僅僅通過對發(fā)言人進(jìn)行視頻和音頻的檢測和定位,將影像切換至該發(fā)言人。此外,由于專利文件4未能進(jìn)行感興趣區(qū)域的動態(tài)檢測及轉(zhuǎn)換,并且未提供場景的擴展性,對于人員進(jìn)入或者離開會議的情況,專利文件4未能提供影像上的自動調(diào)整。
上述相關(guān)技術(shù)的專利文件中提到的技術(shù)都無法始終為視頻會議提供最優(yōu)影像,因為用戶的感興趣區(qū)域在整個會議進(jìn)程中是變化的。例如,專利文件4只能提供兩種可選的場景影像,未能進(jìn)行感興趣區(qū)域的動態(tài)檢測及相應(yīng)的場景狀態(tài)轉(zhuǎn)換。專利文件2提供不同的場景影像,但是以硬件的急劇增加為代價,也未能進(jìn)行感興趣區(qū)域的動態(tài)檢測及相應(yīng)的場景狀態(tài)轉(zhuǎn)換。雖然專利文件I提到了基于感興趣區(qū)域的視頻顯示,然而其定義的感興趣區(qū)域是有限的,且未能對其進(jìn)行動態(tài)檢測并進(jìn)行相應(yīng)的場景轉(zhuǎn)換,并且場景視頻影像的視覺質(zhì)量在某些情況下也并不理想。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題而做出本發(fā)明。本發(fā)明提出了一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng)和基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法。根據(jù)本發(fā)明的一個實施例,提供一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng),包括輸入裝置,輸入攝像設(shè)備當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測裝置,在所述輸入裝置所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換裝置,通過預(yù)先定義的有限狀態(tài)自動機,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示裝置,根據(jù)狀態(tài)轉(zhuǎn)換裝置所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。根據(jù)本發(fā)明的另一個實施例,提供一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法,包括輸入步驟,輸入攝像設(shè)備當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測步驟,在所述輸入步驟中所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換步驟,通過預(yù)先定義的有限狀態(tài)自動機,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示步驟,根據(jù)在狀態(tài)轉(zhuǎn)換步驟中所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。按照本發(fā)明的上述實施例,利用有限狀態(tài)自動機動態(tài)地檢測感興趣區(qū)域,為向用戶顯示其感興趣區(qū)域提供良好的推薦機制,同時保證用戶可以兼顧整體場景的氣氛。鑒于場地的配置,諸如大小、形狀和在場人數(shù)等等的參數(shù)會不同,同時,在整個事件(諸如會議或醫(yī)療等等)過程中,會有不同的場景,按照本發(fā)明實施例的技術(shù)可以有效利用感興趣區(qū)域的動態(tài)檢測來靈活地提供最佳影像。不僅考慮興趣元素,而且考慮潛在元素,基于興趣元素和潛在元素的檢測來確定攝像設(shè)備的視頻捕捉范圍,獲得興趣元素的一個最大可能的存在區(qū)域,潛在元素的位置是新加入的興趣元素最有可能出現(xiàn)的位置。通過進(jìn)一步結(jié)合跟蹤機制則可以容易地發(fā)現(xiàn)興趣元素的離開和進(jìn)入。通過進(jìn)一步地采用基于超分辨率和視覺質(zhì)量預(yù)定義的顯示增強技術(shù),從而即使在原始視頻影像質(zhì)量比較差的情況下,也能有效地提升視頻影像的視覺質(zhì)量。通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實施例的詳細(xì)描述,將更好地理解本發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點和技術(shù)及工業(yè)重要性。
圖I是示出按照本發(fā)明實施例的基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng)的整體框圖。圖2是以遠(yuǎn)程會議系統(tǒng)為例示出會議場地的示意圖。圖3是示出在圖2所示的會議場地中攝像設(shè)備所獲取的影像的示意圖。圖4是示出在圖3所示的當(dāng)前幀圖像中確定的最大可能存在區(qū)域的示意圖。圖5示意性地示出了經(jīng)過攝像設(shè)備調(diào)整裝置調(diào)整之后攝像設(shè)備的成像狀況。圖6A是示出按照一種實施方式的場景狀態(tài)轉(zhuǎn)換的示意圖;圖68示出了與圖6A所示的場景狀態(tài)的轉(zhuǎn)換相對應(yīng)的場景狀態(tài)轉(zhuǎn)換表。圖7A是示出按照另一種實施方式的場景狀態(tài)轉(zhuǎn)換的示意圖;圖7B示出了與圖7A 所示的場景狀態(tài)的轉(zhuǎn)換相對應(yīng)的場景狀態(tài)轉(zhuǎn)換表。圖8A、圖8B、圖8C分別是示出針對圖5所示的最大可能存在區(qū)域、在不同場景狀態(tài)下所提取的不同的感興趣區(qū)域并放大顯示的示意圖。
具體實施例方式圖I是示出按照本發(fā)明實施例的基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng) 100的整體框圖。如圖I所示,基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng)100包括輸入裝置110,輸入攝像設(shè)備10當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測裝置120,在所述輸入裝置110所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換裝置130,通過預(yù)先定義的有限狀態(tài)自動機160, 按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示裝置140,根據(jù)狀態(tài)轉(zhuǎn)換裝置130所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。在場景影像轉(zhuǎn)換系統(tǒng)100用于遠(yuǎn)程會議系統(tǒng)的情況下,場地可以是會議室,在用于遠(yuǎn)程醫(yī)療系統(tǒng)的情況下,場地可以是診室甚至手術(shù)室等等。以下,將以應(yīng)用于遠(yuǎn)程會議系統(tǒng)為例來說明本申請實施例的場景影像轉(zhuǎn)換系統(tǒng)100,然而,本領(lǐng)域技術(shù)人員可以認(rèn)識到, 按照本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng)100的實現(xiàn)并不依賴于遠(yuǎn)程會議系統(tǒng),而是可以應(yīng)用于其它的遠(yuǎn)程視頻系統(tǒng)。攝像設(shè)備10用于拍攝場地的視頻圖像,攝像設(shè)備10可以是攝像頭、攝像機、攝影機等等的視頻成像設(shè)備,鏡頭可以是普通的、全角的或者廣角的。其中,所述興趣元素可以為在場人員,所述潛在元素可以為預(yù)定的在場人員可能出現(xiàn)的場所,諸如場地中的空座椅、演示版、幻燈機等等。圖2是以遠(yuǎn)程會議系統(tǒng)為例示出會議場地的示意圖。其中示出了攝像設(shè)備10、在場人員21、22、23、24、及空座椅31、32、33、34,顯然,在本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng) 100所能夠用于的遠(yuǎn)程會議系統(tǒng)中,在場人員不限于4個,在場人員可能出現(xiàn)的潛在場所也不限于空座椅,其數(shù)目也不限于4個。圖3是示出在圖2所示的會議場地中攝像設(shè)備所獲取的影像的示意圖。針對攝像設(shè)備10當(dāng)前所拍攝的圖像,即當(dāng)前幀圖像,所述檢測裝置120可以通過基于混合高斯的動態(tài)背景建模的前景對象檢測來在所述當(dāng)前幀圖像中檢測出前景圖像,可以通過人臉和頭部檢測來在該前景圖像中檢測在場人員,可以通過預(yù)先定義特征的檢測, 或者通過事先進(jìn)行數(shù)據(jù)集合訓(xùn)練,來在所述當(dāng)前幀圖像中檢測所述預(yù)定的在場人員可能出現(xiàn)的場所。基于混合高斯的動態(tài)背景建模的前景對象檢測、人臉和頭部檢測、及通過預(yù)先定義特征的對諸如空座椅、演示版、及幻燈機等等的檢測均可以通過成熟的現(xiàn)有技術(shù)手段實現(xiàn)。之所以不僅僅檢測在場人員,而且檢測諸如空座椅的潛在場所,是因為考慮到會議過程中人員的新加入和離開,確保在場人員的最大可能存在區(qū)域盡可能少地出現(xiàn)遺漏。圖4是示出在圖3所示的當(dāng)前幀圖像中確定的最大可能存在區(qū)域的示意圖。其中, (α0,φο)為攝像設(shè)備10拍攝的當(dāng)前幀圖像的中心點,虛線框50為確定的在場人員的最大可能存在區(qū)域,(α a 9a )為最大可能存在區(qū)域50的中心點。所述最大可能存在區(qū)域50為包含所有的興趣元素和潛在元素的矩形,該矩形的左邊緣為所檢測到的最左側(cè)的興趣元素和潛在元素的左邊緣,該矩形的上邊緣為最上側(cè)的興趣元素和潛在元素的上邊緣,該矩形的右邊緣為最右側(cè)的興趣元素和潛在元素的右邊緣,該矩形的下邊緣為最下側(cè)的興趣元素和潛在元素的下邊緣。矩形邊緣及其中心點的確定可以通過計算機圖形學(xué)的常規(guī)手段實現(xiàn)。本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng)100針對最大可能存在區(qū)域50進(jìn)行諸如提取感興趣區(qū)域及場景狀態(tài)轉(zhuǎn)換之類的操作和處理,因此,作為系統(tǒng)的改進(jìn),優(yōu)選地,圖I所示的場景影像轉(zhuǎn)換系統(tǒng)100還可以包括攝像設(shè)備調(diào)整裝置150,用于根據(jù)所述當(dāng)前幀圖像和所述最大可能存在區(qū)域之間的位置關(guān)系,計算所述攝像設(shè)備10在水平方向及垂直方向所需旋轉(zhuǎn)的角度,以使所述攝像設(shè)備10的成像范圍的中心移動至所述最大可能存在區(qū)域的中心。并且,所述攝像設(shè)備調(diào)整裝置150在所述攝像設(shè)備10的成像范圍內(nèi),調(diào)整所述最大可能存在區(qū)域的寬度和高度。例如,攝像設(shè)備調(diào)整裝置150可以根據(jù)攝像設(shè)備的成像范圍、所確定的最大可能存在區(qū)域、以及攝像設(shè)備的固有參數(shù),來計算為了使包含全部在場人員及其可能的出現(xiàn)位置的需要關(guān)注的區(qū)域盡可能充滿攝像設(shè)備10的成像范圍因而攝像設(shè)備10的鏡頭所需要進(jìn)行的在水平方向上的旋轉(zhuǎn)(Pan)的角度、在垂直即俯仰方向上的旋轉(zhuǎn)(Tilt)的角度、及放縮的比例(Zoom),這些旋轉(zhuǎn)角度及放縮比例可稱為PTZ參數(shù),攝像設(shè)備調(diào)整裝置150按照所計算的PTZ參數(shù)來調(diào)整攝像設(shè)備10。可以通過計算機圖形學(xué)及計算機圖像處理領(lǐng)域中的現(xiàn)有技術(shù)來計算所需的PTZ 參數(shù),通過PTZ調(diào)整后,攝像設(shè)備10所拍攝的圖像可能如圖5所示。圖5示意性地示出了經(jīng)過攝像設(shè)備調(diào)整裝置150調(diào)整攝像設(shè)備10之后,攝像設(shè)備10對圖I所示場地拍攝所得的圖像,其中,最大可能存在區(qū)域盡可能地充滿整個成像范圍,矩形框的中心點既是當(dāng)前幀圖像的中心點,也是最大可能存在區(qū)域的中心點。下面描述按照本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng)100針對最大可能存在區(qū)域,利用有限狀態(tài)自動機(Finite State Mechanism, FSM)而進(jìn)行的場景狀態(tài)轉(zhuǎn)換及相應(yīng)的感興趣區(qū)域(Region of Interest, R0I)的顯不處理。圖I所示的有限狀態(tài)自動機160預(yù)先定義為包括場景狀態(tài)的集合、初始場景狀態(tài)、 終止場景狀態(tài)的集合、和場景狀態(tài)間的轉(zhuǎn)換條件的集合,其中每個場景狀態(tài)具有初始分值、 分值隨時間變化的速度、及固有值,每個轉(zhuǎn)換條件關(guān)聯(lián)相對應(yīng)的轉(zhuǎn)換操作。狀態(tài)轉(zhuǎn)換裝置130通過檢測預(yù)先定義的事件的發(fā)生,計算并比較場景狀態(tài)的實時分值,來判斷是否符合場景狀態(tài)間的轉(zhuǎn)換條件,在符合場景狀態(tài)間的轉(zhuǎn)換條件的情況下,轉(zhuǎn)換場景狀態(tài)并改變場景狀態(tài)的分值。在例如視頻會議的情況下,根據(jù)不同的場景狀態(tài),感興趣區(qū)域是不同的。圖6A是示出按照一種實施方式的場景狀態(tài)轉(zhuǎn)換的示意圖;圖68示出了與圖6A所示的場景狀態(tài)的轉(zhuǎn)換相對應(yīng)的場景狀態(tài)轉(zhuǎn)換表。在圖6A所示的例子中,視頻會議的場景狀態(tài)分為演講場景(speaker scene)、重要人物場景(key role scene)、包含全部在場人員場景即整體場景(whole scene),本領(lǐng)域技術(shù)人員將會認(rèn)識到,場景狀態(tài)是可擴展的。其中,重要人物場景下的重要人物可以由用戶在上述最大可能存在區(qū)域中先打選定。有限狀態(tài)自動機160可以定義為A = (Q,σ,q0, F)其中,A代表有限狀態(tài)自動機160 ;Q = {whole scene, speaker scene, key role scene},即場景狀態(tài)的集合;q0 = {whole scene},在此作為初始場景狀態(tài),本領(lǐng)域技術(shù)人員可以認(rèn)識到,其它場景狀態(tài)也可以用作初始場景狀態(tài);F= {whole scene, speaker scene, key role scene},即終止場景狀態(tài)的集合;σ = {a, b, c, d, e},即場景狀態(tài)間的轉(zhuǎn)換條件a, b, c, d, e的集合,在符合某個轉(zhuǎn)換條件的情況下,進(jìn)行相對應(yīng)的轉(zhuǎn)換操作。每個場景狀態(tài)具有實時的分值,整體場景狀態(tài)的實時分值表示為Swh-,演講場景狀態(tài)的實時分值表示為Sspeakw,重要人物場景狀態(tài)的實時分值表示為Skev,各個場景狀態(tài)在初始(時間t = 0)時的分值為初始分值,各場景狀態(tài)的初始分值可以設(shè)置為相同,表示為 Stl,然而,本領(lǐng)域技術(shù)人員可以認(rèn)識到,取決于本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng)100的具體設(shè)計要求,各個狀態(tài)的初始分值可以不同。整體場景狀態(tài)分值隨時間變化的速度表示為 Vw ;演講場景狀態(tài)分值隨時間變化的速度表示為vs,;重要人物場景狀態(tài)分值隨時間變化的速度表示為vk。整體場景狀態(tài)的固有值表示為S1,演講場景狀態(tài)的固有值表示為S2,重要人物場景狀態(tài)的固有值表示為S3,各個固有值為預(yù)定的常數(shù),可以看作場景狀態(tài)轉(zhuǎn)換條件的調(diào)整量,并且可以根據(jù)設(shè)計要求而改變。t為從時間為O的初始時刻開始經(jīng)過的時間。其中,各場景狀態(tài)的初始分值、t、分值隨時間變化的速度、各場景的固有值設(shè)定為正值。在此,假定當(dāng)時間t = O時,各個場景狀態(tài)的分值相同,即,Swhtjle = Sspeaker = Skey = 本領(lǐng)域技術(shù)人員可以認(rèn)識到,各個狀態(tài)的初始分值可以據(jù)設(shè)計要求而不同。并且,在此
假定整體場景狀態(tài)為初始場景狀態(tài),本領(lǐng)域技術(shù)人員可以認(rèn)識到,可以據(jù)設(shè)計要求而將其它場景狀態(tài)用作初始場景狀態(tài)。不同場景狀態(tài)間的轉(zhuǎn)換條件為檢測到事件并且/或者計算并比較場景狀態(tài)的實時分值,符合條件則觸發(fā)相應(yīng)的轉(zhuǎn)換操作。場景狀態(tài)間的轉(zhuǎn)換條件a, b, c, d, e設(shè)計如下,結(jié)合圖6A,箭頭示意性地表示出符合相應(yīng)轉(zhuǎn)換條件時場景狀態(tài)的轉(zhuǎn)換方向,在圖6B的表格中,各個條件表示從最左列中與其位置相應(yīng)的行中的狀態(tài)向最上行中與其位置相應(yīng)的列中的狀態(tài)轉(zhuǎn)換,表示在從其行的狀態(tài)向列的狀態(tài)的方向上無轉(zhuǎn)換。a :檢測到新的發(fā)言人,計算Swhtjle = Swhole+vw*t,判斷是否符合Swhtjle > Sp符合條件a則觸發(fā)的轉(zhuǎn)換操作為從整體場景轉(zhuǎn)換到演講場景狀態(tài)并且SspMkCT = SspMkOT+S2。b :檢測到新的發(fā)言人。與條件b相應(yīng)的轉(zhuǎn)換操作為從演講場景轉(zhuǎn)換到演講場景并且ssprakOT = s0+s2O由于可能有不同的發(fā)言人,因此與轉(zhuǎn)換條件b相應(yīng)的場景轉(zhuǎn)換從場景狀態(tài)類別的角度看為自身到自身的轉(zhuǎn)換,然而,對于演講場景的場景狀態(tài)類別,后文中將描述,感興趣區(qū)域的確定可以由于檢測到的發(fā)言人不同而改變,演講場景的場景狀態(tài)與取決于所檢測的發(fā)言人而不同的感興趣區(qū)域相對應(yīng)。關(guān)于感興趣區(qū)域的提取將在下文描述。c :計算
Sspeaker ^speaker
*t,判斷是否符合
Sspeaker ^key
與轉(zhuǎn)換條件C相應(yīng)的
轉(zhuǎn)換操作為從演講場景轉(zhuǎn)換到重要人物場景。d :檢測到新的發(fā)言人,計算Skey = Skey+vk*t,判斷是否符合Skey > S3。與轉(zhuǎn)換條件 d相應(yīng)的轉(zhuǎn)換操作為從重要人物場景轉(zhuǎn)換到演講場景并且SspMk = Sspeaker+S20e =Skey = Skey+vk*t并且Skey > S3。與轉(zhuǎn)換條件e相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到整體
場景并且 Swhole ^speaker ^key°圖7A是示出按照另一種實施方式的場景狀態(tài)轉(zhuǎn)換的示意圖;圖7B示出了與圖7A 所示的場景狀態(tài)的轉(zhuǎn)換相對應(yīng)的場景狀態(tài)轉(zhuǎn)換表。在圖7A所示的例子中,視頻會議的場景狀態(tài)分為演講場景(speaker scene)、重要人物場景(key role scene)、單個人員場景(single scene)、包含全部在場人員場景即整體場景(whole scene),本領(lǐng)域技術(shù)人員將會認(rèn)識到,場景狀態(tài)是可擴展的。其中,重要人物場景下的重要人物可以由用戶在上述最大可能存在區(qū)域中先行選定。有限狀態(tài)自動機160可以定義為A= (Q, σ,q0, F)其中,A代表有限狀態(tài)自動機160 ;Q = {whole scene, speaker scene, key role scene, single scene},即場景狀態(tài)的集合;q0 = {whole scene},在此作為初始場景狀態(tài),本領(lǐng)域技術(shù)人員可以認(rèn)識到,其它場景狀態(tài)也可以用作初始場景狀態(tài);F= {whole scene, speaker scene, key role scene, single scene},即終止場景狀態(tài)的集合;σ = {a, b, c, d, e, fl, f2, f3, g, h},即場景狀態(tài)間的轉(zhuǎn)換條件 a, b, c, d, e, fl, f2,f3, g,h的集合,在符合某個轉(zhuǎn)換條件的情況下,進(jìn)行相對應(yīng)的轉(zhuǎn)換操作。每個場景狀態(tài)具有實時的分值,整體場景狀態(tài)的實時分值表示為Swh-,演講場景狀態(tài)的實時分值表示為Sspeakw,重要人物場景狀態(tài)的實時分值表示為skey,單個人員場景狀態(tài)的實時分值表示為Ssingle,各個場景狀態(tài)在初始(時間t = 0)時的分值為初始分值,各場景狀態(tài)的初始分值可以設(shè)置為相同,表示為Stl,然而,本領(lǐng)域技術(shù)人員可以認(rèn)識到,取決于本發(fā)明實施例的場景影像轉(zhuǎn)換系統(tǒng)100的具體設(shè)計要求,各個狀態(tài)的初始分值可以不同。 整體場景狀態(tài)的分值隨時間變化的速度表示為Vw ;演講場景狀態(tài)分值隨時間變化的速度表示為Vs ;重要人物場景狀態(tài)分值隨時間變化的速度表示為Vk ;單個人員場景狀態(tài)分值隨時間變化的速度表示為vs。整體場景狀態(tài)的固有值表示為S1,演講場景狀態(tài)的固有值表示為 S2,重要人物場景狀態(tài)的固有值表示為S3,單個人員場景狀態(tài)的固有值表示為S4,各個固有值為預(yù)定的常數(shù),可以看作場景狀態(tài)轉(zhuǎn)換條件的調(diào)整量,并且可以根據(jù)設(shè)計要求而改變。t為從時間為O的初始時刻開始經(jīng)過的時間。其中,各場景狀態(tài)的初始分值、t、分值隨時間變化的速度、各場景的固有值設(shè)定為正值。在此,假定當(dāng)時間t = O時,各個場景狀態(tài)的分值相同,即,Swhtjle = Sspeaker = Skey = Ssingle = Sc^本領(lǐng)域技術(shù)人員可以認(rèn)識到,各個狀態(tài)的初始分值可以據(jù)設(shè)計要求而不同。并且,在此假定整體場景狀態(tài)為初始場景狀態(tài),本領(lǐng)域技術(shù)人員可以認(rèn)識到,可以據(jù)設(shè)計要求而將其它場景狀態(tài)用作初始場景狀態(tài)。不同場景狀態(tài)間的轉(zhuǎn)換條件為檢測到事件并且/或者計算并比較場景狀態(tài)的實時分值,符合條件則觸發(fā)相應(yīng)的轉(zhuǎn)換操作。場景狀態(tài)間的轉(zhuǎn)換條件a, b, c, d, e, fl, f2, f3, g, h設(shè)計如下,結(jié)合圖7A,箭頭示意性地表示出符合相應(yīng)轉(zhuǎn)換條件時場景狀態(tài)的轉(zhuǎn)換方向,在圖7B的表格中,各個條件表示從最左列中與其位置相應(yīng)的行中的狀態(tài)向最上行中與其位置相應(yīng)的列中的狀態(tài)轉(zhuǎn)換,
表示在從其行的狀態(tài)向列的狀態(tài)的方向上無轉(zhuǎn)換。a :檢測到新的發(fā)言人,計算Swhtjle = Swhole+vw*t,判斷是否符合Swhtjle > Sp符合條件a則觸發(fā)的轉(zhuǎn)換操作為從整體場景轉(zhuǎn)換到演講場景狀態(tài)并且SspMkCT = SspMkOT+S2。b :檢測到新的發(fā)言人。與條件b相應(yīng)的轉(zhuǎn)換操作為從演講場景轉(zhuǎn)換到演講場景并且SspeakOT = S0+S2O由于可能有不同的發(fā)言人,因此與轉(zhuǎn)換條件b相應(yīng)的場景轉(zhuǎn)換從場景狀態(tài)類別的角度看為自身到自身的轉(zhuǎn)換,然而,對于演講場景的場景狀態(tài)類別,后文中將描述,感興趣區(qū)域的確定可以由于檢測到的發(fā)言人不同而改變,演講場景的場景狀態(tài)與取決于所檢測的發(fā)言人而不同的感興趣區(qū)域相對應(yīng)。關(guān)于感興趣區(qū)域的提取將在下文描述。c :計算
Sspeaker ^speaker
*t,判斷是否符合
Sspeaker ^key
與轉(zhuǎn)換條件C相應(yīng)的
轉(zhuǎn)換操作為從演講場景轉(zhuǎn)換到重要人物場景。d :檢測到新的發(fā)言人,計算Skey = Skey+vk*t,判斷是否符合Skey > S3。與轉(zhuǎn)換條件 d相應(yīng)的轉(zhuǎn)換操作為從重要人物場景轉(zhuǎn)換到演講場景并且SspMk = Sspeaker+S20e =Skey = Skey+vk*t并且Skey > S3。與轉(zhuǎn)換條件e相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到整體
場景并且 ^whole ^speaker ^key ^single°fl :檢測到新人員的進(jìn)入,計算Swtole = SwhaLe+vw*t,判斷是否符合Swtole > S1O與轉(zhuǎn)換條件fl相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到單個人員場景并且Ssingle = Ssingle+S4。f2:計算
Sspeaker ^speaker
*t,判斷是否符合S
speaker ^single °
與轉(zhuǎn)換條件f2相
應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到單個人員場景并且Ssingle = Ssingle+S40f3 :檢測到新人員的進(jìn)入,計算Skey = Skey+vk*t,判斷是否符合Skey > S3。與轉(zhuǎn)換條件f3相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到單個人員場景并且Ssingle = Ssingle+S4。g :計算Ssingle = Ssingle_vs*t,判斷是否符合Ssingle < Skey0與轉(zhuǎn)換條件g相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到重要人物場景。h :檢測到新人員的進(jìn)入。與轉(zhuǎn)換條件h相應(yīng)的轉(zhuǎn)換操作為轉(zhuǎn)換到單個人員場景并且Ssingle = s0+s4O類似于演講場景可能對應(yīng)于不同的發(fā)言人的情況,關(guān)于單個人員場景,由于可能有不同的人員新進(jìn)入,因此與轉(zhuǎn)換條件h相應(yīng)的場景轉(zhuǎn)換從場景狀態(tài)類別的角度看為自身到自身的轉(zhuǎn)換,然而,對于單個人員場景的場景狀態(tài)類別,后文中將描述,感興趣區(qū)域的確定可以由于檢測到的新人員的不同而改變,單個人員場景的場景狀態(tài)與取決于所檢測的新進(jìn)入的人員而不同的感興趣區(qū)域相對應(yīng),而且,由于有新的人員進(jìn)入,因此與整體場景相對應(yīng)的感興趣區(qū)域也將相應(yīng)地調(diào)整為包含新進(jìn)入的人員。關(guān)于感興趣區(qū)域的提取將在下文描述。發(fā)言人、新加入人員、及中途離場人員的檢測,可以通過現(xiàn)有的音頻、視頻檢測手段來實現(xiàn)。本領(lǐng)域技術(shù)人員可以認(rèn)識到,按照本發(fā)明的有限狀態(tài)自動機不限于上述設(shè)計,根據(jù)上面的描述,本領(lǐng)域技術(shù)人員可以想到其它的有限狀態(tài)自動機來用于本發(fā)明,例如,上述的任何一種場景狀態(tài)都可以去除,另一方面也可以進(jìn)一步增加場景狀態(tài),例如各個在場人員輪流顯示等等,還可以檢測人員離場的事件等等,還可以設(shè)計出其它的轉(zhuǎn)換條件和轉(zhuǎn)換操作??梢栽O(shè)計不同的場景狀態(tài)針對不同的感興趣區(qū)域,在某個場景狀態(tài)下,可以按照類似于前述的確定最大可能存在區(qū)域的手段或其它的圖像裁剪方法來提取相應(yīng)的感興趣區(qū)域,來作為要顯示的場景影像。例如,在整體場景狀態(tài)下,感興趣區(qū)域為包含所有在場人員的矩形;在演講場景狀態(tài)下,感興趣區(qū)域為包含發(fā)言人并以該發(fā)言人為中心的一定范圍的矩形;在重要人物場景狀態(tài)下,感興趣區(qū)域為包含重要人物并以該重要人物為中心的一定范圍的矩形。并且,可選地,可以通過常規(guī)的圖像處理手段,來將所提取的感興趣區(qū)域放大顯不。圖8A、圖8B、圖8C分別是示出針對圖5所示的最大可能存在區(qū)域、在不同場景狀態(tài)下所提取的不同的感興趣區(qū)域并放大顯示的示意圖。在圖5所示的最大可能存在區(qū)域的示例中,圖8A示出在整體場景狀態(tài)下提取并放大顯示的感興趣區(qū)域的場景影像;在檢測到人員23在發(fā)言的情況下,場景狀態(tài)轉(zhuǎn)換到演講場景狀態(tài),并提取以人員23為中心的感興趣區(qū)域,并放大顯示,如圖SB所示;如果人員21、 22為重要人物,在滿足相應(yīng)條件的情況下,可以提取以人員21、22為中心的感興趣區(qū)域,如圖SC所示來放大顯示。本領(lǐng)域技術(shù)人員可以認(rèn)識到,上述感興趣區(qū)域的提取及場景影像的顯示僅僅作為示意而通過附圖示出,因此能夠進(jìn)行各種修改。作為本發(fā)明實施例的進(jìn)一步的改進(jìn),可選地,圖I所示的場景影像轉(zhuǎn)換系統(tǒng)100還可以包括顯示增強裝置170,用于按照所述狀態(tài)轉(zhuǎn)換裝置130所轉(zhuǎn)換的當(dāng)前場景狀態(tài),基于相應(yīng)的感興趣區(qū)域中在場人員人臉的分辨率來確定整個場景影像的視覺質(zhì)量,如果該視覺質(zhì)量低于預(yù)定義的閾值,則提高該場景影像的視覺質(zhì)量。例如,在所顯示的場景影像中,可能有某些在場人員距離攝像設(shè)備的距離較遠(yuǎn)的情況,表現(xiàn)為在場人員在最大可能存在區(qū)域中所占面積較小,剪裁并放大后可能會出現(xiàn)過度模糊等視覺質(zhì)量較低的問題。可以預(yù)定義閾值,如果所顯示的在場人員的影像的視覺質(zhì)量小于該預(yù)定義閾值,則提高待傳送并顯示的視頻幀的質(zhì)量。例如,可以通過以下公式(I)來判斷視覺質(zhì)量是否要進(jìn)行提高,Σ Resolution—Pi / Resulti on—Target < Th(I)
PieHumanArea其中,Resultion_Target為當(dāng)前場景圖像即當(dāng)前視頻巾貞的分辨率,HumanArea代表當(dāng)前場景圖像,Res0IutioruPi為其中第i (i為自然數(shù))號在場人員Pi的人臉的分辨率, Th為預(yù)定義的閾值,針對不同場景狀態(tài),該閾值Th可以設(shè)置為不同。在滿足上述公式(I)的情況下,判斷為當(dāng)前視頻幀的視覺質(zhì)量較低,可以選擇提高該場景影像的視覺質(zhì)量。視覺質(zhì)量除了可以利用在場人員人臉在視頻幀中的分辨率大小來計算之外,還可以計算每個在場人員人臉在視頻幀中的PSNR值(峰值信噪比),如果該PSNR值小于預(yù)定義的閾值,則認(rèn)為視頻質(zhì)量不夠理想,可以選擇進(jìn)行進(jìn)一步提升視覺質(zhì)量。例如,對于與攝像設(shè)備相距較遠(yuǎn)的在場人員,可以利用時域上的幀間信息獲得更高的視覺質(zhì)量。例如可以利用若干相鄰幀在時域上的關(guān)聯(lián)信息來恢復(fù)每幀的內(nèi)容細(xì)節(jié),具體地,可以利用超分辨率方法,首先,采用某較高質(zhì)量的插值操作待處理的視頻幀的放大為原來的兩倍,然后,利用像素運動補償操作,在該當(dāng)前視頻幀的相鄰幀中尋找相似區(qū)域,融合像素信息,還原為原視頻幀的尺寸大小。此外,還可以采用線性插值、最近鄰插值、雙線性插值、立方插值等方法來提高視頻幀的視覺質(zhì)量。按照本發(fā)明的另一個實施例,還提供一種可以由上述的場景影像轉(zhuǎn)換系統(tǒng)100實施的基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法,包括輸入步驟,可以由上述的輸入裝置110實施,以便輸入攝像設(shè)備10當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測步驟,可以由上述的檢測裝置120實施,以便在所述輸入步驟所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換步驟,可以由上述的狀態(tài)轉(zhuǎn)換裝置130實施,以便通過預(yù)先定義的有限狀態(tài)自動機160,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示步驟,可以由上述的顯示裝置140實施,以便根據(jù)狀態(tài)轉(zhuǎn)換步驟所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯
/Jn ο其中,所述興趣元素可以為在場人員,所述潛在元素可以為預(yù)定的在場人員可能出現(xiàn)的場所。其中,在所述檢測步驟中,可以通過基于混合高斯的動態(tài)背景建模的前景對象檢測來在所述當(dāng)前幀圖像中檢測出前景圖像,可以通過人臉和頭部檢測來在該前景圖像中檢測在場人員,可以通過預(yù)先定義特征的檢測來在所述當(dāng)前幀圖像中檢測所述預(yù)定的在場人員可能出現(xiàn)的場所。其中,所述最大可能存在區(qū)域可以為包含所有的興趣元素和潛在元素的矩形,該矩形的左邊緣可以為所檢測到的最左側(cè)的興趣元素和潛在元素的左邊緣,該矩形的上邊緣可以為最上側(cè)的興趣元素和潛在元素的上邊緣,該矩形的右邊緣可以為最右側(cè)的興趣元素和潛在元素的右邊緣,該矩形的下邊緣可以為最下側(cè)的興趣元素和潛在元素的下邊緣。上述場景影像轉(zhuǎn)換方法還可以包括攝像設(shè)備調(diào)整步驟,可以由上述攝像設(shè)備調(diào)整裝置150實施,以便根據(jù)所述當(dāng)前幀圖像和所述最大可能存在區(qū)域之間的位置關(guān)系,計算所述攝像設(shè)備10在水平方向及垂直方向所需旋轉(zhuǎn)的角度,以使所述攝像設(shè)備10的成像范圍的中心移動至所述最大可能存在區(qū)域的中心。其中,在所述攝像設(shè)備調(diào)整步驟中,在所述攝像設(shè)備10的成像范圍內(nèi),調(diào)整所述最大可能存在區(qū)域的寬度和高度。其中,所述有限狀態(tài)自動機160可以預(yù)先定義為包括場景狀態(tài)的集合、初始場景狀態(tài)、終止場景狀態(tài)的集合、和場景狀態(tài)間的轉(zhuǎn)換條件的集合,其中每個場景狀態(tài)具有初始分值、分值隨時間變化的速度、及固有值,每個轉(zhuǎn)換條件關(guān)聯(lián)相對應(yīng)的轉(zhuǎn)換操作。
其中,在上述狀態(tài)轉(zhuǎn)換步驟中,可以通過檢測預(yù)先定義的事件的發(fā)生,計算并比較場景狀態(tài)的實時分值,來判斷是否符合場景狀態(tài)間的轉(zhuǎn)換條件,在符合場景狀態(tài)間的轉(zhuǎn)換條件的情況下,轉(zhuǎn)換場景狀態(tài)并改變場景狀態(tài)的分值。上述場景影像轉(zhuǎn)換方法還可以包括顯示增強步驟,可以由上述顯示增強裝置170 實施,以便按照所述狀態(tài)轉(zhuǎn)換裝置所轉(zhuǎn)換的當(dāng)前場景狀態(tài),基于相應(yīng)的感興趣區(qū)域中在場人員人臉的分辨率來確定整個場景影像的視覺質(zhì)量,如果該視覺質(zhì)量低于預(yù)定義的閾值, 則提高該場景影像的視覺質(zhì)量。本發(fā)明實施例可以應(yīng)用于諸如視頻會議系統(tǒng)、遠(yuǎn)程醫(yī)療系統(tǒng)等等各種視頻系統(tǒng)。 不僅考慮興趣元素,而且考慮潛在元素,基于興趣元素和潛在元素的檢測來確定攝像設(shè)備的視頻捕捉范圍,獲得興趣元素的一個最大可能的存在區(qū)域。利用有限狀態(tài)自動機的機制動態(tài)地檢測感興趣區(qū)域,提取并遠(yuǎn)程顯示,向遠(yuǎn)程視頻系統(tǒng)的用戶靈活地提供最佳影像??蛇x地,通過進(jìn)一步地采用基于超分辨率和視覺質(zhì)量預(yù)定義的顯示增強技術(shù),從而即使在原始視頻影像質(zhì)量比較差的情況下,也能有效地提升視頻影像的視覺質(zhì)量。在說明書中說明的一系列操作能夠通過硬件、軟件、或者硬件與軟件的組合來執(zhí)行。當(dāng)由軟件執(zhí)行該一系列操作時,可以把其中的計算機程序安裝到內(nèi)置于專用硬件的計算機中的存儲器中,使得計算機執(zhí)行該計算機程序?;蛘撸梢园延嬎銠C程序安裝到能夠執(zhí)行各種類型的處理的通用計算機中,使得計算機執(zhí)行該計算機程序。例如,可以把計算機程序預(yù)先存儲到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲器) 中?;蛘?,可以臨時或者永久地存儲(記錄)計算機程序到可移動記錄介質(zhì)中,諸如軟盤、 ⑶-ROM(光盤只讀存儲器)、M0 (磁光)盤、DVD (數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲器??梢园堰@樣的可移動記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實施例進(jìn)行了詳細(xì)說明。然而,很明顯,在不背離本發(fā)明的精神的情況下,本領(lǐng)域技術(shù)人員能夠?qū)嵤├龍?zhí)行更改和替換。換句話說,本發(fā)明用說明的形式公開,而不是被限制地解釋。要判斷本發(fā)明的要旨,應(yīng)該考慮所附的權(quán)利要求。
權(quán)利要求
1.一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng),包括輸入裝置,輸入攝像設(shè)備當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測裝置,在所述輸入裝置所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換裝置,通過預(yù)先定義的有限狀態(tài)自動機,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示裝置,根據(jù)狀態(tài)轉(zhuǎn)換裝置所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。
2.按照權(quán)利要求I所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述興趣元素為在場人員,所述潛在元素為預(yù)定的在場人員可能出現(xiàn)的場所。
3.按照權(quán)利要求2所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述檢測裝置通過基于混合高斯的動態(tài)背景建模的前景對象檢測來在所述當(dāng)前幀圖像中檢測出前景圖像,通過人臉和頭部檢測來在該前景圖像中檢測在場人員,通過預(yù)先定義特征的檢測來在所述當(dāng)前幀圖像中檢測所述預(yù)定的在場人員可能出現(xiàn)的場所。
4.按照權(quán)利要求I所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述最大可能存在區(qū)域為包含所有的興趣元素和潛在元素的矩形,該矩形的左邊緣為所檢測到的最左側(cè)的興趣元素和潛在元素的左邊緣,該矩形的上邊緣為最上側(cè)的興趣元素和潛在元素的上邊緣,該矩形的右邊緣為最右側(cè)的興趣元素和潛在元素的右邊緣,該矩形的下邊緣為最下側(cè)的興趣元素和潛在元素的下邊緣。
5.按照權(quán)利要求I所述的場景影像轉(zhuǎn)換系統(tǒng),還包括攝像設(shè)備調(diào)整裝置,用于根據(jù)所述當(dāng)前幀圖像和所述最大可能存在區(qū)域之間的位置關(guān)系,計算所述攝像設(shè)備在水平方向及垂直方向所需旋轉(zhuǎn)的角度,以使所述攝像設(shè)備的成像范圍的中心移動至所述最大可能存在區(qū)域的中心。
6.按照權(quán)利要求5所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述攝像設(shè)備調(diào)整裝置在所述攝像設(shè)備的成像范圍內(nèi),調(diào)整所述最大可能存在區(qū)域的寬度和高度。
7.按照權(quán)利要求I所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述有限狀態(tài)自動機預(yù)先定義為包括場景狀態(tài)的集合、初始場景狀態(tài)、終止場景狀態(tài)的集合、和場景狀態(tài)間的轉(zhuǎn)換條件的集合,其中每個場景狀態(tài)具有初始分值、分值隨時間變化的速度、及固有值,每個轉(zhuǎn)換條件關(guān)聯(lián)相對應(yīng)的轉(zhuǎn)換操作。
8.按照權(quán)利要求7所述的場景影像轉(zhuǎn)換系統(tǒng),其中,所述狀態(tài)轉(zhuǎn)換裝置通過檢測預(yù)先定義的事件的發(fā)生,計算并比較場景狀態(tài)的實時分值,來判斷是否符合場景狀態(tài)間的轉(zhuǎn)換條件,在符合場景狀態(tài)間的轉(zhuǎn)換條件的情況下,轉(zhuǎn)換場景狀態(tài)并改變場景狀態(tài)的分值。
9.按照權(quán)利要求2所述的場景影像轉(zhuǎn)換系統(tǒng),還包括顯示增強裝置,用于按照所述狀態(tài)轉(zhuǎn)換裝置所轉(zhuǎn)換的當(dāng)前場景狀態(tài),基于相應(yīng)的感興趣區(qū)域中在場人員人臉的分辨率來確定整個場景影像的視覺質(zhì)量,如果該視覺質(zhì)量低于預(yù)定義的閾值,則提高該場景影像的視覺質(zhì)量。
10.一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法,包括輸入步驟,輸入攝像設(shè)備當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測步驟,在所述輸入步驟中所輸入的所述當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定所述興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換步驟,通過預(yù)先定義的有限狀態(tài)自動機,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在所述最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示步驟,根據(jù)在狀態(tài)轉(zhuǎn)換步驟中所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從所述最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。
全文摘要
本發(fā)明提供一種基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換系統(tǒng),包括輸入裝置,輸入攝像設(shè)備當(dāng)前所拍攝的圖像,作為當(dāng)前幀圖像;檢測裝置,在輸入裝置所輸入的當(dāng)前幀圖像中,檢測出全部的興趣元素和潛在元素,以確定興趣元素的最大可能存在區(qū)域;狀態(tài)轉(zhuǎn)換裝置,通過預(yù)先定義的有限狀態(tài)自動機,按照所預(yù)先定義的不同場景狀態(tài)及轉(zhuǎn)換條件,在最大可能存在區(qū)域的場景狀態(tài)之間轉(zhuǎn)換;以及顯示裝置,根據(jù)狀態(tài)轉(zhuǎn)換裝置所轉(zhuǎn)換的當(dāng)前場景狀態(tài),從最大可能存在區(qū)域中提取出符合該當(dāng)前場景狀態(tài)的感興趣區(qū)域,來作為場景影像以供顯示。另外,本發(fā)明還提供一種相應(yīng)的基于感興趣區(qū)域動態(tài)檢測的場景影像轉(zhuǎn)換方法。
文檔編號G06K9/00GK102611872SQ201110021338
公開日2012年7月25日 申請日期2011年1月19日 優(yōu)先權(quán)日2011年1月19日
發(fā)明者宮衛(wèi)濤, 王曉萌, 王鑫, 范圣印 申請人:株式會社理光