一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法

文檔序號(hào)：6464916閱讀：506來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及電子繪畫創(chuàng)作的方法的人機(jī)交互技術(shù)，尤其涉及一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法。
背景技術(shù)：
：繪畫是很多人喜聞樂見的藝術(shù)形式，但是有很多具有豐富的想象力和理解力的人都不具備熟練的繪畫能力，為了能夠最大程度的幫助用戶把想到的內(nèi)容用繪畫的形式表現(xiàn)出來，我們發(fā)明了這個(gè)通過語音、手勢和表演來進(jìn)行繪畫的系統(tǒng)。到目前為止，主流的在電腦上繪畫的方式是通過電子畫筆在畫布上繪畫，這種繪畫方式對(duì)繪畫的技巧要求很高，對(duì)于大多數(shù)喜歡畫畫卻又不精通繪畫技巧的用戶來說有一定難度。因此，我們發(fā)明了這種可以通過語音，手勢或者表演來進(jìn)行繪畫的方式，使得用戶可以通過多種途徑來繪畫，從而更好的表現(xiàn)想要繪畫的內(nèi)容。這項(xiàng)發(fā)明的貢獻(xiàn)在于提出了是一種新型的基于對(duì)用戶的語音、手勢和表演的識(shí)別，以及眼球跟蹤的多媒體人機(jī)交互技術(shù)。在對(duì)媒體人機(jī)交互技術(shù)方面，最早提出多樣化人機(jī)交互方式的是在二十多年前，Richard(RichardA.B.1980."Put-That-There":VoiceandGestureattheGraphicsInterface)開發(fā)了一個(gè)"Put-That-There"的系統(tǒng)，在該系統(tǒng)中，用戶可以通過手勢和語音命令將二維圖形對(duì)象放到一個(gè)很大的屏幕上；早期的基于手勢的用戶界面是B池metal(K.B6hm,W.Hiibner，andK.V膽nanen.Given:Gesturedriveninteractionsinvirtualenvironments;atoolkitapproachto3Dinteractions.InInterfacestoRealandVirtualWorlds,1992)為虛擬現(xiàn)實(shí)程序開發(fā)的，在他們的系統(tǒng)中將手勢與預(yù)先定義好的符號(hào)信息對(duì)應(yīng)起來，通過手勢來激活系統(tǒng)中的命令。人手跟蹤是手勢界面中非常重要的一種方法，最早的沒有使用數(shù)字化手套而是使用計(jì)算機(jī)視覺技術(shù)來進(jìn)行人手跟蹤的系統(tǒng)是Krueger開發(fā)的聲音位置(VOICEPLACE)系統(tǒng)(Krueger,M.VIDEOPLACEandtheInterfaceoftheFuture.InTheArtofHumanComputerInterfaceDesign.AddisonWesley,MenloPark,CA.pp.417-422.1991)，在他們的系統(tǒng)中，手的輪廓線用來生產(chǎn)二維圖畫。在我們的系統(tǒng)中我們同樣使用了手的輪廓線作為圖片搜索的輸入。除了基于手勢的用戶界面，另外的非傳統(tǒng)的人機(jī)交互方法是基于語音的用戶界面和基于眼球跟蹤的用戶界面。在(RichardA.B.Eyesattheinterface.ConferenceonHumanFactorsinComputingSystems,pp.360-362.1982)所提出的系統(tǒng)中，第一次使用了眼球跟蹤的方法使得用戶能夠通過眼球跟蹤選擇圖片。在本發(fā)明中，我們同樣使用了眼球跟蹤的方法來實(shí)現(xiàn)圖片的選擇和圖像分割元素的選擇。語音識(shí)別的研究工作開始于50年代，迄今為止，在WindowsXP中所包含的語音識(shí)別功能，特別是與OfficeXP的軟件合用時(shí)，能夠顯著增強(qiáng)諸如游戲、數(shù)據(jù)輸入或者文字編輯領(lǐng)域的計(jì)算功能；IBM也推出了語音識(shí)別輸入系統(tǒng)，也有一系列的商用的和開源的語音識(shí)別軟件，都從某種程度上改變了用戶和計(jì)算機(jī)的交互方式。語音識(shí)別己經(jīng)是一項(xiàng)相對(duì)成熟的技術(shù)；電腦對(duì)人的手勢和表演的識(shí)別也是今年來研究的熱點(diǎn)，在計(jì)算機(jī)視覺領(lǐng)域，有很多科學(xué)家致力于通過攝像頭獲取用戶的手勢和其他肢體語言，然后分析其意義的研究。眼球跟蹤技術(shù)是一項(xiàng)有趣而且有很多實(shí)際應(yīng)用價(jià)值的研究，事實(shí)上，在網(wǎng)絡(luò)上已經(jīng)有很多開源的追蹤用戶眼球的項(xiàng)目，可以實(shí)現(xiàn)通過攝像頭觀察用戶眼球的活動(dòng)，并且定位用戶的目光注視著屏幕的哪個(gè)區(qū)域。因此，本發(fā)明采用了已有的語音識(shí)別技術(shù)、手勢和表演的識(shí)別技術(shù)和眼球跟蹤技術(shù)，主要貢獻(xiàn)在于提出了一種新型的，能夠更好的幫助用戶進(jìn)行繪畫創(chuàng)作的多媒體繪畫系統(tǒng)，同時(shí)本發(fā)明也考慮了兒童和殘疾人的需求。
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法?；诙嗝浇橛脩艚换サ碾娮永L畫創(chuàng)作的方法包括如下步驟1)使用繪圖軟件繪制的元素和從圖片中提取的繪畫元素組成繪畫的內(nèi)容；2)用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集；3)用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片；4)自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素；5)用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性。所述的用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集步驟(1)用戶通過麥克風(fēng)，說出搜索對(duì)象的名稱、包含名稱的簡短的句子或模仿繪畫對(duì)象的聲音，系統(tǒng)會(huì)根據(jù)用戶說出的內(nèi)容確定用戶要搜索的對(duì)象名稱，然后從圖片素材庫中搜索候選圖片集；(2)用戶通過靜態(tài)姿勢模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的模仿效果，并且分析和提取用戶靜態(tài)姿勢的形狀特征，并且根據(jù)提取出來的形狀特征從圖片素材庫中搜索候選圖片集；(3)用戶通過動(dòng)態(tài)肢體表演模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的肢體表演，并且分析和提取用戶表演的動(dòng)態(tài)特征，并且根據(jù)提取出來的特征從圖片素材庫中搜索候選圖片集；(4)用戶可以使用繪圖軟件繪制素描，然后根據(jù)素描在圖片素材庫中搜索候選圖片集；(5)用戶在紙上繪制素描，通過攝像頭捕捉到該素描，然后將該素描在圖片素材庫中搜索候選圖片集。所述的用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片-(1)候選圖片集中的圖片會(huì)被分頁顯示，每一頁的每一幅圖片都有一個(gè)編號(hào)，用戶通過麥克風(fēng)說出選擇的圖片的編號(hào)；(2)用戶通過用手指指向候選圖片集中的一幅圖片，通過攝像頭捕捉到用戶的靜態(tài)手勢，分析用戶的手勢指向屏幕的哪個(gè)區(qū)域，確定用戶想要選取哪一幅圖片；(3)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的圖片。所述的自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素步驟-(1)使用圖像分割算法對(duì)選中的圖片進(jìn)行分割，提取圖片中的元素，并對(duì)提取出來的每一個(gè)元素進(jìn)行編號(hào)；(2)用戶通過麥克風(fēng)說出元素的編號(hào)；(3)用戶用手指指向從圖像中提取出來的一個(gè)元素，攝像頭會(huì)捕捉到用戶的手勢，并且分析用戶的手勢指向屏幕中的哪個(gè)區(qū)域，確定用戶想要選取哪一個(gè)分割元素；(4)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的分割元素。所述的用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性步驟(1)對(duì)于用戶繪制的一幅繪畫作品中的每一個(gè)繪畫元素，包括用戶用繪圖軟件繪制的和從圖片中提取出來的，用戶用靜態(tài)手勢或者語音選定一個(gè)或者多個(gè)繪畫元素；(2)用戶使用手勢或語音，對(duì)一個(gè)或者多個(gè)被選定的繪畫元素進(jìn)行調(diào)整大小、角度和位置的操作。目前主流的電子繪圖軟件都是通過電子畫筆或者鼠標(biāo)、鍵盤的操作來完成的，需要掌握了熟練的繪畫技巧才能繪制出美觀的圖畫，但是大部分用戶都沒有熟練的繪圖技巧，對(duì)于兒童、殘疾人、老年人來說，熟練掌握和開展傳統(tǒng)的繪畫作業(yè)更非易事。為了幫助所有的用戶方便的畫出想要繪制的內(nèi)容，本發(fā)明提出了一種通過語音、靜態(tài)姿勢或者動(dòng)態(tài)表演進(jìn)行電子繪畫的人機(jī)交互界面，使得用戶能夠通過多種途徑來表達(dá)想要繪畫的內(nèi)容，可以將注意力集中在繪畫上，而不是集中在學(xué)習(xí)電子繪圖軟件的操作上；與使用電子畫筆相比，說話和表演是人類更加自然的交流方式，這也使得繪畫過程更加自然和輕松，因此，通過使用我們的發(fā)明所提出的系統(tǒng)進(jìn)行繪畫，即使完全沒有繪畫技巧的人也能快速便捷地繪制出美觀和具有藝術(shù)感的圖畫。圖l(a)是圖片素材庫中的一幅圖片；圖1(b)是從圖片(a)中提取出來的繪畫元素；圖2是本發(fā)明的系統(tǒng)架構(gòu)圖3是本發(fā)明的工作流程圖4是用戶說"嘟嘟"時(shí)，從圖片素材庫中搜索到的圖片候選集；圖5是用戶說"給我一只貓"時(shí)從圖片素材庫中搜索到的圖片候選集，以及用戶的目光在每個(gè)區(qū)域內(nèi)停留的時(shí)間統(tǒng)計(jì)；圖6是圖片分割結(jié)果，在圖中標(biāo)記出了每個(gè)分割元素的序號(hào)。具體實(shí)施例方式基于多媒介用戶交互的電子繪畫創(chuàng)作的方法包括如下步驟1)使用繪圖軟件繪制的元素和從圖片中提取的繪畫元素組成繪畫的內(nèi)容；用戶在使用本發(fā)明畫畫的過程中，可以使用任何繪圖軟件繪制出繪畫元素，也可以從圖片中提取出一個(gè)有意義的對(duì)象，作為一個(gè)繪畫元素；用戶在使用我們的系統(tǒng)畫畫的過程中，可以使用任何繪圖軟件繪制出繪畫元素，也可以從圖片中提取出一個(gè)有意義的對(duì)象，作為一個(gè)繪畫元素，例如，圖1所示，圖1中的(a)是從圖片素材庫中找到的一幅圖片，(b)是從圖片(a)中提取出來的一個(gè)繪畫元素，一只蝴蝶；2)用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集；3)用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片；4)自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素；5)用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性。所述的用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集的步驟-(1)用戶通過麥克風(fēng)，說出搜索對(duì)象的名稱、包含名稱的簡短的句子或模仿繪畫對(duì)象的聲音，系統(tǒng)會(huì)根據(jù)用戶說出的內(nèi)容確定用戶要搜索的對(duì)象名稱，然后從圖片素材庫中搜索候選圖片集；根據(jù)語音從圖片素材庫中搜索候選圖片集圖片與當(dāng)前主流的，根據(jù)關(guān)鍵字來搜索圖片的方式不同，本發(fā)明通過識(shí)別用戶的語音，包括詞語，例如，"汽車"，或者簡短的句子，例如，"給我一輛汽車"，或者模仿繪畫對(duì)象的聲音，例如，"嘟嘟"，系統(tǒng)都會(huì)從素材庫中搜索出所有關(guān)于汽車的圖片，組成候選圖片集，圖4所示的是候選圖片集中的第一頁。通過使用語音識(shí)別和機(jī)器學(xué)習(xí)的技術(shù)，將語音轉(zhuǎn)換成搜索關(guān)鍵字的方法實(shí)現(xiàn)。本發(fā)明中使用了WindowsXP中集成的語音識(shí)別軟件，使用別的軟件提供的語音識(shí)別方法也視作本發(fā)明的變形。對(duì)于詞語的識(shí)別，直接由用戶的語音轉(zhuǎn)化成搜索引擎的輸入關(guān)鍵字，對(duì)于從用戶說的短句中提取關(guān)鍵字的方法，我們先通過語音識(shí)別軟件將語音轉(zhuǎn)換成文本，隨后采用了《圖形化界面中的語音和手勢》(RichardA.B.1980."Put畫That畫There":VoiceandGestureattheGraphicsInterface)中對(duì)提出的對(duì)從短句中提取關(guān)鍵字的方法，使用別的文獻(xiàn)中提供的方法也視作本發(fā)明的變形。提供根據(jù)用戶模仿繪畫對(duì)象的聲音這個(gè)功能主要是為兒童設(shè)計(jì)的，兒童的詞匯量非常有限，而且大部分是擬聲詞，因此我們使用了機(jī)器學(xué)習(xí)的方法來完成從擬聲詞到搜索文本的映射。(2)用戶通過靜態(tài)姿勢模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的模仿效果，并且分析和提取用戶靜態(tài)姿勢的形狀特征，并且根據(jù)提取出來的形狀特征從圖片素材庫中搜索候選圖片集；對(duì)于通過攝像頭獲取的、用戶靜態(tài)姿勢的圖片的形狀特征的提取和匹配，本發(fā)明采用了《一個(gè)智能的基于顏色、形狀、和空間關(guān)系的圖像搜索系統(tǒng)》(T.K.Shin,J.Y.Huang,C.S.Wang,J.C.Hung，andC.H.Kao.Anintelligentcontent-basedimageretrievalsystembasedoncolor,shapeandspatialrelations.TheProceedingsoftheNationalScienceCouncil,25(4):232-243，September2001)中提出的提取和匹配圖片中對(duì)象的方法，使用其他文獻(xiàn)中提出的方法也視為本發(fā)明的變形。(3)用戶通過動(dòng)態(tài)肢體表演模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的肢體表演，并且分析和提取用戶表演的動(dòng)態(tài)特征，并且根據(jù)提取出來的特征從圖片素材庫中搜索候選圖片集；對(duì)于提取和匹配用戶表演時(shí)的運(yùn)動(dòng)軌跡，本發(fā)明中采用了《基于運(yùn)動(dòng)軌跡的視頻搜索》(C.W.Su，H.YM.Liao，H.R.Tyan,C.AV.Lin,D.Y.Chen,andK.C.Fan.Motionflow-basedvideoretrieval.IEEETransactionsonMultimedia,9(9):1193—1201，Oct.2007)中提出的提取和比較一段視頻中主要運(yùn)動(dòng)物體的運(yùn)動(dòng)軌跡的方法，這是因?yàn)橥ㄟ^攝像頭獲取的用戶的動(dòng)態(tài)手勢和表演也可以視為一段視頻，使用其他文獻(xiàn)中提出的方法也視作本發(fā)明的變形。(4)用戶可以使用繪圖軟件繪制素描，然后根據(jù)素描在圖片素材庫中搜索候選圖片集；搜索的過程是，比較圖片素材庫的圖片的輪廓信息和用戶繪制的特征素描，如果二者相同則認(rèn)為圖片素材庫中的圖片是符合條件的搜索結(jié)果，通過該搜索過程找到的所有圖片組成候選圖片集。對(duì)于根據(jù)素描搜索圖片，本發(fā)明采用了(http:〃labs.systemone.at/retrievr)中使用的搜索方法，使用其他網(wǎng)站或者文獻(xiàn)中提出的方法也視作本發(fā)明的變形。(5)用戶在紙上繪制素描，通過攝像頭捕捉到該素描，然后將該素描在圖片素材庫中搜索候選圖片集。搜索的過程是，比較圖片素材庫的圖片的輪廓信息和用戶繪制的特征素描，如果二者相同則認(rèn)為圖片素材庫中的圖片是符合條件的搜索結(jié)果，通過該搜索過程找到的所有圖片組成候選圖片集。對(duì)于用戶在紙上繪制素描并通過攝像頭獲取的方法，本發(fā)明中使用了《虛擬面板使用普通的紙張實(shí)現(xiàn)虛擬鼠標(biāo)，鍵盤和三維控制器》(ZhangZ.,WuY.,ShanY.,&Shafer,S.VisualPanel:VirtualMouse,Keyboard,and3DControllerwithanOrdinaryPieceofPaper.InProceedingsofACMWorkshoponPerceptiveUserInterfaces(PUI).2001)中提出的通過攝像頭獲取在紙上繪制的素描的方法，使用其他文獻(xiàn)中提出的方法也視為本發(fā)明的變形。所述的用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片步驟(1)候選圖片集中的圖片會(huì)被分頁顯示，每一頁的每一幅圖片都有一個(gè)編號(hào)，用戶通過麥克風(fēng)說出選擇的圖片的編號(hào)；發(fā)明中使用的語音識(shí)別模塊會(huì)將語音信號(hào)轉(zhuǎn)換成文本，進(jìn)而確定被選取的圖片是哪一幅。語音識(shí)別過程采用了WindowsXP集成的語音識(shí)別引擎，使用其他語音識(shí)別軟件也視作本發(fā)明的變形。(2)用戶通過用手指指向候選圖片集中的一幅圖片，通過攝像頭捕捉到用戶的靜態(tài)手勢，分析用戶的手勢指向屏幕的哪個(gè)區(qū)域，確定用戶想要選取哪一幅圖片；對(duì)于用戶手勢的識(shí)別采用了《圖形化界面中的語音和手勢》(RichardA.B.1980."Put-That-There":VoiceandGestureattheGraphicsInterface)中對(duì)提出的對(duì)用戶手勢識(shí)別的方法，使用其他文獻(xiàn)中提出的方法將視作本發(fā)明的變形。(3)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的圖片。發(fā)明使用了眼球跟蹤技術(shù)，能夠通過攝像頭跟蹤用戶眼球的活動(dòng)，因此可以統(tǒng)計(jì)用戶的目光停留在屏幕的哪個(gè)區(qū)域的時(shí)間最長，該區(qū)域內(nèi)的圖片就是用戶選中的圖片。圖5是用戶說"給我一只貓"時(shí)搜索結(jié)果集的第一頁，圖5中的紅點(diǎn)標(biāo)記出了用戶的目光落在屏幕上的位置，從圖5可以看出，用戶的目光在第8副圖片的次數(shù)最多，因此第8幅圖片是用戶通過眼球追蹤選中的圖片。對(duì)用戶眼球的追蹤采用了(http:〃www.inference.phy.cam.ac.uk/opengazer/)提供的辦法，使用其他軟件或者文獻(xiàn)中提出的方法視作本發(fā)明的變形。所述的自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素步驟(1)使用圖像分割算法對(duì)選中的圖片進(jìn)行分割，提取圖片中的元素，并對(duì)提取出來的每一個(gè)元素進(jìn)行編號(hào)；如圖6所示，圖6中的圖片被分割成9個(gè)實(shí)體，分別用紅色的方框標(biāo)記出來，并且自動(dòng)標(biāo)號(hào)。本發(fā)明采用了《基于圖形的圖像分害慎法》(PedroF.F.，DanielRH.EffectiveGraph-basedimagesegmentation)提出的分割圖像的辦法，使用其他文獻(xiàn)中提出的圖像分割算法視作本發(fā)明的變形；(2)用戶通過麥克風(fēng)說出元素的編號(hào)；語音識(shí)別模塊將語音信號(hào)轉(zhuǎn)換成文本，進(jìn)而確定被選取的圖片分割元素是哪一個(gè)，語音識(shí)別過程采用了WindowsXP集成的語音識(shí)別引擎，使用其他語音識(shí)別軟件也視作本發(fā)明的變形。(3)用戶用手指指向從圖像中提取出來的一個(gè)元素，攝像頭會(huì)捕捉到用戶的手勢，并且分析用戶的手勢指向屏幕中的哪個(gè)區(qū)域，確定用戶想要選取哪一個(gè)分割元素；對(duì)于用戶手勢的識(shí)別采用了《圖形化界面中的語音和手勢》(RichardA.B.1980."Put-That-There":VoiceandGestureattheGraphicsInterface)中對(duì)提出的對(duì)用戶手勢識(shí)別的方法，使用其他文獻(xiàn)中提出的方法將視作本發(fā)明的變形。(4)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的分割元素。采用了眼球跟蹤技術(shù)，能夠通過攝像頭跟蹤用戶眼球的活動(dòng)，因此可以統(tǒng)計(jì)用戶的目光停留在屏幕的哪個(gè)區(qū)域的時(shí)間最長，該區(qū)域內(nèi)的分割元素就是用戶想要選取的分割元素。對(duì)用戶眼球的追蹤采用了(http:〃www.inference.phy.cam.ac.uk/opengazer/)提供的辦法，使用其他軟件或者文獻(xiàn)中提出的方法視作本發(fā)明的變形。所述的用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性步驟(1)對(duì)于用戶繪制的一幅繪畫作品中的每一個(gè)繪畫元素，包括用戶用繪圖軟件繪制的和從圖片中提取出來的，用戶用靜態(tài)手勢或者語音選定一個(gè)或者多個(gè)繪畫元素；對(duì)于一幅繪畫作品中的每一個(gè)繪畫元素，包括用戶用繪圖軟件繪制出來的和從圖片中提取出來的，系統(tǒng)會(huì)根據(jù)添加繪畫元素的順序進(jìn)行編號(hào)；用戶可以通過靜態(tài)手勢，即用手指指向一個(gè)繪畫元素來選取它，攝像頭會(huì)捕捉到用戶的手勢，并且分析用戶的手指指向屏幕中的哪個(gè)區(qū)域，從而確定用戶想要選取哪一個(gè)繪畫元素，重復(fù)該動(dòng)作可以選取多個(gè)繪畫元素。對(duì)于用戶手勢的識(shí)別采用了《圖形化界面中的語音和手勢》(RichardA,B.1980."Put-That-There":VoiceandGestureattheGraphicsInterface)中對(duì)提出的對(duì)用戶手勢識(shí)別的方法，使用其他文獻(xiàn)中提出的方法將視作本發(fā)明的變形；語音，即說出一個(gè)繪畫元素的編號(hào)，系統(tǒng)中集成的語音識(shí)別模塊會(huì)將語音信號(hào)轉(zhuǎn)換成文本，進(jìn)而確定被選取的繪畫元素是哪一個(gè)；重復(fù)本步驟可以選的多個(gè)繪畫元素。使用語音選定繪畫元素是通過用戶說出繪畫元素的編號(hào)，語音識(shí)別軟件會(huì)將語音信號(hào)轉(zhuǎn)換成文本，進(jìn)而確定被選取的繪畫元素是哪一個(gè)，語音識(shí)別過程采用了WindowsXP集成的語音識(shí)別引擎，使用其他語音識(shí)別軟件也視作本發(fā)明的變形。(2)用戶使用手勢或語音，對(duì)一個(gè)或者多個(gè)被選定的繪畫元素進(jìn)行調(diào)整大小、角度和位置的操作。對(duì)于繪畫元素的操作，本發(fā)明采用了《圖形化界面中的語音和手勢》(RichardA.B.1980."Put-That-There":VoiceandGestureattheGraphicsInterface)中設(shè)計(jì)的對(duì)圖形對(duì)象的操作和操作方法，使用其他文獻(xiàn)中設(shè)計(jì)的操作命令和操作方法也視為本發(fā)明的變形。實(shí)施例本發(fā)明提出的使用語音、靜態(tài)手勢或者動(dòng)態(tài)肢體表演進(jìn)行的基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，結(jié)合附圖機(jī)器詳細(xì)的實(shí)施如下本發(fā)明的實(shí)施環(huán)境的標(biāo)準(zhǔn)配置如下表所示。<table>tableseeoriginaldocumentpage12</column></row><table>除了能夠正常運(yùn)行，并且支持?jǐn)z像頭和麥克風(fēng)的電腦之外，系統(tǒng)還需要配置麥克風(fēng)和攝像頭，手寫板不是必須的配置，但是手寫板會(huì)為用戶手繪圖案帶來方便；其中麥克風(fēng)用來獲取用戶的語音，攝像頭用來捕捉用戶的手勢和表演，以及進(jìn)行眼球跟蹤；本發(fā)明的系統(tǒng)架構(gòu)圖如圖2所示。系統(tǒng)中包括8個(gè)模塊，語音識(shí)別模塊用來識(shí)別用戶的語音，將其轉(zhuǎn)化為文字信息；靜態(tài)姿勢和動(dòng)態(tài)表演識(shí)別模塊將用來識(shí)別用戶的肢體語言的意義；眼球跟蹤模塊用來捕捉用戶眼球的活動(dòng)，并且定位用戶的目光停留在屏幕的什么位置；搜索引擎模塊處理根據(jù)文本，或者物體形狀，或者素描，或者運(yùn)動(dòng)軌跡，從網(wǎng)絡(luò)或者數(shù)據(jù)庫中搜索圖片的功能；圖片選擇模塊將搜索引擎搜索到的候選圖片集列舉出來，供用戶選擇圖片；用戶喜好模塊會(huì)根據(jù)用戶選擇的圖片來統(tǒng)計(jì)用戶喜歡的圖片的風(fēng)格，并將用戶的喜好反饋給搜索引擎，使得搜索引擎下次搜索圖片時(shí)會(huì)對(duì)候選圖片集中的圖片進(jìn)行過濾；圖像分割模塊會(huì)將一幅圖片中的具有不同意義的部分分割開來，并且進(jìn)行編號(hào)；圖像分割結(jié)果選擇模塊會(huì)提供一個(gè)讓用戶選擇分割對(duì)象的界面。本發(fā)明的工作流程圖如圖3所示，用戶需要先創(chuàng)建一幅畫布，即打開一個(gè)工作區(qū)，在工作區(qū)中可以創(chuàng)建一幅新的圖片或者打開已有的圖片進(jìn)行新的創(chuàng)作；隨后用戶可以選擇用繪圖軟件繪畫或者從圖片中提取繪畫元素的方法繪畫；如果中繪圖軟件繪畫，則直接使用電腦系統(tǒng)中提供的任何繪圖軟件進(jìn)行操作即可，如果選擇從圖片中提起繪畫元素，則可以使用語音、靜態(tài)姿勢或者動(dòng)態(tài)肢體表演從圖片素材庫中搜索候選圖片集，隨后通過語音、靜態(tài)手勢或者眼球跟蹤從候選圖片集中選出符合用戶要求的圖片，接下來，系統(tǒng)會(huì)對(duì)選中的圖片進(jìn)行自動(dòng)分割，之后，用戶可以通過語音、手勢或者眼球跟蹤從分割元素中選出用戶需要的繪畫元素；隨后，系統(tǒng)會(huì)自動(dòng)將選中的繪畫元素放到畫布中，用戶可以通過語音和靜態(tài)手勢選中當(dāng)前畫布中的一個(gè)或者多個(gè)繪畫元素，并且通過語音和靜態(tài)手勢調(diào)整每個(gè)被選中的繪畫元素的大小、方向和位置，隨后可以繼續(xù)添加繪畫對(duì)象，重復(fù)上述步驟，直到結(jié)束繪畫。權(quán)利要求1.一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，其特征在于包括如下步驟1)使用繪圖軟件繪制的元素和從圖片中提取的繪畫元素組成繪畫的內(nèi)容；2)用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集；3)用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片；4)自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素；5)用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性。2.根據(jù)權(quán)利要求1所述的一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，其特征在于所述的用戶通過語音、靜態(tài)姿勢、動(dòng)態(tài)肢體表演或者素描繪畫的方法，從圖片素材庫中搜索候選圖片集步驟(1)用戶通過麥克風(fēng)，說出搜索對(duì)象的名稱、包含名稱的簡短的句子或模仿繪畫對(duì)象的聲音，系統(tǒng)會(huì)根據(jù)用戶說出的內(nèi)容確定用戶要搜索的對(duì)象名稱，然后從圖片素材庫中搜索候選圖片集；(2)用戶通過靜態(tài)姿勢模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的模仿效果，并且分析和提取用戶靜態(tài)姿勢的形狀特征，并且根據(jù)提取出來的形狀特征從圖片素材庫中搜索候選圖片集；(3)用戶通過動(dòng)態(tài)肢體表演模仿想要繪畫的對(duì)象的樣子，通過攝像頭捕捉到用戶的肢體表演，并且分析和提取用戶表演的動(dòng)態(tài)特征，并且根據(jù)提取出來的特征從圖片素材庫中搜索候選圖片集；(4)用戶可以使用繪圖軟件繪制素描，然后根據(jù)素描在圖片素材庫中搜索候選圖片集；(5)用戶在紙上繪制素描，通過攝像頭捕捉到該素描，然后將該素描在圖片素材庫中搜索候選圖片集。3.根據(jù)權(quán)利要求1所述的一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，其特征在于所述的用戶通過語音、靜態(tài)手勢或眼球跟蹤選取候選圖片集中的一幅圖片步驟(1)候選圖片集中的圖片會(huì)被分頁顯示，每一頁的每一幅圖片都有一個(gè)編號(hào)，用戶通過麥克風(fēng)說出選擇的圖片的編號(hào)；(2)用戶通過用手指指向候選圖片集中的一幅圖片，通過攝像頭捕捉到用戶的靜態(tài)手勢，分析用戶的手勢指向屏幕的哪個(gè)區(qū)域，確定用戶想要選取哪一幅圖片；(3)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的圖片。4.根據(jù)權(quán)利要求1所述的一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，其特征在于所述的自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，提取圖片中的元素，通過識(shí)別用戶的語音、靜態(tài)手勢或眼球跟蹤從分割結(jié)果中選取用戶需要的元素步驟:(1)使用圖像分割算法對(duì)選中的圖片進(jìn)行分割，提取圖片中的元素，并對(duì)提取出來的每一個(gè)元素進(jìn)行編號(hào)；(2)用戶通過麥克風(fēng)說出元素的編號(hào)；(3)用戶用手指指向從圖像中提取出來的一個(gè)元素，攝像頭會(huì)捕捉到用戶的手勢，并且分析用戶的手勢指向屏幕中的哪個(gè)區(qū)域，確定用戶想要選取哪一個(gè)分割元素；(4)通過攝像頭追蹤用戶的眼球運(yùn)動(dòng)，通過統(tǒng)計(jì)用戶的目光停留在屏幕上哪個(gè)區(qū)域的時(shí)間最長來確定用戶想要選取的分割元素。5.根據(jù)權(quán)利要求1所述的一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，其特征在于所述的用戶通過靜態(tài)手勢和語音調(diào)整每個(gè)繪畫元素的大小和位置，使繪畫作品美觀和更具有藝術(shù)性步驟-(1)對(duì)于用戶繪制的一幅繪畫作品中的每一個(gè)繪畫元素，包括用戶用繪圖軟件繪制的和從圖片中提取出來的，用戶用靜態(tài)手勢或者語音選定一個(gè)或者多個(gè)繪畫元素；(2)用戶使用手勢或語音，對(duì)一個(gè)或者多個(gè)被選定的繪畫元素進(jìn)行調(diào)整大小、角度和位置的操作。全文摘要本發(fā)明公開了一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法，方法包括(1)繪畫內(nèi)容由使用電子畫筆繪制的筆劃和從圖片中提取的繪畫元素組成；(2)用戶通過語音、靜態(tài)姿勢或者動(dòng)態(tài)肢體表演從圖片素材庫中搜索候選圖片集；(3)用戶通過語音、靜態(tài)手勢或者眼球跟蹤從候選圖片集中選取圖片；(4)自動(dòng)對(duì)用戶選取的圖片進(jìn)行分割，將圖片中有意義的元素提取出來，通過識(shí)別用戶的語音、靜態(tài)手勢，或者眼球跟蹤從分割結(jié)果中選取用戶需要的繪圖元素畫；(5)用戶通過靜態(tài)手勢或者語音調(diào)整每個(gè)繪畫元素的大小，角度和位置，使繪畫作品美觀。本發(fā)明公開的基于用戶的語音、靜態(tài)姿勢或者動(dòng)態(tài)肢體表演的電子繪畫方式使得繪圖過程更加人性化。文檔編號(hào)G06F3/01GK101382836SQ20081012079公開日2009年3月11日申請(qǐng)日期2008年9月5日優(yōu)先權(quán)日2008年9月5日發(fā)明者劉智滿,徐頌華,楊文霞,潘云鶴申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐頌華、楊文霞、劉智滿、潘云鶴
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：基于泰勒級(jí)數(shù)模型的全向立體視覺三維重建方法
上一篇：大批量定制二維時(shí)空模型建模及優(yōu)化方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一個(gè)基于多媒介用戶交互的電子繪畫創(chuàng)作的方法