本發(fā)明涉及數(shù)字人大模型,具體為一種用于驅(qū)動(dòng)二次元數(shù)字人實(shí)時(shí)互動(dòng)的多模態(tài)大模型。
背景技術(shù):
1、在現(xiàn)代辦公和遠(yuǎn)程協(xié)作的環(huán)境中,采用二次元數(shù)字人技術(shù)進(jìn)行面部掃描的多人會(huì)議形式開始流行。參與者通過特定的設(shè)備或應(yīng)用程序進(jìn)行面部掃描,系統(tǒng)會(huì)生成每位參與者的二次元數(shù)字化形象,能夠在保護(hù)用戶隱私的前提下,為用戶提供一種更加沉浸和互動(dòng)的體驗(yàn)。
2、現(xiàn)有的二次元實(shí)時(shí)互動(dòng)大模型有兩種呈現(xiàn)表情的方式,一種是實(shí)時(shí)捕捉面部的每個(gè)五官表情細(xì)節(jié),將面部實(shí)時(shí)地表現(xiàn)在數(shù)字人上,另一種是通過檢測人此時(shí)的面部大致表情,再查找數(shù)字人的表情模板后選擇合適的表情進(jìn)行呈現(xiàn)。
3、然而第一種方式對于頭部晃動(dòng)頻繁的人來說,會(huì)使得面部識別系統(tǒng)難以穩(wěn)定地鎖定和跟蹤這些特征,增加了圖像處理的復(fù)雜性,且因?yàn)閭鬏數(shù)臄?shù)據(jù)量較大,很容易造成表情顯示延遲,第二種無法準(zhǔn)確捕捉到用戶的獨(dú)特表情或微小情緒變化,從而導(dǎo)致數(shù)字人表現(xiàn)的情感不夠豐富和自然。因此,設(shè)計(jì)結(jié)合兩者優(yōu)點(diǎn)的一種用于驅(qū)動(dòng)二次元數(shù)字人實(shí)時(shí)互動(dòng)的多模態(tài)大模型是很有必要的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種用于驅(qū)動(dòng)二次元數(shù)字人實(shí)時(shí)互動(dòng)的多模態(tài)大模型,以解決上述背景技術(shù)中提出的問題。
2、為了解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種用于驅(qū)動(dòng)二次元數(shù)字人實(shí)時(shí)互動(dòng)的多模態(tài)大模型,包括數(shù)據(jù)采集模塊、多模態(tài)處理模塊、實(shí)時(shí)互動(dòng)模塊,所述數(shù)據(jù)采集模塊用于使用計(jì)算機(jī)視覺技術(shù)對用戶的面部進(jìn)行區(qū)域劃分和特征提取,并對頭部晃動(dòng)幅度和頻率進(jìn)行檢測,以及在用戶之間視頻交流時(shí)對用戶的瞳孔注視點(diǎn)進(jìn)行檢測,所述多模態(tài)處理模塊用于對采集到的面部特征數(shù)據(jù)和瞳孔注視點(diǎn)數(shù)據(jù)進(jìn)行分析,評估各個(gè)面部區(qū)域的吸引力,決定各個(gè)區(qū)域采用實(shí)時(shí)捕捉還是表情模板的方式,所述實(shí)時(shí)互動(dòng)模塊用于根據(jù)呈現(xiàn)表情的方式對用戶對應(yīng)的數(shù)字人表情加以控制,進(jìn)行各個(gè)用戶之間的互動(dòng)。
3、根據(jù)上述技術(shù)方案,所述數(shù)據(jù)采集模塊包括攝像單元、面部區(qū)域識別模塊、表情特征提取模塊、數(shù)據(jù)庫、頭部晃動(dòng)檢測模塊、計(jì)時(shí)模塊、瞳孔注視點(diǎn)捕捉模塊,所述攝像單元與面部區(qū)域識別模塊電連接,所述面部區(qū)域識別模塊與表情特征提取模塊電連接,所述表情特征提取模塊與數(shù)據(jù)庫電連接,所述頭部晃動(dòng)檢測模塊與計(jì)時(shí)模塊和面部區(qū)域識別模塊電連接,所述攝像單元用于拍攝用戶的面部,所述面部區(qū)域識別模塊用于識別面部并將面部劃分為多個(gè)區(qū)域,所述表情特征提取模塊用于提取與面部各個(gè)區(qū)域的表情特征,所述數(shù)據(jù)庫用于儲(chǔ)存各個(gè)用戶的表情特征數(shù)據(jù),所述頭部晃動(dòng)檢測模塊用于檢測用戶頭部的晃動(dòng)頻率和幅度,所述計(jì)時(shí)模塊用于統(tǒng)計(jì)時(shí)間,所述瞳孔注視點(diǎn)捕捉模塊用于在用戶之間視頻交流時(shí)對用戶的瞳孔注視點(diǎn)進(jìn)行檢測;
4、所述多模態(tài)處理模塊包括吸引力評估模塊、預(yù)先設(shè)定模塊、自動(dòng)設(shè)定模塊,所述吸引力評估模塊與瞳孔注視點(diǎn)捕捉模塊電連接,所述預(yù)先設(shè)定模塊與面部區(qū)域識別模塊電連接,所述自動(dòng)設(shè)定模塊與吸引力評估模塊、頭部晃動(dòng)檢測模塊和面部區(qū)域識別模塊電連接,所述吸引力評估模塊用于根據(jù)其他用戶普遍的瞳孔注視點(diǎn)數(shù)據(jù)來評估當(dāng)前用戶各個(gè)面部區(qū)域的吸引力,所述預(yù)先設(shè)定模塊用于根據(jù)吸引力數(shù)據(jù)設(shè)定哪些面部區(qū)域采用實(shí)時(shí)捕捉,哪些面部區(qū)域采用表情模板,所述自動(dòng)設(shè)定模塊用于結(jié)合用戶的頭部晃動(dòng)頻率和各個(gè)面部區(qū)域的吸引力決定采用實(shí)時(shí)捕捉的面部區(qū)域比例;
5、所述實(shí)時(shí)互動(dòng)模塊包括表情定性模塊、表情模板庫、模板化顯示模塊、實(shí)時(shí)捕捉顯示模塊,所述表情定性模塊與表情特征提取模塊電連接,所述表情模板庫用于儲(chǔ)存數(shù)字人的表情模板,所述模板化顯示模塊用于在數(shù)字人面部特征上采用表情模板來顯示對應(yīng)的面部區(qū)域,所述實(shí)時(shí)捕捉顯示模塊用于在數(shù)字人面部特征上利用實(shí)時(shí)捕捉的方式來顯示對應(yīng)的面部區(qū)域。
6、根據(jù)上述技術(shù)方案,該大模型的工作方法為:
7、s0、用戶通過攝像頭進(jìn)行面部掃描,將面部劃分為不同區(qū)域,并采集這些區(qū)域的特征數(shù)據(jù);
8、s1、在當(dāng)前用戶利用視頻交流的方式與其他用戶進(jìn)行溝通測試時(shí),征得其他用戶同意后對其他用戶的瞳孔注視點(diǎn)進(jìn)行檢測,得到其他用戶普遍更加吸引的面部區(qū)域;
9、s2、對當(dāng)前用戶更加受吸引的面部區(qū)域采用實(shí)時(shí)捕捉的方式來獲取動(dòng)態(tài)表情,對吸引力弱的面部區(qū)域采用表情模板進(jìn)行匹配,進(jìn)行預(yù)先設(shè)定;
10、s3、在當(dāng)前用戶采用數(shù)字人的方式與其他用戶交互時(shí),實(shí)時(shí)捕捉當(dāng)前用戶的頭部晃動(dòng)頻率,結(jié)合預(yù)先設(shè)定的匹配方式,對采用實(shí)時(shí)捕捉的面部區(qū)域比例進(jìn)行調(diào)整;
11、s4、對當(dāng)前用戶需要模板匹配的面部區(qū)域的表情進(jìn)行定性,并找出表情模板庫中最符合當(dāng)前面部區(qū)域的表情,在數(shù)字人的面部進(jìn)行顯示,其他面部區(qū)域的表情則通過實(shí)時(shí)捕捉和面部擬合的方法在數(shù)字人的面部進(jìn)行顯示,系統(tǒng)整合實(shí)時(shí)捕捉的面部區(qū)域和模板匹配的面部區(qū)域?qū)崿F(xiàn)數(shù)字人的表情輸出;
12、s5、對其他用戶觀看到的數(shù)字人表情與當(dāng)前用戶檢測到的實(shí)時(shí)表情的時(shí)間差進(jìn)行統(tǒng)計(jì),如果時(shí)間差超過閾值t0,優(yōu)化采用實(shí)時(shí)捕捉的面部區(qū)域比例,直到時(shí)間差低于閾值。
13、根據(jù)上述技術(shù)方案,所述s0中,面部劃分為不同區(qū)域的具體方法為:通過面部區(qū)域識別模塊識別出當(dāng)前用戶面部的五官、額頭、臉頰、下巴,并且將這些部位覆蓋的面部區(qū)域進(jìn)行劃分,當(dāng)前用戶的表情變化時(shí),識別出的區(qū)域輪廓也隨著這些部位覆蓋的面部區(qū)域改變而變化。
14、根據(jù)上述技術(shù)方案,所述s1中,瞳孔注視點(diǎn)進(jìn)行檢測的方法為:
15、s1-1、利用瞳孔注視點(diǎn)捕捉模塊對其他用戶的瞳孔進(jìn)行識別,對瞳孔中心點(diǎn)結(jié)合頭部角度計(jì)算出視線的三維向量,通過視線向量與屏幕平面的交點(diǎn)計(jì)算實(shí)際的焦點(diǎn)位置;
16、s1-2、利用計(jì)時(shí)模塊統(tǒng)計(jì)規(guī)定的時(shí)間段內(nèi)其他用戶視線的焦點(diǎn)位置在當(dāng)前用戶的面部區(qū)域停留時(shí)間,分別為{t1、t2、…、tn},其中n為面部區(qū)域數(shù)量;
17、s1-3、測試多個(gè)其他用戶進(jìn)行平均,得到停留時(shí)間的平均值,得到當(dāng)前用戶各個(gè)面部區(qū)域的吸引力值其中i為面部區(qū)域的序號,吸引力值越大則此面部區(qū)域更加受到吸引。
18、根據(jù)上述技術(shù)方案,所述s2中,進(jìn)行預(yù)先設(shè)定的方法為:首先確定采用實(shí)時(shí)捕捉的面部區(qū)域的初始比例,記為a%,將各個(gè)面部區(qū)域的吸引力值fi從大到小進(jìn)行排序,并從最大的項(xiàng)開始按順序進(jìn)行求和,直到求出的和超過a%,去掉最后一項(xiàng),其他求和的項(xiàng)所對應(yīng)的面部區(qū)域采用實(shí)時(shí)捕捉的方式,沒有納入求和的項(xiàng)所對應(yīng)的面部區(qū)域采用表情模板匹配的方式。
19、根據(jù)上述技術(shù)方案,所述s3中,對采用實(shí)時(shí)捕捉的面部區(qū)域比例進(jìn)行調(diào)整的具體方法為:
20、s3-1、在當(dāng)前用戶的面部區(qū)域標(biāo)記特征點(diǎn),計(jì)算各個(gè)特征點(diǎn)與屏幕的距離,分別為{h1、h2、…、hn},當(dāng)前用戶的頭部進(jìn)行晃動(dòng)時(shí),各個(gè)特征點(diǎn)與屏幕的距離也在實(shí)時(shí)變化,記錄多個(gè)時(shí)間段內(nèi)的距離改變值{δh1、δh2、…、δhn},并進(jìn)行求和,得出總距離改變值∑δhn,∑δhn越大則當(dāng)前用戶的頭部晃動(dòng)越頻繁;
21、s3-2、頭部晃動(dòng)越頻繁,則采用實(shí)時(shí)捕捉的面部區(qū)域的比例越小,即實(shí)時(shí)捕捉的面部區(qū)域的修正比例a=(a―μ∑δhn)%,其中μ為頭部晃動(dòng)對實(shí)時(shí)捕捉的面部區(qū)域的影響系數(shù),根據(jù)實(shí)際情況確定,將a%替換s2中的a%,進(jìn)行實(shí)時(shí)捕捉比例的調(diào)整。
22、根據(jù)上述技術(shù)方案,所述s5中,優(yōu)化采用實(shí)時(shí)捕捉的面部區(qū)域比例的具體方法為:統(tǒng)計(jì)其他用戶觀看到的數(shù)字人表情與當(dāng)前用戶檢測到的實(shí)時(shí)表情的時(shí)間差{t1、t2、…、tk},其中k為與當(dāng)前用戶采用數(shù)字人的方式實(shí)時(shí)互動(dòng)的其他用戶數(shù)量,進(jìn)行平均得到平均時(shí)間差當(dāng)時(shí),根據(jù)的大小呈正比降低實(shí)時(shí)捕捉的面部區(qū)域的修正比例a%,時(shí)則不做改變。
23、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果是:本發(fā)明,首先將掃描出的用戶面部進(jìn)行區(qū)域劃分處理,對需要更細(xì)致表現(xiàn)的面部區(qū)域采用實(shí)時(shí)捕捉表情細(xì)節(jié)的方式,對無需細(xì)致表現(xiàn)的面部區(qū)域采用表情模板的方式,使得數(shù)字人能夠在盡量少的數(shù)據(jù)傳輸量的前提下捕捉到用戶的獨(dú)特表情;
24、通過采集用戶在日常交互中的頭部晃動(dòng)幅度和頻率,對需要實(shí)時(shí)捕捉表情細(xì)節(jié)的區(qū)域比例進(jìn)行調(diào)整,在減少表情延遲的前提下盡量保證吸引力。