本技術(shù)涉及圖像處理,特別是涉及一種基于多模態(tài)的視覺語言定位方法及基于多模態(tài)的視覺語言定位裝置。
背景技術(shù):
1、視覺語言理解與定位,簡稱視覺定位(visualgrounding,vg),又稱指代表達(dá)理解(referenceexpressioncomprehension,rec)或短語定位(phrasegrounding,pg),是指在特定圖像中定位文本表達(dá)所描述的邊界框的區(qū)域,這一技術(shù)已成為人工智能人機(jī)交互的關(guān)鍵技術(shù)之一。由于視覺語言理解與定位模型具有跨模態(tài)特性,需要同時(shí)理解語言表達(dá)和圖像的語義,這一直是一項(xiàng)復(fù)雜而富有挑戰(zhàn)性的任務(wù)。
2、在養(yǎng)老院中,老人通常具有較為濃重的口音,并且說話可能會(huì)出現(xiàn)咬字不清的情況,因此,如果在養(yǎng)老院這種環(huán)境下,想要使用視覺語言理解與定位,僅僅靠老人的語言表達(dá),很難實(shí)現(xiàn)準(zhǔn)確的目標(biāo)的定位。
3、因此,希望有一種技術(shù)方案來克服或至少減輕現(xiàn)有技術(shù)的至少一個(gè)上述缺陷。
4、申請(qǐng)內(nèi)容
5、本技術(shù)的目的在于提供一種基于多模態(tài)的視覺語言定位方法來克服或至少減輕現(xiàn)有技術(shù)的至少一個(gè)上述缺陷。
6、為實(shí)現(xiàn)上述目的,本技術(shù)提供了一種基于多模態(tài)的視覺語言定位方法,用于養(yǎng)老院中與老人交互,所述基于多模態(tài)的視覺語言定位方法包括:
7、獲取通過與使用者交互所獲取的尋人指令信息;
8、根據(jù)所述尋人指令信息獲取待識(shí)別頭像信息;
9、根據(jù)待識(shí)別頭像信息獲取自定義手勢(shì)信息庫;
10、生成指示信息;
11、獲取使用者根據(jù)指示信息后所反饋的視頻流信息以及語音信息;
12、根據(jù)所述自定義手勢(shì)信息庫以及所述視頻流信息獲取第一文本信息;
13、根據(jù)所述語音信息獲取第二文本信息;
14、獲取經(jīng)過訓(xùn)練的語義理解模型;
15、將所述第一文本信息以及第二文本信息輸入至經(jīng)過訓(xùn)練的語義理解模型,從而獲取目標(biāo)物體文本信息;
16、根據(jù)目標(biāo)物體文本信息對(duì)養(yǎng)老院中的一個(gè)或多個(gè)攝像裝置所傳遞的視頻流信息進(jìn)行檢索,從而在所述視頻流信息中定位所述目標(biāo)對(duì)象并獲取目標(biāo)對(duì)象的圖像信息。
17、可選地,所述根據(jù)所述尋人指令信息獲取待識(shí)別頭像信息包括:
18、當(dāng)獲取到尋人指令信息后生成圖像請(qǐng)求信息并發(fā)送給使用者;
19、獲取使用者根據(jù)圖像請(qǐng)求信息所反饋的回答信息;
20、當(dāng)所述回答信息為同意時(shí),生成拍攝信號(hào)給人機(jī)交互裝置的攝像裝置;
21、獲取人機(jī)交互裝置的攝像裝置根據(jù)所述拍攝信號(hào)所拍攝的待識(shí)別頭像信息。
22、可選地,所述根據(jù)待識(shí)別頭像信息獲取自定義手勢(shì)信息庫包括:
23、獲取頭像手勢(shì)庫對(duì)應(yīng)表,所述頭像手勢(shì)庫對(duì)應(yīng)表包括至少一個(gè)預(yù)設(shè)頭像以及每個(gè)預(yù)設(shè)頭像對(duì)應(yīng)的自定義手勢(shì)信息庫,所述自定義手勢(shì)信息庫包括至少一個(gè)預(yù)設(shè)自定義手勢(shì),每個(gè)預(yù)設(shè)自定義手勢(shì)對(duì)應(yīng)一個(gè)語句信息或詞語信息;
24、將所述待識(shí)別頭像信息分別與每個(gè)預(yù)設(shè)頭像進(jìn)行相似度計(jì)算,從而獲取相似度超過預(yù)設(shè)閾值的預(yù)設(shè)頭像所對(duì)應(yīng)的自定義手勢(shì)信息庫。
25、可選地,所述根據(jù)所述自定義手勢(shì)信息庫以及所述視頻流信息獲取第一文本信息包括:
26、解析所述視頻流信息,獲取視頻流信息中的手勢(shì)信息;
27、分別從自定義手勢(shì)信息庫中獲取與各個(gè)手勢(shì)信息相同的預(yù)設(shè)自定義手勢(shì)所對(duì)應(yīng)的語句信息或詞語信息,各個(gè)所述語句信息或詞語信息組成所述第一文本信息。
28、可選地,所述經(jīng)過訓(xùn)練的語義理解模型為bert模型。
29、可選地,所述根據(jù)目標(biāo)物體文本信息對(duì)養(yǎng)老院中的一個(gè)或多個(gè)攝像裝置所傳遞的視頻流信息進(jìn)行檢索,從而在所述視頻流信息中定位所述目標(biāo)對(duì)象并獲取目標(biāo)對(duì)象的圖像信息包括:
30、識(shí)別所述目標(biāo)物體文本信息,判斷是否能夠從目標(biāo)物體文本信息中確定攝像裝置位置以及時(shí)間段信息,若是,則
31、獲取攝像裝置位置數(shù)據(jù)庫,所述攝像裝置位置數(shù)據(jù)庫包括至少一個(gè)預(yù)設(shè)攝像裝置位置以及每個(gè)預(yù)設(shè)攝像裝置位置對(duì)應(yīng)的攝像裝置;
32、獲取與攝像裝置位置相同的預(yù)設(shè)攝像裝置位置所對(duì)應(yīng)的攝像裝置,該攝像裝置為指定攝像裝置;
33、獲取指定攝像裝置在時(shí)間段信息內(nèi)的視頻流信息;
34、根據(jù)所述目標(biāo)物體文本信息對(duì)所述視頻流信息中的每一幀圖像信息進(jìn)行目標(biāo)對(duì)象的定位,當(dāng)定位到所述目標(biāo)對(duì)象,則獲取目標(biāo)對(duì)象的圖像信息。
35、可選地,所述根據(jù)目標(biāo)物體文本信息對(duì)養(yǎng)老院中的一個(gè)或多個(gè)攝像裝置所傳遞的視頻流信息進(jìn)行檢索,從而在所述視頻流信息中定位所述目標(biāo)對(duì)象并獲取目標(biāo)對(duì)象的圖像信息進(jìn)一步包括:
36、識(shí)別所述目標(biāo)物體文本信息,判斷是否能夠從目標(biāo)物體文本信息中確定攝像裝置位置以及時(shí)間段信息,若否,則
37、判斷是否能夠從目標(biāo)物體文本信息中確定攝像裝置位置,若是,則
38、獲取攝像裝置位置數(shù)據(jù)庫,所述攝像裝置位置數(shù)據(jù)庫包括至少一個(gè)預(yù)設(shè)攝像裝置位置以及每個(gè)預(yù)設(shè)攝像裝置位置對(duì)應(yīng)的攝像裝置;
39、獲取與攝像裝置位置相同的預(yù)設(shè)攝像裝置位置所對(duì)應(yīng)的攝像裝置,該攝像裝置為指定攝像裝置;
40、生成時(shí)間段詢問信息,所述時(shí)間段詢問信息中包括多個(gè)時(shí)間段選項(xiàng);
41、獲取使用者根據(jù)所述時(shí)間段詢問信息所選擇的時(shí)間段選項(xiàng);
42、獲取指定攝像裝置在時(shí)間段選項(xiàng)內(nèi)的視頻流信息;
43、根據(jù)所述目標(biāo)物體文本信息對(duì)所述視頻流信息中的每一幀圖像信息進(jìn)行目標(biāo)對(duì)象的定位,當(dāng)定位到所述目標(biāo)對(duì)象,則獲取目標(biāo)對(duì)象的圖像信息。
44、可選地,所述根據(jù)目標(biāo)物體文本信息對(duì)養(yǎng)老院中的一個(gè)或多個(gè)攝像裝置所傳遞的視頻流信息進(jìn)行檢索,從而在所述視頻流信息中定位所述目標(biāo)對(duì)象并獲取目標(biāo)對(duì)象的圖像信息進(jìn)一步包括:
45、識(shí)別所述目標(biāo)物體文本信息,判斷是否能夠從目標(biāo)物體文本信息中確定攝像裝置位置以及時(shí)間段信息,若否,則
46、判斷是否能夠從目標(biāo)物體文本信息中確定攝像裝置位置,若否,則
47、判斷是否能夠從目標(biāo)物體文本信息中確定時(shí)間段信息,若是,則
48、獲取距離所述使用者的位置最近的攝像裝置在時(shí)間段信息內(nèi)的視頻流信息;
49、根據(jù)所述目標(biāo)物體文本信息對(duì)所述視頻流信息中的每一幀圖像信息進(jìn)行目標(biāo)對(duì)象的定位,當(dāng)定位到所述目標(biāo)對(duì)象,則獲取目標(biāo)對(duì)象的圖像信息。
50、可選地,當(dāng)所獲取的視頻流信息中無法定位到所述目標(biāo)對(duì)象,則所述基于多模態(tài)的視覺語言定位方法進(jìn)一步包括:
51、通過相鄰選擇法依次選擇所述攝像裝置相鄰的攝像裝置進(jìn)行識(shí)別,直至定位到所述目標(biāo)對(duì)象。
52、本技術(shù)還提供了一種基于多模態(tài)的視覺語言定位裝置,所述基于多模態(tài)的視覺語言定位裝置包括:
53、尋人指令信息獲取模塊,所述尋人指令信息獲取模塊用于獲取通過與使用者交互所獲取的尋人指令信息;
54、待識(shí)別頭像信息獲取模塊,所述待識(shí)別頭像信息獲取模塊用于根據(jù)所述尋人指令信息獲取待識(shí)別頭像信息;
55、自定義手勢(shì)信息庫獲取模塊,所述自定義手勢(shì)信息庫獲取模塊用于根據(jù)待識(shí)別頭像信息獲取自定義手勢(shì)信息庫;
56、指示信息生成模塊,所述指示信息生成模塊用于生成指示信息;
57、視頻流信息以及語音信息獲取模塊,所述視頻流信息以及語音信息獲取模塊用于獲取使用者根據(jù)指示信息后所反饋的視頻流信息以及語音信息;
58、第一文本信息獲取模塊,所述第一文本信息獲取模塊用于根據(jù)所述自定義手勢(shì)信息庫以及所述視頻流信息獲取第一文本信息;
59、第二文本信息獲取模塊,所述第二文本信息獲取模塊用于根據(jù)所述語音信息獲取第二文本信息;
60、語義理解模型獲取模塊,所述語義理解模型獲取模塊用于獲取經(jīng)過訓(xùn)練的語義理解模型;
61、目標(biāo)物體文本信息獲取模塊,所述目標(biāo)物體文本信息獲取模塊用于將所述第一文本信息以及第二文本信息輸入至經(jīng)過訓(xùn)練的語義理解模型,從而獲取目標(biāo)物體文本信息;
62、定位模塊,所述定位模塊用于根據(jù)目標(biāo)物體文本信息對(duì)養(yǎng)老院中的一個(gè)或多個(gè)攝像裝置所傳遞的視頻流信息進(jìn)行檢索,從而在所述視頻流信息中定位所述目標(biāo)對(duì)象并獲取目標(biāo)對(duì)象的圖像信息。
63、本技術(shù)的基于多模態(tài)的視覺語言定位方法通過手勢(shì)獲取第一文本信息,通過語音獲取第二文本信息,通過對(duì)第一文本信息以及第二文本信息進(jìn)行識(shí)別獲取目標(biāo)物體文本信息,從而具有如下優(yōu)點(diǎn):
64、1、豐富了提供語義信息的種類,不單純使用語音信息來進(jìn)行定位輔助用特征,從而使得即使老人言語不清或者口音較重也可以使用本技術(shù)的方法來提供定位輔助特征。
65、2、通過自定義的方式,可以使得老人即使使用簡單的手勢(shì)也能表達(dá)復(fù)雜的文本含義,例如,某一個(gè)簡單的手勢(shì)可以直接指代某個(gè)人的基礎(chǔ)特征,只要該基礎(chǔ)特征預(yù)存在自定義手勢(shì)信息庫中即可。
技術(shù)實(shí)現(xiàn)思路