1.一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征在于,所述步驟1中,將輸入的圖像調(diào)整到固定尺寸(224×224),該過(guò)程包括圖像的裁剪、縮放和填充;對(duì)調(diào)整后的圖像進(jìn)行像素值的歸一化處理,將其標(biāo)準(zhǔn)化到一個(gè)固定的范圍[-1,1];
3.根據(jù)權(quán)利要求1所述的一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征在于,所述步驟2中,對(duì)用戶輸入的問(wèn)題進(jìn)行文本規(guī)范化處理,以去除多余的空格和標(biāo)準(zhǔn)化標(biāo)點(diǎn)符號(hào),并將文本統(tǒng)一為小寫(xiě);使用bert的分詞器將輸入的問(wèn)題分解為子詞單元,以處理未登錄詞和詞綴;
4.根據(jù)權(quán)利要求1所述的一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征在于,所述步驟3中,使用傳感器網(wǎng)絡(luò)獲取環(huán)境數(shù)據(jù),包括時(shí)間信息、地點(diǎn)信息、光照條件、天氣信息、溫度和濕度信息以及聲音環(huán)境;對(duì)采集到的環(huán)境數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,將時(shí)間信息通過(guò)正弦和余弦函數(shù)進(jìn)行周期性編碼,光照條件通過(guò)亮度分析提取,地點(diǎn)信息通過(guò)gps定位或wi-fi獲取,天氣信息通過(guò)天氣api接口獲取,溫度和濕度信息通過(guò)溫濕度傳感器獲取,聲音環(huán)境通過(guò)音頻信號(hào)處理提取;
5.根據(jù)權(quán)利要求1所述的一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征在于,所述步驟4中,接收視覺(jué)特征、文本特征和環(huán)境特征,并將其特征用如下向量表示:
6.根據(jù)權(quán)利要求1所述的一種基于環(huán)境感知和知識(shí)庫(kù)的視覺(jué)問(wèn)答方法,其特征在于,所述步驟5中,首先會(huì)接收多模態(tài)融合的綜合特征向量: