本發(fā)明屬于多模態(tài)推薦領(lǐng)域,涉及基于對比學(xué)習(xí)的跨模態(tài)特征對齊與融合方法,使用對比學(xué)習(xí)技術(shù)與項目語義圖確保跨模態(tài)的語義一致性,從而減少模態(tài)融合過程中的冗余和噪音,并提高多模態(tài)推薦的準確率。
背景技術(shù):
1、推薦系統(tǒng)改變了用戶瀏覽大量信息和產(chǎn)品的方式。這些系統(tǒng)由先進的算法驅(qū)動,分析用戶偏好和項目屬性,通常依賴于隱式交互(如購買和點擊)來定制推薦。然而,人類體驗本質(zhì)上是多模態(tài)的,涵蓋了包括音頻、文本和圖像在內(nèi)的多種感官輸入。因此,一系列工作著眼于多模態(tài)推薦,致力于理解和整合不同模態(tài)的數(shù)據(jù),以提供更準確和個性化的推薦(chen,j.,zhang,h.,he,x.,nie,l.,liu,w.,chua,t.-s.,2017.attentive?collaborativefiltering:multimedia?recommendation?with?item-and?component-levelattention.)。
2、在最近的多模態(tài)推薦研究中,得益于其強大的特征表達能力和對復(fù)雜關(guān)系的建模能力,圖神經(jīng)網(wǎng)絡(luò)被廣泛使用。除了應(yīng)用于傳統(tǒng)的用戶-項目交互圖外,研究者還嘗試應(yīng)用于更多的圖結(jié)構(gòu),如用戶-用戶關(guān)系圖(wang,q.,wei,y.,yin,j.,wu,j.,song,x.,nie,l.,2023.dualgnn:dual?graph?neural?network?for?multimedia?recommendation.)和項目-項目關(guān)系圖(zhou,x.,shen,z.,2023.a?tale?of?two?graphs:freezing?and?denoisinggraph?structures?for?multimodal?recommendation.)。這些圖結(jié)構(gòu)有助于捕捉潛在關(guān)系、提高推薦精度,但是其應(yīng)用多側(cè)重于通過各種方式組合不同模態(tài)的特征,而忽視了不同模態(tài)間的對應(yīng)關(guān)系。這樣就難以確保不同模態(tài)下的特征表達一致性,從而增加信息冗余和噪聲的存在。
3、在現(xiàn)有研究中,自監(jiān)督學(xué)習(xí)已被引入多模態(tài)推薦中,以生成更穩(wěn)健、更全面的特征表示。(tao,z.,liu,x.,xia,y.,wang,x.,yang,l.,huang,x.,chua,t.-s.,2023.self-supervised?learning?for?multimedia?recommendation.)諸如對比學(xué)習(xí)之類的自監(jiān)督學(xué)習(xí)任務(wù)可以幫助在模態(tài)融合中對齊不同模態(tài)的特征。但是,在這個過程中容易引入一些不相關(guān)的特征,并對模態(tài)之間復(fù)雜的關(guān)系建模不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明主要解決了在多模態(tài)推薦系統(tǒng)中不同模態(tài)數(shù)據(jù)之間特征對齊與融合的挑戰(zhàn),特別是不同模態(tài)之間的復(fù)雜關(guān)系建模和特征不完全匹配的問題。通過構(gòu)建跨模態(tài)特征對比學(xué)習(xí)模型,確保語義一致性,減少冗余和噪聲,從而實現(xiàn)更好的模態(tài)融合。首先,通過構(gòu)建項目語義圖捕捉同一模態(tài)下項目之間的語義關(guān)系,并在此基礎(chǔ)上對整體特征和模態(tài)特定特征進行圖卷積操作,增強其在該模態(tài)下的表達能力。捕獲并利用特征之間的潛在信息,緩解模態(tài)間不完全匹配的問題。然后,利用對比學(xué)習(xí)方法在每個模態(tài)下對比增強的整體特征與模態(tài)特征,促進跨模態(tài)的信息傳遞與互補。通過聯(lián)合分析不同模態(tài)的項目語義圖,實現(xiàn)對模態(tài)間復(fù)雜關(guān)系的有效建模。
2、本發(fā)明的技術(shù)方案:
3、基于對比學(xué)習(xí)的跨模態(tài)特征對齊與融合方法,步驟如下:
4、步驟100,特征提取與處理;
5、步驟101,從項目的圖像和文本描述中分別提取原始特征;
6、使用預(yù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)提取視覺特征;在每個項目的標題、描述、類別和品牌的串聯(lián)上使用句子轉(zhuǎn)換器來提取文本特征;
7、步驟102,構(gòu)建每個模態(tài)的項目語義圖;
8、在每個模態(tài)下,根據(jù)提取的原始特征,使用余弦相似度來計算項目之間的相似度,公式表示為
9、
10、其中,m是模態(tài),包括視覺模態(tài)和文本模態(tài),fim和fjm是模態(tài)m下項目i和項目j的原始特征,(fim)tfjm是fim和fjm的點積,||fim||和||fjm||分別表示fim和fjm的歐幾里得范數(shù),是模態(tài)m下項目i和項目j的相似度分數(shù);對每個項目,找到k個最相似的鄰居,構(gòu)建knn圖,并以此構(gòu)建項目語義圖公式表示為
11、
12、其中,是項目i與其他項目相似度分數(shù)的集合;然后對鄰接矩陣進行規(guī)范化得到鄰接矩陣公式表示為其中dm是的度矩陣;
13、步驟103,用戶和項目id嵌入的初始化及處理;
14、使用xavier方法初始化id嵌入,然后進行特征掩蔽以增強模型的泛化能力并防止過擬合,公式表示為
15、
16、其中,是初始用戶id嵌入,是初始項目id嵌入,ρr代表要丟棄的元素比例,bernoulli表示生成一個獨立的伯努利隨機變量,·表示元素級別相乘,和是經(jīng)過特征掩蔽的用戶id嵌入和項目id嵌入;
17、步驟200,引入對比學(xué)習(xí)機制對齊跨模態(tài)特征;
18、步驟201,投影多模態(tài)特征;
19、使用多層感知器mlp將多模態(tài)特征投影到相同的潛在空間,公式表示為
20、
21、其中,wm和bm表示mlp中的線性變換矩陣和偏差,fim代表模態(tài)m下項目i的原始模態(tài)特征,是投影后得到的模態(tài)特征;
22、步驟202,利用項目語義圖增強特征表達;
23、在每個模態(tài)的項目語義圖上執(zhí)行多層圖卷積操作,通過逐漸整合鄰域信息來提高特征表達能力;公式表示為
24、
25、其中,ni表示項目i的單跳鄰居集,是模態(tài)m下的項目語義圖,表示該項目在模態(tài)m下第l層的增強模態(tài)特征,表示該項目在模態(tài)m下第l層的增強整體特征;經(jīng)過lii層圖卷積后,得到最終的增強模態(tài)特征fi,m和增強整體特征hi,m;
26、步驟203,對增強后的整體特征和各模態(tài)特征進行對比學(xué)習(xí);
27、id嵌入作為整體特征,經(jīng)過項目語義圖上的多層圖卷積操作后,增強了該模態(tài)下的表達能力;然后與各個模態(tài)下增強的模態(tài)特征進行對比,對比損失函數(shù)的公式為
28、
29、其中,hi,m代表增強整體特征,fi,m代表增強模態(tài)特征,sim(·)測量兩個向量之間的相似性并對這些向量應(yīng)用余弦相似度函數(shù),τ是表示溫度的可調(diào)超參數(shù),n表示批次中的項目數(shù);
30、步驟300,融合多模態(tài)信息和歷史交互信息,生成最終表示并推薦;
31、步驟301,融合多模態(tài)信息;
32、根據(jù)每個模態(tài)的重要性分數(shù)整合所有模態(tài)的項目語義圖,公式表示為
33、
34、其中sij是整體項目語義圖,是模態(tài)m下的項目語義圖,αm是模態(tài)m的重要性分數(shù),且視覺模態(tài)的重要性分數(shù)αv和文本模態(tài)的重要性分數(shù)αt二者總和為1;然后,在整體項目語義圖上聚合多層鄰居,以增強特征的表示能力,公式表示為
35、
36、其中,ni是節(jié)點i的單跳鄰居集,sij是整體項目語義圖,是項目i在綜合所有模態(tài)下第l層的增強整體特征,當l=0時,由步驟103得到的經(jīng)過特征掩蔽項目id嵌入初始化;經(jīng)過lii層圖卷積后,得到編碼多模態(tài)信息的項目表示
37、步驟302,構(gòu)建用戶-項目交互圖;
38、收集用戶與項目的交互數(shù)據(jù);將用戶和項目分別表示為用戶-項目交互圖中的用戶節(jié)點和項目節(jié)點,根據(jù)交互數(shù)據(jù),在用戶節(jié)點和項目節(jié)點之間建立邊;然后根據(jù)節(jié)點的度按比例ρd對邊進行剪枝,以此去噪;
39、步驟303,編碼用戶-項目交互圖;
40、使用lightgcn對用戶-項目交互圖進行編碼,公式表示為
41、
42、其中,nu和ni是節(jié)點u和i的單跳鄰居集,是第l層中用戶u的表示,第l層中項目i的表示,當l=0時,和由步驟103得到的經(jīng)過特征掩蔽的用戶id嵌入和項目id嵌入初始化,用于規(guī)范從每一層學(xué)習(xí)到的特征;經(jīng)過lui層圖卷積后,最終的用戶和項目表示通過對每一層的表示進行逐元素求和得到,公式表示為
43、
44、其中,是第l層中用戶u的表示,第l層中項目i的表示,lui表示圖卷積的總層數(shù);hu和hi是經(jīng)過編碼用戶-項目交互圖后得到的用戶和項目表示;
45、步驟304,整合所有表示;
46、將整合了多模態(tài)信息和交互信息的表示進行融合,公式表示為
47、zu=hu
48、
49、其中,zu和zi分別是最終用戶表示和最終項目表示,hu和hi是經(jīng)過編碼用戶-項目交互圖后得到的用戶和項目表示,是編碼多模態(tài)信息的項目表示;
50、步驟305,模型優(yōu)化;
51、為了優(yōu)化推薦任務(wù)的模型參數(shù),使用貝葉斯個性化排名bpr損失作為基本優(yōu)化函數(shù);構(gòu)建一個訓(xùn)練集d,包括每個用戶的三元組(u,p,n),其中正項目p是用戶u與之互動的項目,負項目n是從用戶u尚未互動的項目中隨機選擇的;bpr損失定義如下:
52、
53、其中,計算zu和zp的內(nèi)積;σ是sigmoid函數(shù);然后,結(jié)合bpr損失和對比學(xué)習(xí)損失來更新用戶和項目表示,公式表示為
54、
55、其中,λ是對比學(xué)習(xí)損失的權(quán)重,是bpr損失,是對比學(xué)習(xí)損失,是總損失。
56、與現(xiàn)有方法相比,本發(fā)明的有益效果為:
57、本發(fā)明通過對比學(xué)習(xí)構(gòu)建多模態(tài)推薦框架,結(jié)合項目語義圖實現(xiàn)跨模態(tài)特征的有效對齊與融合,從而提高多模態(tài)推薦的準確率。第一部分是從多模態(tài)數(shù)據(jù)中提取原始模態(tài)特征并構(gòu)建項目語義圖,以及生成id嵌入。第二部分使用對比學(xué)習(xí),并結(jié)合項目語義圖深入探索模態(tài)內(nèi)和模態(tài)間的關(guān)系,實現(xiàn)跨模態(tài)特征的有效對齊。第三部分融合多模態(tài)信息,并編碼用戶和項目的交互信息,形成用戶和項目的最終表示,然后進行推薦。
58、本發(fā)明將項目語義圖應(yīng)用于對比學(xué)習(xí)任務(wù),以id嵌入為整體特征,通過在各個模態(tài)的項目語義圖上進行圖卷積操作凸顯該模態(tài)下的特征,然后與各個模態(tài)下的增強模態(tài)特征進行對比學(xué)習(xí)。圖卷積操作整合了鄰居信息,緩解了模態(tài)間特征不完全匹配的問題。聯(lián)合分析不同模態(tài)的項目語義圖,引入對比學(xué)習(xí)機制實現(xiàn)模態(tài)間的信息傳遞,有效地建模了模態(tài)內(nèi)和模態(tài)間的復(fù)雜關(guān)系。