隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,推薦系統(tǒng)(Bobadilla, Ortega, Hernando, & Gutiérrez, 2013)已成為緩解信息過(guò)載的關(guān)鍵技術(shù),在電子商務(wù)、社交網(wǎng)絡(luò)和內(nèi)容平臺(tái)中得到廣泛應(yīng)用。傳統(tǒng)的推薦系統(tǒng)主要依賴(lài)用戶(hù)-項(xiàng)目交互數(shù)據(jù)來(lái)進(jìn)行協(xié)同過(guò)濾,但在實(shí)際應(yīng)用中常常面臨數(shù)據(jù)稀疏和冷啟動(dòng)等問(wèn)題。為了解決這些問(wèn)題,最近的研究開(kāi)始利用多模態(tài)推薦系統(tǒng),整合文本、視覺(jué)和聽(tīng)覺(jué)數(shù)據(jù)來(lái)構(gòu)建用戶(hù)偏好和項(xiàng)目屬性的統(tǒng)一表示。這種多模態(tài)整合顯著提高了推薦性能,并成為該領(lǐng)域的一個(gè)重要研究方向。
多模態(tài)推薦的一個(gè)核心任務(wù)是建模用戶(hù)-項(xiàng)目交互圖。大多數(shù)現(xiàn)有方法采用圖神經(jīng)網(wǎng)絡(luò)(GNNs)(Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008)來(lái)學(xué)習(xí)用戶(hù)和項(xiàng)目之間的關(guān)系以及交互模式。例如,NGCF(Wang, He, Wang, Feng, & Chua, 2019)通過(guò)顯式建模用戶(hù)和項(xiàng)目之間的高階連接性來(lái)增強(qiáng)嵌入學(xué)習(xí)。LightGCN(He et al., 2020)通過(guò)去除特征轉(zhuǎn)換和非線(xiàn)性激活簡(jiǎn)化了NGCF,僅保留了必要的鄰居聚合機(jī)制。然而,基于GNN的方法經(jīng)常遇到過(guò)度平滑問(wèn)題(Li, Han, & Wu, 2018),即過(guò)多的鄰居聚合導(dǎo)致節(jié)點(diǎn)表示變得難以區(qū)分,從而降低模型性能。受Transformer模型(Vaswani et al., 2017)在自然語(yǔ)言處理(NLP)中的成功啟發(fā),最近的研究探索了其在推薦中的應(yīng)用。例如,TransGNN(Zhang et al., 2024)結(jié)合了GNN和基于Transformer的自注意力機(jī)制,以捕獲圖結(jié)構(gòu)和長(zhǎng)距離依賴(lài)關(guān)系,顯著提升了交互建模的效果。然而,這類(lèi)模型在大型圖上的計(jì)算成本較高,因?yàn)門(mén)ransformer的計(jì)算復(fù)雜度為二次方。此外,盡管Transformer在建模長(zhǎng)序列方面表現(xiàn)出色,但在處理不同類(lèi)型節(jié)點(diǎn)和邊的交互時(shí)仍存在困難。
另一方面,隨著多模態(tài)數(shù)據(jù)的日益豐富,如何將其有效整合到傳統(tǒng)的協(xié)同過(guò)濾范式中已成為一個(gè)關(guān)鍵的研究焦點(diǎn)。大多數(shù)現(xiàn)有的多模態(tài)推薦方法使用預(yù)訓(xùn)練的編碼器(如BERT(Devlin, Chang, Lee, & Toutanova, 2019)、ViT(Dosovitskiy et al., 2020)從不同模態(tài)中提取特征,然后將其輸入到下游推薦模型中(Liu et al., 2024)。這些方法通常將多模態(tài)輸入視為獨(dú)立特征,并通過(guò)簡(jiǎn)單的串聯(lián)、加權(quán)融合或注意力機(jī)制進(jìn)行組合。例如,NOVA(Liu et al., 2021)引入了一種非侵入式的注意力機(jī)制來(lái)有效整合輔助數(shù)據(jù)進(jìn)行序列推薦。LATTICE(Zhang et al., 2021)利用基于模態(tài)的內(nèi)容相似性來(lái)構(gòu)建項(xiàng)目-項(xiàng)目之間的語(yǔ)義關(guān)系。FREEDOM(Zhou & Shen, 2023)使用預(yù)訓(xùn)練的語(yǔ)義特征構(gòu)建項(xiàng)目-項(xiàng)目圖,并從用戶(hù)-項(xiàng)目圖中去除噪聲以促進(jìn)多模態(tài)推薦。然而,這些方法通常依賴(lài)于固定的預(yù)訓(xùn)練編碼器來(lái)提取圖像或文本特征。這種范式在垂直領(lǐng)域存在顯著局限性,因?yàn)樵谕ㄓ媚P秃吞囟I(lǐng)域推薦需求之間存在語(yǔ)義差距。例如,在電子商務(wù)場(chǎng)景中,材料或尺寸等關(guān)鍵屬性可能被通用視覺(jué)編碼器忽略;同樣,通用文本編碼器在沒(méi)有微調(diào)的情況下難以解釋特定領(lǐng)域的術(shù)語(yǔ)。
為了解決現(xiàn)有多模態(tài)推薦方法在異構(gòu)圖建模和特征融合方面的局限性,我們提出了MaMoE4Rec框架,該框架將多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的序列建模相結(jié)合。在多模態(tài)特征建模階段,我們引入了專(zhuān)家混合(MoE)架構(gòu)(Yuksel, Wilson, & Gader, 2012)來(lái)編碼項(xiàng)目的多種模態(tài),如文本和圖像。特定模態(tài)的自注意力模塊用于捕獲每種模態(tài)內(nèi)的局部依賴(lài)關(guān)系,而動(dòng)態(tài)專(zhuān)家選擇機(jī)制則自適應(yīng)地激活最相關(guān)的領(lǐng)域?qū)<,從而增?qiáng)多模態(tài)特征的語(yǔ)義表達(dá)能力。專(zhuān)家編碼的特征隨后與項(xiàng)目ID嵌入結(jié)合,保留了協(xié)同信號(hào),同時(shí)提高了多模態(tài)表示對(duì)下游推薦任務(wù)的適應(yīng)性。
基于這些融合的項(xiàng)目表示,我們將其與用戶(hù)ID嵌入一起分詞處理,構(gòu)建用戶(hù)-項(xiàng)目交互序列,然后將其映射到具有跳數(shù)感知能力的異構(gòu)圖結(jié)構(gòu)中。通過(guò)K跳傳播,我們生成多跳特征序列,并引入奇偶位置編碼來(lái)明確區(qū)分跳數(shù)之間的語(yǔ)義層次:奇數(shù)跳捕獲異構(gòu)(用戶(hù)-項(xiàng)目)交互,而偶數(shù)跳編碼同構(gòu)(用戶(hù)-用戶(hù)或項(xiàng)目-項(xiàng)目)協(xié)同信號(hào)。為了建模跳數(shù)之間的長(zhǎng)距離依賴(lài)關(guān)系,我們采用了Mamba序列模型(Gu & Dao, 2023),該模型在保持線(xiàn)性時(shí)間復(fù)雜度的同時(shí)顯式編碼層次結(jié)構(gòu),并解決了傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的過(guò)度平滑問(wèn)題。最后,我們通過(guò)端到端的方式優(yōu)化框架,聯(lián)合最小化貝葉斯個(gè)性化排名(BPR)損失和模態(tài)對(duì)齊損失,以實(shí)現(xiàn)多模態(tài)和協(xié)同信號(hào)的首次融合,從而提高推薦性能。
我們的主要貢獻(xiàn)總結(jié)如下:
•我們提出了MaMoE4Rec,這是一個(gè)基于用戶(hù)-項(xiàng)目交互圖的具有跳數(shù)感知能力的多模態(tài)推薦框架。通過(guò)將多跳鄰居組織成具有奇偶位置編碼的異構(gòu)令牌序列,MaMoE4Rec能夠有效捕獲用戶(hù)-項(xiàng)目和更高階的協(xié)同關(guān)系。
•我們引入了一種基于動(dòng)態(tài)MoE的多模態(tài)編碼器,它可以根據(jù)不同領(lǐng)域和模態(tài)自適應(yīng)選擇專(zhuān)門(mén)的專(zhuān)家,而不是依賴(lài)單一的固定通用編碼器。MaMoE4Rec專(zhuān)注于用戶(hù)-項(xiàng)目交互圖,并將動(dòng)態(tài)多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的異構(gòu)圖分詞和基于Mamba的序列學(xué)習(xí)緊密結(jié)合。
•我們?cè)诙鄠(gè)真實(shí)世界的多模態(tài)推薦基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,MaMoE4Rec始終優(yōu)于各種最先進(jìn)的基線(xiàn)模型,進(jìn)一步分析了我們框架中每個(gè)組件的有效性。