熟女丝袜av,多人乱p视频在线免费观看,久热天堂

首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專(zhuān)欄中國(guó)科學(xué)人云展臺(tái)
BioHot
云講堂直播會(huì)展中心特價(jià)專(zhuān)欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁(yè) > 今日動(dòng)態(tài) > 正文

MaMoE4Rec：基于跳躍感知圖建模和專(zhuān)家混合融合的多模態(tài)推薦系統(tǒng)

《Expert Systems with Applications》：MaMoE4Rec: Multimodal Recommendation with Hop-Aware Graph Modeling and Mixture-of-Experts Fusion

【字體：大中小】 時(shí)間：2026年02月28日 來(lái)源：Expert Systems with Applications 7.5

編輯推薦：

　　多模態(tài)推薦系統(tǒng)通過(guò)整合文本、圖像和音頻等多模態(tài)數(shù)據(jù)提升性能，但存在特征融合不足和長(zhǎng)程依賴(lài)建模困難的問(wèn)題。本文提出MaMoE4Rec框架，結(jié)合動(dòng)態(tài)混合專(zhuān)家（MoE）的多模態(tài)編碼與跳躍感知的序列建模，利用奇偶位置編碼區(qū)分異構(gòu)關(guān)系，采用Mamba模型線(xiàn)性捕捉長(zhǎng)程依賴(lài)，在公開(kāi)數(shù)據(jù)集上驗(yàn)證其有效性。

鄭思瑞|劉金|黃波|唐永強(qiáng)|游蘭|藤田波美多

武漢大學(xué)計(jì)算機(jī)學(xué)院，中國(guó)武漢，430072

摘要

多模態(tài)推薦系統(tǒng)通過(guò)利用文本、圖像和音頻等多種模態(tài)數(shù)據(jù)取得了顯著進(jìn)展，但在有效特征融合和建模交互圖中的長(zhǎng)距離依賴(lài)關(guān)系方面仍存在挑戰(zhàn)。我們提出了MaMoE4Rec框架，該框架結(jié)合了基于專(zhuān)家混合（MoE）的多模態(tài)編碼和具有跳數(shù)感知能力的序列建模。項(xiàng)目模態(tài)通過(guò)特定模態(tài)的自注意力機(jī)制和動(dòng)態(tài)稀疏MoE進(jìn)行編碼，然后與項(xiàng)目ID結(jié)合，并通過(guò)用戶(hù)ID進(jìn)行分詞處理，形成交互序列。我們?cè)O(shè)計(jì)了奇偶位置編碼來(lái)區(qū)分跳數(shù)之間的異構(gòu)和同構(gòu)關(guān)系，并采用Mamba狀態(tài)空間模型以線(xiàn)性復(fù)雜度捕獲全局依賴(lài)關(guān)系。在公共數(shù)據(jù)集上的實(shí)驗(yàn)表明，MaMoE4Rec的性能優(yōu)于基線(xiàn)模型，驗(yàn)證了其在多模態(tài)融合和圖建模方面的有效性。

引言

隨著大數(shù)據(jù)時(shí)代的快速發(fā)展，推薦系統(tǒng)（Bobadilla, Ortega, Hernando, & Gutiérrez, 2013）已成為緩解信息過(guò)載的關(guān)鍵技術(shù)，在電子商務(wù)、社交網(wǎng)絡(luò)和內(nèi)容平臺(tái)中得到廣泛應(yīng)用。傳統(tǒng)的推薦系統(tǒng)主要依賴(lài)用戶(hù)-項(xiàng)目交互數(shù)據(jù)來(lái)進(jìn)行協(xié)同過(guò)濾，但在實(shí)際應(yīng)用中常常面臨數(shù)據(jù)稀疏和冷啟動(dòng)等問(wèn)題。為了解決這些問(wèn)題，最近的研究開(kāi)始利用多模態(tài)推薦系統(tǒng)，整合文本、視覺(jué)和聽(tīng)覺(jué)數(shù)據(jù)來(lái)構(gòu)建用戶(hù)偏好和項(xiàng)目屬性的統(tǒng)一表示。這種多模態(tài)整合顯著提高了推薦性能，并成為該領(lǐng)域的一個(gè)重要研究方向。

多模態(tài)推薦的一個(gè)核心任務(wù)是建模用戶(hù)-項(xiàng)目交互圖。大多數(shù)現(xiàn)有方法采用圖神經(jīng)網(wǎng)絡(luò)（GNNs）（Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008）來(lái)學(xué)習(xí)用戶(hù)和項(xiàng)目之間的關(guān)系以及交互模式。例如，NGCF（Wang, He, Wang, Feng, & Chua, 2019）通過(guò)顯式建模用戶(hù)和項(xiàng)目之間的高階連接性來(lái)增強(qiáng)嵌入學(xué)習(xí)。LightGCN（He et al., 2020）通過(guò)去除特征轉(zhuǎn)換和非線(xiàn)性激活簡(jiǎn)化了NGCF，僅保留了必要的鄰居聚合機(jī)制。然而，基于GNN的方法經(jīng)常遇到過(guò)度平滑問(wèn)題（Li, Han, & Wu, 2018），即過(guò)多的鄰居聚合導(dǎo)致節(jié)點(diǎn)表示變得難以區(qū)分，從而降低模型性能。受Transformer模型（Vaswani et al., 2017）在自然語(yǔ)言處理（NLP）中的成功啟發(fā)，最近的研究探索了其在推薦中的應(yīng)用。例如，TransGNN（Zhang et al., 2024）結(jié)合了GNN和基于Transformer的自注意力機(jī)制，以捕獲圖結(jié)構(gòu)和長(zhǎng)距離依賴(lài)關(guān)系，顯著提升了交互建模的效果。然而，這類(lèi)模型在大型圖上的計(jì)算成本較高，因?yàn)門(mén)ransformer的計(jì)算復(fù)雜度為二次方。此外，盡管Transformer在建模長(zhǎng)序列方面表現(xiàn)出色，但在處理不同類(lèi)型節(jié)點(diǎn)和邊的交互時(shí)仍存在困難。

另一方面，隨著多模態(tài)數(shù)據(jù)的日益豐富，如何將其有效整合到傳統(tǒng)的協(xié)同過(guò)濾范式中已成為一個(gè)關(guān)鍵的研究焦點(diǎn)。大多數(shù)現(xiàn)有的多模態(tài)推薦方法使用預(yù)訓(xùn)練的編碼器（如BERT（Devlin, Chang, Lee, & Toutanova, 2019）、ViT（Dosovitskiy et al., 2020）從不同模態(tài)中提取特征，然后將其輸入到下游推薦模型中（Liu et al., 2024）。這些方法通常將多模態(tài)輸入視為獨(dú)立特征，并通過(guò)簡(jiǎn)單的串聯(lián)、加權(quán)融合或注意力機(jī)制進(jìn)行組合。例如，NOVA（Liu et al., 2021）引入了一種非侵入式的注意力機(jī)制來(lái)有效整合輔助數(shù)據(jù)進(jìn)行序列推薦。LATTICE（Zhang et al., 2021）利用基于模態(tài)的內(nèi)容相似性來(lái)構(gòu)建項(xiàng)目-項(xiàng)目之間的語(yǔ)義關(guān)系。FREEDOM（Zhou & Shen, 2023）使用預(yù)訓(xùn)練的語(yǔ)義特征構(gòu)建項(xiàng)目-項(xiàng)目圖，并從用戶(hù)-項(xiàng)目圖中去除噪聲以促進(jìn)多模態(tài)推薦。然而，這些方法通常依賴(lài)于固定的預(yù)訓(xùn)練編碼器來(lái)提取圖像或文本特征。這種范式在垂直領(lǐng)域存在顯著局限性，因?yàn)樵谕ㄓ媚Ｐ秃吞囟I(lǐng)域推薦需求之間存在語(yǔ)義差距。例如，在電子商務(wù)場(chǎng)景中，材料或尺寸等關(guān)鍵屬性可能被通用視覺(jué)編碼器忽略；同樣，通用文本編碼器在沒(méi)有微調(diào)的情況下難以解釋特定領(lǐng)域的術(shù)語(yǔ)。

為了解決現(xiàn)有多模態(tài)推薦方法在異構(gòu)圖建模和特征融合方面的局限性，我們提出了MaMoE4Rec框架，該框架將多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的序列建模相結(jié)合。在多模態(tài)特征建模階段，我們引入了專(zhuān)家混合（MoE）架構(gòu)（Yuksel, Wilson, & Gader, 2012）來(lái)編碼項(xiàng)目的多種模態(tài)，如文本和圖像。特定模態(tài)的自注意力模塊用于捕獲每種模態(tài)內(nèi)的局部依賴(lài)關(guān)系，而動(dòng)態(tài)專(zhuān)家選擇機(jī)制則自適應(yīng)地激活最相關(guān)的領(lǐng)域?qū)＜�，從而增�?qiáng)多模態(tài)特征的語(yǔ)義表達(dá)能力。專(zhuān)家編碼的特征隨后與項(xiàng)目ID嵌入結(jié)合，保留了協(xié)同信號(hào)，同時(shí)提高了多模態(tài)表示對(duì)下游推薦任務(wù)的適應(yīng)性。

基于這些融合的項(xiàng)目表示，我們將其與用戶(hù)ID嵌入一起分詞處理，構(gòu)建用戶(hù)-項(xiàng)目交互序列，然后將其映射到具有跳數(shù)感知能力的異構(gòu)圖結(jié)構(gòu)中。通過(guò)K跳傳播，我們生成多跳特征序列，并引入奇偶位置編碼來(lái)明確區(qū)分跳數(shù)之間的語(yǔ)義層次：奇數(shù)跳捕獲異構(gòu)（用戶(hù)-項(xiàng)目）交互，而偶數(shù)跳編碼同構(gòu)（用戶(hù)-用戶(hù)或項(xiàng)目-項(xiàng)目）協(xié)同信號(hào)。為了建模跳數(shù)之間的長(zhǎng)距離依賴(lài)關(guān)系，我們采用了Mamba序列模型（Gu & Dao, 2023），該模型在保持線(xiàn)性時(shí)間復(fù)雜度的同時(shí)顯式編碼層次結(jié)構(gòu)，并解決了傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的過(guò)度平滑問(wèn)題。最后，我們通過(guò)端到端的方式優(yōu)化框架，聯(lián)合最小化貝葉斯個(gè)性化排名（BPR）損失和模態(tài)對(duì)齊損失，以實(shí)現(xiàn)多模態(tài)和協(xié)同信號(hào)的首次融合，從而提高推薦性能。

我們的主要貢獻(xiàn)總結(jié)如下：

•

我們提出了MaMoE4Rec，這是一個(gè)基于用戶(hù)-項(xiàng)目交互圖的具有跳數(shù)感知能力的多模態(tài)推薦框架。通過(guò)將多跳鄰居組織成具有奇偶位置編碼的異構(gòu)令牌序列，MaMoE4Rec能夠有效捕獲用戶(hù)-項(xiàng)目和更高階的協(xié)同關(guān)系。

•

我們引入了一種基于動(dòng)態(tài)MoE的多模態(tài)編碼器，它可以根據(jù)不同領(lǐng)域和模態(tài)自適應(yīng)選擇專(zhuān)門(mén)的專(zhuān)家，而不是依賴(lài)單一的固定通用編碼器。MaMoE4Rec專(zhuān)注于用戶(hù)-項(xiàng)目交互圖，并將動(dòng)態(tài)多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的異構(gòu)圖分詞和基于Mamba的序列學(xué)習(xí)緊密結(jié)合。

•

我們?cè)诙鄠€(gè)真實(shí)世界的多模態(tài)推薦基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，MaMoE4Rec始終優(yōu)于各種最先進(jìn)的基線(xiàn)模型，進(jìn)一步分析了我們框架中每個(gè)組件的有效性。

部分摘錄

多模態(tài)推薦系統(tǒng)

在多模態(tài)推薦系統(tǒng)領(lǐng)域，研究人員探索了多種方法來(lái)有效利用多模態(tài)數(shù)據(jù)以提高推薦性能。早期的研究通常將多模態(tài)內(nèi)容視為輔助信息，以豐富傳統(tǒng)的協(xié)同過(guò)濾（CF）框架。例如，VBPR（He & McAuley, 2015）通過(guò)將視覺(jué)特征與項(xiàng)目ID結(jié)合，將視覺(jué)信號(hào)納入項(xiàng)目嵌入中

提出的模型

如圖1所示，提出的MaMoE4Rec模型通過(guò)整合幾個(gè)核心組件實(shí)現(xiàn)了基于多模態(tài)圖的推薦。首先，該模型基于專(zhuān)家混合（MoE）框架實(shí)現(xiàn)了特定模態(tài)的特征編碼。對(duì)于每種模態(tài)（例如圖像或文本），設(shè)計(jì)了一個(gè)專(zhuān)用的自注意力模塊——ModalitySelfAttention——來(lái)捕獲模態(tài)內(nèi)的依賴(lài)關(guān)系。隨后，通過(guò)MoE框架引入了動(dòng)態(tài)專(zhuān)家選擇機(jī)制

實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集

與以往的研究一致，我們將所有模型中用戶(hù)和項(xiàng)目的嵌入維度固定為64，采用Xavier（Glorot & Bengio, 2010）初始化來(lái)設(shè)置嵌入?yún)?shù)，并使用Adam（Kingma, 2014）作為優(yōu)化器。為了確保公平比較，我們嚴(yán)格遵循各自發(fā)表論文中提供的指導(dǎo)方針仔細(xì)調(diào)整每個(gè)模型的參數(shù)。所有模型均使用PyTorch實(shí)現(xiàn)，實(shí)驗(yàn)在Tesla V100 GPU上進(jìn)行。

結(jié)論

在本文中，我們提出了MaMoE4Rec，這是一個(gè)統(tǒng)一的推薦框架，它結(jié)合了結(jié)構(gòu)語(yǔ)義和多模態(tài)特征建模，以解決多模態(tài)推薦中結(jié)構(gòu)感知表示不足和語(yǔ)義融合的問(wèn)題。我們的模型將具有跳數(shù)感知能力的異構(gòu)圖編碼與Mamba序列建模架構(gòu)相結(jié)合，有效捕獲了長(zhǎng)距離依賴(lài)關(guān)系和語(yǔ)義層次結(jié)構(gòu)。此外，我們引入了動(dòng)態(tài)專(zhuān)家選擇機(jī)制

未引用的參考文獻(xiàn)

表1和圖2。

CRediT作者貢獻(xiàn)聲明

鄭思瑞：概念化、方法論、軟件、形式分析、調(diào)查、數(shù)據(jù)整理、可視化、撰寫(xiě)——原始草稿。劉金：方法論、監(jiān)督、資源獲取、撰寫(xiě)——審閱與編輯。黃波：方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。唐永強(qiáng)：方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。游蘭：方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。藤田波美多：方法論，

利益沖突聲明

劉金報(bào)告稱(chēng)，他的工作得到了國(guó)家自然科學(xué)基金的支持。如果有其他作者，他們聲明沒(méi)有已知的財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘

熱點(diǎn)排行

新聞專(zhuān)題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號(hào)