<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        MaMoE4Rec:基于跳躍感知圖建模和專(zhuān)家混合融合的多模態(tài)推薦系統(tǒng)

        《Expert Systems with Applications》:MaMoE4Rec: Multimodal Recommendation with Hop-Aware Graph Modeling and Mixture-of-Experts Fusion

        【字體: 時(shí)間:2026年02月28日 來(lái)源:Expert Systems with Applications 7.5

        編輯推薦:

          多模態(tài)推薦系統(tǒng)通過(guò)整合文本、圖像和音頻等多模態(tài)數(shù)據(jù)提升性能,但存在特征融合不足和長(zhǎng)程依賴(lài)建模困難的問(wèn)題。本文提出MaMoE4Rec框架,結(jié)合動(dòng)態(tài)混合專(zhuān)家(MoE)的多模態(tài)編碼與跳躍感知的序列建模,利用奇偶位置編碼區(qū)分異構(gòu)關(guān)系,采用Mamba模型線(xiàn)性捕捉長(zhǎng)程依賴(lài),在公開(kāi)數(shù)據(jù)集上驗(yàn)證其有效性。

          
        鄭思瑞|劉金|黃波|唐永強(qiáng)|游蘭|藤田波美多
        武漢大學(xué)計(jì)算機(jī)學(xué)院,中國(guó)武漢,430072

        摘要

        多模態(tài)推薦系統(tǒng)通過(guò)利用文本、圖像和音頻等多種模態(tài)數(shù)據(jù)取得了顯著進(jìn)展,但在有效特征融合和建模交互圖中的長(zhǎng)距離依賴(lài)關(guān)系方面仍存在挑戰(zhàn)。我們提出了MaMoE4Rec框架,該框架結(jié)合了基于專(zhuān)家混合(MoE)的多模態(tài)編碼和具有跳數(shù)感知能力的序列建模。項(xiàng)目模態(tài)通過(guò)特定模態(tài)的自注意力機(jī)制和動(dòng)態(tài)稀疏MoE進(jìn)行編碼,然后與項(xiàng)目ID結(jié)合,并通過(guò)用戶(hù)ID進(jìn)行分詞處理,形成交互序列。我們?cè)O(shè)計(jì)了奇偶位置編碼來(lái)區(qū)分跳數(shù)之間的異構(gòu)和同構(gòu)關(guān)系,并采用Mamba狀態(tài)空間模型以線(xiàn)性復(fù)雜度捕獲全局依賴(lài)關(guān)系。在公共數(shù)據(jù)集上的實(shí)驗(yàn)表明,MaMoE4Rec的性能優(yōu)于基線(xiàn)模型,驗(yàn)證了其在多模態(tài)融合和圖建模方面的有效性。

        引言

        隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,推薦系統(tǒng)(Bobadilla, Ortega, Hernando, & Gutiérrez, 2013)已成為緩解信息過(guò)載的關(guān)鍵技術(shù),在電子商務(wù)、社交網(wǎng)絡(luò)和內(nèi)容平臺(tái)中得到廣泛應(yīng)用。傳統(tǒng)的推薦系統(tǒng)主要依賴(lài)用戶(hù)-項(xiàng)目交互數(shù)據(jù)來(lái)進(jìn)行協(xié)同過(guò)濾,但在實(shí)際應(yīng)用中常常面臨數(shù)據(jù)稀疏和冷啟動(dòng)等問(wèn)題。為了解決這些問(wèn)題,最近的研究開(kāi)始利用多模態(tài)推薦系統(tǒng),整合文本、視覺(jué)和聽(tīng)覺(jué)數(shù)據(jù)來(lái)構(gòu)建用戶(hù)偏好和項(xiàng)目屬性的統(tǒng)一表示。這種多模態(tài)整合顯著提高了推薦性能,并成為該領(lǐng)域的一個(gè)重要研究方向。
        多模態(tài)推薦的一個(gè)核心任務(wù)是建模用戶(hù)-項(xiàng)目交互圖。大多數(shù)現(xiàn)有方法采用圖神經(jīng)網(wǎng)絡(luò)(GNNs)(Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008)來(lái)學(xué)習(xí)用戶(hù)和項(xiàng)目之間的關(guān)系以及交互模式。例如,NGCF(Wang, He, Wang, Feng, & Chua, 2019)通過(guò)顯式建模用戶(hù)和項(xiàng)目之間的高階連接性來(lái)增強(qiáng)嵌入學(xué)習(xí)。LightGCN(He et al., 2020)通過(guò)去除特征轉(zhuǎn)換和非線(xiàn)性激活簡(jiǎn)化了NGCF,僅保留了必要的鄰居聚合機(jī)制。然而,基于GNN的方法經(jīng)常遇到過(guò)度平滑問(wèn)題(Li, Han, & Wu, 2018),即過(guò)多的鄰居聚合導(dǎo)致節(jié)點(diǎn)表示變得難以區(qū)分,從而降低模型性能。受Transformer模型(Vaswani et al., 2017)在自然語(yǔ)言處理(NLP)中的成功啟發(fā),最近的研究探索了其在推薦中的應(yīng)用。例如,TransGNN(Zhang et al., 2024)結(jié)合了GNN和基于Transformer的自注意力機(jī)制,以捕獲圖結(jié)構(gòu)和長(zhǎng)距離依賴(lài)關(guān)系,顯著提升了交互建模的效果。然而,這類(lèi)模型在大型圖上的計(jì)算成本較高,因?yàn)門(mén)ransformer的計(jì)算復(fù)雜度為二次方。此外,盡管Transformer在建模長(zhǎng)序列方面表現(xiàn)出色,但在處理不同類(lèi)型節(jié)點(diǎn)和邊的交互時(shí)仍存在困難。
        另一方面,隨著多模態(tài)數(shù)據(jù)的日益豐富,如何將其有效整合到傳統(tǒng)的協(xié)同過(guò)濾范式中已成為一個(gè)關(guān)鍵的研究焦點(diǎn)。大多數(shù)現(xiàn)有的多模態(tài)推薦方法使用預(yù)訓(xùn)練的編碼器(如BERT(Devlin, Chang, Lee, & Toutanova, 2019)、ViT(Dosovitskiy et al., 2020)從不同模態(tài)中提取特征,然后將其輸入到下游推薦模型中(Liu et al., 2024)。這些方法通常將多模態(tài)輸入視為獨(dú)立特征,并通過(guò)簡(jiǎn)單的串聯(lián)、加權(quán)融合或注意力機(jī)制進(jìn)行組合。例如,NOVA(Liu et al., 2021)引入了一種非侵入式的注意力機(jī)制來(lái)有效整合輔助數(shù)據(jù)進(jìn)行序列推薦。LATTICE(Zhang et al., 2021)利用基于模態(tài)的內(nèi)容相似性來(lái)構(gòu)建項(xiàng)目-項(xiàng)目之間的語(yǔ)義關(guān)系。FREEDOM(Zhou & Shen, 2023)使用預(yù)訓(xùn)練的語(yǔ)義特征構(gòu)建項(xiàng)目-項(xiàng)目圖,并從用戶(hù)-項(xiàng)目圖中去除噪聲以促進(jìn)多模態(tài)推薦。然而,這些方法通常依賴(lài)于固定的預(yù)訓(xùn)練編碼器來(lái)提取圖像或文本特征。這種范式在垂直領(lǐng)域存在顯著局限性,因?yàn)樵谕ㄓ媚P秃吞囟I(lǐng)域推薦需求之間存在語(yǔ)義差距。例如,在電子商務(wù)場(chǎng)景中,材料或尺寸等關(guān)鍵屬性可能被通用視覺(jué)編碼器忽略;同樣,通用文本編碼器在沒(méi)有微調(diào)的情況下難以解釋特定領(lǐng)域的術(shù)語(yǔ)。
        為了解決現(xiàn)有多模態(tài)推薦方法在異構(gòu)圖建模和特征融合方面的局限性,我們提出了MaMoE4Rec框架,該框架將多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的序列建模相結(jié)合。在多模態(tài)特征建模階段,我們引入了專(zhuān)家混合(MoE)架構(gòu)(Yuksel, Wilson, & Gader, 2012)來(lái)編碼項(xiàng)目的多種模態(tài),如文本和圖像。特定模態(tài)的自注意力模塊用于捕獲每種模態(tài)內(nèi)的局部依賴(lài)關(guān)系,而動(dòng)態(tài)專(zhuān)家選擇機(jī)制則自適應(yīng)地激活最相關(guān)的領(lǐng)域?qū)<,從而增?qiáng)多模態(tài)特征的語(yǔ)義表達(dá)能力。專(zhuān)家編碼的特征隨后與項(xiàng)目ID嵌入結(jié)合,保留了協(xié)同信號(hào),同時(shí)提高了多模態(tài)表示對(duì)下游推薦任務(wù)的適應(yīng)性。
        基于這些融合的項(xiàng)目表示,我們將其與用戶(hù)ID嵌入一起分詞處理,構(gòu)建用戶(hù)-項(xiàng)目交互序列,然后將其映射到具有跳數(shù)感知能力的異構(gòu)圖結(jié)構(gòu)中。通過(guò)K跳傳播,我們生成多跳特征序列,并引入奇偶位置編碼來(lái)明確區(qū)分跳數(shù)之間的語(yǔ)義層次:奇數(shù)跳捕獲異構(gòu)(用戶(hù)-項(xiàng)目)交互,而偶數(shù)跳編碼同構(gòu)(用戶(hù)-用戶(hù)或項(xiàng)目-項(xiàng)目)協(xié)同信號(hào)。為了建模跳數(shù)之間的長(zhǎng)距離依賴(lài)關(guān)系,我們采用了Mamba序列模型(Gu & Dao, 2023),該模型在保持線(xiàn)性時(shí)間復(fù)雜度的同時(shí)顯式編碼層次結(jié)構(gòu),并解決了傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的過(guò)度平滑問(wèn)題。最后,我們通過(guò)端到端的方式優(yōu)化框架,聯(lián)合最小化貝葉斯個(gè)性化排名(BPR)損失和模態(tài)對(duì)齊損失,以實(shí)現(xiàn)多模態(tài)和協(xié)同信號(hào)的首次融合,從而提高推薦性能。
        我們的主要貢獻(xiàn)總結(jié)如下:
      3. 我們提出了MaMoE4Rec,這是一個(gè)基于用戶(hù)-項(xiàng)目交互圖的具有跳數(shù)感知能力的多模態(tài)推薦框架。通過(guò)將多跳鄰居組織成具有奇偶位置編碼的異構(gòu)令牌序列,MaMoE4Rec能夠有效捕獲用戶(hù)-項(xiàng)目和更高階的協(xié)同關(guān)系。
      4. 我們引入了一種基于動(dòng)態(tài)MoE的多模態(tài)編碼器,它可以根據(jù)不同領(lǐng)域和模態(tài)自適應(yīng)選擇專(zhuān)門(mén)的專(zhuān)家,而不是依賴(lài)單一的固定通用編碼器。MaMoE4Rec專(zhuān)注于用戶(hù)-項(xiàng)目交互圖,并將動(dòng)態(tài)多模態(tài)專(zhuān)家編碼與具有跳數(shù)感知能力的異構(gòu)圖分詞和基于Mamba的序列學(xué)習(xí)緊密結(jié)合。
      5. 我們?cè)诙鄠(gè)真實(shí)世界的多模態(tài)推薦基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,MaMoE4Rec始終優(yōu)于各種最先進(jìn)的基線(xiàn)模型,進(jìn)一步分析了我們框架中每個(gè)組件的有效性。
      6. 部分摘錄

        多模態(tài)推薦系統(tǒng)

        在多模態(tài)推薦系統(tǒng)領(lǐng)域,研究人員探索了多種方法來(lái)有效利用多模態(tài)數(shù)據(jù)以提高推薦性能。早期的研究通常將多模態(tài)內(nèi)容視為輔助信息,以豐富傳統(tǒng)的協(xié)同過(guò)濾(CF)框架。例如,VBPR(He & McAuley, 2015)通過(guò)將視覺(jué)特征與項(xiàng)目ID結(jié)合,將視覺(jué)信號(hào)納入項(xiàng)目嵌入中

        提出的模型

        如圖1所示,提出的MaMoE4Rec模型通過(guò)整合幾個(gè)核心組件實(shí)現(xiàn)了基于多模態(tài)圖的推薦。首先,該模型基于專(zhuān)家混合(MoE)框架實(shí)現(xiàn)了特定模態(tài)的特征編碼。對(duì)于每種模態(tài)(例如圖像或文本),設(shè)計(jì)了一個(gè)專(zhuān)用的自注意力模塊——ModalitySelfAttention——來(lái)捕獲模態(tài)內(nèi)的依賴(lài)關(guān)系。隨后,通過(guò)MoE框架引入了動(dòng)態(tài)專(zhuān)家選擇機(jī)制

        實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集

        與以往的研究一致,我們將所有模型中用戶(hù)和項(xiàng)目的嵌入維度固定為64,采用Xavier(Glorot & Bengio, 2010)初始化來(lái)設(shè)置嵌入?yún)?shù),并使用Adam(Kingma, 2014)作為優(yōu)化器。為了確保公平比較,我們嚴(yán)格遵循各自發(fā)表論文中提供的指導(dǎo)方針仔細(xì)調(diào)整每個(gè)模型的參數(shù)。所有模型均使用PyTorch實(shí)現(xiàn),實(shí)驗(yàn)在Tesla V100 GPU上進(jìn)行。

        結(jié)論

        在本文中,我們提出了MaMoE4Rec,這是一個(gè)統(tǒng)一的推薦框架,它結(jié)合了結(jié)構(gòu)語(yǔ)義和多模態(tài)特征建模,以解決多模態(tài)推薦中結(jié)構(gòu)感知表示不足和語(yǔ)義融合的問(wèn)題。我們的模型將具有跳數(shù)感知能力的異構(gòu)圖編碼與Mamba序列建模架構(gòu)相結(jié)合,有效捕獲了長(zhǎng)距離依賴(lài)關(guān)系和語(yǔ)義層次結(jié)構(gòu)。此外,我們引入了動(dòng)態(tài)專(zhuān)家選擇機(jī)制

        未引用的參考文獻(xiàn)

        表1和圖2。

        CRediT作者貢獻(xiàn)聲明

        鄭思瑞:概念化、方法論、軟件、形式分析、調(diào)查、數(shù)據(jù)整理、可視化、撰寫(xiě)——原始草稿。劉金:方法論、監(jiān)督、資源獲取、撰寫(xiě)——審閱與編輯。黃波:方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。唐永強(qiáng):方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。游蘭:方法論、監(jiān)督、資源、撰寫(xiě)——審閱與編輯。藤田波美多:方法論,

        利益沖突聲明

        劉金報(bào)告稱(chēng),他的工作得到了國(guó)家自然科學(xué)基金的支持。如果有其他作者,他們聲明沒(méi)有已知的財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。
        相關(guān)新聞
        生物通微信公眾號(hào)
        微信
        新浪微博
        • 搜索
        • 國(guó)際
        • 國(guó)內(nèi)
        • 人物
        • 產(chǎn)業(yè)
        • 熱點(diǎn)
        • 科普

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專(zhuān)欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專(zhuān)欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號(hào)