近年來,微視頻平臺經(jīng)歷了爆炸性增長。例如,TikTok每月的活躍用戶數(shù)量接近十億。1內(nèi)容創(chuàng)作的便捷性和微視頻消費(fèi)的便利性推動了用戶生成內(nèi)容的激增,這有利于用戶、創(chuàng)作者和廣告商,但也加劇了信息過載。隨著微視頻數(shù)量的持續(xù)增加,平臺難以將內(nèi)容與合適的受眾匹配起來,賣家在選擇有效的宣傳材料時面臨挑戰(zhàn),用戶也面臨著越來越高的搜索成本。這些挑戰(zhàn)凸顯了微視頻流行度預(yù)測(MVPP)的重要性,其目標(biāo)是預(yù)測視頻吸引用戶注意力和參與度的概率。一個有效的MVPP系統(tǒng)可以幫助平臺更高效地分配曝光機(jī)會,幫助創(chuàng)作者了解受眾偏好,并使廣告商能夠識別有潛力的營銷內(nèi)容。從更廣泛的角度來看,準(zhǔn)確的流行度預(yù)測有助于通過平衡曝光機(jī)會和減少信息過載帶來的低效率,從而促進(jìn)更健康的內(nèi)容生態(tài)系統(tǒng)。
然而,準(zhǔn)確預(yù)測微視頻的流行度仍然存在三個主要挑戰(zhàn)。首先,微視頻中的增強(qiáng)流行度和削弱流行度的信號往往相互交織,難以區(qū)分它們的界限。一個視頻可能同時包含增強(qiáng)流行度的片段和削弱流行度的片段,F(xiàn)有研究表明,視頻中的亮點(diǎn)——即最吸引人的片段——可以顯著影響用戶的反應(yīng)和行為意圖,這表明觀眾的注意力和參與度并不是均勻分布在整個視頻中的(Dai & Wang, 2024)。例如,一個街頭表演視頻可能以一個令人印象深刻的舞蹈動作開始,吸引用戶的興趣,但隨后包含冗長的閑置時刻,導(dǎo)致注意力下降。相反,一個不受歡迎的產(chǎn)品演示視頻可能整體上無人關(guān)注,但其中包含一個簡短且剪輯精良的亮點(diǎn),短暫地激發(fā)了用戶的興趣。這些共存的信號模糊了流行和不流行因素之間的區(qū)別,使得模型難以識別真正驅(qū)動流行度的因素,F(xiàn)有的多模態(tài)方法通常將每個視頻視為一個整體樣本,并在全局層面學(xué)習(xí)跨模式的融合嵌入(Ma et al., 2021)。特別是,對比學(xué)習(xí)框架旨在通過最大化實(shí)例間的距離來分離正面和負(fù)面信號,但它們?nèi)匀辉趯?shí)例層面操作,隱含地假設(shè)每個視頻內(nèi)的流行度信號是均勻的。實(shí)際上,流行和不流行在單個實(shí)例中共存,這種實(shí)例內(nèi)的糾纏無法通過全局表示來捕捉。因此,這些方法無法模擬局部流行和不流行區(qū)域之間的細(xì)微交互,這些區(qū)域共同決定了整體流行度。因此,我們提出了第一個研究問題(RQ1):如何區(qū)分微視頻中的增強(qiáng)流行度和削弱流行度的信號,以學(xué)習(xí)更具區(qū)分性的表示用于MVPP?
其次,微視頻的流行度不僅取決于各個模態(tài)的質(zhì)量,還取決于它們?nèi)绾螀f(xié)調(diào)以及隨時間的發(fā)展。微視頻通常整合了三種主要模態(tài):視覺、聽覺和文本。其流行度取決于這些模態(tài)如何協(xié)調(diào)一致地形成一致的用戶體驗(yàn)。即使每個模態(tài)本身表現(xiàn)良好,缺乏協(xié)調(diào)也會削弱整體效果。例如,一個視覺上令人印象深刻的風(fēng)景搭配詭異的背景音樂可能會讓用戶感到困惑并抑制參與度,而適度的視覺效果結(jié)合情感同步的敘述和節(jié)奏可以創(chuàng)造出連貫且吸引人的流動,從而維持用戶的注意力。這些例子表明,流行度來源于內(nèi)容的時間和跨模態(tài)協(xié)調(diào),而不僅僅是每個模態(tài)的孤立強(qiáng)度。最近的研究在視頻理解方面推進(jìn)了時空融合和跨模態(tài)對齊——例如,用于視頻-語言任務(wù)的統(tǒng)一時間變換器和平衡空間和時間線索的動作識別跨注意力架構(gòu)(Lee et al., 2023, Yan et al., 2024)。雖然這些方法提高了對齊性和表示質(zhì)量,但它們主要關(guān)注特征層面的同步或一致性,而不是模態(tài)如何動態(tài)協(xié)調(diào)和交互以形成一致的用戶感知。因此,現(xiàn)有方法在捕捉跨時間和跨模態(tài)的特征交互方面存在不足,而這些交互對于理解多模態(tài)協(xié)調(diào)如何塑造視頻流行度至關(guān)重要。因此,我們提出了第二個研究問題(RQ2):如何有效建?缣卣鹘换ヒ悦枋鯩VPP的協(xié)調(diào)性?
第三,增強(qiáng)流行度和削弱流行度的信號相互交織,加上跨模態(tài)和時間的復(fù)雜交互,使得難以學(xué)習(xí)穩(wěn)定地描述微視頻流行度形成方式的模式。由于不同類型的交互共同影響用戶的感知,相同的特征組合在一個情境中可能促進(jìn)流行度,在另一個情境中則可能抑制它。如果不區(qū)分在不同情境中始終一致的穩(wěn)定交互結(jié)構(gòu),模型往往會過度擬合特定案例的相關(guān)性,無法捕捉支配流行度形成的普遍規(guī)則。因此,識別多層次和上下文感知的表示至關(guān)重要,這些表示能夠?qū)⒃鰪?qiáng)和削弱流行的交互組織在一個統(tǒng)一的框架中,并根據(jù)它們對流行度的貢獻(xiàn)分配不同的權(quán)重。因此,我們提出了第三個研究問題(RQ3):如何有效捕捉微視頻中交織信號下的特征交互?
為了解決這三個問題,我們提出了一種名為“基于流行度的雙極多模態(tài)交互原型學(xué)習(xí)”(PGBMI)的新深度學(xué)習(xí)方法。PGBMI旨在區(qū)分微視頻中的增強(qiáng)和削弱流行度的信號,捕捉跨模態(tài)和時間的細(xì)微交互,并學(xué)習(xí)解釋和預(yù)測流行度的穩(wěn)定交互模式。具體來說,PGBMI包含三個關(guān)鍵組件,每個組件都針對其中一個研究問題進(jìn)行設(shè)計。為了解決RQ1,PGBMI引入了雙網(wǎng)絡(luò)對比學(xué)習(xí)(DNCL)。DNCL構(gòu)建了兩個平行但對稱的網(wǎng)絡(luò)——一個增強(qiáng)流行度的網(wǎng)絡(luò)和一個削弱流行度的網(wǎng)絡(luò)——分別編碼增強(qiáng)和削弱流行度的信號。通過成對對比損失對比兩個網(wǎng)絡(luò)的嵌入,DNCL在保持網(wǎng)絡(luò)內(nèi)部一致性的同時最大化網(wǎng)絡(luò)間的距離。這種設(shè)計使PGBMI能夠有效區(qū)分每個視頻中相互交織的增強(qiáng)和削弱流行度的信號,并學(xué)習(xí)更具區(qū)分性的流行度表示。
為了解決RQ2,PGBMI引入了基于哈達(dá)瑪積的分層注意力(HHA)機(jī)制,用于建?缒B(tài)和時間步的異步交互。HHA分層整合了時間級和模態(tài)級的注意力,使模型能夠捕捉多模態(tài)特征以非同步的方式交互和演變。通過顯式表示這些跨級別的交互,HHA描述了用戶動態(tài)感知微視頻流行度背后的協(xié)調(diào)模式。
為了解決RQ3,PGBMI引入了距離加權(quán)的分層原型學(xué)習(xí)(DHPL)。DHPL將增強(qiáng)和削弱流行的交互模式組織成分層原型,并根據(jù)它們與當(dāng)前視頻表示的相關(guān)性分配自適應(yīng)權(quán)重。通過聯(lián)合優(yōu)化原型到實(shí)例的距離和原型間的分離,DHPL使模型能夠捕捉在不同情境中持續(xù)的穩(wěn)定交互結(jié)構(gòu)。DHPL通過總結(jié)描述微視頻流行度形成的重復(fù)交互模式,提供了提升的預(yù)測性能和更好的可解釋性。
在兩個數(shù)據(jù)集上的實(shí)證評估表明,PGBMI在MVPP方面始終優(yōu)于現(xiàn)有的最佳方法。除了預(yù)測準(zhǔn)確性之外,進(jìn)一步分析還表明,PGBMI能夠揭示多模態(tài)交互如何共同影響微視頻流行度的可解釋和結(jié)構(gòu)化見解。