亚洲天堂中文字幕,91色,亚洲日本天堂

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

區(qū)分熱門與冷門：一種基于人氣指標(biāo)的雙模交互式原型學(xué)習(xí)方法，用于微視頻的人氣預(yù)測

《Expert Systems with Applications》：Tell popular from unpopular: A popularity-guided bipolar multimodal interactive prototype learning method for micro-video popularity prediction

【字體：大中小】 時間：2026年02月23日 來源：Expert Systems with Applications 7.5

編輯推薦：

　　針對微視頻流行度預(yù)測中信號交織、跨模態(tài)異步交互及穩(wěn)定模式學(xué)習(xí)三大挑戰(zhàn)，提出PGBMI框架，結(jié)合雙網(wǎng)絡(luò)對比學(xué)習(xí)、分層注意力機(jī)制與原型學(xué)習(xí)，實(shí)驗(yàn)證明其性能優(yōu)于現(xiàn)有方法，并揭示可解釋的跨模態(tài)協(xié)調(diào)模式。

譚成|金旭蕾|(zhì)肖帥勇|金蓓|張成宏

復(fù)旦大學(xué)管理學(xué)院，中國上海200433

摘要

微視頻內(nèi)容的爆炸性增長加劇了信息過載問題，使得用戶難以發(fā)現(xiàn)吸引人的視頻，平臺也難以高效地分配流量。微視頻流行度預(yù)測提供了一種有前景的解決方案，它能夠在視頻曝光前預(yù)測其潛在的流行度，從而幫助平臺實(shí)現(xiàn)高效的內(nèi)容分發(fā)，并幫助創(chuàng)作者提高受眾覆蓋率。然而，微視頻流行度預(yù)測仍然具有挑戰(zhàn)性，因?yàn)樵鰪?qiáng)流行度和削弱流行度的因素往往在視頻中交織在一起，而且這些因素在視覺、聽覺和文本模式之間的相互作用是異步進(jìn)行的。為了解決這一挑戰(zhàn)，我們提出了一種名為“基于流行度的雙極多模態(tài)交互原型學(xué)習(xí)”（PGBMI）的新深度學(xué)習(xí)方法，該方法結(jié)合了三個創(chuàng)新組件：（1）雙網(wǎng)絡(luò)對比學(xué)習(xí)，用于區(qū)分增強(qiáng)流行度和削弱流行度的信號；（2）基于哈達(dá)瑪積的分層注意力機(jī)制，用于捕捉跨模式和時間步的異步相互作用；（3）距離加權(quán)的分層原型學(xué)習(xí)，用于識別穩(wěn)定地描述流行度形成的多模態(tài)交互模式。在兩個微視頻數(shù)據(jù)集上的實(shí)證評估表明，PGBMI在準(zhǔn)確性和泛化能力上均顯著優(yōu)于現(xiàn)有的最佳方法。進(jìn)一步分析揭示了PGBMI能夠揭示微視頻流行度背后的可解釋的多模態(tài)協(xié)調(diào)模式，為平臺、創(chuàng)作者和廣告商提供了優(yōu)化內(nèi)容曝光和受眾參與度的見解。

引言

近年來，微視頻平臺經(jīng)歷了爆炸性增長。例如，TikTok每月的活躍用戶數(shù)量接近十億。¹內(nèi)容創(chuàng)作的便捷性和微視頻消費(fèi)的便利性推動了用戶生成內(nèi)容的激增，這有利于用戶、創(chuàng)作者和廣告商，但也加劇了信息過載。隨著微視頻數(shù)量的持續(xù)增加，平臺難以將內(nèi)容與合適的受眾匹配起來，賣家在選擇有效的宣傳材料時面臨挑戰(zhàn)，用戶也面臨著越來越高的搜索成本。這些挑戰(zhàn)凸顯了微視頻流行度預(yù)測（MVPP）的重要性，其目標(biāo)是預(yù)測視頻吸引用戶注意力和參與度的概率。一個有效的MVPP系統(tǒng)可以幫助平臺更高效地分配曝光機(jī)會，幫助創(chuàng)作者了解受眾偏好，并使廣告商能夠識別有潛力的營銷內(nèi)容。從更廣泛的角度來看，準(zhǔn)確的流行度預(yù)測有助于通過平衡曝光機(jī)會和減少信息過載帶來的低效率，從而促進(jìn)更健康的內(nèi)容生態(tài)系統(tǒng)。

然而，準(zhǔn)確預(yù)測微視頻的流行度仍然存在三個主要挑戰(zhàn)。首先，微視頻中的增強(qiáng)流行度和削弱流行度的信號往往相互交織，難以區(qū)分它們的界限。一個視頻可能同時包含增強(qiáng)流行度的片段和削弱流行度的片段�，F(xiàn)有研究表明，視頻中的亮點(diǎn)——即最吸引人的片段——可以顯著影響用戶的反應(yīng)和行為意圖，這表明觀眾的注意力和參與度并不是均勻分布在整個視頻中的（Dai & Wang, 2024）。例如，一個街頭表演視頻可能以一個令人印象深刻的舞蹈動作開始，吸引用戶的興趣，但隨后包含冗長的閑置時刻，導(dǎo)致注意力下降。相反，一個不受歡迎的產(chǎn)品演示視頻可能整體上無人關(guān)注，但其中包含一個簡短且剪輯精良的亮點(diǎn)，短暫地激發(fā)了用戶的興趣。這些共存的信號模糊了流行和不流行因素之間的區(qū)別，使得模型難以識別真正驅(qū)動流行度的因素�，F(xiàn)有的多模態(tài)方法通常將每個視頻視為一個整體樣本，并在全局層面學(xué)習(xí)跨模式的融合嵌入（Ma et al., 2021）。特別是，對比學(xué)習(xí)框架旨在通過最大化實(shí)例間的距離來分離正面和負(fù)面信號，但它們?nèi)匀辉趯?shí)例層面操作，隱含地假設(shè)每個視頻內(nèi)的流行度信號是均勻的。實(shí)際上，流行和不流行在單個實(shí)例中共存，這種實(shí)例內(nèi)的糾纏無法通過全局表示來捕捉。因此，這些方法無法模擬局部流行和不流行區(qū)域之間的細(xì)微交互，這些區(qū)域共同決定了整體流行度。因此，我們提出了第一個研究問題（RQ1）：如何區(qū)分微視頻中的增強(qiáng)流行度和削弱流行度的信號，以學(xué)習(xí)更具區(qū)分性的表示用于MVPP？

其次，微視頻的流行度不僅取決于各個模態(tài)的質(zhì)量，還取決于它們?nèi)绾螀f(xié)調(diào)以及隨時間的發(fā)展。微視頻通常整合了三種主要模態(tài)：視覺、聽覺和文本。其流行度取決于這些模態(tài)如何協(xié)調(diào)一致地形成一致的用戶體驗(yàn)。即使每個模態(tài)本身表現(xiàn)良好，缺乏協(xié)調(diào)也會削弱整體效果。例如，一個視覺上令人印象深刻的風(fēng)景搭配詭異的背景音樂可能會讓用戶感到困惑并抑制參與度，而適度的視覺效果結(jié)合情感同步的敘述和節(jié)奏可以創(chuàng)造出連貫且吸引人的流動，從而維持用戶的注意力。這些例子表明，流行度來源于內(nèi)容的時間和跨模態(tài)協(xié)調(diào)，而不僅僅是每個模態(tài)的孤立強(qiáng)度。最近的研究在視頻理解方面推進(jìn)了時空融合和跨模態(tài)對齊——例如，用于視頻-語言任務(wù)的統(tǒng)一時間變換器和平衡空間和時間線索的動作識別跨注意力架構(gòu)（Lee et al., 2023, Yan et al., 2024）。雖然這些方法提高了對齊性和表示質(zhì)量，但它們主要關(guān)注特征層面的同步或一致性，而不是模態(tài)如何動態(tài)協(xié)調(diào)和交互以形成一致的用戶感知。因此，現(xiàn)有方法在捕捉跨時間和跨模態(tài)的特征交互方面存在不足，而這些交互對于理解多模態(tài)協(xié)調(diào)如何塑造視頻流行度至關(guān)重要。因此，我們提出了第二個研究問題（RQ2）：如何有效建�？缣卣鹘换ヒ悦枋鯩VPP的協(xié)調(diào)性？

第三，增強(qiáng)流行度和削弱流行度的信號相互交織，加上跨模態(tài)和時間的復(fù)雜交互，使得難以學(xué)習(xí)穩(wěn)定地描述微視頻流行度形成方式的模式。由于不同類型的交互共同影響用戶的感知，相同的特征組合在一個情境中可能促進(jìn)流行度，在另一個情境中則可能抑制它。如果不區(qū)分在不同情境中始終一致的穩(wěn)定交互結(jié)構(gòu)，模型往往會過度擬合特定案例的相關(guān)性，無法捕捉支配流行度形成的普遍規(guī)則。因此，識別多層次和上下文感知的表示至關(guān)重要，這些表示能夠?qū)⒃鰪?qiáng)和削弱流行的交互組織在一個統(tǒng)一的框架中，并根據(jù)它們對流行度的貢獻(xiàn)分配不同的權(quán)重。因此，我們提出了第三個研究問題（RQ3）：如何有效捕捉微視頻中交織信號下的特征交互？

為了解決這三個問題，我們提出了一種名為“基于流行度的雙極多模態(tài)交互原型學(xué)習(xí)”（PGBMI）的新深度學(xué)習(xí)方法。PGBMI旨在區(qū)分微視頻中的增強(qiáng)和削弱流行度的信號，捕捉跨模態(tài)和時間的細(xì)微交互，并學(xué)習(xí)解釋和預(yù)測流行度的穩(wěn)定交互模式。具體來說，PGBMI包含三個關(guān)鍵組件，每個組件都針對其中一個研究問題進(jìn)行設(shè)計。為了解決RQ1，PGBMI引入了雙網(wǎng)絡(luò)對比學(xué)習(xí)（DNCL）。DNCL構(gòu)建了兩個平行但對稱的網(wǎng)絡(luò)——一個增強(qiáng)流行度的網(wǎng)絡(luò)和一個削弱流行度的網(wǎng)絡(luò)——分別編碼增強(qiáng)和削弱流行度的信號。通過成對對比損失對比兩個網(wǎng)絡(luò)的嵌入，DNCL在保持網(wǎng)絡(luò)內(nèi)部一致性的同時最大化網(wǎng)絡(luò)間的距離。這種設(shè)計使PGBMI能夠有效區(qū)分每個視頻中相互交織的增強(qiáng)和削弱流行度的信號，并學(xué)習(xí)更具區(qū)分性的流行度表示。

為了解決RQ2，PGBMI引入了基于哈達(dá)瑪積的分層注意力（HHA）機(jī)制，用于建�？缒B(tài)和時間步的異步交互。HHA分層整合了時間級和模態(tài)級的注意力，使模型能夠捕捉多模態(tài)特征以非同步的方式交互和演變。通過顯式表示這些跨級別的交互，HHA描述了用戶動態(tài)感知微視頻流行度背后的協(xié)調(diào)模式。

為了解決RQ3，PGBMI引入了距離加權(quán)的分層原型學(xué)習(xí)（DHPL）。DHPL將增強(qiáng)和削弱流行的交互模式組織成分層原型，并根據(jù)它們與當(dāng)前視頻表示的相關(guān)性分配自適應(yīng)權(quán)重。通過聯(lián)合優(yōu)化原型到實(shí)例的距離和原型間的分離，DHPL使模型能夠捕捉在不同情境中持續(xù)的穩(wěn)定交互結(jié)構(gòu)。DHPL通過總結(jié)描述微視頻流行度形成的重復(fù)交互模式，提供了提升的預(yù)測性能和更好的可解釋性。

在兩個數(shù)據(jù)集上的實(shí)證評估表明，PGBMI在MVPP方面始終優(yōu)于現(xiàn)有的最佳方法。除了預(yù)測準(zhǔn)確性之外，進(jìn)一步分析還表明，PGBMI能夠揭示多模態(tài)交互如何共同影響微視頻流行度的可解釋和結(jié)構(gòu)化見解。

部分摘錄

多模態(tài)深度學(xué)習(xí)

由于數(shù)據(jù)類型和格式的多樣性，多模態(tài)深度學(xué)習(xí)最近受到了越來越多的關(guān)注（Hou et al., 2025）。特定信息可能存在于來自多個來源、形式和分布的非結(jié)構(gòu)化數(shù)據(jù)中。因此，先前的研究嘗試使用多模態(tài)深度學(xué)習(xí)方法從每種模態(tài)中提取補(bǔ)充信息，從而獲得更完整的表示，可能比單一方法產(chǎn)生更好的性能

PGBMI概述

增強(qiáng)和削弱流行度信號的復(fù)雜交織以及復(fù)雜的跨模態(tài)交互為有效的MVPP帶來了重大挑戰(zhàn)。這促使我們設(shè)計了一個新的深度學(xué)習(xí)框架，能夠區(qū)分這些相互交織的因素并建模它們對MVPP的協(xié)調(diào)影響。根據(jù)RQ1、RQ2和RQ3，我們提出了PGBMI框架，該框架整合了三個關(guān)鍵組件：（1）雙網(wǎng)絡(luò)對比學(xué)習(xí)（DNCL），用于區(qū)分增強(qiáng)

數(shù)據(jù)

我們在兩個數(shù)據(jù)集上對PGBMI進(jìn)行了實(shí)證評估，分別是行業(yè)微視頻數(shù)據(jù)集和Microlens-50K數(shù)據(jù)集。行業(yè)微視頻數(shù)據(jù)集由一個知名微視頻平臺的行業(yè)合作伙伴提供，包含8,790個由1,592位不同創(chuàng)作者上傳的用戶生成的視頻。每個視頻時長不超過60秒，大約75%的視頻時長約為35秒。對于每個視頻，我們提取了三種模態(tài)的信息

貢獻(xiàn)與意義

本研究做出了幾項(xiàng)關(guān)鍵貢獻(xiàn)。首先，它引入了一種新的視頻流行度分析視角，將流行度概念化為每個微視頻中增強(qiáng)和削弱信號相互作用的結(jié)果，而不是作為一個靜態(tài)的屬性。這種視角承認(rèn)每個視頻都包含吸引人和不太吸引人的片段，它們的時間協(xié)調(diào)從根本上決定了整體流行度。其次，在方法論上

結(jié)論

在這項(xiàng)研究中，我們專注于微視頻流行度預(yù)測問題，并提出了一種新的多模態(tài)深度學(xué)習(xí)框架PGBMI。PGBMI引入了一種新的建模視角，將流行度視為每個視頻中增強(qiáng)和削弱模式相互作用的結(jié)果，而不是作為一個全局屬性。通過共同學(xué)習(xí)增強(qiáng)和削弱信號的區(qū)分以及跨模態(tài)和時間的層次協(xié)調(diào)，PGBMI有效地捕捉了

未引用的參考文獻(xiàn)

Yang et al. (2021).

CRediT作者貢獻(xiàn)聲明

譚成：概念化、方法論、軟件開發(fā)、調(diào)查、初稿撰寫、審稿與編輯、資金獲取。金旭蕾：數(shù)據(jù)整理、形式分析。肖帥勇：方法論、調(diào)查、撰寫——審稿與編輯、資金獲取。金蓓：方法論、可視化、撰寫——審稿與編輯。張成宏：資源管理、項(xiàng)目協(xié)調(diào)、資金獲取。

利益沖突聲明

作者聲明他們沒有已知的財務(wù)利益或個人關(guān)系可能影響本文報告的工作。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

熱搜：微視頻流行度預(yù)測|雙網(wǎng)絡(luò)對比學(xué)習(xí)|跨模態(tài)異步交互|分層原型學(xué)習(xí)|信息過載

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號