大香蕉一区二区三区,超碰97人人天天蜜芽,蜜臂AV

首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專(zhuān)欄中國(guó)科學(xué)人云展臺(tái)
BioHot
云講堂直播會(huì)展中心特價(jià)專(zhuān)欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁(yè) > 今日動(dòng)態(tài) > 正文

ViSP：一種基于PPO框架的多模態(tài)諷刺生成系統(tǒng)，采用對(duì)比學(xué)習(xí)技術(shù)

《Neurocomputing》：ViSP: A PPO-enhanced framework for multimodal sarcasm generation with contrastive learning

【字體：大中小】 時(shí)間：2026年03月01日 來(lái)源：Neurocomputing 6.5

編輯推薦：

　　多模態(tài)諷刺生成研究提出M2SaG數(shù)據(jù)集與ViSP框架，融合PPO強(qiáng)化學(xué)習(xí)與對(duì)比學(xué)習(xí)提升生成質(zhì)量，實(shí)驗(yàn)顯示其優(yōu)于文本模型、VLM及LLMs，Sarcasm Score達(dá)0.898，事實(shí)不匹配度0.768。

王長(zhǎng)利|尹芳|劉家鋒|吳睿

哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，哈爾濱，150001，中國(guó)

摘要

人類(lèi)情感本質(zhì)上是復(fù)雜的，諷刺是一種最為微妙且獨(dú)特的表達(dá)形式。盡管在諷刺理解方面取得了顯著進(jìn)展，但諷刺生成的研究仍然不足，這主要是由于過(guò)度依賴(lài)文本信息、忽視視覺(jué)線索，以及現(xiàn)有數(shù)據(jù)集中圖像與諷刺意圖之間的語(yǔ)義不匹配。在這項(xiàng)工作中，我們提出了M2SaG，這是一個(gè)包含4970個(gè)樣本的多模態(tài)諷刺生成數(shù)據(jù)集，每個(gè)樣本都包含一張圖片、一段諷刺文本及其對(duì)應(yīng)的諷刺目標(biāo)。為了評(píng)估M2SaG，我們提出了ViSP，這是一個(gè)基于ViLT的諷刺生成框架，它將近端策略?xún)?yōu)化（PPO）與對(duì)比學(xué)習(xí)相結(jié)合。PPO利用從DIP獲得的獎(jiǎng)勵(lì)分?jǐn)?shù)來(lái)指導(dǎo)生成過(guò)程，而對(duì)比學(xué)習(xí)則鼓勵(lì)模型偏好獲得更高獎(jiǎng)勵(lì)的輸出。這些策略共同提高了生成質(zhì)量，并增強(qiáng)了輸出中的諷刺意圖。通過(guò)對(duì)五個(gè)指標(biāo)集的全面評(píng)估，我們發(fā)現(xiàn)ViSP始終優(yōu)于所有基線模型（包括大型語(yǔ)言模型），突顯了它們?cè)谥S刺生成方面的局限性。此外，對(duì)M2SaG和ViSP輸出中的諷刺分?jǐn)?shù)及事實(shí)不一致性分布的分析表明，ViSP獲得了更高的平均諷刺分?jǐn)?shù)（0.898 vs 0.770）和事實(shí)不一致性（0.768 vs 0.739），證明了其生成更高質(zhì)量、更具語(yǔ)境諷刺性的文本的能力。我們的數(shù)據(jù)集可在https://github.com/wclapply/ViSP獲取。

引言

人類(lèi)情感本質(zhì)上是復(fù)雜且多方面的，諷刺是一種獨(dú)特的表達(dá)方式。諷刺是一種文學(xué)形式，它運(yùn)用夸張和諷刺等修辭手法來(lái)揭示矛盾或缺陷，通常會(huì)產(chǎn)生幽默效果。心理證據(jù)表明，雖然使用和理解諷刺需要大量的認(rèn)知資源[1]，但這些能力與接收者推斷和理解他人心理狀態(tài)的能力（稱(chēng)為心智理論[2]）呈正相關(guān)。雖然人類(lèi)能夠輕松解讀多模態(tài)線索來(lái)推斷他人的心理狀態(tài)，但AI系統(tǒng)在這方面面臨巨大困難。它們?nèi)狈εc生俱來(lái)的社會(huì)推理能力，這限制了它們理解諷刺的能力，而這對(duì)自然且具上下文敏感的人機(jī)交互至關(guān)重要。

動(dòng)機(jī)。現(xiàn)有的諷刺生成方法[3]、[4]、[5]、[6]主要關(guān)注文本，對(duì)多模態(tài)情境的探索有限。迄今為止，[7]在這一領(lǐng)域進(jìn)行了初步研究。多模態(tài)諷刺通常源于圖像和文本之間的強(qiáng)烈語(yǔ)義不一致性，這種現(xiàn)象稱(chēng)為事實(shí)不一致性[8]，這需要比標(biāo)準(zhǔn)情感文本生成更細(xì)致的跨模態(tài)語(yǔ)義理解。我們將多模態(tài)諷刺生成進(jìn)展有限的原因歸結(jié)為兩個(gè)主要因素。首先，大多數(shù)現(xiàn)有方法嚴(yán)重依賴(lài)文本輸入，而忽視了視覺(jué)線索，限制了模型捕捉諷刺表達(dá)全范圍的能力。其次，可用數(shù)據(jù)集的質(zhì)量仍然不足。MuSG數(shù)據(jù)集[7]中圖像和諷刺文本之間存在顯著不匹配（見(jiàn)圖1(a)）。使用DIP[8]計(jì)算諷刺分?jǐn)?shù)，我們發(fā)現(xiàn)大約三分之一的樣本得分低于0.5，表明諷刺程度較弱或隱含。此外，不精確的標(biāo)簽（如#impressive）對(duì)識(shí)別諷刺目標(biāo)幫助甚微，進(jìn)一步阻礙了有效多模態(tài)諷刺生成模型的發(fā)展。

新數(shù)據(jù)集和基線。為了解決上述問(wèn)題，我們提出了一個(gè)新的數(shù)據(jù)集M2SaG，包含4970個(gè)樣本。每個(gè)樣本包括一張圖片、一段諷刺文本和一個(gè)明確標(biāo)注的諷刺目標(biāo)，如圖1(b)左側(cè)所示。與MuSG相比，我們的M2SaG數(shù)據(jù)集的平均諷刺分?jǐn)?shù)為0.7700，標(biāo)準(zhǔn)差為0.1817，表明其中包含更強(qiáng)烈、更一致的諷刺內(nèi)容。我們引入了ViSP，這是一個(gè)基于預(yù)訓(xùn)練的視覺(jué)與語(yǔ)言Transformer（ViLT）[9]的基準(zhǔn)模型來(lái)評(píng)估M2SaG。具體來(lái)說(shuō)，我們的方法首先使用ViLT模型從圖像和文本中提取聯(lián)合多模態(tài)嵌入，然后將其輸入BART[10]生成諷刺文本。受InstructGPT[11]的啟發(fā)，我們開(kāi)發(fā)了一個(gè)基于近端策略?xún)?yōu)化（PPO）[12]的框架，該框架結(jié)合了分?jǐn)?shù)引導(dǎo)的生成策略。在這個(gè)框架中，BART首先生成多個(gè)候選諷刺文本，然后通過(guò)DIP[8]進(jìn)行評(píng)估，以分配反映諷刺意圖強(qiáng)度的分?jǐn)?shù)。這些分?jǐn)?shù)作為PPO損失中的獎(jiǎng)勵(lì)信號(hào)，迭代改進(jìn)生成過(guò)程，引導(dǎo)模型產(chǎn)生更具諷刺意圖的輸出。同時(shí)，在訓(xùn)練過(guò)程中，BART生成多個(gè)候選文本，將得分最高的文本視為正樣本，其余的視為負(fù)樣本進(jìn)行對(duì)比學(xué)習(xí)，進(jìn)一步增強(qiáng)模型生成高質(zhì)量諷刺文本的能力。

為了驗(yàn)證ViSP的有效性，我們與各種基線進(jìn)行了全面比較，包括僅文本模型（如GPT-2 [13]和T5 [14]）、視覺(jué)語(yǔ)言模型（VLMs）如GIT [15]，以及大型語(yǔ)言模型（LLMs）如LLaVA [16]和DeepSeek [17]。ViSP在所有評(píng)估指標(biāo)上均表現(xiàn)優(yōu)異，展示了其在諷刺生成方面的優(yōu)勢(shì)。此外，我們分析了M2SaG和ViSP生成文本的諷刺分?jǐn)?shù)及事實(shí)不一致性分布，發(fā)現(xiàn)ViSP的平均諷刺分?jǐn)?shù)（0.898 vs 0.770）和事實(shí)不一致性（0.768 vs 0.739）更高，證明了其生成更高質(zhì)量、更具語(yǔ)境諷刺性的文本的能力。詳細(xì)實(shí)驗(yàn)和分析見(jiàn)第5節(jié)。

本文的主要貢獻(xiàn)總結(jié)如下：

•

我們開(kāi)發(fā)了M2SaG，一個(gè)包含4970個(gè)樣本的新數(shù)據(jù)集，專(zhuān)門(mén)用于多模態(tài)諷刺生成任務(wù)。

•

我們使用基于ViLT構(gòu)建的新型編碼器-解碼器模型對(duì)M2SaG進(jìn)行了基準(zhǔn)測(cè)試，作為多模態(tài)諷刺生成的強(qiáng)大基線。

•

據(jù)我們所知，我們是第一個(gè)將PPO損失引入諷刺生成領(lǐng)域的強(qiáng)化學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果證明了其在提高生成諷刺文本質(zhì)量方面的強(qiáng)大效果。

•

我們對(duì)僅文本模型、VLMs和LLMs進(jìn)行了全面比較，發(fā)現(xiàn)LLMs在諷刺生成方面的表現(xiàn)不佳。這些實(shí)驗(yàn)結(jié)果進(jìn)一步突顯了ViSP的有效性和魯棒性。

數(shù)據(jù)集

本節(jié)詳細(xì)介紹了我們開(kāi)發(fā)的多模態(tài)諷刺生成（M2SaG）數(shù)據(jù)集。圖1(b)提供了一個(gè)示例。鑒于MuSG[7]中圖像-文本對(duì)齊較弱且諷刺目標(biāo)模糊，我們構(gòu)建了一個(gè)新的數(shù)據(jù)集，確保了諷刺目標(biāo)的清晰標(biāo)注和強(qiáng)化的視覺(jué)-文本對(duì)齊。我們探索了兩個(gè)現(xiàn)有數(shù)據(jù)集MSTI [37]和MORE+ [34]以獲取諷刺目標(biāo)。

方法論

為了生成諷刺文本，我們提出了ViSP，這是一個(gè)基于ViLT的編碼器-解碼器框架。本節(jié)詳細(xì)描述了ViSP的整體架構(gòu)及其各個(gè)組成部分。

實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)都在單個(gè)NVIDIA A100-PCIE-40G GPU上進(jìn)行。我們訓(xùn)練模型20個(gè)周期，批量大小為16，初始學(xué)習(xí)率為1e-4，包括前100步的暖啟動(dòng)。我們使用BART分詞器，最大令牌長(zhǎng)度為256。對(duì)比損失權(quán)重

固定為0.5，而PPO損失權(quán)重

在訓(xùn)練過(guò)程中動(dòng)態(tài)變化。溫度參數(shù)

設(shè)置為0.07。此外，模型在訓(xùn)練過(guò)程中生成top-

個(gè)候選文本（其中

個(gè)得分最高）。

討論與結(jié)論

在這項(xiàng)工作中，我們提出了一個(gè)包含4970個(gè)樣本的新數(shù)據(jù)集M2SaG。此外，我們提出了一個(gè)強(qiáng)大的基線模型ViSP來(lái)評(píng)估M2SaG數(shù)據(jù)集。據(jù)我們所知，這是第一個(gè)將PPO強(qiáng)化學(xué)習(xí)引入諷刺生成領(lǐng)域的研究。我們的實(shí)驗(yàn)在五個(gè)評(píng)估指標(biāo)上均表現(xiàn)出最佳性能。我們還發(fā)現(xiàn)，大型語(yǔ)言模型（LLMs）在諷刺生成方面的表現(xiàn)不佳。此外，我們還進(jìn)行了...

CRediT作者貢獻(xiàn)聲明

王長(zhǎng)利：撰寫(xiě)——原始草稿、驗(yàn)證、方法論、調(diào)查、形式分析。尹芳：撰寫(xiě)——審閱與編輯、方法論。劉家鋒：撰寫(xiě)——審閱與編輯、形式分析、概念化。吳睿：撰寫(xiě)——審閱與編輯、監(jiān)督、資金獲取、概念化。

利益沖突聲明

作者聲明他們沒(méi)有已知的可能會(huì)影響本文工作的財(cái)務(wù)利益或個(gè)人關(guān)系。

致謝

本研究得到了中國(guó)國(guó)家重點(diǎn)研發(fā)計(jì)劃（編號(hào)2023YFC3305003）和中國(guó)國(guó)家自然科學(xué)基金（編號(hào)61440025）的支持。

王長(zhǎng)利在中國(guó)哈爾濱工業(yè)大學(xué)獲得了保密管理碩士學(xué)位。他目前正在哈爾濱工業(yè)大學(xué)攻讀博士學(xué)位。他的研究興趣包括多模態(tài)學(xué)習(xí)和情感分析。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

熱搜：多模態(tài)諷刺生成|M2SaG數(shù)據(jù)集|ViLT|PPO強(qiáng)化學(xué)習(xí)|事實(shí)不匹配度

知名企業(yè)招聘

熱點(diǎn)排行

新聞專(zhuān)題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號(hào)

摘要

引言

相關(guān)研究

相關(guān)工作