<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        ViSP:一種基于PPO框架的多模態(tài)諷刺生成系統(tǒng),采用對(duì)比學(xué)習(xí)技術(shù)

        《Neurocomputing》:ViSP: A PPO-enhanced framework for multimodal sarcasm generation with contrastive learning

        【字體: 時(shí)間:2026年03月01日 來(lái)源:Neurocomputing 6.5

        編輯推薦:

          多模態(tài)諷刺生成研究提出M2SaG數(shù)據(jù)集與ViSP框架,融合PPO強(qiáng)化學(xué)習(xí)與對(duì)比學(xué)習(xí)提升生成質(zhì)量,實(shí)驗(yàn)顯示其優(yōu)于文本模型、VLM及LLMs,Sarcasm Score達(dá)0.898,事實(shí)不匹配度0.768。

          
        王長(zhǎng)利|尹芳|劉家鋒|吳睿
        哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,哈爾濱,150001,中國(guó)

        摘要

        人類(lèi)情感本質(zhì)上是復(fù)雜的,諷刺是一種最為微妙且獨(dú)特的表達(dá)形式。盡管在諷刺理解方面取得了顯著進(jìn)展,但諷刺生成的研究仍然不足,這主要是由于過(guò)度依賴(lài)文本信息、忽視視覺(jué)線索,以及現(xiàn)有數(shù)據(jù)集中圖像與諷刺意圖之間的語(yǔ)義不匹配。在這項(xiàng)工作中,我們提出了M2SaG,這是一個(gè)包含4970個(gè)樣本的多模態(tài)諷刺生成數(shù)據(jù)集,每個(gè)樣本都包含一張圖片、一段諷刺文本及其對(duì)應(yīng)的諷刺目標(biāo)。為了評(píng)估M2SaG,我們提出了ViSP,這是一個(gè)基于ViLT的諷刺生成框架,它將近端策略?xún)?yōu)化(PPO)與對(duì)比學(xué)習(xí)相結(jié)合。PPO利用從DIP獲得的獎(jiǎng)勵(lì)分?jǐn)?shù)來(lái)指導(dǎo)生成過(guò)程,而對(duì)比學(xué)習(xí)則鼓勵(lì)模型偏好獲得更高獎(jiǎng)勵(lì)的輸出。這些策略共同提高了生成質(zhì)量,并增強(qiáng)了輸出中的諷刺意圖。通過(guò)對(duì)五個(gè)指標(biāo)集的全面評(píng)估,我們發(fā)現(xiàn)ViSP始終優(yōu)于所有基線模型(包括大型語(yǔ)言模型),突顯了它們?cè)谥S刺生成方面的局限性。此外,對(duì)M2SaG和ViSP輸出中的諷刺分?jǐn)?shù)及事實(shí)不一致性分布的分析表明,ViSP獲得了更高的平均諷刺分?jǐn)?shù)(0.898 vs 0.770)和事實(shí)不一致性(0.768 vs 0.739),證明了其生成更高質(zhì)量、更具語(yǔ)境諷刺性的文本的能力。我們的數(shù)據(jù)集可在https://github.com/wclapply/ViSP獲取。

        引言

        人類(lèi)情感本質(zhì)上是復(fù)雜且多方面的,諷刺是一種獨(dú)特的表達(dá)方式。諷刺是一種文學(xué)形式,它運(yùn)用夸張和諷刺等修辭手法來(lái)揭示矛盾或缺陷,通常會(huì)產(chǎn)生幽默效果。心理證據(jù)表明,雖然使用和理解諷刺需要大量的認(rèn)知資源[1],但這些能力與接收者推斷和理解他人心理狀態(tài)的能力(稱(chēng)為心智理論[2])呈正相關(guān)。雖然人類(lèi)能夠輕松解讀多模態(tài)線索來(lái)推斷他人的心理狀態(tài),但AI系統(tǒng)在這方面面臨巨大困難。它們?nèi)狈εc生俱來(lái)的社會(huì)推理能力,這限制了它們理解諷刺的能力,而這對(duì)自然且具上下文敏感的人機(jī)交互至關(guān)重要。
        動(dòng)機(jī)。現(xiàn)有的諷刺生成方法[3]、[4]、[5]、[6]主要關(guān)注文本,對(duì)多模態(tài)情境的探索有限。迄今為止,[7]在這一領(lǐng)域進(jìn)行了初步研究。多模態(tài)諷刺通常源于圖像和文本之間的強(qiáng)烈語(yǔ)義不一致性,這種現(xiàn)象稱(chēng)為事實(shí)不一致性[8],這需要比標(biāo)準(zhǔn)情感文本生成更細(xì)致的跨模態(tài)語(yǔ)義理解。我們將多模態(tài)諷刺生成進(jìn)展有限的原因歸結(jié)為兩個(gè)主要因素。首先,大多數(shù)現(xiàn)有方法嚴(yán)重依賴(lài)文本輸入,而忽視了視覺(jué)線索,限制了模型捕捉諷刺表達(dá)全范圍的能力。其次,可用數(shù)據(jù)集的質(zhì)量仍然不足。MuSG數(shù)據(jù)集[7]中圖像和諷刺文本之間存在顯著不匹配(見(jiàn)圖1(a))。使用DIP[8]計(jì)算諷刺分?jǐn)?shù),我們發(fā)現(xiàn)大約三分之一的樣本得分低于0.5,表明諷刺程度較弱或隱含。此外,不精確的標(biāo)簽(如#impressive)對(duì)識(shí)別諷刺目標(biāo)幫助甚微,進(jìn)一步阻礙了有效多模態(tài)諷刺生成模型的發(fā)展。
        新數(shù)據(jù)集和基線。為了解決上述問(wèn)題,我們提出了一個(gè)新的數(shù)據(jù)集M2SaG,包含4970個(gè)樣本。每個(gè)樣本包括一張圖片、一段諷刺文本和一個(gè)明確標(biāo)注的諷刺目標(biāo),如圖1(b)左側(cè)所示。與MuSG相比,我們的M2SaG數(shù)據(jù)集的平均諷刺分?jǐn)?shù)為0.7700,標(biāo)準(zhǔn)差為0.1817,表明其中包含更強(qiáng)烈、更一致的諷刺內(nèi)容。我們引入了ViSP,這是一個(gè)基于預(yù)訓(xùn)練的視覺(jué)與語(yǔ)言Transformer(ViLT)[9]的基準(zhǔn)模型來(lái)評(píng)估M2SaG。具體來(lái)說(shuō),我們的方法首先使用ViLT模型從圖像和文本中提取聯(lián)合多模態(tài)嵌入,然后將其輸入BART[10]生成諷刺文本。受InstructGPT[11]的啟發(fā),我們開(kāi)發(fā)了一個(gè)基于近端策略?xún)?yōu)化(PPO)[12]的框架,該框架結(jié)合了分?jǐn)?shù)引導(dǎo)的生成策略。在這個(gè)框架中,BART首先生成多個(gè)候選諷刺文本,然后通過(guò)DIP[8]進(jìn)行評(píng)估,以分配反映諷刺意圖強(qiáng)度的分?jǐn)?shù)。這些分?jǐn)?shù)作為PPO損失中的獎(jiǎng)勵(lì)信號(hào),迭代改進(jìn)生成過(guò)程,引導(dǎo)模型產(chǎn)生更具諷刺意圖的輸出。同時(shí),在訓(xùn)練過(guò)程中,BART生成多個(gè)候選文本,將得分最高的文本視為正樣本,其余的視為負(fù)樣本進(jìn)行對(duì)比學(xué)習(xí),進(jìn)一步增強(qiáng)模型生成高質(zhì)量諷刺文本的能力。
        為了驗(yàn)證ViSP的有效性,我們與各種基線進(jìn)行了全面比較,包括僅文本模型(如GPT-2 [13]和T5 [14])、視覺(jué)語(yǔ)言模型(VLMs)如GIT [15],以及大型語(yǔ)言模型(LLMs)如LLaVA [16]和DeepSeek [17]。ViSP在所有評(píng)估指標(biāo)上均表現(xiàn)優(yōu)異,展示了其在諷刺生成方面的優(yōu)勢(shì)。此外,我們分析了M2SaG和ViSP生成文本的諷刺分?jǐn)?shù)及事實(shí)不一致性分布,發(fā)現(xiàn)ViSP的平均諷刺分?jǐn)?shù)(0.898 vs 0.770)和事實(shí)不一致性(0.768 vs 0.739)更高,證明了其生成更高質(zhì)量、更具語(yǔ)境諷刺性的文本的能力。詳細(xì)實(shí)驗(yàn)和分析見(jiàn)第5節(jié)。
        本文的主要貢獻(xiàn)總結(jié)如下:
      3. 我們開(kāi)發(fā)了M2SaG,一個(gè)包含4970個(gè)樣本的新數(shù)據(jù)集,專(zhuān)門(mén)用于多模態(tài)諷刺生成任務(wù)。
      4. 我們使用基于ViLT構(gòu)建的新型編碼器-解碼器模型對(duì)M2SaG進(jìn)行了基準(zhǔn)測(cè)試,作為多模態(tài)諷刺生成的強(qiáng)大基線。
      5. 據(jù)我們所知,我們是第一個(gè)將PPO損失引入諷刺生成領(lǐng)域的強(qiáng)化學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果證明了其在提高生成諷刺文本質(zhì)量方面的強(qiáng)大效果。
      6. 我們對(duì)僅文本模型、VLMs和LLMs進(jìn)行了全面比較,發(fā)現(xiàn)LLMs在諷刺生成方面的表現(xiàn)不佳。這些實(shí)驗(yàn)結(jié)果進(jìn)一步突顯了ViSP的有效性和魯棒性。
      7. 相關(guān)研究

        相關(guān)工作

        現(xiàn)有的諷刺研究可以分為兩個(gè)主要領(lǐng)域:諷刺理解(包括諷刺檢測(cè)、解釋和目標(biāo)識(shí)別)和諷刺生成(專(zhuān)注于生成諷刺文本)。
        諷刺檢測(cè)。早期研究依賴(lài)于手工制作的特征來(lái)進(jìn)行諷刺檢測(cè)[18]。隨著社交媒體的快速發(fā)展,多模態(tài)方法開(kāi)始受到越來(lái)越多的關(guān)注。Castro等人[19]收集了690個(gè)YouTube視頻來(lái)構(gòu)建...

        數(shù)據(jù)集

        本節(jié)詳細(xì)介紹了我們開(kāi)發(fā)的多模態(tài)諷刺生成(M2SaG)數(shù)據(jù)集。圖1(b)提供了一個(gè)示例。鑒于MuSG[7]中圖像-文本對(duì)齊較弱且諷刺目標(biāo)模糊,我們構(gòu)建了一個(gè)新的數(shù)據(jù)集,確保了諷刺目標(biāo)的清晰標(biāo)注和強(qiáng)化的視覺(jué)-文本對(duì)齊。我們探索了兩個(gè)現(xiàn)有數(shù)據(jù)集MSTI [37]和MORE+ [34]以獲取諷刺目標(biāo)。

        方法論

        為了生成諷刺文本,我們提出了ViSP,這是一個(gè)基于ViLT的編碼器-解碼器框架。本節(jié)詳細(xì)描述了ViSP的整體架構(gòu)及其各個(gè)組成部分。

        實(shí)驗(yàn)設(shè)置

        所有實(shí)驗(yàn)都在單個(gè)NVIDIA A100-PCIE-40G GPU上進(jìn)行。我們訓(xùn)練模型20個(gè)周期,批量大小為16,初始學(xué)習(xí)率為1e-4,包括前100步的暖啟動(dòng)。我們使用BART分詞器,最大令牌長(zhǎng)度為256。對(duì)比損失權(quán)重固定為0.5,而PPO損失權(quán)重在訓(xùn)練過(guò)程中動(dòng)態(tài)變化。溫度參數(shù)設(shè)置為0.07。此外,模型在訓(xùn)練過(guò)程中生成top-個(gè)候選文本(其中個(gè)得分最高)。

        討論與結(jié)論

        在這項(xiàng)工作中,我們提出了一個(gè)包含4970個(gè)樣本的新數(shù)據(jù)集M2SaG。此外,我們提出了一個(gè)強(qiáng)大的基線模型ViSP來(lái)評(píng)估M2SaG數(shù)據(jù)集。據(jù)我們所知,這是第一個(gè)將PPO強(qiáng)化學(xué)習(xí)引入諷刺生成領(lǐng)域的研究。我們的實(shí)驗(yàn)在五個(gè)評(píng)估指標(biāo)上均表現(xiàn)出最佳性能。我們還發(fā)現(xiàn),大型語(yǔ)言模型(LLMs)在諷刺生成方面的表現(xiàn)不佳。此外,我們還進(jìn)行了...

        CRediT作者貢獻(xiàn)聲明

        王長(zhǎng)利:撰寫(xiě)——原始草稿、驗(yàn)證、方法論、調(diào)查、形式分析。尹芳:撰寫(xiě)——審閱與編輯、方法論。劉家鋒:撰寫(xiě)——審閱與編輯、形式分析、概念化。吳睿:撰寫(xiě)——審閱與編輯、監(jiān)督、資金獲取、概念化。

        利益沖突聲明

        作者聲明他們沒(méi)有已知的可能會(huì)影響本文工作的財(cái)務(wù)利益或個(gè)人關(guān)系。

        致謝

        本研究得到了中國(guó)國(guó)家重點(diǎn)研發(fā)計(jì)劃(編號(hào)2023YFC3305003)和中國(guó)國(guó)家自然科學(xué)基金(編號(hào)61440025)的支持。
        王長(zhǎng)利在中國(guó)哈爾濱工業(yè)大學(xué)獲得了保密管理碩士學(xué)位。他目前正在哈爾濱工業(yè)大學(xué)攻讀博士學(xué)位。他的研究興趣包括多模態(tài)學(xué)習(xí)和情感分析。
        相關(guān)新聞
        生物通微信公眾號(hào)
        微信
        新浪微博
        • 搜索
        • 國(guó)際
        • 國(guó)內(nèi)
        • 人物
        • 產(chǎn)業(yè)
        • 熱點(diǎn)
        • 科普

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專(zhuān)欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專(zhuān)欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號(hào)