<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        FrameGrapher:通過幀增強技術提升視覺-語言模型的視頻理解能力

        《Expert Systems with Applications》:FrameGrapher: Frame-Augmented Vision-Language Models For Effective Video Understanding

        【字體: 時間:2026年03月01日 來源:Expert Systems with Applications 7.5

        編輯推薦:

          針對視頻問答中傳統(tǒng)方法依賴任務數(shù)據(jù)和計算成本高、MLLMs模態(tài)適配與推理成本大的問題,提出FrameGrapher框架。通過顏色和結構差異檢測自動選擇關鍵幀,構建幀間語義關系圖,結合LLM進行上下文推理,實現(xiàn)零樣本訓練的跨域高效視頻理解。實驗表明其平均準確率較SOTA方法提升2.0%,代碼開源。

          
        Xianzhi Ma|Jianhui Li|Changhua Pei|Yingchao Piao
        中國江蘇省蘇州市南京大學空間地球科學研究所,215163

        摘要

        多模態(tài)大語言模型(MLLMs),如Video-LLaMA,在視頻理解任務中表現(xiàn)出色。然而,其高昂的訓練和推理成本阻礙了其廣泛應用。為了解決這個問題,現(xiàn)有方法從視頻中采樣幀并將其作為視覺語言模型(VLMs)的提示,這對于基于問題的視頻理解來說更具成本效益。然而,基于視頻幀的VLMs在視頻理解方面的準確性仍然不盡如人意。在本文中,我們提出了FrameGrapher(FG)方法,通過提取與問題相關的一系列關鍵幀來提升VLMs在視頻理解方面的性能。我們不是采用均勻采樣,而是從預先選定的關鍵幀中構建一個關鍵幀圖,這些關鍵幀在顏色和結構上與相鄰幀有所不同。通過迭代圖學習方法對幀表示和關鍵幀關系進行優(yōu)化,從而能夠為每個查詢快速選擇高度個性化的關鍵幀序列,并將其作為上下文輸入傳遞給VLM,從而提高其性能。廣泛的實驗表明,F(xiàn)rameGrapher在多個基準測試中超越了當前最先進的視頻理解方法。代碼和數(shù)據(jù)集可在以下鏈接獲取:https://github.com/XianZhi-Ma/FrameGrapher

        引言

        數(shù)字時代導致了視頻數(shù)據(jù)量和多樣性的激增,從而增加了對有效視頻理解技術的需求(Huang, Xin, Qian, Dong, 2025; Liu, Liu, Zhang, Chen, Liu, He, 2025; Tao, Wang, Hao, Jian, Xiao, Zhimeng, Jingyuan, Zhou & Zhongfei, Woo, Noh, Kim, 2026; Xi, Shi, Sun, Zhang, Li, Wu, 2025)。當前的視頻理解方法大致可以分為兩類:傳統(tǒng)的基于深度學習的方法,以及包含視頻模態(tài)的多模態(tài)大語言模型(MLLMs)。基于傳統(tǒng)深度學習的視頻理解方法具有快速推理的優(yōu)勢,能夠實現(xiàn)合理的視頻理解性能(Luo, Pan, Cao, Wang, Le, Liu, 2025; Qaroush, Jubran, Olayyan, Qutait, 2025; Yang, Liu, Zhou, Guan, Qin, Song, Zhao, Wang, Gao, 2025; Zeng, Wang, Liao, Li, Xu, Man, Liu, Xu, 2024; Zhao, Yao, Hu, Xie, Zhang, Wang, Li, Zhou, Zhou, Wang, Yu, 2025)。這些方法嚴重依賴于特定任務的訓練數(shù)據(jù),這使得訓練過程既耗時又在計算上成本高昂,而且產生的模型在跨領域遷移能力方面有限(Wang, Liu, & Zhao, 2024a)。
        隨著Flamingo(Alayrac等人,2022年)的發(fā)布,具有視頻模態(tài)的MLLMs逐漸開始取代傳統(tǒng)的視頻理解框架,因為它們具有領域泛化和上下文適應能力。然而,盡管MLLMs在視頻理解任務中表現(xiàn)出了良好的性能,但其訓練和推理成本很高,這限制了它們在所有場景中的應用(Ma, Li, Pei, & Liu, Shu, Liao, Zhang, Zhuo, Xu, Zhang, Shi, Chan, Zhong, Yu, He, Fu, Li, Liu, Li, Jiang, 2025; Wu, Cai, Ji, Li, Huang, Luo, Fei, JIANG, Sun, Ji, 2024b)。
        最近,提出了一種高效的替代方案(Han, Guo, Tang, He, Wu, & Wang, Kim, Choi, Lee, Rhee, 2024; Wu, Xu, Gao, Gan, Chen, Lai, Gang, Kang, & Dehghan),該方法僅利用預訓練的視覺語言模型(VLMs)進行無需訓練的視頻理解和問題回答,無需任何微調。這種方法不僅克服了傳統(tǒng)方法在泛化性能和數(shù)據(jù)依賴性方面的限制,還減輕了MLLMs的資源消耗和部署復雜性,使其成為當今最具潛力的視頻理解解決方案之一。無需訓練的視頻LLMs只需要從視頻中采樣一定數(shù)量的幀,并對這些幀進行低成本處理,即可在各種視頻理解任務中實現(xiàn)顯著的零樣本性能。
        然而,如圖1所示,當前的無需訓練的視頻理解方法仍然存在兩個主要限制:
      3. 均勻下采樣:它們對視頻進行均勻下采樣以獲得一系列幀(例如,IG-VLM(Kim等人,2024年)均勻采樣6幀)。這種方法無法捕捉所有關鍵事件,特別是在長而復雜的視頻中,從而影響理解的深度和準確性,并導致模型在變化迅速的場景中表現(xiàn)不佳(Tang, Ding, Wu, Ren, Sebe, Rota, 2023; Xu, Gao, Gan, Chen, Lai, Gang, Kang, & Dehghan)。
      4. 融合不足:這種提取的幀忽略了問題、提示和視頻幀之間的復雜交互,從而影響連貫性和理解能力,在處理長而復雜的視頻中的問題時面臨重大挑戰(zhàn)(Ye等人,2023)。
      5. 為了解決這些限制,我們提出了FrameGrapher(FG),這是一種基于查詢條件的視頻理解方法,通過提取與給定問題相關的一系列關鍵幀來提升VLMs在視頻問答(VideoQA)中的性能。首先,我們通過根據(jù)相鄰幀之間的顏色和結構差異來選擇關鍵幀,解決了均勻幀選擇導致的缺失關鍵事件的問題,為圖建模和VLM視頻理解選擇了明顯不同的幀。其次,我們提出了一種幀圖,這是一種將圖結構融入基于大型語言模型(LLM)的模型的新視頻理解框架。該方法表示了關鍵幀、幀和問題之間的語義聯(lián)系,增強了模型解釋復雜視頻的能力。評估結果表明,F(xiàn)rameGrapher在四個基準測試中的平均準確率比當前最先進的預訓練MLLMs高出2.0%。
        本文的貢獻總結如下:
      6. FrameGrapher方法的引入表明,精心設計的幀檢索和選擇機制可以顯著提升VLM在視頻理解任務中的性能,為新的優(yōu)化路徑提供了借鑒。
      7. 通過創(chuàng)建創(chuàng)新的幀圖,我們成功克服了現(xiàn)有幀采樣方法的局限性,考慮了問題與幀之間的內在語義聯(lián)系以及幀之間的關系。
      8. 我們進行了徹底的實驗來評估性能并分析每個具體設計細節(jié)的貢獻。
      9. 本文的結構如下:第1節(jié)介紹了本文的研究背景。第2節(jié)介紹了與本研究相關的具有視頻模態(tài)的MLLMs和關鍵幀選擇工作。第3節(jié)詳細描述了所提出的模型。第4節(jié)分析了實驗設置和結果。第5節(jié)總結了研究并指出了未來的研究方向。

        相關工作

        相關工作

        具有視頻模態(tài)的MLLMs:大多數(shù)包含視頻模態(tài)的MLLMs采用可訓練的模態(tài)適配器框架,該框架將各種特定模態(tài)的編碼器連接到LLMs上,形成了MLLMs的主流架構。MovieChat(Song等人,2024a)利用長短期記憶和滑動窗口來降低長視頻理解的計算和內存成本。Video-ChatGPT(Maaz, Rasheed, Khan, & Khan, 2024)在100K視頻指令對上進行微調,并引入了第一個

        方法論

        FrameGrapher的結構和過程如圖2所示。FrameGrapher的主要過程包括顏色-結構選擇(CS-Pick)和圖-查詢幀合并(Graph-QFM),這些將在本節(jié)中詳細描述。圖2中的視覺文本編碼器和VLM都使用了凍結的預訓練權重,避免了任何訓練,減少了計算開銷和資源需求,降低了視頻理解模型的部署復雜性。

        實驗設置

        實施細節(jié):所有實驗都在單個NVIDIA 80G A100 GPU上進行。FrameGrapher中的視覺文本編碼器使用CLIP-L/14,而使用的VLM是LLaVA-v1.6-7B(Liu, Li, Wu, & Lee, 2023)。選擇CLIP-L/14作為視覺編碼器的主要原因是LLaVA v1.6也使用了CLIP-L/14,確保了視覺和文本特征之間的強對齊,從而避免了因領域差異可能對性能產生的負面影響。FrameGrapher是一個無需訓練的

        結論

        本研究提出了FrameGrapher,這是一個基于VLMs的端到端的零樣本視頻理解框架,無需任何訓練。通過CS-Pick和Graph-QFM引入了基于問題的圖結構,F(xiàn)rameGrapher捕獲了關鍵幀之間的時間和語義關系,實現(xiàn)了有效的視頻問答(VideoQA)推理。FrameGrapher在基于類似LLaVA框架的無需訓練的方法中達到了最先進的性能

        CRediT作者貢獻聲明

        Xianzhi Ma:方法論、軟件、數(shù)據(jù)整理、撰寫——原始草稿、可視化。Jianhui Li:資源、撰寫——審閱與編輯、可視化、監(jiān)督、項目管理。Changhua Pei:撰寫——審閱與編輯、可視化、監(jiān)督。Yingchao Piao:撰寫——審閱與編輯、可視化、監(jiān)督。

        利益沖突聲明

        作者聲明他們沒有已知的競爭性財務利益或個人關系可能會影響本文報告的工作。
        相關新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內
        • 人物
        • 產業(yè)
        • 熱點
        • 科普

        知名企業(yè)招聘

        熱點排行

          今日動態(tài) | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號