Diff-KATKG:基于擴散的Talking Head生成技術,結合關鍵點和動作單元的引導
《Pattern Recognition》:Diff-KATKG: Diffusion-Based Talking Head Generation with Joint Keypoint and Action Unit Guidance
【字體:
大
中
小
】
時間:2026年02月28日
來源:Pattern Recognition 7.6
編輯推薦:
高保真頭顯生成擴散框架Diff-KATKG,融合面部關鍵點和動作單元的跨注意力機制,結合跨幀特征聚合策略提升時空一致性,實現無音頻依賴的高質量視頻合成。
作者:石五珍、王帥、薛子邦、文陽
中國廣東省深圳市南山區南海大道3688號,深圳大學電子與信息工程學院數字創意技術工程實驗室
摘要
我們提出了Diff-KATKG,這是一種基于擴散的新框架,用于高保真度的人像生成,它同時考慮了面部關鍵點和動作單元(Action Units, AUs)的影響。為了在稀疏驅動條件下實現精細的運動控制,我們設計了一個基于交叉注意力的融合模塊,該模塊將關鍵點和動作單元的特征融合成一個統一的嵌入表示,作為擴散模型噪聲預測網絡的輸入條件。這種聯合表示有效地捕捉了姿態和表情的動態變化,從而實現了富有表現力和可控性的視頻合成。為了進一步增強時間連貫性,我們引入了一種跨幀特征聚合策略,利用之前生成的幀的時空依賴性來指導去噪過程,使得幀與幀之間的過渡更加平滑,動作更加自然。得益于擴散模型的漸進式去噪機制,我們的方法能夠實現詳細且穩定的幀重建,顯著提高了視覺真實感和時間一致性。
引言
隨著深度學習和人工神經網絡的快速發展,計算機視覺已經從識別和理解任務擴展到了能夠創建動態視覺內容的生成范式。人像生成(Talking Head Generation, THG)就是這一轉變的典型例子。通過學習音頻、圖像和文本輸入之間的相關性,THG系統能夠合成具有自然表情和準確唇部同步的動態面部視頻。該領域的進步顯著提高了數字人物的真實感和可控性,使得THG成為交互式數字人類系統的核心組成部分,并應用于電影級視頻配音、虛擬直播頭像和低比特率視頻通信等領域。然而,現有方法在稀疏驅動條件下的精細運動控制和表現力方面仍存在局限性。
現有的基于GAN的方法已經展示了利用面部關鍵點和動作單元(AUs)來生成可控姿態和表情的能力,實現了帶寬效率和視頻質量之間的平衡[1]。然而,GAN通常存在訓練不穩定、時間不一致以及難以捕捉精細面部細節的問題,這些限制了生成視頻的感知真實感和流暢性。
盡管擴散模型在圖像和視頻生成方面取得了顯著成功,但直接將其擴展到在稀疏驅動信號下的人像合成中并非易事。與基于GAN的方法不同,擴散模型依賴于迭代去噪過程,在此過程中,低維和稀疏的控制信號(如面部關鍵點和動作單元)可能會被噪聲逐漸削弱或覆蓋。因此,在整個采樣過程中保持強大的可控性變得更加具有挑戰性。此外,擴散模型對條件信息的注入方式和位置非常敏感,簡單的條件策略可能無法在每個去噪步驟中始終如一地指導生成過程。另外,基于擴散的人像生成通常是逐幀進行的,這在稀疏運動線索驅動下會加劇時間不穩定性。這些挑戰凸顯了需要為稀疏控制環境下的擴散模型設計結構化和健壯的條件機制的必要性。一些最近的方法報告了強大的音頻驅動人像生成結果:Diffused Heads [2] 使用擴散自回歸地為單幅肖像添加語音動畫,生成具有真實動作和穩定背景的人像視頻;Hallo [3] 通過分層模型處理唇部運動、表情和頭部姿態,以獲得更好的同步性和一致性;Zhu等人[4] 強調了擴散框架中的穩健語音到動作的對齊。然而,當音頻不可用、不可靠或涉及隱私問題時,音頻驅動的方法可能并不實用。
在本文中,我們提出了一種僅由稀疏面部關鍵點和動作單元驅動的基于擴散的人像生成框架,不依賴于任何音頻輸入。我們的方法采用了一種新穎的交叉注意力融合模塊,有效地將關鍵點和動作單元的特征融合成一個統一的條件嵌入,用于擴散模型,從而實現對面部姿態和表情動態的精細、可解釋的控制。此外,我們還引入了一種跨幀特征聚合策略,利用之前生成的幀的時空上下文,顯著提高了時間一致性和減少了閃爍偽影。
與現有的基于GAN的關鍵點和動作單元驅動方法[1]相比,我們的方法得益于擴散模型的穩定訓練和詳細重建能力,實現了更高的感知質量和時間平滑性。當前的音頻驅動擴散方法需要音頻輸入,但在許多現實世界場景中我們只能獲得稀疏的視覺信號。因此,我們提出了一種無音頻的方法,非常適合只有稀疏面部驅動信號的應用場景。廣泛的實驗表明,我們的框架在視覺真實性和時間穩定性方面優于現有的基于GAN和音頻驅動的擴散方法,驗證了其有效性和適用性。
我們的主要貢獻總結如下:
•我們提出了一種基于擴散的人像生成框架,該框架由面部關鍵點和動作單元共同驅動,無需依賴音頻即可實現精確和精細的控制。
•我們設計了一個交叉注意力融合模塊,將關鍵點和動作單元的特征有效融合成一個統一的條件嵌入,用于擴散模型。
•我們引入了一種跨幀特征聚合機制,利用之前生成的幀的時空依賴性,增強了時間一致性和動作的自然性。
•廣泛的實驗表明,與之前的基于GAN和音頻驅動的擴散方法相比,我們的方法具有更優越的感知質量和時間穩定性。
相關工作
相關工作
人像視頻生成主要依賴于兩個組成部分:驅動信號,它編碼頭部姿態、表情和動作;以及生成模型,它重建出真實且連貫的視頻幀。在本節中,我們回顧了兩個方面的相關工作:(1)驅動信號的類型;(2)生成架構。
方法
我們的框架如圖1所示,我們解決了可控人像視頻生成的問題,目標是生成一個跟隨驅動序列運動的視頻,同時保持源圖像的完整性。設s為源圖像,驅動視頻表示為一系列幀{d1, d2, ???, dt}, 其中di是第幀,t是幀的總數。目標是生成一個序列{y1, y2, ???, yt}, 使得每個幀yt
實驗設置
數據集:所有方法都在VFHQ數據集[44]上進行訓練。為了確保準確的動作單元估計,動作單元提取網絡在兩個面部表情數據集BP4D和DISFA上進行了預訓練。結合時空和面部先驗的視頻超分辨率模塊也在VFHQ上進行了預訓練,以增強面部細節的重建。評估時,我們使用了VFHQ和VoxCeleb2 [45]來評估在不同條件下的泛化能力,包括身份變化、光照變化等。
結論
在本文中,我們提出了Diff-KATKG,這是一種基于擴散的人像生成框架,它由面部關鍵點和動作單元(AUs)共同驅動。通過交叉注意力機制融合可解釋的姿態和表情信號,并利用擴散模型的漸進式去噪過程,我們的方法在稀疏驅動條件下實現了高保真度、時間一致的視頻合成。我們還添加了一個時間超分辨率模塊來提升輸出質量,改善細節。
倫理考慮
我們的方法可能被濫用來生成真實的人像視頻,從而導致身份濫用、深度偽造和虛假信息的傳播。我們不打算將該方法用于模仿或欺騙性用途。為了減少濫用,我們將在所有演示中明確披露相關信息,并在生成的視頻中添加可見的水印以標明其合成性質,這符合以往人像生成工作的常見做法。我們將遵守相關的數據集許可和同意要求。
關于AI輔助的披露
作者僅將生成式AI工具用于語言編輯和校對目的。所有科學內容、分析和結論均由作者獨立完成。
CRediT作者貢獻聲明
石五珍:撰寫——原始草稿、方法論、資金獲取。王帥:撰寫——原始草稿、驗證。薛子邦:撰寫——原始草稿、驗證、調查。文陽:撰寫——審閱與編輯、資源準備、資金獲取。
利益沖突聲明
作者聲明他們沒有已知的財務利益或個人關系可能會影響本文報告的工作。
致謝
本工作部分得到了中國國家自然科學基金(項目編號62101346和62301330)、廣東省基礎與應用基礎研究基金(項目編號2024A1515010496和2022A1515110101)、深圳市科技計劃(項目編號JCYJ20240813141358076和20231121103807001)以及廣東省重點實驗室(項目編號2023B1212060076)的支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號