從單目視頻或圖像序列創建逼真且高保真度的人體頭像一直是計算機視覺和圖形學中的熱門課題,因為它有多種應用,例如VR/AR、電影制作和電子商務[1]。然而,有效地建模和重建高質量的人體頭像仍然具有挑戰性。
傳統方法通常依賴于顯式表示(如網格和點云)來重建3D人體[2]、[3]、[4]、[5]、[6],并使用線性混合皮膚(LBS)[7]直接驅動它們。然而,這些方法不是端到端的流程,用于新視圖和姿勢合成,因為只有幾何信息而沒有圖像信息作為監督,從而降低了渲染性能[8]、[9]。自2020年以來,神經輻射場(NeRF)[10]已成為一種流行的方法,用于通過連續表示對新視圖進行3D場景建模。后來,它被應用于數字人體重建和動畫任務[11]、[12]。然而,基于NeRF的方法通常需要較長的訓練和渲染時間,因為多層感知器(MLP)的計算成本很高。盡管已經提出了顯式特征編碼架構(如多分辨率哈希[13]),但在不犧牲渲染質量的情況下將這些方法應用于實時應用仍然很困難,因為哈希碼的信息密度不如MLP。
最近,3D高斯散布(3DGS)[14]的出現由于其快速的訓練和推理能力以及保持高渲染質量而受到了廣泛關注。最新的工作嘗試將人體頭像建模為3D高斯的集合[15]、[16]、[17],用于動畫和渲染。盡管這些方法已經達到了最先進的性能,但它們仍然難以捕捉和表示服裝上的細微幾何細節,如皺紋。最新的工作探索了在網格[18]和法線[19]上表示3DGS,以豐富細粒度幾何信息,但人體先驗和正則化尚未得到充分利用。
為了解決上述挑戰并克服現有方法的局限性,我們提出了NEGS-Avatar,這是一種基于3DGS的新方法,可以使用單目RGB視頻作為輸入,高效生成新視圖中的逼真人體圖像,如圖1所示。大多數相關工作都集中在預測存儲在普通3DGS中的位置和協方差矩陣屬性上,忽略了3D高斯作為另一種點云也可以配備方向并分配法線屬性來指示穿著人體的幾何細節。IHuman[19]使用人體表面法線導出來輔助監督,但未能充分連接高斯和表面法線,并且對不同的人體姿勢和相機視圖缺乏魯棒性。據我們所知,還沒有嘗試將表面法線作為顯式屬性整合到3D高斯中,以提高從單目視頻學習頭像的質量,特別是在細化渲染細節方面。另一方面,表面法線可以用于在傳統渲染管線中實現各向異性的鏡面反射照明,從而有助于分離環境中的鏡面反射和漫反射照明,提高渲染精度。因此,3D高斯的顯式特性以及表面法線在傳統計算機圖形學中表示細節的效率激發了我們將法線整合到高斯中的想法,以改進之前的訓練流程并實現高保真渲染。
雖然從協方差矩陣表示的橢球體最短半徑導出3D高斯的表面法線是可行的,但這種近似的不可忽略的不準確性會導致較差的渲染結果。為了克服這一挑戰,我們引入了表面法線作為新的屬性,類似于位置和協方差。對于由衣物引起的非剛性變形,我們從規范空間中的3D高斯開始(特征空間定義了執行靜態T姿勢的人體演員)。然后我們預測這些屬性的非剛性偏移,以模擬衣物相對于基礎身體的位移。然后對這些屬性應用剛性的LBS變形,將它們從規范空間轉換為姿勢空間。為了更好地預測3D高斯的法線,我們的方法使用偽真實值(不是手動標記而是由程序自動生成的法線圖)作為監督來訓練一個小MLP,確保高斯法線的優化更加可控。
除了捕捉更多幾何細節外,表面法線信息還可以進一步用于指導其他高斯屬性的優化。具體來說,由于局部法線的統計信息反映了相應幾何的復雜性,它可以用來指導高斯的密度化過程(第3.1節)。為此,我們引入了一種基于局部性的自適應密度控制策略,通過考慮最近高斯中存儲的法線方差來有效測量某個3D高斯與其鄰居之間的相似性。此外,我們還利用法線來預測穿著人體的動態顏色。為此,我們將顏色分解為兩個組成部分,即鏡面反射和漫反射,并使它們依賴于估計的高斯法線屬性,這有助于捕捉具有不同粒度細節的人體頭像信息。
我們的貢獻總結如下:
(1)我們提出了NEGS-Avatar,這是一種將表面法線嵌入到傳統3DGS流程和從單目視頻學習頭像的新方法,以實現新視圖和姿勢下的高保真人體渲染。法線由帶有偽真實值監督的神經網絡估計,確保了準確性和靈活性。
(2)我們提出了一種基于局部性的自適應密度控制策略,該策略利用高斯法線方差來指導模型控制3D高斯的數量,同時考慮了高斯法線屬性的分布信息。
(3)我們設計了一個與高斯法線集成的分解顏色預測模塊,用于模擬人體頭像在照明和陰影中的詳細外觀。