《Array》:VLMs Using Language-Guided Inference Capture Context-Sensitivity of Human Object Recognition Behavior
編輯推薦:
本研究旨在探究人工智能模型如何模擬人類視覺中依賴場景語境識別物體的能力。研究人員通過結合人類行為實驗與計算建模,將目標物體嵌入室內場景,并操控語境相干性。結果顯示,視覺-語言模型(VLMs),特別是采用視覺Transformer(ViT)架構并使用語言引導(如零樣本分類)進行推理的模型,其行為最接近人類,能夠利用全局場景結構。這揭示了富含語義的結構化表征以及推理時對表征的訪問方式,對于實現(xiàn)語境敏感性至關重要,為零樣本推理作為評估人工與生物視覺對齊度的新度量標準提供了依據。
在日常生活中,我們總能輕松地在雜亂的環(huán)境中認出物體——比如在堆滿雜物的書桌上找到鼠標,或在擁擠的廚房里一眼看到水杯。這種看似不費吹灰之力的能力,實則是人類視覺系統(tǒng)的精妙之處:我們不僅僅依賴物體本身的局部特征,更會無意識地利用其所在的整個場景(語境)來輔助識別。這種“語境敏感性”長期以來被認為是人類視覺超越當前許多人工智能(AI)視覺模型的關鍵優(yōu)勢。盡管行為學研究早已證實場景語境能促進物體識別,但支撐這種能力的深層計算機制究竟是什么?當前飛速發(fā)展的人工視覺模型,又在多大程度上能夠復現(xiàn)人類的這種能力?這些問題依然懸而未決。
傳統(tǒng)上,在ImageNet等大型標注數據集上訓練出的深度神經網絡(DNNs),如卷積神經網絡(CNNs)和視覺Transformer(ViTs),雖然在標準物體識別任務中表現(xiàn)出色,甚至能預測人腦活動,但在面對真實世界中物體被遮擋、尺寸過小或視角非常見的情況時,它們往往表現(xiàn)不佳。一個重要原因可能是,這些模型主要依賴從下而上的視覺特征,未能像人類一樣有效整合自上而下的、基于語義知識的場景語境信息。相比之下,新興的視覺-語言模型(Vision-Language Models, VLMs,例如CLIP)通過在海量圖像-文本對上訓練,學習了視覺與語言模態(tài)對齊的、富含語義的聯(lián)合表征。它們支持“零樣本”(zero-shot)分類,即直接比較圖像與描述類別的文本提示的相似性來進行識別,這被認為是一種更靈活、更接近人類利用先驗知識進行推理的方式。那么,VLMs是否因此能更好地模擬人類的語境敏感性呢?
為了回答這個問題,由Karim Rajaei、Radoslaw Martin Cichy和Hamid Soltanian-Zadeh組成的研究團隊在《Array》期刊上發(fā)表了一項研究。他們巧妙地結合了人類心理物理學實驗和廣泛的模型評估,系統(tǒng)地探討了結構化場景語境如何影響物體識別,并比較了不同類型AI模型與人類行為的相似程度。
研究人員采用了幾個關鍵的技術方法來搭建研究框架。首先,他們利用OmniGibson這一3D仿真平臺,生成了一個生態(tài)效度高的刺激材料集。他們從食物、電子產品、容器、植物、辦公用品和家居裝飾這六個高級類別中選取了48個獨特目標物體,并將其嵌入多樣化的室內場景中。通過操控物體大小、遮擋程度和視角,創(chuàng)建了“低難度”和“高難度”兩種識別條件。更重要的是,為了分離“語境結構”的影響,他們?yōu)槊繌垐D片生成了一個對應的“相位打亂”(phase-scrambled)版本,該版本保留了原始圖像的低級視覺統(tǒng)計特征(如對比度、空間頻率),但破壞了有意義的全局布局和語義結構,從而形成“非相干”語境。其次,他們招募了31名參與者(20-35歲,11名女性)進行快速視覺分類行為實驗,記錄了在不同語境和難度下對物體進行六選一分類的準確率。最后,他們評估了涵蓋CNN、ViT、自監(jiān)督學習模型以及CLIP等VLMs在內的總計70個計算模型,并采用了兩種評估方法:一是基于模型視覺表征訓練線性支持向量機(SVM)進行分類;二是直接使用VLMs的零樣本推理能力,將圖像嵌入與類別文本提示進行匹配。
研究結果揭示了以下核心發(fā)現(xiàn):
語境增強物體識別:人類行為數據顯示,在連貫的(完好的)場景中識別物體的準確率顯著高于在打亂的場景中,這種優(yōu)勢在識別難度高時(物體小、被遮擋等)依然存在。這表明有意義的場景語境確實促進了物體識別。
語言對齊訓練驅動類人水平準確率:模型比較發(fā)現(xiàn),傳統(tǒng)的單模態(tài)視覺模型(無論是CNN還是ViT,無論是有監(jiān)督還是自監(jiān)督訓練)在所有條件下的識別準確率都顯著低于人類,且未能從連貫場景中獲益。相反,經過多模態(tài)語言對齊訓練的VLMs,在低難度條件下達到了與人類相當的識別準確率。其中,基于ViT架構的VLMs表現(xiàn)尤為突出。
ViT基VLMs在使用零樣本推理時,在低難度條件下表現(xiàn)出相似的性能:當量化“語境效應”(在連貫場景與打亂場景中的準確率差值)時,一個關鍵模式出現(xiàn)了。除了基于ViT架構并使用零樣本推理的VLMs外,幾乎所有其他模型都顯示出負的或不顯著的語境效應,意味著連貫場景對它們識別物體構成了干擾而非幫助。而ViT基的零樣本VLMs則表現(xiàn)出與人類相似的正向語境效應,在低難度條件下尤其顯著。
ViT基VLMs受益于更廣泛的場景結構:研究人員進一步將總語境效應分解為“局部語境效應”(物體緊鄰周邊的影響)和“場景級語境效應”(超出局部區(qū)域的全局場景結構的影響)。分析表明,ViT基零樣本VLMs所表現(xiàn)出的類人語境敏感性,主要源于它們利用了場景級的全局信息。而單模態(tài)模型則對語境結構不敏感甚至受其干擾。
推廣至獨立刺激集:使用另一組完全不同的物體和場景進行的第二個實驗,重復并驗證了上述主要研究發(fā)現(xiàn),證明了結果的穩(wěn)健性和普遍性。
結論與討論部分強調,這項研究為理解場景語境促進物體識別的計算機制提供了重要步驟。其核心結論在于兩點:第一,多模態(tài)訓練(特別是與語言對齊)是模型實現(xiàn)類人性能的關鍵。語言監(jiān)督有助于形成語義結構化的視覺表征,支持更靈活、語境敏感的推理。第二,推理機制至關重要。僅僅擁有好的表征還不夠,VLMs在使用語言引導的推理(如零樣本分類)時,才最接近人類的語境敏感行為。這意味著,模型在測試時如何“訪問”和運用其內部表征,與實現(xiàn)語境敏感性高度相關。
因此,這項研究不僅指出VLMs,特別是ViT架構并結合零樣本推理的模型,是目前在模擬人類語境敏感性物體識別行為上最接近的AI模型,更重要的是,它提出了一個方法論上的深刻見解:在比較人工系統(tǒng)與生物視覺時,對齊的評估不應僅局限于模型學到的表征,還必須考慮其推理過程。零樣本推理本身可作為一個有趣的對齊度量指標。當然,研究也指出了當前模型的局限,例如在高難度條件下對小物體的識別仍不如人類,這可能與模型輸入分辨率有限有關。未來,探索更高分辨率或更廣視野的VLMs,以及設計能分離語義、幾何等不同語境線索的數據集,將有助于進一步縮小人工與生物視覺之間的差距。