《Nature Neuroscience》:Convolutional neural network models describe the encoding subspace of local circuits in auditory cortex
編輯推薦:
為解決傳統編碼模型在可解釋性與復雜自然聲音編碼性能間的矛盾,研究人員通過開發一種“扁平化”的卷積神經網絡模型,從聽覺皮層單神經元活動中提取低維調諧子空間。研究表明,該子空間模型在預測精度上與完整CNN模型相當,同時揭示了不同神經元亞型間功能特性的差異,并描述了自然聲音稀疏、高效編碼的框架,為理解深度神經網絡所模擬的復雜神經計算提供了新視角。
聽覺系統如何從紛繁復雜的自然環境中高效地解析聲音信息,一直是神經科學領域的一個核心挑戰。過去,科學家們常用線性-非線性(LN)模型,尤其是譜時感受野模型,來描述神經元對聲音的反應。這類模型將神經元對聲音的響應,簡單歸結為一個線性濾波器(感受野)加上一個靜態的非線性輸出函數。然而,面對現實世界中高度變化、統計特性復雜的自然聲音,這些簡單模型的預測能力顯得捉襟見肘。近年來,以卷積神經網絡(CNN)為代表的深度學習方法異軍突起,在圖像、語音識別等領域取得突破性進展,其與生物感知系統的驚人相似性,也讓神經科學家們看到了希望:或許可以用這些復雜的模型來直接建模神經感覺處理過程。確實,基于CNN的編碼模型在對視覺和聽覺皮層神經活動的預測上,其準確性已遠超傳統的LN模型。
然而,新的問題也隨之而來。CNN雖然預測性能強勁,但其“黑箱”般的多層非線性處理結構卻讓人難以理解:究竟是哪些關鍵計算支撐了其卓越的表現?一個核心的關切是,這些深度學習模型解決問題的方式是否真的與生物大腦相似,它們對理解生物計算的潛在價值是否因此而受限?因此,開發一種既能保持高預測精度,又具備良好可解釋性的編碼模型,就成了一項重要的挑戰。在此背景下,子空間模型(或稱多濾波器模型)進入了研究者的視野。它源自LN模型框架,用少數幾個濾波器定義神經反應,在準確性和可解釋性之間取得了良好的平衡。但長期以來,由于難以擬合,尤其是在使用相關性高的自然聲音刺激時,這類模型的應用受到了極大的限制。
為了突破這一瓶頸,Wingert、Parida及其同事在《Nature Neuroscience》上發表了一項研究,他們提出一個大膽的假設:一個龐大、復雜的CNN模型可以被“扁平化”成一個低維的編碼子空間,同時保持其高預測精度。他們通過在清醒的雪貂初級和次級聽覺皮層中記錄大規模單神經元活動,并利用大量自然聲音庫進行刺激,成功訓練了CNN模型。隨后,他們發展了一種新方法,通過對CNN輸出的梯度進行降維(主成分分析,PCA),提取出每個神經元最關鍵的線性調諧子空間,并在此基礎上構建了一個非線性組合模型,即子空間感受野模型。研究結果顯示,這個低維(3-13維)子空間模型對聽覺皮層神經活動的預測準確性幾乎與完整的CNN模型不相上下。更重要的是,這種“扁平化”模型不僅能近乎完美地保留CNN的功能,還提供了前所未有的可解釋性窗口,使得研究者能夠清晰地解析和可視化CNN所捕捉到的非線性調諧特性。這證明了深度神經網絡能夠被轉換成一個更簡單、更易于理解的子空間模型,從而為我們理解大腦如何進行復雜的感覺編碼提供了強大的新工具。
關鍵技術方法
研究采用了以下關鍵技術:1. 高通量電生理記錄:使用線性微電極陣列,在清醒、被動聆聽的雪貂的初級(A1)和非初級(PEG)聽覺皮層中,記錄多個單神經元在自然聲音刺激下的活動。2. 深度卷積神經網絡建模:訓練一個四層CNN來模擬聲音譜圖與神經響應之間的關系,并采用群體架構,共享前幾層網絡權重以提升統計效能。3. 動態譜時感受野分析與子空間提取:計算CNN模型輸出相對于輸入的梯度,得到動態譜時感受野,再通過主成分分析降維,提取出每個神經元的線性調諧子空間。4. 子空間感受野模型構建與驗證:基于提取的子空間投影,擬合一個小型神經網絡來預測神經活動,并與原始CNN、傳統LN模型的預測性能進行比較。5. 神經元分類與功能分析:根據動作電位波形寬度(尖峰寬度)將神經元分為規則發放型(推測為興奮性神經元)和窄發放型(推測為抑制性神經元),并結合皮層深度信息,分析其調諧特性的差異。
研究結果
A flattened convolutional neural network identifies the tuning subspace for auditory neurons
研究人員開發了一種將深層復雜CNN模型轉化為可解釋的子空間濾波模型的方法。他們利用線性微電極陣列,記錄了清醒雪貂聽覺皮層在自然聲音刺激下的大量單神經元活動。在成功擬合CNN模型后,通過計算模型響應對輸入刺激的梯度(動態譜時感受野,dSTRF),并對所有時間點的dSTRF集合進行主成分分析,提取出每個神經元最關鍵的線性調諧子空間。分析表明,對于大多數A1神經元,3-16個主成分就能解釋dSTRF的大部分方差,平均11個維度可解釋95%以上的方差。這些成分通常共享一個最佳頻率,但在頻譜和/或時間調制調諧上有所不同。通過將刺激投影到該子空間中,并計算平均神經響應,研究人員定義了子空間感受野,該感受野可以是非單調的,并具有多個峰值,直觀地展示了神經元在調諧子空間內的非線性響應模式。
Subspace encoding model is functionally equivalent to the CNN
為了驗證子空間表示能否準確解釋時變神經響應,研究人員基于子空間投影擬合了一個新模型。結果發現,子空間模型預測神經響應的準確性與完整CNN模型幾乎相同(中位數r=0.585 vs 0.600),平均可解釋CNN所解釋響應方差的95.4%。這表明,子空間模型在功能上與完整的CNN幾乎等效。此外,研究還探索了子空間的維度選擇和非線性映射形式。當使用線性組合或二階多項式來約束從子空間到神經響應的映射時,模型性能均不及完整的子空間模型,說明需要更高階的非線性才能完全描述子空間感受野。
Neurons within a cortical column sparsely tile the local tuning subspace
在同一記錄位點(皮層柱)內,盡管神經元傾向于共享相似的調諧子空間(子空間相似性指數,SSI,在相同位點內高于不同位點間),但它們的子空間感受野在共享的子空間內呈現出“稀疏鋪貼”的分布模式。這意味著,對于任何單一刺激,只有一小部分神經元會產生強烈反應,而其鄰近神經元則受到抑制。這種分布使得即使共享基本調諧特性,相鄰神經元對相同刺激的預測響應相關性也較低。稀疏鋪貼表明局部群體形成了一種高效且去相關的稀疏編碼。
Local subspace overlap depends on neuronal cell type and cortical depth
調諧子空間的相似性在神經元對之間并非均等,而是取決于神經元類型和皮層深度。研究發現,在淺層皮層的窄發放型(推測為抑制性)神經元之間,子空間相似性最高;而在深層皮層的規則發放型(推測為興奮性)神經元之間,相似性最低。線性混合效應模型證實,平均深度和尖峰寬度都是SSI的顯著預測因子。
Diversity of nonlinear responses within the tuning subspace
子空間模型揭示了神經元間非線性響應的多樣性。通過計算每個子空間維度的邊際調諧曲線,并定義一個調諧對稱性指數(TSI),研究人員量化了非線性調諧的形狀。大多數調諧曲線是向下對稱的(倒U型),這與對比度增益控制效應一致;少數是向上對稱的(U型),這可能產生對刺激相位的調諧不變性。值得注意的是,窄發放型神經元,尤其是在皮層第4層附近的,更可能出現向上對稱的非線性調諧。此外,在一個神經元內部,對稱調諧的非線性在所有子空間維度上傾向于具有一致的向上或向下方向。
研究結論與討論
本研究證實,可以從CNN編碼模型中輕松提取出低維感覺調諧子空間,且基于此的簡化模型性能幾乎與原始CNN相當。這為理解CNN所執行的關鍵計算提供了概念橋梁,并將其與經典的基于脈沖觸發協方差的多濾波器編碼模型聯系起來。通過“扁平化”CNN,研究者獲得了一個既準確又可解釋的模型,能夠清晰揭示不同神經元亞型(如抑制性與興奮性神經元)以及不同皮層深度神經元之間的功能差異。
研究發現,聽覺皮層局部群體中的神經元共享一個相似的調諧子空間,但它們的子空間感受野在該空間內稀疏鋪貼,形成了一種稀疏群體編碼。這可以解釋為何即使相鄰神經元共享基本調諧屬性,其對自然聲音的響應信號相關性也較低。這種稀疏、去相關的表征符合高效編碼理論,并可能有助于在復雜聲景中選擇和綁定特征以引導行為。
子空間模型的調諧非線性形狀揭示了不同的神經計算機制。向下對稱的非線性可能解釋了感覺皮層中常見的對比度增益控制現象,而向上對稱的非線性則可能支持對頻譜或時間調制相位的調諧不變性,這是一種在聽覺皮層中此前報道較少的非線性計算。
最后,研究強調了細胞類型在塑造局部回路功能中的關鍵作用。特別是淺層抑制性神經元之間更高的子空間相似性,可能反映了自上而下信號對共享調諧子空間的特定調節,這種機制可能介導了對聽覺特征的選擇性注意。而不同細胞類型在非線性調諧特性上的差異(如第4層抑制性神經元更傾向于向上對稱調諧),進一步揭示了局部微環路在實現復雜感覺計算中的分工。
總的來說,這項研究不僅提供了一種將強大的深度神經網絡“翻譯”成可理解的生物物理模型的通用方法,更重要的是,它利用這一工具揭示了聽覺皮層局部群體如何通過共享但稀疏調諧的計算策略,高效編碼復雜的自然聲音,深化了我們對感覺信息處理基本規律的理解。