加速理解譜分析:一種多方法組合來提升神經網絡中的抽象規則學習能力
《Knowledge-Based Systems》:Accelerating Grokking through Spectral Analysis: A Multi-method Approach to Enhancing Abstract Rule Learning in Neural Networks
【字體:
大
中
小
】
時間:2026年03月02日
來源:Knowledge-Based Systems 7.6
編輯推薦:
本文提出基于頻譜分析的加速方法,通過分析Transformer注意力輸出的頻譜特性揭示"groking"機制,在模運算和排列組合任務中顯著減少訓練步數,同時保持高泛化準確率。
黃志高|鄭世巖|潘淼|李全發
中國福建省泉州市泉州師范學院
摘要
我們研究了變壓器注意力輸出的頻譜特性如何與“領悟”(grokking)現象相關,以及這些信息如何被用來加速從記憶到泛化的過渡。我們提出了一個頻譜偏移假設和一個基于任務復雜度的截止值選擇規則(并明確給出了假設),并在模塊算術和排列組合任務上評估了八種頻譜方法變體。實證結果表明,我們最好的層依賴型變體在排列組合任務上的平均驗證準確率達到了約99.97%,同時在相同的15k更新預算下,將達到99%準確率的步驟數減少了約17%。對于更簡單的算術任務,多策略變體將步驟數減少了多達47%。我們還觀察到特定于層的頻率專業化模式,這些模式在訓練過程中提供了可解釋的診斷信號。
引言
當神經網絡在算法任務上進行訓練時,它們通常會表現出一種有趣的學習模式:首先記憶訓練數據,從而獲得完美的訓練準確率,但驗證性能較差,然后突然“領悟”到潛在的規則,從而顯著提高泛化能力。這種現象被稱為“領悟”[1],它引起了廣泛關注,因為它挑戰了人們對泛化的傳統理解[2]、[3]、[4],并提供了關于神經網絡如何發現抽象規則的見解[2]、[5]、[6]。
理解和加速“領悟”現象至關重要,原因有幾點。首先,它為研究深度學習中從記憶到真正理解的過渡提供了一個簡化的實驗室環境[7]、[8]、[9]。其次,它可能為資源受限環境中的更高效訓練提供技術支持[10]、[11]。第三,從“領悟”現象中獲得的見解有助于解釋大規模模型中能力的出現[12]、[13]。然而,盡管有大量的研究,但“領悟”現象仍然理解不足,大多數現有方法提供的機制解釋有限[14]。
以往的研究從不同的角度探討了“領悟”現象:優化動態[2]、[15]、損失函數景觀[3]、[16]、正則化效應[17]、[18]以及架構修改[5]、[19]、[20]。雖然這些方法提供了有價值的見解,但它們主要將“領悟”視為一種涌現現象,而沒有提供預測或加速它的精確機制。值得注意的是,最近的可解釋性研究[2]、[7]開始描述“領悟”過程中的內部表示,但尚未將這些見解轉化為實際的加速方法。
頻譜分析為神經網絡中的表示學習提供了一個有前景的新視角。研究表明,神經網絡首先傾向于學習低頻函數[18]、[21]、[22],基于頻率的方法在各種領域被證明能有效提高泛化能力[23]、[24]、[25]。然而,這些見解尚未被系統地應用于理解和加速“領悟”現象。
我們的工作通過引入一個新的頻譜框架來填補這一空白,該框架既解釋了“領悟”現象,又加速了這一過程。我們分析了訓練過程中變壓器注意力輸出中信息在頻率分量上的分布情況,揭示了頻率特征與泛化能力之間的明確關系。與之前修改損失函數[17]或架構[26]的方法不同,我們的方法直接利用頻譜表示中包含的信息來指導學習過程。
我們的研究有幾個重要貢獻:
•我們為變壓器網絡開發了一個全面的頻譜分析框架,揭示了訓練過程中頻率分布的演變,為理解表示學習提供了新的視角[27]、[28]。
•在對稱群中具有挑戰性的非交換排列組合任務上,我們最好的層依賴型變體在相同的15k更新預算下,達到了接近完美的準確率,并減少了達到99%準確率的步驟數(表2)。
•我們建立了任務復雜度與最佳頻譜配置之間的基本關系,表明復雜任務需要更多的高頻信息(33%的截止值),而簡單任務也從保留足夠的頻率信息而不是過度細化中受益——這一發現與認知科學中的規則學習理論[29]、[30]相吻合。
•我們提供了關于層特化的理論見解,表明不同的網絡層發展出不同的頻率處理方法[31]、[32],早期層在更寬的頻率范圍內使用更高幅度的處理,而更深層次的層則采用更集中的處理方式,并具有不同的截止閾值。
•我們開發了實用的加速技術,將訓練步驟減少了多達47%,同時保持或提高了最終性能,這些技術可以直接應用于資源受限環境中的高效訓練[11]、[33]。
與以往主要關注觀察或解釋“領悟”現象[1]、[2]、[3]的工作不同,我們的方法提供了機制上的理解和實際的加速方法。雖然最近在神經網絡中的頻譜方法主要集中在一般訓練動態[18]、[25]上,但我們的應用針對的是一個具體且具有挑戰性的現象——“領悟”。此外,盡管之前的工作涉及課程學習[34]、[35]和組合泛化[36]、[37]的相關問題,但我們基于頻率的方法提供了關于神經網絡如何學習抽象規則的更根本的視角。
本文的結構如下:第2節回顧了神經網絡中“領悟”現象和頻譜分析的相關工作。第3節提供了關于“領悟”的背景信息,并介紹了我們的頻譜分析方法。第4節詳細描述了我們的八種方法變體。第5節概述了我們的實驗設置和任務。第6節展示了不同任務和方法的結果。第7節討論了理論意義和實際應用。最后,第8節總結了我們的發現并指出了未來的研究方向。
節選
“領悟”現象
“領悟”現象最初由[1]正式描述,他們觀察到在算法任務上訓練的神經網絡會首先記憶訓練樣本,然后在大量訓練后突然泛化。后續研究探討了這一現象的各個方面。[2]研究了優化動態的作用,認為“領悟”代表了從記憶到抽象的過渡。[3]考察了“領悟”過程中的損失函數景觀,并提出了“彈弓效應”。
“領悟”現象
“領悟”指的是一種訓練模式,其中神經網絡首先記憶訓練數據,獲得高訓練準確率,但驗證性能較差,然后突然“領悟”到潛在的規則,從而迅速提高驗證準確率。這種現象在具有明確數學結構的算法任務中尤為明顯,例如模塊算術[1]、[4]或排列操作[7]。
從記憶到泛化的過渡通常發生在
方法
圖1總結了整個訓練時間流程:我們從注意力頭的輸出中提取基于FFT的頻譜特征,并使用它們來計算頭部權重(可選地帶有層依賴參數),這些權重會重新調整下一層使用的注意力輸出。
我們開發了八種方法變體(Run 0-8)來探索和利用頻譜分析來加速“領悟”過程:
任務
我們在四個復雜度逐漸增加的任務上評估了我們的方法:
•x_plus_y:模塊加法
•x_minus_y:模塊減法
x_div_y:5個元素的排列組合這些任務代表了精心設計的數學復雜性譜系。算術運算(加法、減法、除法)是可交換的或遵循可預測的代數模式,問題空間的組合數量為abaaaaa
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號