《Neural Networks》:Advancing the Forward-Forward Algorithm Towards High-Performance Deep Local Learning
編輯推薦:
深度局部學(xué)習(xí)前向前向算法的優(yōu)化與擴(kuò)展研究,提出基于距離度量的前向前向改進(jìn)算法DF,融合N-pair邊距損失和分層協(xié)作更新策略,提升監(jiān)督學(xué)習(xí)性能并降低40%內(nèi)存成本,支持突觸神經(jīng)網(wǎng)絡(luò)高效事件驅(qū)動(dòng)計(jì)算。
徐思源|吳玉潔|吳繼斌|鄧?yán)讄徐明坤|文慶浩|李國奇
中國香港理工大學(xué)計(jì)算機(jī)系
摘要
最近提出了前向-前向(FF)算法作為一種局部學(xué)習(xí)方法,以解決反向傳播(BP)的局限性,提供了一種內(nèi)存效率高且高度可并行化的替代方案。然而,由于缺乏有效的學(xué)習(xí)策略,該算法在許多復(fù)雜任務(wù)中的性能并不理想,泛化能力也較差。在這項(xiàng)工作中,我們利用距離度量學(xué)習(xí)重新設(shè)計(jì)了FF算法,并提出了一種距離前向算法(DF),在保持其局部計(jì)算優(yōu)勢的同時(shí)提高了FF在監(jiān)督學(xué)習(xí)任務(wù)中的性能。為此,我們通過基于質(zhì)心的度量學(xué)習(xí)視角重新解釋了FF算法,并開發(fā)了一種基于優(yōu)度的N對邊際損失函數(shù)來促進(jìn)判別特征的學(xué)習(xí)。此外,我們整合了層間協(xié)作局部更新策略,以減少貪婪的局部參數(shù)更新導(dǎo)致的信息損失。最后,我們通過為時(shí)間脈沖序列開發(fā)有效的優(yōu)度函數(shù),將我們的方法擴(kuò)展到了脈沖神經(jīng)網(wǎng)絡(luò)(SNN)中,從而實(shí)現(xiàn)了在神經(jīng)形態(tài)硬件上的高效事件驅(qū)動(dòng)實(shí)現(xiàn)。我們在八個(gè)數(shù)據(jù)集上的全面評估表明,所提出的方法優(yōu)于現(xiàn)有的FF模型和其他局部學(xué)習(xí)方法。特別是,與BP訓(xùn)練相比,我們的DF方法所需的內(nèi)存成本不到40%,同時(shí)對多種類型的硬件相關(guān)噪聲具有更強(qiáng)的魯棒性。總體而言,所提出的方法提供了一種高效且魯棒的局部學(xué)習(xí)解決方案,這可能為未來的FF算法設(shè)計(jì)提供靈感,并促進(jìn)在多核硬件架構(gòu)上的應(yīng)用。
引言
目前大多數(shù)深度學(xué)習(xí)算法都是使用端到端的方式通過反向傳播(BP)進(jìn)行訓(xùn)練的(Jaiswal等人,2020年;Li等人,2021年;Qi和Su,2017年;Rippel等人,2015年;Sohn,2016年),其中訓(xùn)練損失在頂層計(jì)算,權(quán)重更新基于向下流動(dòng)的梯度得出。這一過程引入了眾所周知的更新鎖定問題,并存在兩個(gè)關(guān)鍵的訓(xùn)練效率問題(Hinton,2022年;Lillicrap等人,2016年)。首先,由于需要存儲每一層的中間激活值以計(jì)算梯度,因此會帶來較高的內(nèi)存成本。其次,由于每一層都依賴于前一層計(jì)算的梯度,訓(xùn)練速度會變慢。這一計(jì)算特性也限制了多核硬件架構(gòu)(如新興的神經(jīng)形態(tài)芯片Orchard等人,2021年;Pei等人,2019年)的并行分布式處理能力,從而阻礙了高效硬件實(shí)現(xiàn)。
相比之下,人類大腦以更高效、局部化的方式執(zhí)行突觸學(xué)習(xí),無需等待其他腦區(qū)的神經(jīng)元完成它們的處理(Magee和Grienberger,2020年;Shen等人,2025年)。認(rèn)識到這種高效的替代方案,Hinton提出了前向-前向(FF)算法(Hinton,2022年),它提供了一種有效的逐層學(xué)習(xí)方法,用兩次前向傳遞替代了傳統(tǒng)的反向傳播。FF展現(xiàn)出許多迷人的計(jì)算特性,從生物學(xué)習(xí)和訓(xùn)練效率的角度都引起了人們的興趣。首先,與生物神經(jīng)系統(tǒng)類似,F(xiàn)F的學(xué)習(xí)過程是局部的,主要基于直接調(diào)整神經(jīng)元活動(dòng)——根據(jù)不同類型的輸入模式增強(qiáng)或減少活動(dòng)。其次,F(xiàn)F不需要完美了解前向傳遞的計(jì)算過程,即使某些網(wǎng)絡(luò)模塊未知,學(xué)習(xí)也可以繼續(xù)進(jìn)行。第三,F(xiàn)F消除了在每個(gè)模塊計(jì)算后存儲中間激活值的必要性,顯著降低了訓(xùn)練期間的內(nèi)存需求。這促進(jìn)了許多深度網(wǎng)絡(luò)架構(gòu)中的模型并行性,從而加快了訓(xùn)練和推理速度。
盡管FF具有吸引人的計(jì)算特性,但在許多復(fù)雜數(shù)據(jù)集上的性能仍然不佳。最近,從不同角度提出了幾種改進(jìn)FF的方法,例如使用組卷積操作(Papachristodoulou等人,2024年),整合可學(xué)習(xí)的嵌入表示來表示標(biāo)簽信息(Dong和Shen,2018年),適應(yīng)邊緣應(yīng)用(Baghersalimi等人,2023年;Pau和Aymone,2023年),或應(yīng)用對比學(xué)習(xí)技術(shù)(Aghagolzadeh和Ezoji,2024年;Ahamed等人,2023年)。然而,它們的性能仍然無法與其他先進(jìn)的局部學(xué)習(xí)方法競爭(Journé等人,2022年;Ma等人,2023年;Wang等人,2020年),并且目前還缺乏對基于FF的方法與BP的實(shí)際計(jì)算優(yōu)勢的全面評估。
在本文中,我們提出了一種距離前向(DF)方法,以改進(jìn)FF在監(jiān)督學(xué)習(xí)任務(wù)中的高性能深度局部學(xué)習(xí)。通過將FF重新定義在距離度量空間框架內(nèi),我們?yōu)镕F提供了透明的幾何解釋,有助于理解其計(jì)算原理并指導(dǎo)模型設(shè)計(jì)。基于這一定義,我們引入了DF方法,該方法采用基于優(yōu)度的N對邊際損失函數(shù)(包括正則化項(xiàng)的完整公式見方程(7))來促進(jìn)判別特征的學(xué)習(xí)。我們進(jìn)一步結(jié)合了層間協(xié)作策略,以平衡任務(wù)準(zhǔn)確性和計(jì)算效率。DF方法靈活支持脈沖神經(jīng)網(wǎng)絡(luò)和非脈沖神經(jīng)網(wǎng)絡(luò)模型。我們在八個(gè)數(shù)據(jù)集上的評估表明,DF的性能優(yōu)于現(xiàn)有的基于FF的方法,對多種硬件相關(guān)噪聲具有很強(qiáng)的魯棒性,并保留了相對于BP方法的局部計(jì)算優(yōu)勢。
相關(guān)研究
對比損失和距離度量學(xué)習(xí)。 距離度量學(xué)習(xí)(或簡稱度量學(xué)習(xí))構(gòu)建了特定于任務(wù)的距離空間,使得同一類別的數(shù)據(jù)樣本在度量空間中彼此接近,而不同類別的數(shù)據(jù)樣本則相距較遠(yuǎn)。設(shè)計(jì)合適的對比損失(CL)對于度量學(xué)習(xí)至關(guān)重要。基于這一框架,三元組損失(Dong和Shen,2018年)通過評估
方法
在本節(jié)中,我們介紹了DF方法,該方法通過利用距離度量學(xué)習(xí)原理來增強(qiáng)FF算法的性能,同時(shí)保持局部計(jì)算特性。與直接操作絕對度量距離的FF(圖1B)不同,DF結(jié)合了相對距離和絕對距離,并挖掘多個(gè)正負(fù)樣本之間的距離分布,以促進(jìn)判別特征的學(xué)習(xí)(圖1D)。
結(jié)果
在本節(jié)中,我們?nèi)嬖u估了所提出的DF方法的性能,包括它們學(xué)習(xí)有效層次化特征表示的能力、超參數(shù)對準(zhǔn)確性的影響、對具有稀疏事件驅(qū)動(dòng)計(jì)算的高效脈沖模型的支持,以及與BP方法相比的計(jì)算效率和魯棒性。我們在八個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),將我們的方法與端到端的BP學(xué)習(xí)、基于FF的變體進(jìn)行了比較
討論與結(jié)論
我們提出了DF方法,這是一種改進(jìn)的FF方法,用于推進(jìn)監(jiān)督學(xué)習(xí)任務(wù)的高性能深度局部學(xué)習(xí)。DF整合了數(shù)據(jù)挖掘技術(shù)和層間協(xié)作梯度更新策略,旨在提取判別特征,同時(shí)保留局部學(xué)習(xí)的計(jì)算優(yōu)勢。我們的廣泛實(shí)驗(yàn)確認(rèn),DF可以增強(qiáng)基于FF的方法,達(dá)到與其他近期局部學(xué)習(xí)方法相當(dāng)?shù)慕Y(jié)果。此外,我們還展示了DF可以
CRediT作者貢獻(xiàn)聲明
徐思源:概念化。吳玉潔:撰寫——原始草稿、形式分析、數(shù)據(jù)整理。吳繼斌:撰寫——審閱與編輯、方法論。鄧?yán)祝?/strong>撰寫——審閱與編輯。徐明坤:方法論。文慶浩:撰寫——審閱與編輯。李國奇:撰寫——審閱與編輯、監(jiān)督、概念化。
利益沖突聲明
作者聲明他們沒有已知的財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文報(bào)告的工作。
致謝
本工作部分得到了香港理工大學(xué)在2025/26年度資助的Project P0058180、PP0055934和PolyU15217625項(xiàng)目以及北京中國腦研究所的支持。