Per-FedDMA:一種基于深度多采樣和超網絡動態適應的個性化聯邦學習方法
《Computer Communications》:Per-FedDMA: A personalized federated learning method based on deep multisampling and hypernetwork dynamic adaptation
【字體:
大
中
小
】
時間:2026年03月01日
來源:Computer Communications 4.3
編輯推薦:
本文提出基于深度多采樣與超網絡動態適應的個性化聯邦學習方法Per-FedDMA,通過超網絡動態生成Transformer的自注意力層參數以適應客戶端數據異質性,結合多路徑多尺度特征提取機制增強低層細節捕捉能力,并采用自適應優化策略提升通信效率,實驗表明在非獨立同分布場景下較基線方法通信效率提升顯著且模型性能優化。
劉偉|王英|王斌|蔡光軍|佘偉|趙天
鄭州大學網絡科學與工程學院,中國鄭州,450000
摘要
聯邦學習為安全的數據交換和協作計算提供了一種新的范式。然而,它仍然面臨數據異質性和客戶端漂移等關鍵挑戰。雖然將超網絡或Transformer架構集成到聯邦學習中可以解決數據異質性問題并提高模型的泛化能力,但通信效率低和無法充分捕捉細粒度細節等問題仍未得到解決。為了解決這些限制,我們提出了一種基于深度多采樣和超網絡動態適應的個性化聯邦學習方法(Per-FedDMA),旨在在異構場景中平衡聯邦學習的通用性和個性化能力。首先,引入超網絡來生成Transformer架構的權重參數,以動態適應不同客戶端的數據分布。其次,設計深度多采樣算法(DMA),通過多路徑和多尺度特征提取機制融合局部和全局信息,從而在不同感官領域提取豐富的圖像特征,并增強捕捉圖像低級細節的能力。此外,Per-FedDMA采用自適應優化策略來加速模型收斂,同時提高通信效率。這種方法提高了聯邦學習在異構環境中的魯棒性和泛化能力。實驗結果表明,與基線方法相比,Per-FedDMA在兩個基準數據集上分別提高了1.63%和8.80%,并在通信效率方面取得了突破。
引言
在大數據時代,傳統的機器學習方法通常依賴于集中式的數據存儲和訓練,這在大規模分布式應用場景中存在顯著的限制。由于隱私要求,數據不僅直接共享,還存儲在多個參與者之間。此外,集中式數據處理模型面臨高通信開銷、單點故障風險高和隱私泄露等問題。為了解決這些挑戰,聯邦學習(FL)[1]作為一種有前景的分布式機器學習范式應運而生。它允許多個參與者通過共享模型參數來協作訓練全局模型,而不影響數據隱私,實現了“數據不動,模型動”的目標[2]。聯邦學習為突破傳統機器學習的限制提供了創新解決方案,并在交通[3]、醫療保健和衛星-地面集成網絡等多個領域展示了廣泛的應用前景。一項研究[4]提出了一種基于模糊集成的聯邦學習框架,以解決腦電圖情感識別中的特征提取、分類準確性和數據隱私問題。Jiang等人[5]引入了一種分割后再進行聯邦學習的框架以及結合長短期記憶的聯邦分割學習,通過實際電力負荷數據驗證了其在衛星-地面集成網絡(STINs)中平衡隱私和通信效率的能力。
盡管聯邦學習在數據隱私保護和模型優化方面具有顯著優勢,但它仍然面臨一個根本性挑戰:數據異質性。在實際應用場景中,不同參與者收集的數據在大小、分布和特征上存在顯著差異,即客戶端之間的非獨立同分布(Non-IID)現象。數據異質性導致全局模型在某些客戶端上的性能顯著下降,限制了模型的泛化能力和知識轉移能力。因此,構建一個能夠適應每個客戶端本地數據分布的個性化模型成為關鍵研究方向,即個性化聯邦學習(PFL)[6]。PFL旨在通過結合本地數據特征和全局模型信息來平衡模型的個性化和泛化能力,從而提高聯邦學習的實用性和魯棒性。PFL的實現通常依賴于各種技術,如元學習、GANs[7]、Transformer和超網絡。Hospedales等人[8]定義了元學習,并提出將其與聯邦學習結合以實現個性化聯邦學習。Liu等人[9]結合了聯邦學習和元學習,提出了FedMeta框架、基于MAML的FedMeta和協作FedMeta等算法,實現了分布式環境中的快速任務適應和隱私保護。許多學者深入研究了超網絡技術和聯邦學習的結合,以解決某些領域的實際問題[10][11][12][13]。超網絡是一種生成其他網絡的神經網絡,通常用于動態生成模型權重或結構。作為將超網絡與聯邦學習結合用于個性化聯邦學習的第一個方法,pFedHN[14]訓練了一個超網絡,其參數存儲在服務器上。該超網絡為每個客戶端的本地CNN架構生成個性化權重,增強了模型的魯棒性。這種交互的通信成本僅與目標模型相關。對于新客戶端,只需優化嵌入向量即可實現快速適應。這種方法不僅提高了通信效率,還增強了泛化能力。
盡管上述方案可以解決數據異質性問題,但大多數方法基于CNN模型架構,雖然具有強大的局部建模能力,但在處理全局上下文信息方面存在局限性。Transformer是一種基于自注意力機制的深度學習架構,通過并行計算捕獲長距離依賴關系。它在自然語言處理(NLP)和計算機視覺(CV)等領域得到了廣泛應用。由于其強大的自注意力機制和全局建模能力,Transformer在聯邦學習中顯示出顯著優勢[15]。Qu等人[16]成功將Transformer與FedAvg[1]結合,后續研究[17]通過實驗表明,在數據異質性存在的情況下,FedAvg會對自注意力機制產生負面影響。在此基礎上,該算法[17]將Transformer架構與超網絡結合,保留了全局個性化建模能力,同時提高了模型泛化和通信效率。然而,Chen等人[18]指出,Transformer在所有層都關注全局上下文建模,導致無法充分捕捉圖像的低級細節。因此,迫切需要一種能夠全面捕捉全局上下文信息和圖像低級細節的個性化聯邦學習方法,以實現個性化建模,同時保持強大的泛化能力和提高通信效率。
為了解決上述問題,我們提出了一種基于深度多采樣算法和超網絡動態適應的個性化聯邦學習方法(Per-FedDMA)。其核心在于三個階段的協同機制:“超網絡參數生成、多尺度特征提取、自適應優化”。首先,通過超網絡為每個客戶端動態生成獨特的自注意力層參數,使Transformer架構能夠適應不同客戶端的數據分布特征。其次,DMA算法通過采樣和融合客戶端本地數據的多路徑和多尺度特征生成穩健的特征表示,從而降低模型對數據分布的敏感性并增強其捕捉低級細節的能力。最后,DMA通過優化采樣策略和特征融合機制有效降低了計算和通信開銷,提高了資源受限環境中的模型運行效率。通過結合Transformer的自注意力機制和DMA的穩健特征提取能力,我們的方法在非獨立同分布場景中進一步提高了模型的性能和效率,同時實現了個性化建模。在表1中,我們列出了現有方法的局限性以及Per-FedDMA如何解決這些問題。本文的主要貢獻如下。
- •
我們提出了一種個性化聯邦學習方法(Per-FedDMA),該方法使用超網絡為每個客戶端生成獨特的Transformer架構的自注意力層參數,實現動態適應不同客戶端的數據分布。
- •
我們提出了一種深度多采樣算法(DMA),該算法采用并行多路徑采樣策略,同時提取多個感官領域的局部細節特征和全局上下文信息,顯著提高了模型捕捉圖像低級細節的能力。此外,DMA結合了自適應優化策略,加速模型收斂的同時提高通信效率。
- •
我們在兩個非獨立同分布數據集上進行了廣泛實驗,實驗結果表明,與基線算法相比,Per-FedDMA在時間效率和圖像任務準確性方面取得了突破。
本文的其余部分組織如下。第2節描述了相關工作。第3節介紹了框架和算法。第4節展示了實驗結果和分析。最后,第5節總結了主要貢獻和未來工作。
章節片段
相關工作
在本節中,我們回顧了Transformer和超網絡在聯邦學習中的應用,并總結了之前的研究。
方法論
本節定義了問題,闡述了本文提出的個性化聯邦學習框架,并分析了核心算法的細節。同時進行了簡單的收斂性和計算復雜性分析。
實驗設置
在本節中,我們重點介紹了用于比較的基準測試方法、應用的非獨立同分布(Non-IID)設置和模型架構,同時詳細闡述了實驗實現的某些細節。
結論
在本文中,我們提出了一種個性化聯邦學習方法,以解決聯邦學習中的數據異質性和客戶端漂移問題。同時,它克服了現有方法在通信效率低和無法充分捕捉低級細節方面的局限性。我們引入了超網絡來生成特定于客戶端的Transformer架構的自注意力層參數,以實現更好的個性化協作。
CRediT作者貢獻聲明
劉偉:監督、資源管理、項目管理、方法論、資金獲取、概念化。王英:寫作 – 審稿與編輯、撰寫 – 原稿、可視化、驗證、軟件、方法論、調查。王斌:寫作 – 審稿與編輯、監督、調查。蔡光軍:調查、數據管理。佘偉:調查、數據管理。趙天:監督、形式分析、概念化。
致謝
本研究由河南省科學技術研究項目(項目編號:252102210185)資助
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號