作為分布式協作范式,聯邦學習(FL)能夠在不暴露原始數據的情況下實現多源知識共享,有效平衡了邊緣協作與分布式設備之間的隱私安全之間的權衡[1]、[2]、[3]。因此,FL在智能醫療[4]、[5]、智能交通[6]、[7]和城市感知系統[8]、[9]等眾多領域具有巨大的應用潛力。在典型方法[10]中,中央服務器通過平均邊緣設備上部署的客戶端模型來迭代構建全局模型,然后將其重新分配用于下一輪的局部訓練,試圖收斂出一個適用于所有客戶端的高性能全局模型。然而,由于現實世界場景中的數據異質性持續存在,這種方法會導致局部和全局優化方向之間的不一致[11],從而降低FL模型的性能,甚至可能阻礙收斂[12]。
為了解決數據異質性問題,許多方法嘗試通過利用全局知識[12]、[13]、[14]、[15]來強制局部優化方向與全局目標的對齊,或者通過個性化定制[16]、[17]、[18]、[19]來增強局部優化。然而,這些方法存在三個關鍵限制:1) 單域假設。它們主要假設客戶端數據來自單一的 homogeneous 域,忽略了多域場景中的域遷移挑戰[20]——例如素描和油畫之間的風格差異,或者沙漠與雨城道路圖像之間的天氣相關偏差。2) 天真的全局知識。它們依賴于簡單的全局知識融合策略(例如模型參數或梯度的線性組合[12]、[18]),這些策略無法準確描述復雜的跨域分布差異,并建立明確的語義優化目標。3) 弱一致性約束。它們缺乏強大的全局一致性約束機制。具體來說,它們在局部訓練階段對全局知識的利用效率低下,例如L2正則化項[15]、[16]所示。
在這三個限制下,大多數現有方法無法獲得與域無關的全局目標,并有效地約束局部訓練以與其對齊,導致客戶端模型優先適應局部數據分布。這表現為圖1中的跨域特征空間不對齊、決策邊界模糊,以及最終的嚴重跨域性能下降。因此,現有方法難以同時提升客戶端模型的局部性能和跨域泛化能力,從而嚴重削弱了FL服務的實際效用和質量。例如,當客戶端遇到分布外的數據時,泛化能力差的模型無法維持穩定的推理質量。因此,設計復雜的全局知識表示方法并結合高效的局部優化機制來共同提升客戶端模型的局部適應性和跨域泛化能力已成為一個關鍵挑戰。
為了豐富全局知識的表達,我們考慮使用原型[15]、[21]作為額外的信息載體。原型定義為同一類別內樣本的平均特征向量,它們編碼了緊湊且具有區分性的類別級參考知識,同時與傳輸完整模型參數相比,通信開銷可以忽略不計。傳統的基于原型的方法(如FedProto[15])通過用客戶端原型平均值聚合的全局原型來減少通信成本。然而,這種平均操作降低了特定于域的知識多樣性。為了解決這個問題,FPL[20]構建了類別級簇原型以捕捉更豐富的域差異。同時,在FPL中使用無偏原型(簇原型的平均值)作為全局目標信號。然而,這些方法存在潛在的缺點:客戶端原型不可避免地將標簽語義與域風格信息混合在一起,導致全局原型相互糾纏,干擾了客戶端學習與域無關的語義特征的能力。
此外,原型的輕量級本質意味著客戶端知識的不完整性。由于它僅依賴原型進行全局知識傳輸,并且僅使用與類別匹配的全局原型來制定正則化約束,FedProto無法有效地指導客戶端學習在域和客戶端之間保持不變的與任務相關的特征。這表現為無法為來自不同客戶端的相同標簽樣本在特征空間中形成統一簇的現象(見第4.3節的圖4和[15]中的圖2)。這一現象表明,客戶端模型由于局部過擬合而陷入了明顯的歸納偏差,這表明需要嚴格校準模型參數共享,并充分利用原型的指導潛力。因此,為了對客戶端施加強一致性約束并提升客戶端模型的泛化能力,我們考慮在構建高效局部優化機制的同時保留模型協作,通過結合對比學習[22]來實現。
為了解決聯邦學習中由于域遷移導致的客戶端模型跨域性能下降的問題,我們提出了一種基于對比特征解耦(FedCode)的聯邦學習框架。該框架通過雙重原型學習(DPL)獲取更細粒度的全局知識,然后通過對比特征解耦(CFD)充分利用這些知識來進行與風格無關的語義特征學習,從而同時提升客戶端模型的局部性能和跨域泛化能力。
首先,在DPL中,每個客戶端使用風格感知編碼器和通用語義編碼器分別提取獨立的特定于域的風格特征和跨域不變的語義特征。此外,在服務器端,通過客戶端風格原型聚類生成全局域風格原型,而全局語義原型則是通過平均客戶端語義原型形成的。全局域風格原型捕獲了豐富的域知識,而全局語義原型建立了全局語義收斂目標。
其次,在CFD中,我們在客戶端引入了語義對比學習(SemCL)和風格對比學習(StyCL)。SemCL強制相同標簽樣本的特征對齊,同時區分不同標簽樣本的特征,從而建立全局一致的語義空間。同樣,StyCL使同一域的風格特征趨于統一,同時區分不同域的特征。此外,SemCL和StyCL還強制樣本的風格特征和語義特征之間的分離。同時,我們結合了特征解耦正則化(FDR),通過加強風格特征和語義特征之間的正交性來促進解耦,從而防止風格信息干擾語義特征學習。
最后,DPL和CFD的協同效應使FedCode能夠學習用于下游任務的跨域不變語義特征。本文的主要貢獻如下:
•我們提出了DPL,一種聯邦雙重原型學習策略。DPL通過差異化的聚合構建全局域風格和語義原型,提供豐富的域知識和與域無關的語義目標。
•我們提出了CFD,一種對比特征解耦優化機制。CFD通過特征對齊和解耦鼓勵學習純化的與風格無關的語義特征,從而提高客戶端模型的泛化能力和局部語義區分能力。
•在Digit5 [23]、PACS [24]和OfficeHome [25]上的廣泛實驗表明,FedCode在局部適應性和跨域泛化能力方面都表現出色。例如,在PACS上,FedCode的準確率提高了7.52%,同時跨域性能下降幅度減少了5.02%。
本文的其余部分組織如下:第2節回顧了最相關的工作。第3節詳細介紹了提出的FedCode框架。第4節通過一系列實驗和分析驗證了FedCode的有效性。第5節討論了限制和未來的工作。最后,第6節總結了本文。