近年來,智能計算工作負載(如大規(guī)模機器學(xué)習(xí)、數(shù)據(jù)分析和實時推理)的普及,使得數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)中的嵌入式事件變得越來越頻繁和龐大。特別是在分布式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)或其他大型模型時,工作節(jié)點必須定期交換梯度更新和參數(shù)快照[1]。這一過程將流量集中在少數(shù)參數(shù)服務(wù)器或聚合點上,產(chǎn)生大量的同步N對1突發(fā)流。這種集中的流量模式給基于RoCEv2的RDMA基礎(chǔ)設(shè)施帶來了巨大壓力,導(dǎo)致?lián)砣蛿?shù)據(jù)包丟失迅速加劇。由于RoCEv2在網(wǎng)絡(luò)層不支持流級連接,任何數(shù)據(jù)包丟失都會立即觸發(fā)昂貴的端到端重傳,從而大幅降低有效吞吐量并增加延遲[2]。
為了在這些不利條件下實現(xiàn)真正的無損傳輸,RoCEv2通常依賴兩種機制:顯式擁塞通知(ECN),它提供端到端的擁塞信號;以及優(yōu)先級流控制(PFC),它通過在鏈路層暫停特定流量類別來防止數(shù)據(jù)包丟失。當(dāng)ECN和PFC協(xié)同工作時,可以緩解瞬態(tài)和持續(xù)的擁塞,即使在突然出現(xiàn)的大規(guī)模嵌入式流量情況下也能確保高性能的無損通信[3]。
然而,傳統(tǒng)的具有靜態(tài)閾值的ECN機制在現(xiàn)代高度動態(tài)的數(shù)據(jù)中心環(huán)境中無法同時實現(xiàn)低延遲和高吞吐量[4]。為了解決這一限制,研究人員提出了自適應(yīng)方法,包括人工智能ECN(AI ECN)算法,如ACC [5]和QueuePilot [6],這些算法可以動態(tài)調(diào)整閾值以適應(yīng)流量模式。盡管如此,這些解決方案往往忽略了ECN和PFC之間的關(guān)鍵交互作用,而這仍然是防止過度暫停事件和確保穩(wěn)定性能的關(guān)鍵挑戰(zhàn)。特別是,ECN對突然的嵌入式流量爆發(fā)反應(yīng)往往過于遲緩,無法及時緩解擁塞[7]。這導(dǎo)致PFC頻繁激活、鏈路暫停過多,甚至在極端情況下導(dǎo)致網(wǎng)絡(luò)死鎖[10]。
如圖1所示,在N對1場景中,如果出口端的ECN閾值高于所有上游PFC閾值之和,上游隊列將在ECN標(biāo)記之前觸發(fā)PFC暫停幀。為了確保適當(dāng)?shù)目刂菩袨椋肟诙说目侾FC暫停閾值必須高于出口端的ECN閾值,以便在暫停之前對流量進行限制。然而,商業(yè)交換機通常在隊列占用率達到剩余緩沖區(qū)的固定比例11.11%時觸發(fā)PFC [8],[9]。這種靜態(tài)配置沒有考慮實際的流量強度或適應(yīng)變化的ECN閾值,因此無法有效處理大規(guī)模突發(fā)流量。一方面,過于保守的閾值可能會觸發(fā)過早的PFC暫停幀,導(dǎo)致緩沖區(qū)利用率低下、鏈路容量浪費和流量停滯;另一方面,過于激進的PFC激活可能會引起頭部阻塞,將擁塞傳播到上游節(jié)點,在極端情況下導(dǎo)致網(wǎng)絡(luò)死鎖[10]。
這些限制凸顯了需要一個統(tǒng)一且自適應(yīng)的擁塞控制框架,能夠?qū)崟r動態(tài)協(xié)調(diào)ECN和PFC的行為。為此,我們提出了DSCC,這是一種結(jié)合了PFC-ECN約束意識的動態(tài)協(xié)同擁塞控制算法。DSCC在聯(lián)合調(diào)整下維持了兩個閾值之間的必要關(guān)系,以確保有效的流量控制。
設(shè)計這樣的算法涉及幾個關(guān)鍵挑戰(zhàn):
(1) 暫停調(diào)整:如何準(zhǔn)確感知并適應(yīng)不同嵌入式流量程度下的PFC暫停幀的實時增長率,在長時間高強度事件期間控制更極端的突發(fā)流量,并在短暫的高頻率激增期間確保超快的PFC觸發(fā)。
(2) 緩沖區(qū)平衡:如何在調(diào)整雙重ECN和PFC閾值的同時保持適當(dāng)?shù)木彌_區(qū)間隙,同時避免出口隊列中的數(shù)據(jù)包丟失。
(3) 調(diào)整穩(wěn)定性:如何微調(diào)PFC閾值變化的頻率,以防止由于過度反應(yīng)導(dǎo)致的鏈路波動,同時又不會過于緩慢地跟蹤網(wǎng)絡(luò)動態(tài)。
為了解決這些挑戰(zhàn),我們提出了基于深度強化學(xué)習(xí)的動態(tài)協(xié)調(diào)算法DSCC。DSCC采用深度Q學(xué)習(xí)模型來聯(lián)合優(yōu)化PFC和ECN閾值。通過持續(xù)監(jiān)控流量特性,DSCC為長壽命、高吞吐量的流量應(yīng)用高ECN閾值,為短時、對延遲敏感的流量應(yīng)用低ECN閾值,從而在延遲和帶寬利用率之間取得平衡。同時,DSCC通過觀察ECN觸發(fā)模式和估計每個交換機端口的并發(fā)發(fā)送者和接收者數(shù)量來調(diào)整PFC閾值。然后根據(jù)隊列趨勢自適應(yīng)地調(diào)整PFC增長率,并調(diào)節(jié)閾值更新頻率,以防止鏈路不穩(wěn)定。此外,DSCC執(zhí)行PFC-ECN協(xié)調(diào)約束,以保持安全的緩沖區(qū)間隙并防止出口端口的數(shù)據(jù)包丟失。
本文的主要貢獻如下:
•我們分析了現(xiàn)有PFC調(diào)整策略的局限性,如靜態(tài)閾值、粗粒度調(diào)整、收斂速度慢等問題,并引入了一種新的、由AI輔助的動態(tài)PFC調(diào)整機制,該機制能夠在亞RTT時間尺度上并針對每個流量進行閾值調(diào)整。
•我們設(shè)計并實現(xiàn)了DSCC,這是一種協(xié)調(diào)的擁塞控制框架,它可以實時聯(lián)合調(diào)整PFC暫停閾值和ECN標(biāo)記參數(shù),利用機器學(xué)習(xí)模型預(yù)測即將發(fā)生的擁塞并優(yōu)化現(xiàn)代數(shù)據(jù)中心拓撲中的緩沖區(qū)利用率。
•我們通過ns-3仿真評估了DSCC。結(jié)果表明,在以嵌入式流量為主的場景下,與現(xiàn)有的AI ECN方案相比,DSCC將流量完成時間(FCT)減少了多達19.2%。