亚洲最大成人综合网,色99999,91丨人妻丨国产丨丝袜

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

DSCC：用于無損RDMA數(shù)據(jù)中心網(wǎng)絡(luò)的動態(tài)協(xié)同擁塞控制

《Computer Networks》：DSCC: Dynamic Synergistic Congestion Control for Lossless RDMA Datacenter Networks

【字體：大中小】 時間：2026年03月02日 來源：Computer Networks 4.6

編輯推薦：

　　針對大規(guī)模AI訓(xùn)練任務(wù)中RDMA網(wǎng)絡(luò)頻繁PFC暫停的問題，本文提出動態(tài)協(xié)同擁塞控制算法DSCC，通過調(diào)整PFC閾值與ECN協(xié)同優(yōu)化，減少暫停頻率并提升緩沖區(qū)利用率，仿真顯示FCT降低19.2%。

中國北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室

摘要

人工智能訓(xùn)練任務(wù)產(chǎn)生的大規(guī)模嵌入式流量對RDMA網(wǎng)絡(luò)構(gòu)成了重大挑戰(zhàn)。現(xiàn)有的擁塞控制機制，如人工智能ECN（AI ECN）和固定閾值優(yōu)先級流控制（PFC），在緩解由于ECN反饋延遲導(dǎo)致的頻繁PFC暫停方面往往效果不佳。商業(yè)交換機中靜態(tài)的PFC觸發(fā)機制進一步加劇了這一問題，即當(dāng)隊列長度達到剩余緩沖區(qū)的固定比例（通常為11.11%）時，就會觸發(fā)暫停幀。這導(dǎo)致了傳輸過早停止和緩沖區(qū)利用效率低下。為了解決這些限制，本文提出了一種動態(tài)且協(xié)同的擁塞控制算法DSCC，它結(jié)合了PFC和ECN。在AI ECN框架的基礎(chǔ)上，DSCC根據(jù)嵌入式流量的程度調(diào)整PFC閾值，同時遵守PFC和ECN的閾值約束。它根據(jù)交換機當(dāng)前的擁塞水平動態(tài)調(diào)整PFC的增長率和觸發(fā)閾值。通過自適應(yīng)地提高PFC閾值，DSCC減少了PFC引起的暫停頻率，并提高了緩沖區(qū)和帶寬的利用率。ns-3仿真結(jié)果表明，在嵌入式流量場景下，與AI ECN相比，DSCC的流量完成時間（FCT）最多可減少19.2%。

引言

近年來，智能計算工作負載（如大規(guī)模機器學(xué)習(xí)、數(shù)據(jù)分析和實時推理）的普及，使得數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）中的嵌入式事件變得越來越頻繁和龐大。特別是在分布式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)或其他大型模型時，工作節(jié)點必須定期交換梯度更新和參數(shù)快照[1]。這一過程將流量集中在少數(shù)參數(shù)服務(wù)器或聚合點上，產(chǎn)生大量的同步N對1突發(fā)流。這種集中的流量模式給基于RoCEv2的RDMA基礎(chǔ)設(shè)施帶來了巨大壓力，導(dǎo)致?lián)砣蛿?shù)據(jù)包丟失迅速加劇。由于RoCEv2在網(wǎng)絡(luò)層不支持流級連接，任何數(shù)據(jù)包丟失都會立即觸發(fā)昂貴的端到端重傳，從而大幅降低有效吞吐量并增加延遲[2]。

為了在這些不利條件下實現(xiàn)真正的無損傳輸，RoCEv2通常依賴兩種機制：顯式擁塞通知（ECN），它提供端到端的擁塞信號；以及優(yōu)先級流控制（PFC），它通過在鏈路層暫停特定流量類別來防止數(shù)據(jù)包丟失。當(dāng)ECN和PFC協(xié)同工作時，可以緩解瞬態(tài)和持續(xù)的擁塞，即使在突然出現(xiàn)的大規(guī)模嵌入式流量情況下也能確保高性能的無損通信[3]。

然而，傳統(tǒng)的具有靜態(tài)閾值的ECN機制在現(xiàn)代高度動態(tài)的數(shù)據(jù)中心環(huán)境中無法同時實現(xiàn)低延遲和高吞吐量[4]。為了解決這一限制，研究人員提出了自適應(yīng)方法，包括人工智能ECN（AI ECN）算法，如ACC [5]和QueuePilot [6]，這些算法可以動態(tài)調(diào)整閾值以適應(yīng)流量模式。盡管如此，這些解決方案往往忽略了ECN和PFC之間的關(guān)鍵交互作用，而這仍然是防止過度暫停事件和確保穩(wěn)定性能的關(guān)鍵挑戰(zhàn)。特別是，ECN對突然的嵌入式流量爆發(fā)反應(yīng)往往過于遲緩，無法及時緩解擁塞[7]。這導(dǎo)致PFC頻繁激活、鏈路暫停過多，甚至在極端情況下導(dǎo)致網(wǎng)絡(luò)死鎖[10]。

如圖1所示，在N對1場景中，如果出口端的ECN閾值高于所有上游PFC閾值之和，上游隊列將在ECN標(biāo)記之前觸發(fā)PFC暫停幀。為了確保適當(dāng)?shù)目刂菩袨椋肟诙说目侾FC暫停閾值必須高于出口端的ECN閾值，以便在暫停之前對流量進行限制。然而，商業(yè)交換機通常在隊列占用率達到剩余緩沖區(qū)的固定比例11.11%時觸發(fā)PFC [8]，[9]。這種靜態(tài)配置沒有考慮實際的流量強度或適應(yīng)變化的ECN閾值，因此無法有效處理大規(guī)模突發(fā)流量。一方面，過于保守的閾值可能會觸發(fā)過早的PFC暫停幀，導(dǎo)致緩沖區(qū)利用率低下、鏈路容量浪費和流量停滯；另一方面，過于激進的PFC激活可能會引起頭部阻塞，將擁塞傳播到上游節(jié)點，在極端情況下導(dǎo)致網(wǎng)絡(luò)死鎖[10]。

這些限制凸顯了需要一個統(tǒng)一且自適應(yīng)的擁塞控制框架，能夠?qū)崟r動態(tài)協(xié)調(diào)ECN和PFC的行為。為此，我們提出了DSCC，這是一種結(jié)合了PFC-ECN約束意識的動態(tài)協(xié)同擁塞控制算法。DSCC在聯(lián)合調(diào)整下維持了兩個閾值之間的必要關(guān)系，以確保有效的流量控制。

設(shè)計這樣的算法涉及幾個關(guān)鍵挑戰(zhàn)：

(1) 暫停調(diào)整：如何準(zhǔn)確感知并適應(yīng)不同嵌入式流量程度下的PFC暫停幀的實時增長率，在長時間高強度事件期間控制更極端的突發(fā)流量，并在短暫的高頻率激增期間確保超快的PFC觸發(fā)。

(2) 緩沖區(qū)平衡：如何在調(diào)整雙重ECN和PFC閾值的同時保持適當(dāng)?shù)木彌_區(qū)間隙，同時避免出口隊列中的數(shù)據(jù)包丟失。

(3) 調(diào)整穩(wěn)定性：如何微調(diào)PFC閾值變化的頻率，以防止由于過度反應(yīng)導(dǎo)致的鏈路波動，同時又不會過于緩慢地跟蹤網(wǎng)絡(luò)動態(tài)。

為了解決這些挑戰(zhàn)，我們提出了基于深度強化學(xué)習(xí)的動態(tài)協(xié)調(diào)算法DSCC。DSCC采用深度Q學(xué)習(xí)模型來聯(lián)合優(yōu)化PFC和ECN閾值。通過持續(xù)監(jiān)控流量特性，DSCC為長壽命、高吞吐量的流量應(yīng)用高ECN閾值，為短時、對延遲敏感的流量應(yīng)用低ECN閾值，從而在延遲和帶寬利用率之間取得平衡。同時，DSCC通過觀察ECN觸發(fā)模式和估計每個交換機端口的并發(fā)發(fā)送者和接收者數(shù)量來調(diào)整PFC閾值。然后根據(jù)隊列趨勢自適應(yīng)地調(diào)整PFC增長率，并調(diào)節(jié)閾值更新頻率，以防止鏈路不穩(wěn)定。此外，DSCC執(zhí)行PFC-ECN協(xié)調(diào)約束，以保持安全的緩沖區(qū)間隙并防止出口端口的數(shù)據(jù)包丟失。

本文的主要貢獻如下：

•

我們分析了現(xiàn)有PFC調(diào)整策略的局限性，如靜態(tài)閾值、粗粒度調(diào)整、收斂速度慢等問題，并引入了一種新的、由AI輔助的動態(tài)PFC調(diào)整機制，該機制能夠在亞RTT時間尺度上并針對每個流量進行閾值調(diào)整。

•

我們設(shè)計并實現(xiàn)了DSCC，這是一種協(xié)調(diào)的擁塞控制框架，它可以實時聯(lián)合調(diào)整PFC暫停閾值和ECN標(biāo)記參數(shù)，利用機器學(xué)習(xí)模型預(yù)測即將發(fā)生的擁塞并優(yōu)化現(xiàn)代數(shù)據(jù)中心拓撲中的緩沖區(qū)利用率。

•

我們通過ns-3仿真評估了DSCC。結(jié)果表明，在以嵌入式流量為主的場景下，與現(xiàn)有的AI ECN方案相比，DSCC將流量完成時間（FCT）減少了多達19.2%。

背景

遠程直接內(nèi)存訪問（RDMA）。傳統(tǒng)的數(shù)據(jù)中心通常依賴TCP/IP協(xié)議棧進行數(shù)據(jù)傳輸。然而，TCP/IP引入了高延遲和顯著的CPU開銷，使其不適合高性能計算應(yīng)用。RDMA通過允許端點之間直接進行內(nèi)存訪問而無需內(nèi)核參與，從而確保了高吞吐量、最小延遲和高效的CPU利用率[15]。

設(shè)計概述

在現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)中，流量模式通常表現(xiàn)出不同的流入-流出比率，尤其是在多對一（N:1）場景中。傳統(tǒng)的擁塞控制方法使用單目標(biāo)學(xué)習(xí)調(diào)整ECN閾值，并在固定緩沖區(qū)占用比率時觸發(fā)PFC，無法捕捉ECN和PFC的耦合動態(tài)，導(dǎo)致緩沖區(qū)利用率低下和資源浪費[27]。為了解決這些限制并確保敏捷、協(xié)調(diào)的控制，我們提出了DSCC：一種基于DRL的算法

算法設(shè)計

在本節(jié)中，我們介紹了DSCC的總體設(shè)計，重點是其基于DRL的決策過程。我們首先概述了算法的工作流程，包括代理如何觀察網(wǎng)絡(luò)狀態(tài)、選擇動作以及接收獎勵。然后詳細描述了每個組件，涵蓋了狀態(tài)空間、動作空間、獎勵設(shè)計和約束懲罰。

實現(xiàn)

在本節(jié)中，我們介紹了DSCC的完整實現(xiàn)，該實現(xiàn)通過緊密結(jié)合ns-3網(wǎng)絡(luò)模擬器[29]和基于Python的深度Q學(xué)習(xí)（DQL）代理（通過ns3-au框架[30]）來實現(xiàn)。這種混合仿真方法允許網(wǎng)絡(luò)模擬和學(xué)習(xí)模型之間實時數(shù)據(jù)交換，使代理能夠在運行時觀察網(wǎng)絡(luò)狀態(tài)并做出適應(yīng)性決策。

評估

在本節(jié)中，我們通過大規(guī)模ns-3仿真驗證了算法的性能。首先，我們將其與典型數(shù)據(jù)集中的現(xiàn)有算法進行了比較，結(jié)果表明它在典型數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有算法。其次，我們添加了不同級別的嵌入式場景來評估與現(xiàn)有算法的指標(biāo)比較。

結(jié)論

通過觀察現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò)的流量特性，我們指出了現(xiàn)有擁塞控制機制在處理大規(guī)模嵌入式流量問題時的不足。這些限制通常會導(dǎo)致緩沖區(qū)溢出、過度排隊延遲和頻繁的PFC觸發(fā)，從而降低應(yīng)用程序性能和網(wǎng)絡(luò)穩(wěn)定性。在本文中，我們提出了DSCC，它利用深度強化學(xué)習(xí)進行細粒度決策，以主動應(yīng)對這些問題

未引用的參考文獻

缺少參考文獻圖3

CRediT作者貢獻聲明

Jianxing Zhuge：撰寫 – 審稿與編輯。Zeming Gao：監(jiān)督。Ye Tian：撰寫 – 審稿與編輯。Jun Wang：撰寫 – 審稿與編輯。Shaoxuan Yun：撰寫 – 審稿與編輯。Xiangyang Gong：撰寫 – 審稿與編輯。

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文工作的競爭性財務(wù)利益或個人關(guān)系。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點
科普

熱搜：動態(tài)協(xié)同控制|DSCC算法|PFC閾值調(diào)整|ECN協(xié)同優(yōu)化|incast流量

知名企業(yè)招聘

熱點排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號

摘要

引言

相關(guān)工作