在MEC(移動(dòng)邊緣計(jì)算)中,基于DRL(深度強(qiáng)化學(xué)習(xí))的隱私保護(hù)視頻流任務(wù)卸載技術(shù):同時(shí)考慮能量限制
《Computer Networks》:DRL-based Privacy-Preserving Video Streaming Task Offloading under Energy Constraints in MEC
編輯推薦:
隱私保護(hù)與資源約束協(xié)同優(yōu)化的移動(dòng)邊緣計(jì)算視頻任務(wù)卸載模型提出基于約束馬爾可夫博弈的CPO-MADDPG算法,通過雙通道策略梯度分離獎(jiǎng)勵(lì)與約束成本,結(jié)合雙頭critic和約束感知優(yōu)先經(jīng)驗(yàn)回放優(yōu)化,有效降低延遲、能耗并保護(hù)隱私,提升用戶體驗(yàn)。
陳鴻毅|彭云|陳偉|孟濤|艾偉|何志雄|李克勤
中南林業(yè)科技大學(xué)計(jì)算機(jī)與數(shù)學(xué)學(xué)院,長沙,410004
摘要
隨著視頻監(jiān)控、自動(dòng)駕駛和智能家居應(yīng)用的迅速普及,移動(dòng)邊緣計(jì)算(MEC)中的視頻任務(wù)卸載研究日益受到關(guān)注。與傳統(tǒng)云計(jì)算相比,MEC通過將計(jì)算資源部署得更靠近終端設(shè)備來降低延遲和能耗。然而,這也帶來了兩個(gè)根本性挑戰(zhàn):來自不受信任的邊緣服務(wù)器的隱私泄露問題,以及導(dǎo)致延遲、能耗和服務(wù)質(zhì)量(QoS)動(dòng)態(tài)波動(dòng)的資源限制。現(xiàn)有的優(yōu)化和基于學(xué)習(xí)的方法往往無法在能耗限制內(nèi)確保隱私,或在動(dòng)態(tài)MEC條件下平衡多個(gè)相互沖突的目標(biāo)。為了解決這些挑戰(zhàn),本文探討了在MEC基礎(chǔ)上的視頻任務(wù)卸載中聯(lián)合建模和優(yōu)化多目標(biāo)(準(zhǔn)確性、延遲、能耗)和多約束(隱私、能耗上限)問題的核心難點(diǎn),其中隱私保護(hù)和資源限制共存。我們將這一問題表述為一個(gè)受限馬爾可夫博弈(CMG),并提出了一種新穎的受限策略優(yōu)化多智能體深度確定性策略梯度(CPO-MADDPG)算法。廣泛的仿真表明,CPO-MADDPG有效減輕了隱私泄露,保持了能耗限制,并在最大化視頻分析準(zhǔn)確性的同時(shí)最小化了延遲。所提出的框架為動(dòng)態(tài)MEC環(huán)境中長期存在的隱私保護(hù)與資源效率之間的權(quán)衡提供了一個(gè)統(tǒng)一且可擴(kuò)展的解決方案。
引言
視頻監(jiān)控、自動(dòng)駕駛和智能家居的最新進(jìn)展顯著提升了視頻數(shù)據(jù)的采集、處理和傳輸技術(shù)。然而,這些發(fā)展也帶來了與計(jì)算能力、能源效率和終端設(shè)備實(shí)時(shí)響應(yīng)性相關(guān)的挑戰(zhàn)[1]、[2]。傳統(tǒng)云計(jì)算模型由于需要傳輸大量視頻數(shù)據(jù)而存在局限性,導(dǎo)致高延遲和帶寬問題[3]、[4],這阻礙了實(shí)時(shí)視頻處理。邊緣計(jì)算通過將計(jì)算資源放置在更接近終端用戶的位置來解決這些挑戰(zhàn),使得任務(wù)可以卸載到邊緣服務(wù)器[5]、[6]、[7]。這減輕了移動(dòng)設(shè)備的計(jì)算負(fù)擔(dān),提高了響應(yīng)時(shí)間、處理性能和能源效率,從而延長了電池壽命。然而,在移動(dòng)邊緣計(jì)算(MEC)中越來越多地使用任務(wù)卸載也帶來了復(fù)雜的技術(shù)挑戰(zhàn)[8]、[9]、[10]。
在MEC環(huán)境中,將視頻數(shù)據(jù)卸載到可能不受信任的邊緣服務(wù)器會(huì)帶來顯著的隱私風(fēng)險(xiǎn)。服務(wù)器可能會(huì)從幀率和分辨率等任務(wù)特征中推斷出敏感信息,如設(shè)備的位置和使用模式[11]。為了解決這個(gè)問題,已經(jīng)提出了多種保護(hù)隱私的方案。Wang等人[12]引入了一種基于差分隱私的機(jī)制來保護(hù)車輛的速度和位置信息。Xu等人[13]提出了一種利用隱私熵來保護(hù)數(shù)據(jù)的隱私感知卸載方案。然而,這些解決方案在隱私和性能之間存在權(quán)衡——過多的噪聲會(huì)降低準(zhǔn)確性,而過于寬松的約束則可能暴露用戶數(shù)據(jù)。因此,在不犧牲實(shí)時(shí)性能的情況下實(shí)現(xiàn)自適應(yīng)隱私保護(hù)仍然是MEC基礎(chǔ)視頻任務(wù)卸載中的一個(gè)未解決挑戰(zhàn)。
MEC基礎(chǔ)視頻卸載的另一個(gè)主要挑戰(zhàn)是環(huán)境的資源受限性。多種異構(gòu)設(shè)備競爭有限的計(jì)算、通信和頻譜資源[14],導(dǎo)致延遲、傳輸可靠性和能耗的波動(dòng),從而降低了用戶體驗(yàn)質(zhì)量。研究人員提出了幾種解決方案來應(yīng)對這些問題。Zhao等人[15]引入了一種聯(lián)邦深度強(qiáng)化學(xué)習(xí)方法,可以在多個(gè)邊緣節(jié)點(diǎn)之間優(yōu)化資源,實(shí)現(xiàn)安全視頻卸載。在[16]中,Zhao等人結(jié)合了物理層安全和深度強(qiáng)化學(xué)習(xí),以確保卸載過程中的通信安全并提高服務(wù)質(zhì)量。然而,這些方法通常只關(guān)注單一目標(biāo)(例如延遲或能耗),缺乏一種綜合方法來處理多目標(biāo)、多約束優(yōu)化問題,即在資源限制下平衡延遲、能耗和隱私。
為了解決上述隱私泄露和資源限制的挑戰(zhàn),我們將傳統(tǒng)的多智能體馬爾可夫博弈框架擴(kuò)展為受限馬爾可夫博弈(CMG)模型,以描述MEC基礎(chǔ)視頻任務(wù)卸載的多目標(biāo)和多約束特性。在這個(gè)框架內(nèi),我們提出了一種受限策略優(yōu)化多智能體深度確定性策略梯度(CPO-MADDPG)算法,該算法聯(lián)合優(yōu)化了延遲、能耗和隱私目標(biāo)。具體來說,我們設(shè)計(jì)了一種雙通道策略梯度機(jī)制,將任務(wù)獎(jiǎng)勵(lì)和約束成本的學(xué)習(xí)分為兩個(gè)交互通道。通過拉格朗日乘數(shù)動(dòng)態(tài)平衡這兩個(gè)通道,實(shí)現(xiàn)了無投影的受限學(xué)習(xí)和能耗的自適應(yīng)控制。基于這一機(jī)制,CPO-MADDPG保持了MADDPG的去中心化智能體結(jié)構(gòu),但其原始的批評者被替換為一個(gè)雙頭批評者,該批評者同時(shí)估計(jì)準(zhǔn)確性獎(jiǎng)勵(lì)和能耗成本。硬性的能耗上限被重新表述為一個(gè)軟約束,其懲罰權(quán)重通過相同的拉格朗日乘數(shù)自動(dòng)調(diào)整。此外,我們開發(fā)了一種考慮約束的優(yōu)先體驗(yàn)回放(CA-PER)緩沖區(qū),將能耗納入TD誤差中,并優(yōu)先考慮接近約束邊界的樣本。這種設(shè)計(jì)提高了探索效率,并加速了受限領(lǐng)域的收斂速度。通過這種統(tǒng)一的方法,所提出的框架在動(dòng)態(tài)MEC環(huán)境中有效最大化了視頻分析準(zhǔn)確性,同時(shí)最小化了延遲和能耗,確保了系統(tǒng)性能和隱私保護(hù)。
總體而言,本文的主要貢獻(xiàn)可以總結(jié)如下:
•我們將MEC視頻任務(wù)卸載問題表述為一個(gè)多智能體受限馬爾可夫博弈,以聯(lián)合捕捉動(dòng)態(tài)網(wǎng)絡(luò)條件下的延遲、能耗和隱私權(quán)衡。
•我們提出了一種配備雙通道策略梯度、雙頭批評者和CA-PER的CPO-MADDPG算法,用于自適應(yīng)和高效的受限優(yōu)化。
•廣泛的實(shí)驗(yàn)表明,我們的方法通過減少延遲和能耗違規(guī)行為顯著提高了視頻任務(wù)卸載的性能,同時(shí)提升了整體用戶服務(wù)質(zhì)量。
本文的其余部分組織如下。第2節(jié)總結(jié)了邊緣計(jì)算和霧計(jì)算環(huán)境中的相關(guān)方法。第3節(jié)介紹了系統(tǒng)模型和問題表述。第4節(jié)詳細(xì)描述了我們的基于DRL的算法模型。第5節(jié)從不同維度評估了我們選擇的基準(zhǔn)算法的性能。最后,第6節(jié)總結(jié)了全文并展望了未來的工作。
章節(jié)摘錄
相關(guān)工作
在本節(jié)中,我們從兩個(gè)主要角度回顧了相關(guān)工作:具有安全資源分配的隱私感知卸載和在資源限制下的多目標(biāo)優(yōu)化。
MEC系統(tǒng)模型在任務(wù)卸載中的應(yīng)用
在本節(jié)中,我們構(gòu)建了一個(gè)用于視頻任務(wù)卸載的MEC系統(tǒng)模型。首先介紹系統(tǒng)模型和任務(wù)模型,然后構(gòu)建延遲模型、能耗模型和安全模型,最后闡述問題。本工作中使用的主要符號在表1中進(jìn)行了總結(jié)。
馬爾可夫決策與算法
在本節(jié)中,我們將介紹基于上述MEC系統(tǒng)和我們設(shè)計(jì)的DRL算法的馬爾可夫決策。
實(shí)施
我們進(jìn)行了廣泛的仿真實(shí)驗(yàn),以評估我們在MEC環(huán)境中提出的CPO-MADDPG算法,其中單個(gè)基站服務(wù)于多個(gè)用戶。用戶隨機(jī)分布在基站周圍,每個(gè)移動(dòng)設(shè)備都被建模為一個(gè)獨(dú)立智能體,在其自身特定的約束下做出卸載決策。仿真中使用的關(guān)鍵參數(shù)在表2中進(jìn)行了總結(jié)。具體來說,用戶數(shù)量表示為N,設(shè)置為20,
結(jié)論
在本文中,我們解決了MEC環(huán)境中安全且節(jié)能的視頻任務(wù)卸載問題,在這種環(huán)境中,多個(gè)設(shè)備在嚴(yán)格的能源和延遲限制下競爭有限的通信和計(jì)算資源。為了克服傳統(tǒng)基于DRL的方法的局限性,這些方法僅依賴于獎(jiǎng)勵(lì) shaping,并難以平衡能源效率、安全性和任務(wù)性能,我們提出了一種新穎的CPO-MADDPG算法。
CRediT作者貢獻(xiàn)聲明
陳鴻毅:撰寫——原始草稿、軟件、方法論、調(diào)查、數(shù)據(jù)整理、概念化。彭云:撰寫——審閱與編輯、可視化、驗(yàn)證、軟件、方法論。陳偉:撰寫——審閱與編輯、驗(yàn)證、調(diào)查。孟濤:撰寫——審閱與編輯、可視化、軟件、資源、項(xiàng)目管理。艾偉:撰寫——審閱與編輯、可視化、驗(yàn)證、監(jiān)督、軟件、資源、項(xiàng)目管理。何志雄:
利益沖突聲明
作者聲明他們沒有已知的可能會(huì)影響本文報(bào)告工作的競爭性財(cái)務(wù)利益或個(gè)人關(guān)系。