融合多屬性效用與深度強(qiáng)化學(xué)習(xí)解決順序多準(zhǔn)則決策問題:在可持續(xù)農(nóng)業(yè)人力資源管理中的創(chuàng)新應(yīng)用
《Computers & Operations Research》:Multi-Attribute Utility Deep Reinforcement Learning method for Sequential Multi-Criteria Decision problems: Application to human resource planning
編輯推薦:
本文聚焦順序多準(zhǔn)則決策(SMCD)這一復(fù)雜現(xiàn)實(shí)決策難題,為解決傳統(tǒng)方法在處理動(dòng)態(tài)、多目標(biāo)權(quán)衡時(shí)的局限性,研究者創(chuàng)新性地將多準(zhǔn)則決策分析(MCDA)與深度強(qiáng)化學(xué)習(xí)(DRL)相結(jié)合,提出了多屬性效用深度強(qiáng)化學(xué)習(xí)(MAUDRL)新方法。研究以加拿大不列顛哥倫比亞省藍(lán)莓種植業(yè)的可持續(xù)人力資源管理(HRP)為例進(jìn)行驗(yàn)證。結(jié)果表明,相較于基準(zhǔn)算法,MAUDRL在策略質(zhì)量、目標(biāo)達(dá)成率和運(yùn)行時(shí)間上均表現(xiàn)出色,為SMCD問題提供了高效、透明且可解釋的決策支持方案,在推進(jìn)可持續(xù)及社會(huì)責(zé)任決策方面具有重要理論與應(yīng)用價(jià)值。
在我們這個(gè)日益復(fù)雜的世界中,無論是企業(yè)的供應(yīng)鏈管理、醫(yī)療資源的分配,還是城市的交通規(guī)劃,決策者常常面臨一個(gè)共同的困境:需要在多個(gè)相互沖突的目標(biāo)之間進(jìn)行權(quán)衡,并且這些選擇會(huì)隨著時(shí)間的推移產(chǎn)生連鎖反應(yīng),影響未來的選項(xiàng)和結(jié)果。這類問題在學(xué)術(shù)上被稱為順序多準(zhǔn)則決策(Sequential Multi-Criteria Decision, SMCD)問題。傳統(tǒng)的決策工具,如多準(zhǔn)則決策樹或動(dòng)態(tài)規(guī)劃,在面對(duì)這類高維度、動(dòng)態(tài)變化的問題時(shí),往往會(huì)遭遇“維度災(zāi)難”,計(jì)算量呈指數(shù)級(jí)增長,難以整合決策者的風(fēng)險(xiǎn)偏好和具體目標(biāo)權(quán)重,顯得有些力不從心。
與此同時(shí),人工智能領(lǐng)域,特別是深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL),近年來在解決復(fù)雜的序列決策問題(如游戲、機(jī)器人控制)上取得了突破性進(jìn)展。DRL智能體(Agent)能夠通過與環(huán)境的交互,學(xué)習(xí)如何采取行動(dòng)以最大化長期累積獎(jiǎng)勵(lì)。然而,標(biāo)準(zhǔn)的DRL通常只優(yōu)化一個(gè)單一的獎(jiǎng)勵(lì)函數(shù),這與現(xiàn)實(shí)世界中需要考慮經(jīng)濟(jì)效益、環(huán)境影響、社會(huì)公平等多重目標(biāo)的SMCD問題存在脫節(jié)。如何將DRL的強(qiáng)大學(xué)習(xí)能力與人類決策中固有的多目標(biāo)權(quán)衡和偏好表達(dá)相結(jié)合,成為一個(gè)亟待彌合的研究空白。
為此,由Mohammadreza Nematollahi、Adel Guitouni、Nafiseh Izadyar、Nabil Belacel和Andrew Park組成的研究團(tuán)隊(duì)開展了一項(xiàng)創(chuàng)新性研究。他們巧妙地將多準(zhǔn)則決策分析(Multi-Criteria Decision Analysis, MCDA)中的經(jīng)典理論——多屬性效用理論(Multi-Attribute Utility Theory, MAUT),與前沿的DRL技術(shù)相融合,提出了一種名為“多屬性效用深度強(qiáng)化學(xué)習(xí)”(Multi-Attribute Utility Deep Reinforcement Learning, MAUDRL)的新算法。該研究旨在構(gòu)建一個(gè)既強(qiáng)大(能處理高維復(fù)雜問題)又透明(決策過程可解釋,能融入決策者偏好)的決策支持模型。為了驗(yàn)證MAUDRL的有效性,研究者選擇了加拿大不列顛哥倫比亞省藍(lán)莓種植業(yè)中的人力資源規(guī)劃(Human Resource Planning, HRP)作為應(yīng)用場(chǎng)景。在可持續(xù)農(nóng)業(yè)的背景下,農(nóng)場(chǎng)主需要在一整個(gè)修剪季(如8周)內(nèi),每周動(dòng)態(tài)決定雇傭不同技能水平(新手、中級(jí)、高級(jí))的修剪工人數(shù)量,以同時(shí)優(yōu)化三個(gè)常常沖突的目標(biāo):經(jīng)濟(jì)成本(運(yùn)營效率)、社會(huì)效益(創(chuàng)造就業(yè)/減少人員流動(dòng))和環(huán)境表現(xiàn)(修剪質(zhì)量,作為可持續(xù)性的代理指標(biāo))。這項(xiàng)工作為解決廣泛的SMCD問題提供了新的思路和方法,相關(guān)成果已發(fā)表于《Computers & Operations Research》期刊。
為了開展這項(xiàng)研究,研究人員主要運(yùn)用了以下幾個(gè)關(guān)鍵技術(shù)方法:首先,他們將藍(lán)莓農(nóng)場(chǎng)的可持續(xù)HRP問題形式化為一個(gè)順序多準(zhǔn)則決策問題,并使用多準(zhǔn)則馬爾可夫決策過程(Multi-Criteria Markov Decision Process)進(jìn)行數(shù)學(xué)建模,定義了狀態(tài)、動(dòng)作、轉(zhuǎn)移概率和針對(duì)每個(gè)屬性(經(jīng)濟(jì)、社會(huì)、環(huán)境)的獎(jiǎng)勵(lì)函數(shù)。其次,他們提出了核心的MAUDRL算法框架,該框架包含兩個(gè)階段:(1)訓(xùn)練階段:針對(duì)每個(gè)決策屬性(如成本、就業(yè)、質(zhì)量),并行地訓(xùn)練一個(gè)獨(dú)立的深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN),以學(xué)習(xí)優(yōu)化該單一屬性的策略。這利用了DRL處理高維狀態(tài)空間的能力。(2)利用階段:基于訓(xùn)練好的各屬性DQN輸出的Q值,結(jié)合決策者的風(fēng)險(xiǎn)偏好(通過效用函數(shù)的曲率參數(shù)ψi體現(xiàn))和各屬性權(quán)重,運(yùn)用多屬性效用理論(MAUT)構(gòu)建部分效用函數(shù),并將它們聚合成一個(gè)總效用函數(shù),從而在每個(gè)決策點(diǎn)選擇能最大化總效用的動(dòng)作。研究使用OpenAI Gym創(chuàng)建模擬環(huán)境,并基于PyTorch的Stable Baselines 3庫實(shí)現(xiàn)和訓(xùn)練DQN模型。最后,他們通過與兩種基準(zhǔn)算法——“Oracle離散多屬性效用理論”和“單獎(jiǎng)勵(lì)聚合方法”——在策略質(zhì)量、目標(biāo)達(dá)成率和運(yùn)行時(shí)間三個(gè)指標(biāo)上的對(duì)比,來全面評(píng)估MAUDRL的性能。
研究結(jié)果
1. MAUDRL框架的有效性
研究通過理論構(gòu)建和算法設(shè)計(jì),成功地將DRL與MCDA相結(jié)合。MAUDRL框架允許智能體為每個(gè)準(zhǔn)則獨(dú)立學(xué)習(xí)價(jià)值函數(shù),然后通過風(fēng)險(xiǎn)敏感的多屬性效用函數(shù)進(jìn)行聚合,從而生成符合決策者顯性偏好的、時(shí)間一致的策略。該框架的核心優(yōu)勢(shì)在于其透明性和可解釋性,能夠清晰地將輸入(狀態(tài)、決策者偏好)映射到輸出(動(dòng)作選擇)。
2. 在可持續(xù)HRP問題中的具體應(yīng)用與問題規(guī)模
研究者將MAUDRL應(yīng)用于一個(gè)具有實(shí)際代表性的場(chǎng)景:一個(gè)30英畝的中型藍(lán)莓農(nóng)場(chǎng),為期8周的修剪季,最多可同時(shí)雇傭12名擁有三種技能等級(jí)的工人。經(jīng)計(jì)算,該SMCD問題在每個(gè)決策點(diǎn)(周)具有約1.56×103個(gè)潛在動(dòng)作,而整個(gè)規(guī)劃期內(nèi)的可能策略路徑高達(dá)約3.55×1033條。如此巨大的解空間,加上決策者(農(nóng)場(chǎng)主)各不相同的風(fēng)險(xiǎn)偏好和可持續(xù)發(fā)展目標(biāo)側(cè)重點(diǎn)(即不同的“決策者畫像”),使得傳統(tǒng)優(yōu)化方法幾乎無法求解。這凸顯了應(yīng)用高級(jí)算法如MAUDRL的必要性。
3. 與基準(zhǔn)算法的性能對(duì)比
研究人員設(shè)定了三種具有不同可持續(xù)發(fā)展傾向和風(fēng)險(xiǎn)態(tài)度的農(nóng)場(chǎng)主畫像(個(gè)人畫像A、B、C),來模擬異構(gòu)的決策者偏好。他們將MAUDRL與兩種基準(zhǔn)算法進(jìn)行對(duì)比:
- •
Oracle離散多屬性效用理論:一種假設(shè)已知未來所有信息的理想化方法,作為理論上限。
- •
單獎(jiǎng)勵(lì)聚合方法:一種樸素的方法,在訓(xùn)練前將多個(gè)屬性的獎(jiǎng)勵(lì)加權(quán)合并為一個(gè)標(biāo)量獎(jiǎng)勵(lì),然后用標(biāo)準(zhǔn)的DQN進(jìn)行學(xué)習(xí)。
評(píng)估指標(biāo)包括:策略質(zhì)量(所學(xué)策略與Oracle策略的接近程度)、目標(biāo)達(dá)成率(在不確定環(huán)境下實(shí)現(xiàn)設(shè)定目標(biāo)的頻率)和運(yùn)行時(shí)間。
結(jié)果表明:
- •
策略質(zhì)量:在所有三種決策者畫像下,MAUDRL學(xué)得的策略質(zhì)量都顯著高于單獎(jiǎng)勵(lì)聚合方法,并且非常接近Oracle方法的上界。這說明MAUDRL能有效學(xué)習(xí)到符合復(fù)雜偏好的高質(zhì)量策略。
- •
目標(biāo)達(dá)成率:在模擬的不確定環(huán)境下(工人表現(xiàn)和可用性的隨機(jī)性),MAUDRL在達(dá)成經(jīng)濟(jì)、社會(huì)、環(huán)境綜合目標(biāo)方面, consistently outperformed(持續(xù)優(yōu)于)單獎(jiǎng)勵(lì)聚合方法。
- •
運(yùn)行時(shí)間:盡管MAUDRL需要為每個(gè)屬性訓(xùn)練一個(gè)DQN,但由于其并行化設(shè)計(jì),總訓(xùn)練時(shí)間仍在可接受范圍內(nèi),并且顯著短于解決如此大規(guī)模問題所需的窮舉搜索時(shí)間。MAUDRL能夠在合理時(shí)間內(nèi)收斂到穩(wěn)健的策略。
4. 決策者偏好對(duì)策略的影響
分析顯示,不同的農(nóng)場(chǎng)主畫像(即對(duì)經(jīng)濟(jì)、社會(huì)、環(huán)境目標(biāo)的不同權(quán)重分配和風(fēng)險(xiǎn)態(tài)度)會(huì)導(dǎo)致MAUDRL學(xué)習(xí)出截然不同的人力資源分配策略。例如,一個(gè)更注重環(huán)境可持續(xù)性和員工穩(wěn)定的農(nóng)場(chǎng)主,其策略可能會(huì)傾向于雇傭更多技能較高、更穩(wěn)定的工人,即使短期成本更高;而一個(gè)更注重成本最小化的農(nóng)場(chǎng)主,其策略可能更靈活,會(huì)雇傭更多臨時(shí)性或技能較低的工人。這證實(shí)了MAUDRL能夠成功捕捉并整合決策者的個(gè)性化偏好到最終的決策策略中。
研究結(jié)論與討論
本研究通過提出并驗(yàn)證多屬性效用深度強(qiáng)化學(xué)習(xí)(MAUDRL)方法,成功地構(gòu)建了一個(gè)連接深度強(qiáng)化學(xué)習(xí)與多準(zhǔn)則決策分析的橋梁。理論貢獻(xiàn)主要體現(xiàn)在三個(gè)方面:對(duì)運(yùn)籌學(xué)領(lǐng)域,它為解決高維順序多準(zhǔn)則決策問題提供了一種可擴(kuò)展的決策支持方法;對(duì)人工智能領(lǐng)域,它提出了一個(gè)可解釋、計(jì)算高效的MAUDRL框架,能學(xué)習(xí)準(zhǔn)則特定的價(jià)值函數(shù)并按決策者偏好進(jìn)行聚合;對(duì)人力資源管理文獻(xiàn),它首次將這種先進(jìn)的AI方法應(yīng)用于可持續(xù)農(nóng)業(yè)的HRP問題,并評(píng)估了多種決策者畫像。
研究的核心結(jié)論是,MAUDRL能夠?yàn)閺?fù)雜的順序多準(zhǔn)則決策問題提供高效、實(shí)用的解決方案。它不僅通過并行學(xué)習(xí)和效用聚合,在可接受的計(jì)算時(shí)間內(nèi)找到了高質(zhì)量的策略,更重要的是,它建立了一個(gè)透明且可解釋的模型,使得決策者的風(fēng)險(xiǎn)態(tài)度和多目標(biāo)偏好能夠被明確地編碼和影響決策過程。在藍(lán)莓農(nóng)場(chǎng)人力資源規(guī)劃的案例中,MAUDRL證明了其處理大規(guī)模狀態(tài)-動(dòng)作空間、整合可持續(xù)發(fā)展三重底線(經(jīng)濟(jì)、社會(huì)、環(huán)境)目標(biāo)、并適應(yīng)不同決策風(fēng)格的能力。
這項(xiàng)工作的意義深遠(yuǎn)。它展示了人工智能,特別是與決策科學(xué)交叉的AI,在解決現(xiàn)實(shí)世界復(fù)雜管理問題上的巨大潛力。MAUDRL框架具有通用性,可擴(kuò)展至其他典型的SMCD領(lǐng)域,如可持續(xù)供應(yīng)鏈管理、動(dòng)態(tài)定價(jià)、醫(yī)療資源調(diào)度、智能交通系統(tǒng)等,其中決策都需要在多重沖突目標(biāo)下進(jìn)行序列優(yōu)化。未來研究可以探索更復(fù)雜的DRL架構(gòu)(如Actor-Critic方法)、處理連續(xù)動(dòng)作空間、集成在線學(xué)習(xí)以適應(yīng)時(shí)變的決策者偏好,并將該框架應(yīng)用于更多樣化的工業(yè)和公共服務(wù)場(chǎng)景,進(jìn)一步推動(dòng)負(fù)責(zé)任和可持續(xù)的決策智能化發(fā)展。