国产乱妇无码毛片A片在线看下载国产成人无码A片免费看 ,3P无码,中文字幕日韩有码

融合多屬性效用與深度強(qiáng)化學(xué)習(xí)解決順序多準(zhǔn)則決策問題：在可持續(xù)農(nóng)業(yè)人力資源管理中的創(chuàng)新應(yīng)用

《Computers & Operations Research》：Multi-Attribute Utility Deep Reinforcement Learning method for Sequential Multi-Criteria Decision problems: Application to human resource planning

【字體：大中小】 時(shí)間：2026年03月02日 來源：Computers & Operations Research 4.3

編輯推薦：

　　本文聚焦順序多準(zhǔn)則決策（SMCD）這一復(fù)雜現(xiàn)實(shí)決策難題，為解決傳統(tǒng)方法在處理動(dòng)態(tài)、多目標(biāo)權(quán)衡時(shí)的局限性，研究者創(chuàng)新性地將多準(zhǔn)則決策分析（MCDA）與深度強(qiáng)化學(xué)習(xí)（DRL）相結(jié)合，提出了多屬性效用深度強(qiáng)化學(xué)習(xí)（MAUDRL）新方法。研究以加拿大不列顛哥倫比亞省藍(lán)莓種植業(yè)的可持續(xù)人力資源管理（HRP）為例進(jìn)行驗(yàn)證。結(jié)果表明，相較于基準(zhǔn)算法，MAUDRL在策略質(zhì)量、目標(biāo)達(dá)成率和運(yùn)行時(shí)間上均表現(xiàn)出色，為SMCD問題提供了高效、透明且可解釋的決策支持方案，在推進(jìn)可持續(xù)及社會(huì)責(zé)任決策方面具有重要理論與應(yīng)用價(jià)值。

在我們這個(gè)日益復(fù)雜的世界中，無論是企業(yè)的供應(yīng)鏈管理、醫(yī)療資源的分配，還是城市的交通規(guī)劃，決策者常常面臨一個(gè)共同的困境：需要在多個(gè)相互沖突的目標(biāo)之間進(jìn)行權(quán)衡，并且這些選擇會(huì)隨著時(shí)間的推移產(chǎn)生連鎖反應(yīng)，影響未來的選項(xiàng)和結(jié)果。這類問題在學(xué)術(shù)上被稱為順序多準(zhǔn)則決策（Sequential Multi-Criteria Decision, SMCD）問題。傳統(tǒng)的決策工具，如多準(zhǔn)則決策樹或動(dòng)態(tài)規(guī)劃，在面對(duì)這類高維度、動(dòng)態(tài)變化的問題時(shí)，往往會(huì)遭遇“維度災(zāi)難”，計(jì)算量呈指數(shù)級(jí)增長，難以整合決策者的風(fēng)險(xiǎn)偏好和具體目標(biāo)權(quán)重，顯得有些力不從心。

與此同時(shí)，人工智能領(lǐng)域，特別是深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning, DRL），近年來在解決復(fù)雜的序列決策問題（如游戲、機(jī)器人控制）上取得了突破性進(jìn)展。DRL智能體（Agent）能夠通過與環(huán)境的交互，學(xué)習(xí)如何采取行動(dòng)以最大化長期累積獎(jiǎng)勵(lì)。然而，標(biāo)準(zhǔn)的DRL通常只優(yōu)化一個(gè)單一的獎(jiǎng)勵(lì)函數(shù)，這與現(xiàn)實(shí)世界中需要考慮經(jīng)濟(jì)效益、環(huán)境影響、社會(huì)公平等多重目標(biāo)的SMCD問題存在脫節(jié)。如何將DRL的強(qiáng)大學(xué)習(xí)能力與人類決策中固有的多目標(biāo)權(quán)衡和偏好表達(dá)相結(jié)合，成為一個(gè)亟待彌合的研究空白。

為此，由Mohammadreza Nematollahi、Adel Guitouni、Nafiseh Izadyar、Nabil Belacel和Andrew Park組成的研究團(tuán)隊(duì)開展了一項(xiàng)創(chuàng)新性研究。他們巧妙地將多準(zhǔn)則決策分析（Multi-Criteria Decision Analysis, MCDA）中的經(jīng)典理論——多屬性效用理論（Multi-Attribute Utility Theory, MAUT），與前沿的DRL技術(shù)相融合，提出了一種名為“多屬性效用深度強(qiáng)化學(xué)習(xí)”（Multi-Attribute Utility Deep Reinforcement Learning, MAUDRL）的新算法。該研究旨在構(gòu)建一個(gè)既強(qiáng)大（能處理高維復(fù)雜問題）又透明（決策過程可解釋，能融入決策者偏好）的決策支持模型。為了驗(yàn)證MAUDRL的有效性，研究者選擇了加拿大不列顛哥倫比亞省藍(lán)莓種植業(yè)中的人力資源規(guī)劃（Human Resource Planning, HRP）作為應(yīng)用場(chǎng)景。在可持續(xù)農(nóng)業(yè)的背景下，農(nóng)場(chǎng)主需要在一整個(gè)修剪季（如8周）內(nèi)，每周動(dòng)態(tài)決定雇傭不同技能水平（新手、中級(jí)、高級(jí)）的修剪工人數(shù)量，以同時(shí)優(yōu)化三個(gè)常常沖突的目標(biāo)：經(jīng)濟(jì)成本（運(yùn)營效率）、社會(huì)效益（創(chuàng)造就業(yè)/減少人員流動(dòng)）和環(huán)境表現(xiàn)（修剪質(zhì)量，作為可持續(xù)性的代理指標(biāo)）。這項(xiàng)工作為解決廣泛的SMCD問題提供了新的思路和方法，相關(guān)成果已發(fā)表于《Computers & Operations Research》期刊。

為了開展這項(xiàng)研究，研究人員主要運(yùn)用了以下幾個(gè)關(guān)鍵技術(shù)方法：首先，他們將藍(lán)莓農(nóng)場(chǎng)的可持續(xù)HRP問題形式化為一個(gè)順序多準(zhǔn)則決策問題，并使用多準(zhǔn)則馬爾可夫決策過程（Multi-Criteria Markov Decision Process）進(jìn)行數(shù)學(xué)建模，定義了狀態(tài)、動(dòng)作、轉(zhuǎn)移概率和針對(duì)每個(gè)屬性（經(jīng)濟(jì)、社會(huì)、環(huán)境）的獎(jiǎng)勵(lì)函數(shù)。其次，他們提出了核心的MAUDRL算法框架，該框架包含兩個(gè)階段：（1）訓(xùn)練階段：針對(duì)每個(gè)決策屬性（如成本、就業(yè)、質(zhì)量），并行地訓(xùn)練一個(gè)獨(dú)立的深度Q網(wǎng)絡(luò)（Deep Q-Network, DQN），以學(xué)習(xí)優(yōu)化該單一屬性的策略。這利用了DRL處理高維狀態(tài)空間的能力。（2）利用階段：基于訓(xùn)練好的各屬性DQN輸出的Q值，結(jié)合決策者的風(fēng)險(xiǎn)偏好（通過效用函數(shù)的曲率參數(shù)_ψ_i體現(xiàn)）和各屬性權(quán)重，運(yùn)用多屬性效用理論（MAUT）構(gòu)建部分效用函數(shù)，并將它們聚合成一個(gè)總效用函數(shù)，從而在每個(gè)決策點(diǎn)選擇能最大化總效用的動(dòng)作。研究使用OpenAI Gym創(chuàng)建模擬環(huán)境，并基于PyTorch的Stable Baselines 3庫實(shí)現(xiàn)和訓(xùn)練DQN模型。最后，他們通過與兩種基準(zhǔn)算法——“Oracle離散多屬性效用理論”和“單獎(jiǎng)勵(lì)聚合方法”——在策略質(zhì)量、目標(biāo)達(dá)成率和運(yùn)行時(shí)間三個(gè)指標(biāo)上的對(duì)比，來全面評(píng)估MAUDRL的性能。

研究結(jié)果

1. MAUDRL框架的有效性

研究通過理論構(gòu)建和算法設(shè)計(jì)，成功地將DRL與MCDA相結(jié)合。MAUDRL框架允許智能體為每個(gè)準(zhǔn)則獨(dú)立學(xué)習(xí)價(jià)值函數(shù)，然后通過風(fēng)險(xiǎn)敏感的多屬性效用函數(shù)進(jìn)行聚合，從而生成符合決策者顯性偏好的、時(shí)間一致的策略。該框架的核心優(yōu)勢(shì)在于其透明性和可解釋性，能夠清晰地將輸入（狀態(tài)、決策者偏好）映射到輸出（動(dòng)作選擇）。

2. 在可持續(xù)HRP問題中的具體應(yīng)用與問題規(guī)模

研究者將MAUDRL應(yīng)用于一個(gè)具有實(shí)際代表性的場(chǎng)景：一個(gè)30英畝的中型藍(lán)莓農(nóng)場(chǎng)，為期8周的修剪季，最多可同時(shí)雇傭12名擁有三種技能等級(jí)的工人。經(jīng)計(jì)算，該SMCD問題在每個(gè)決策點(diǎn)（周）具有約1.56×10³個(gè)潛在動(dòng)作，而整個(gè)規(guī)劃期內(nèi)的可能策略路徑高達(dá)約3.55×10³³條。如此巨大的解空間，加上決策者（農(nóng)場(chǎng)主）各不相同的風(fēng)險(xiǎn)偏好和可持續(xù)發(fā)展目標(biāo)側(cè)重點(diǎn)（即不同的“決策者畫像”），使得傳統(tǒng)優(yōu)化方法幾乎無法求解。這凸顯了應(yīng)用高級(jí)算法如MAUDRL的必要性。

3. 與基準(zhǔn)算法的性能對(duì)比

研究人員設(shè)定了三種具有不同可持續(xù)發(fā)展傾向和風(fēng)險(xiǎn)態(tài)度的農(nóng)場(chǎng)主畫像（個(gè)人畫像A、B、C），來模擬異構(gòu)的決策者偏好。他們將MAUDRL與兩種基準(zhǔn)算法進(jìn)行對(duì)比：

•
Oracle離散多屬性效用理論：一種假設(shè)已知未來所有信息的理想化方法，作為理論上限。
•
單獎(jiǎng)勵(lì)聚合方法：一種樸素的方法，在訓(xùn)練前將多個(gè)屬性的獎(jiǎng)勵(lì)加權(quán)合并為一個(gè)標(biāo)量獎(jiǎng)勵(lì)，然后用標(biāo)準(zhǔn)的DQN進(jìn)行學(xué)習(xí)。

評(píng)估指標(biāo)包括：策略質(zhì)量（所學(xué)策略與Oracle策略的接近程度）、目標(biāo)達(dá)成率（在不確定環(huán)境下實(shí)現(xiàn)設(shè)定目標(biāo)的頻率）和運(yùn)行時(shí)間。

結(jié)果表明：
•
策略質(zhì)量：在所有三種決策者畫像下，MAUDRL學(xué)得的策略質(zhì)量都顯著高于單獎(jiǎng)勵(lì)聚合方法，并且非常接近Oracle方法的上界。這說明MAUDRL能有效學(xué)習(xí)到符合復(fù)雜偏好的高質(zhì)量策略。
•
目標(biāo)達(dá)成率：在模擬的不確定環(huán)境下（工人表現(xiàn)和可用性的隨機(jī)性），MAUDRL在達(dá)成經(jīng)濟(jì)、社會(huì)、環(huán)境綜合目標(biāo)方面， consistently outperformed（持續(xù)優(yōu)于）單獎(jiǎng)勵(lì)聚合方法。
•
運(yùn)行時(shí)間：盡管MAUDRL需要為每個(gè)屬性訓(xùn)練一個(gè)DQN，但由于其并行化設(shè)計(jì)，總訓(xùn)練時(shí)間仍在可接受范圍內(nèi)，并且顯著短于解決如此大規(guī)模問題所需的窮舉搜索時(shí)間。MAUDRL能夠在合理時(shí)間內(nèi)收斂到穩(wěn)健的策略。

4. 決策者偏好對(duì)策略的影響

分析顯示，不同的農(nóng)場(chǎng)主畫像（即對(duì)經(jīng)濟(jì)、社會(huì)、環(huán)境目標(biāo)的不同權(quán)重分配和風(fēng)險(xiǎn)態(tài)度）會(huì)導(dǎo)致MAUDRL學(xué)習(xí)出截然不同的人力資源分配策略。例如，一個(gè)更注重環(huán)境可持續(xù)性和員工穩(wěn)定的農(nóng)場(chǎng)主，其策略可能會(huì)傾向于雇傭更多技能較高、更穩(wěn)定的工人，即使短期成本更高；而一個(gè)更注重成本最小化的農(nóng)場(chǎng)主，其策略可能更靈活，會(huì)雇傭更多臨時(shí)性或技能較低的工人。這證實(shí)了MAUDRL能夠成功捕捉并整合決策者的個(gè)性化偏好到最終的決策策略中。

研究結(jié)論與討論

本研究通過提出并驗(yàn)證多屬性效用深度強(qiáng)化學(xué)習(xí)（MAUDRL）方法，成功地構(gòu)建了一個(gè)連接深度強(qiáng)化學(xué)習(xí)與多準(zhǔn)則決策分析的橋梁。理論貢獻(xiàn)主要體現(xiàn)在三個(gè)方面：對(duì)運(yùn)籌學(xué)領(lǐng)域，它為解決高維順序多準(zhǔn)則決策問題提供了一種可擴(kuò)展的決策支持方法；對(duì)人工智能領(lǐng)域，它提出了一個(gè)可解釋、計(jì)算高效的MAUDRL框架，能學(xué)習(xí)準(zhǔn)則特定的價(jià)值函數(shù)并按決策者偏好進(jìn)行聚合；對(duì)人力資源管理文獻(xiàn)，它首次將這種先進(jìn)的AI方法應(yīng)用于可持續(xù)農(nóng)業(yè)的HRP問題，并評(píng)估了多種決策者畫像。

研究的核心結(jié)論是，MAUDRL能夠?yàn)閺?fù)雜的順序多準(zhǔn)則決策問題提供高效、實(shí)用的解決方案。它不僅通過并行學(xué)習(xí)和效用聚合，在可接受的計(jì)算時(shí)間內(nèi)找到了高質(zhì)量的策略，更重要的是，它建立了一個(gè)透明且可解釋的模型，使得決策者的風(fēng)險(xiǎn)態(tài)度和多目標(biāo)偏好能夠被明確地編碼和影響決策過程。在藍(lán)莓農(nóng)場(chǎng)人力資源規(guī)劃的案例中，MAUDRL證明了其處理大規(guī)模狀態(tài)-動(dòng)作空間、整合可持續(xù)發(fā)展三重底線（經(jīng)濟(jì)、社會(huì)、環(huán)境）目標(biāo)、并適應(yīng)不同決策風(fēng)格的能力。

這項(xiàng)工作的意義深遠(yuǎn)。它展示了人工智能，特別是與決策科學(xué)交叉的AI，在解決現(xiàn)實(shí)世界復(fù)雜管理問題上的巨大潛力。MAUDRL框架具有通用性，可擴(kuò)展至其他典型的SMCD領(lǐng)域，如可持續(xù)供應(yīng)鏈管理、動(dòng)態(tài)定價(jià)、醫(yī)療資源調(diào)度、智能交通系統(tǒng)等，其中決策都需要在多重沖突目標(biāo)下進(jìn)行序列優(yōu)化。未來研究可以探索更復(fù)雜的DRL架構(gòu)（如Actor-Critic方法）、處理連續(xù)動(dòng)作空間、集成在線學(xué)習(xí)以適應(yīng)時(shí)變的決策者偏好，并將該框架應(yīng)用于更多樣化的工業(yè)和公共服務(wù)場(chǎng)景，進(jìn)一步推動(dòng)負(fù)責(zé)任和可持續(xù)的決策智能化發(fā)展。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題