《Frontiers in Neural Circuits》:Social learning and exploration–exploitation dilemma in decision-making
編輯推薦:
本綜述(mini review)探討了社會學習如何與強化學習中的探索-利用困境交互。文章回顧了兩種主要社會學習策略(模仿和效仿)的神經基礎,并重點討論了社會情境(如同伴選擇、群體規范)如何調節學習策略,揭示人類在“免費搭車”(Free-riding)與尋求可靠性(Reliability-seeking)之間的權衡,為理解適應性社會決策提供了新的計算框架。
在決策的十字路口:社會學習如何與探索-利用困境共舞?
引言
為了獲取獎賞而進行適應性決策,是動物生存的基礎。強化學習(Reinforcement Learning)理論認為,個體能夠通過試錯來學習能最大化累積獎賞的最優行為。這種學習被形式化為基于獎賞預測誤差(Reward Prediction Error)來更新選項的價值。有趣的是,個體不僅能從直接經驗中學習,還能從他人的經驗中學習——這一過程被稱為社會學習(Social Learning)。例如,阿德利企鵝在捕食前會通過觀察同伴的行為來評估風險;人類在選擇餐廳時也會參考在線評論。社會學習使我們能夠獲取最優行為,而不必完全依賴代價高昂的個人試錯。本文聚焦于社會強化學習的計算原理,特別是兩個未被充分探索的問題:個體選擇向誰學習,以及他們如何調整社會學習策略來應對強化學習中的一個核心計算挑戰——探索-利用困境。
個體學習中的探索-利用困境
在深入社會學習之前,有必要先理解個體情境下的探索-利用困境。經典的“餐廳問題”可以完美詮釋:當你搬到新城市并找到一家心儀的餐廳后,你面臨選擇:是再次光顧這家已知的最愛(“利用”),還是繼續探索可能更好的選項(“探索”)。探索過多,你會錯過已知的美味;利用過多,則可能錯過更優體驗。這個權衡并非易事。計算機科學提出了多種算法來解決它,例如隨機探索(Random Exploration)和定向探索(Directed Exploration)。隨機探索指在決策中引入隨機性,有時會以一定概率選擇價值更低的選項。定向探索則更復雜,個體會考慮每個選項價值估計的不確定性,更可能選擇不確定的選項。
神經科學研究表明,人類至少使用這兩種可分離的策略來解決該困境,并且它們的發展軌跡不同,暗示了不同的潛在機制。計算模型也表明,人們會根據價值估計的不確定性來調整這兩種探索的程度,這與湯普森采樣(Thompson Sampling)和置信上界算法(Upper Confidence Bound, UCB)一致。神經影像學和腦刺激研究進一步將定向探索與腹外側前額葉皮層(vlPFC)的神經計算聯系起來,而隨機探索則與背外側前額葉皮層(dlPFC)相關。
人類社會學習的神經計算機制
大量研究結合功能性磁共振成像(fMRI)和計算建模,揭示了人類社會學習并非單一過程,而是依賴于前額葉皮層(PFC)不同子區域實現的多種互補策略。
第一種策略是學習他人的獎賞(常被稱為“效仿”)。在這一過程中,觀察者通過監控他人獲得的結果來更新自己對選項的價值估計。這種學習的驅動力是觀察性獎賞預測誤差(observational reward prediction error)。神經影像學證據一致地將此信號定位到腹內側前額葉皮層(vmPFC),這是一個處理個人價值的核心腦區。元分析進一步證實,無論獎賞接收者是自身還是他人,vmPFC都編碼獎賞預測誤差,表明價值更新共享著神經表征。
第二種策略是學習他人的行為(“模仿”)。與效仿不同,這個過程專注于預測同伴行為本身,而非即時結果。這種學習由動作預測誤差(action prediction error)驅動,該信號通常與外側前額葉皮層(lPFC)的活動相關,這個區域涉及推斷他人的意圖或隱藏狀態。這些發現表明,效仿和模仿這兩種不同的策略共同塑造了社會學習。
關于紋狀體在社會學習中的作用,目前的研究結果并不一致。一些研究報告了觀察性獎賞預測誤差與背側、腹側紋狀體神經活動之間存在顯著耦合,這支持了紋狀體是效仿的核心神經基礎。然而,一項元分析并未發現紋狀體參與編碼觀察性預測誤差的證據。
社會學習策略的調節
在社會學習環境中,個體可以搭他人探索的“便車”。通過觀察他人選擇的結果,人們可以獲取關于陌生選項的新信息,而無需自己親自嘗試。關鍵在于,向探索者學習能讓個體避免探索的直接成本。經濟學理論研究表明,當將個體強化學習框架擴展到多人環境時,這種信息外部性會產生搭便車問題。當探索產生的信息無法被排除時,理性個體會策略性地減少自己的探索,轉而依賴他人承擔成本。最終,群體的探索水平會低于社會最優水平。這些數學分析表明,社會學習并不必然產生理想的社會結果,有時反而會導致探索停滯。
然而,支持這些預測的實證證據結果不一。幾項使用多人強化學習任務的研究觀察到了探索的減少。在這些實驗中,與個人情境相比,參與者在群體情境中表現出更低水平的隨機和定向探索——這種模式與策略性搭便車一致。相反,最近的一項研究則報告了社會從眾對探索的影響。在實驗中,參與者與表現出不同程度定向探索的智能體一同完成任務。結果顯示,接觸到高度探索性的他人會導致參與者增加自身的隨機和定向探索。這表明,社會信息可以促進而非抑制探索行為。總之,這些發現凸顯了社會學習是抑制還是放大探索,取決于任務結構和觀察到的行為。
除了聚焦探索的背景,大量文獻也研究了人們如何根據他人特征調整其社會學習策略。例如,研究表明,當向高績效者學習時,模仿的程度會選擇性上調,這與觀察者根據社會信息的推斷可靠性對其進行加權的觀點一致。另一項研究結合行為建模與連續性θ爆發刺激(cTBS)探究了何時部署模仿的神經機制。結果表明,當他人行為可預測時,模仿會被優先采用,而這種依賴可預測性的機制受到背內側前額葉皮層(dmPFC)的因果性調節。社會學習也受群體成員身份影響,例如,模仿在內群體成員中通常比外群體成員更多。值得注意的是,這種偏好的個體差異可以由神經學習信號捕捉。
近期的研究探索了大腦如何在模仿和效仿之間進行仲裁。例如,腹側前額葉皮層(vPFC)被證明能在試次間動態控制分配給模仿與更高級的“效仿他人目標”的權重,優先采用預測可靠性更高的策略。一項后續研究進一步揭示,在一般人群中,對高級別效仿的依賴程度存在個體差異,且與自閉癥特質相關。
調節社會學習策略的另一個關鍵因素是觀察者自身的決策信心。從貝葉斯角度看,最優信息整合需要根據信源的可靠性進行加權。大量實驗工作證明,當個體對環境的估計不確定時,會更依賴社會信息——這種策略常被稱為“不確定時復制”。具體而言,當對自己選擇的信心較低時,賦予社會信號的權重會增加,這起到一種補償機制的作用。然而,這種依賴不確定性的調節在人群中并不均一,個體在多大程度上遵循這種最優加權存在顯著差異,一些人表現出持續的自我中心偏差。
社會學習中的同伴選擇
社會學習中一個相對未被充分探索的問題是同伴選擇。在典型的實驗室實驗中,參與者被分配一個固定同伴并向其學習;他們很少有機會選擇觀察誰。然而在現實世界中,個體主動選擇信息來源。例如,基于社交媒體選擇餐廳時,必須決定信任誰的意見。這種選擇決策能從根本上塑造社會學習的效能。
我們最近的一項研究探討了人們更愿意向誰學習,從探索-利用困境的角度切入。我們提出了兩個競爭性假設。第一個假設認為,個體優先向表現出更高程度隨機探索的同伴學習。這個策略的優勢在于,同伴的探索會產生新信息,讓學習者能夠繼續利用當前有利的選項。第二個假設則認為,個體優先向隨機探索程度較低的同伴學習。當學習者主要依賴模仿時,這個策略具有優勢,因為探索性較低的同伴行為更一致,因此可能顯得更成功、更可靠。
預先注冊的實驗結果支持“尋求可靠性”的假設:參與者表現出顯著偏好,更愿意向探索性較低的同伴學習,而不是高度探索性的同伴。進一步的計算分析揭示,這種同伴偏好的個體差異與特定的社會學習風格相關。偏好探索性較低同伴的參與者主要依賴模仿,而偏好高度探索性同伴的參與者則更多依賴效仿。這表明,雖然存在普遍偏向穩定、可靠同伴的偏好,但這種偏好受觀察者潛在學習策略的調節:模仿者尋求一致性,而效仿者尋求信息。
研究表明,社會學習中的同伴選擇受多種因素影響。首先,人們優先向成功的個體學習。例如,在一項人造物設計任務中,參與者模仿了獲得更高回報的同伴,這符合“成功偏向”策略。相關研究表明,學習者也會復制“有聲望”的個體,這表明社會影響力會被超越客觀表現的聲譽線索放大。類似地,存在著強烈的社會從眾傾向。在從知覺、價值決策到強化學習等多種范式中,個體的選擇會系統性地向群體規范靠攏。這些發現共同表明,同伴選擇受多種影響因素的塑造:被證實的成功、社會賦予的聲望以及多數人規范。
一個前景廣闊的未來方向是研究同伴選擇中“尋求可靠性”偏見的神經計算機制,包括偏好向那些有競爭力、可預測、成功和/或屬于多數的同伴學習。先前在多種社會情境決策任務中的研究已表明,內側前額葉皮層和顳頂聯合區參與追蹤他人的專業能力、可信度和多數人的選擇。此外,依賴可預測性的社會學習已被證明受背內側前額葉皮層的因果性調節。這些結果表明,一個包含內側前額葉皮層和顳頂聯合區的網絡可能主導著“尋求可靠性”的偏好。
討論
本綜述總結了社會學習神經計算原理的最新進展。我們特別討論了社會學習策略(包括向誰學習的關鍵決策)如何受到同伴特征(如探索-利用平衡、決策質量、可預測性、群體成員身份和社會地位)的調節。然而,一個重要待解的問題是:哪些具體的同伴屬性驅動了這些策略性調整?在自然情境中,這些特征常常是相互交織的。例如,較低的隨機探索水平通常與較高的決策質量、更強的可預測性,以及更高的聲望或多數地位相關聯。同樣,內群體成員身份也常與可預測性共變。因此,很難確定觀察到的偏見反映的是對能力、可預測性、社會身份,還是它們組合的敏感性。此外,迄今為止的社會學習文獻很少仔細區分隨機探索和定向探索。未來的工作應嚴格檢驗能力等因素的主導作用,并通過實驗設計正交化能力、可預測性和地位等變量,開發能夠分別參數化關于同伴可靠性與信息價值的信念的計算模型。這種精確性對于闡明社會學習如何被適應性調整,以及哪些神經計算實現了這些調整至關重要。