97超碰人妻,亚洲天堂无码,97国产视频

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

自身與替代經歷在強化學習中對情景記憶的共同影響

《npj Science of Learning》：Shared effects of one’s own and others’ experiences during reinforcement learning on episodic memory

【字體：大中小】 時間：2026年03月02日 來源：npj Science of Learning 3

編輯推薦：

　　人類如何將親歷的獎賞預測錯誤與觀察他人時產生的替代性獎賞預測錯誤整合，進而塑造記憶，是理解社會學習與記憶交互機制的前沿問題。研究人員圍繞“獎賞預測錯誤(RPEs)在經驗和觀察性強化學習中對情景記憶的調節作用”這一主題，采用決策任務和偶然記憶范式開展研究。結果表明，盡管兩種學習條件下的記憶識別準確率無差異，但親歷試次引發了更高的記憶信心，且賭博行為與積極RPEs共同促進了對記憶項目的編碼。該研究發表于《npj Science of Learning》，揭示了觀察性學習與經驗性學習在神經編碼機制上的共性，為理解社會互動如何影響記憶形成提供了新視角。

在生活的舞臺上，我們不僅是自己故事的演員，也是他人經歷的觀眾。我們從個人嘗試與錯誤中汲取教訓，也會通過觀察他人的成敗得失來調整自己的行為，這種向他人學習的能力是社會生活的基石。這背后涉及一種名為強化學習(Reinforcement Learning)的基本機制，它幫助我們根據行為的后果（獎賞或懲罰）來優化未來的選擇。在這個機制中，獎賞預測錯誤(Reward Prediction Error, RPE)扮演著關鍵角色，它量化了實際結果與預期之間的差異，是驅動學習和行為調整的核心信號。當我們親自行動并獲得意外驚喜（正RPE）或失望（負RPE）時，大腦會利用這些信號來強化或削弱相關的記憶與行為路徑。但一個有趣且未完全闡明的問題是：當我們只是“旁觀”他人經歷類似的成敗時，大腦中產生的、對應于他人的“替代性獎賞預測錯誤”（vicarious RPEs）是否具有同樣的魔力？它能否像我們親身經歷產生的RPE一樣，深刻地刻錄下當時的場景，塑造我們的情景記憶(Episodic Memory)？

此前的研究已證實，個人直接經驗產生的RPEs與記憶的形成密切相關。然而，對于觀察性學習(Observational Learning)中產生的替代性RPEs是否以及如何影響記憶，科學界仍知之甚少。理解這一點，對于揭示社會互動如何內化為個人知識、如何影響我們的決策與記憶網絡具有根本性的意義。為了填補這一知識空白，一項發表在《npj Science of Learning》上的研究，由Guggenmos等人開展，巧妙地設計實驗，探索了經驗和觀察兩種強化學習途徑如何共同塑造我們對事件（情景）的記憶，并特別檢驗了RPEs在這一過程中的作用。

研究人員采用了一項結合決策任務與偶然記憶范式的實驗。在實驗中，參與者會親身體驗一個賭博決策任務（經驗學習條件），也會觀察另一位虛構玩家的賭博選擇與結果（觀察學習條件）。任務中呈現的圖片（記憶項目）與賭博決策相關聯。在之后出其不意的記憶測試中，參與者需要對之前出現過的這些圖片進行再認判斷，并報告他們的信心水平。通過計算和分析參與者在任務中的選擇、獲得的獎賞、以及由此產生的RPEs（包括基于自身結果的經驗RPEs和基于觀察他人結果的替代性RPEs），研究者能夠精細地剖析不同學習來源的RPEs對后續記憶表現的影響。

研究者們得到了幾個重要發現。首先，在宏觀的記憶準確性上，無論是通過親身經歷還是通過觀察他人學到的信息，其最終的記憶再認準確率并沒有顯著差異。這表明，觀察學習作為一種間接的信息獲取方式，在形成事實性記憶方面可以與直接經驗一樣有效。然而，一個微妙的差異出現在記憶的主觀體驗上：參與者對自己在親身經歷試次中編碼的圖片，其記憶信心顯著高于在觀察試次中編碼的圖片。這說明，盡管“記住”的結果可能相同，但“記得牢不牢靠”的感覺卻因學習來源而異，親歷往往帶來更確定、更強烈的記憶感。

更關鍵的發現在于獎賞預測錯誤(RPEs)的作用機制。分析顯示，無論是個人親歷的賭博決策行為本身，還是在記憶項目呈現時伴隨的正向RPEs（無論是來自自身經驗還是觀察他人），都與該記憶項目隨后被更好地記住（更高的記憶強度）顯著相關。換言之，當一次選擇伴隨冒險（賭博），或者當結果帶來意外的驚喜（正RPE）時，無論這驚喜是自己感受到的還是為他人感到的，當時正在呈現的“場景”（記憶項目）都會被更深刻地編碼進大腦。這一模式跨越了經驗和觀察兩種學習條件，強烈暗示了存在一種共享的、通用的記憶編碼機制：積極的預測錯誤信號（正RPE）和相關的決策上下文，共同構成了一個高效的“記憶增強器”，它并不嚴格區分信號的來源是“第一人稱”還是“第三人稱”。

這項研究的結論深化了我們對社會學習與記憶交互的理解。它表明，觀察他人的選擇和結果不僅僅影響我們未來的決策策略，還能通過激發與親身經歷相似的神經信號（如替代性RPEs），實質性且有效地塑造我們對相關事件的情景記憶。研究強調了在經驗和觀察性強化學習中，記憶編碼機制存在共性，正RPEs作為一種關鍵的計算信號，能夠跨模式地促進記憶鞏固。這為理解人類如何在社會環境中高效學習和記憶提供了新的計算與神經框架，也將觀察性學習的研究從單純的行為模仿，延伸到了更深刻的記憶形成與整合層面。未來，探索不同社會關系、情感共鳴等因素如何調節這種替代性RPEs對記憶的影響，將是極具前景的方向。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號