狠狠干狠狠爱,制度丝袜诱惑av,3p露脸在线播放

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

運動活力的多巴胺編碼：獎勵預(yù)期誤差實時調(diào)控人類伸手動作活力的神經(jīng)機制

《SCIENCE ADVANCES》：Rapid dopaminergic signatures in movement: Reach vigor reflects reward prediction error and learned expectation

【字體：大中小】 時間：2026年03月01日 來源：SCIENCE ADVANCES 12.5

編輯推薦：

　　本研究探索了多巴胺（DA）相關(guān)的獎賞學(xué)習(xí)信號如何快速調(diào)節(jié)人類運動活力。通過設(shè)計一個帶概率獎賞的伸手任務(wù)，研究者發(fā)現(xiàn)，伸手動作的峰速度隨獎賞預(yù)期（Expected Value）增加而提高。至關(guān)重要的是，在獲得結(jié)果反饋后，伸手速度會依據(jù)獎賞預(yù)期誤差（RPE）的符號和大小被瞬時增強或減弱。試次間的運動學(xué)變化反映了價值更新，這與多巴胺階段性學(xué)習(xí)信號一致。這些結(jié)果首次揭示了運動活力在毫秒級時間尺度上受到獎賞學(xué)習(xí)信號的實時調(diào)制，為大腦動機計算如何影響運動控制提供了直接的行為學(xué)證據(jù)。

當(dāng)我們在游戲中為了獲得高分而奮力一擊，或在工作中為了完成任務(wù)而加快節(jié)奏時，我們的動作會變得更加有力、迅速。這種“運動活力”的提升，普遍認(rèn)為與對目標(biāo)的預(yù)期價值有關(guān)——我們期待的獎勵越高，動作就越有勁兒。但大腦究竟是如何將“覺得某事值得做”這種主觀動機，轉(zhuǎn)化為“快速有力地去做”這種具體動作指令的呢？長期以來，神經(jīng)科學(xué)界一直懷疑神經(jīng)遞質(zhì)多巴胺（DA）是連接價值與活力的關(guān)鍵橋梁。多巴胺神經(jīng)元不僅編碼獎賞預(yù)期和“獎賞預(yù)期誤差”——即實際所得與預(yù)期之間的落差，這一學(xué)習(xí)的關(guān)鍵信號，還深入?yún)⑴c運動控制。那么，一個誘人的假設(shè)便是：我們的運動活力，或許能像一面“鏡子”，實時反映出大腦內(nèi)部這些微妙的多巴胺學(xué)習(xí)信號。然而，這種關(guān)聯(lián)是否真的存在？它是在動作啟動時就已決定，還是能在動作執(zhí)行過程中被即時調(diào)整？為了解答這些問題，一篇發(fā)表在《SCIENCE ADVANCES》上的研究，通過精巧的行為實驗，首次在人類身上捕捉到了運動活力動態(tài)追蹤多巴胺經(jīng)典學(xué)習(xí)信號的直接證據(jù)。

研究者們運用了基于機器人臂的伸手任務(wù)、細(xì)致的運動學(xué)分析、廣義線性混合模型、一維統(tǒng)計參數(shù)映射以及貝葉斯分層學(xué)習(xí)模型等關(guān)鍵技術(shù)方法。在實驗中，參與者使用KINARM機器人臂控制屏幕上的光標(biāo)，完成“出-回”式伸手動作。任務(wù)的核心是四個與不同獎賞概率（0%、33%、66%、100%）相關(guān)聯(lián)的虛擬目標(biāo)。通過對比“明確告知概率”與“讓參與者從經(jīng)驗中學(xué)習(xí)”兩種實驗條件，研究者系統(tǒng)探討了運動活力與獎賞預(yù)期、獎賞預(yù)期誤差、學(xué)習(xí)價值以及獎賞歷史等多重因素的關(guān)系，并分析了生物力學(xué)努力（目標(biāo)方向）對選擇和活力的影響。

結(jié)果

實驗1：明確獎賞預(yù)期下的活力反應(yīng)

•
峰速度追蹤獎賞預(yù)期：當(dāng)提示目標(biāo)的獎賞預(yù)期E[R]增加時，伸手出去動作的峰速度也隨之增加。到達(dá)目標(biāo)的時間則隨著獎賞預(yù)期增加而減少。反應(yīng)時也隨E[R]增加而降低。
•
返回速度受RPE影響：在參與者擊中目標(biāo)并獲得（或未獲得）獎賞反饋后，其返回動作的速度受到該試次獎賞預(yù)期誤差的顯著影響。在控制向外峰速度等因素后，RPE對返回峰速度有顯著正向效應(yīng)。即時速度的標(biāo)準(zhǔn)化分析顯示，在反饋呈現(xiàn)后212毫秒，RPE對相對速度就產(chǎn)生了顯著的負(fù)向效應(yīng)（即更大的正RPE導(dǎo)致更大的返回活力）。同一試次內(nèi)，向外與返回峰速度的差異也隨RPE顯著變化，RPE越正，差異越小。

實驗2：學(xué)習(xí)價值下的活力與選擇

•
選擇行為反映獎賞預(yù)期和努力：在未告知概率、需從經(jīng)驗中學(xué)習(xí)的任務(wù)中，參與者在后續(xù)的選擇試次中能夠選擇獎賞概率更高的選項，平均準(zhǔn)確率為71%。選擇準(zhǔn)確率和反應(yīng)時都隨著選項間隱藏獎賞期望的差值增大而提高/減少。同時，目標(biāo)方向（代表生物力學(xué)努力）顯著影響決策，當(dāng)更高獎賞的選項所需努力更小時，其被選擇的頻率更高。
•
單目標(biāo)試次活力追蹤預(yù)期并反映學(xué)習(xí)：在學(xué)習(xí)的單目標(biāo)試次階段，向外峰速度對獎賞預(yù)期的反應(yīng)斜率隨著試驗的進行而增加，表明活力動態(tài)響應(yīng)了概率性獎賞，反映了學(xué)習(xí)過程。在學(xué)習(xí)階段結(jié)束時，峰速度對獎賞預(yù)期的反應(yīng)斜率能預(yù)測該受試者在后續(xù)選擇試次中的準(zhǔn)確率。
•
返回速度變化追蹤RPE：與實驗1類似，即使在需學(xué)習(xí)的環(huán)境中，返回動作的活力依然受到RPE的快速調(diào)制，效應(yīng)出現(xiàn)在反饋后214毫秒。RPE對同一試次內(nèi)向外與返回峰速度的差異也有顯著影響。
•
生物力學(xué)努力減慢向外峰速度：在兩次實驗中，平均向外峰速度均因目標(biāo)方向（即相對慣性）而異，朝向慣性較小方向的動作更快。這表明努力成本影響了基礎(chǔ)運動活力。
•
單目標(biāo)試次主觀活力反應(yīng)預(yù)測選擇：參與者在單目標(biāo)試次末期對不同目標(biāo)的相對峰速度，與其在后續(xù)選擇試次中選擇這些目標(biāo)的頻率顯著相關(guān)。峰速度差異可以直接預(yù)測選擇偏好率。

價值估計

•
學(xué)習(xí)價值能更好地解釋單目標(biāo)試次活力：研究者構(gòu)建了一個貝葉斯分層Delta規(guī)則學(xué)習(xí)模型，從選擇行為中估計每個試次、每個目標(biāo)的主觀學(xué)習(xí)價值，該價值整合了獎賞和主觀努力成本。模型顯示，學(xué)習(xí)價值能顯著預(yù)測單目標(biāo)試次的向外峰速度，且其預(yù)測效果優(yōu)于僅使用獎賞期望。此外，試次間的價值更新與相繼試次間峰速度的變化顯著相關(guān)，而價值預(yù)期誤差對同一試次內(nèi)向外與返回峰速度的相對差異也有顯著影響。
•
近期獎賞歷史導(dǎo)致更快動作：在控制當(dāng)前試次價值的情況下，整合了近期獎賞接收歷史的“獎賞歷史”變量，在兩次實驗中均能獨立地預(yù)測向外峰速度的增加。這表明存在一種與特定目標(biāo)價值無關(guān)、但能普遍增強運動動機的獎賞歷史效應(yīng)。

結(jié)論與討論

RPE快速影響進行中的運動

本研究首次證明，獎賞預(yù)期誤差能在進行中的運動上產(chǎn)生調(diào)節(jié)作用，導(dǎo)致與預(yù)期誤差符號相符的加速或減速，且此效應(yīng)與預(yù)期誤差的大小成比例。這種快速的活力反應(yīng)，可能與由階段性RPE信號時間整合引起的紋狀體多巴胺水平快速升降有關(guān)。研究表明，從感覺輸入到觀察到行為效應(yīng)（約212-214毫秒）的時間過程，與已知的感覺運動獎勵預(yù)測通路延遲相符，支持了該效應(yīng)源于經(jīng)調(diào)諧的感覺運動獎勵預(yù)測的可行性。

主觀努力成本被整合進相對選擇偏好和運動活力

研究發(fā)現(xiàn)，個體在花費生物力學(xué)努力以獲得金錢獎賞的意愿上存在差異，且這種差異既體現(xiàn)在選擇行為上，也體現(xiàn)在先前單目標(biāo)試次的運動活力上。目標(biāo)方向?qū)︖x擇偏好的影響大小與對個體運動活力的影響大小相關(guān)。研究采用的價值學(xué)習(xí)模型假設(shè)價值預(yù)期誤差整合了獎賞和努力，該模型能更好地描述選擇數(shù)據(jù)，并且學(xué)習(xí)價值能有效預(yù)測運動活力在多個時間尺度上的變化。這支持了獎賞和努力成本可以被結(jié)合成一個單一的、主觀的決策變量，該變量同時描述了個體化的運動活力和選擇偏好。

環(huán)境確定性可能解釋獎賞歷史反應(yīng)的差異

研究結(jié)果凸顯了“被告知的隨機性”與“體驗的隨機性”之間的差異。RPE對運動活力的效應(yīng)在兩種環(huán)境中是相似的。最明顯的區(qū)別在于近期獎賞歷史的影響。在需學(xué)習(xí)的環(huán)境中，獎賞歷史對活力的影響具有更長的“記憶”，緩慢整合多次試次；而在明確告知概率的環(huán)境中，其影響更“沖動”、衰減更快。這可能反映了環(huán)境不確定性的差異，當(dāng)平均獎賞期望必須通過經(jīng)驗學(xué)習(xí)時，更新速率會降低。

總結(jié)

兩項實驗共同證明，運動活力對多巴胺學(xué)習(xí)和動機的神經(jīng)關(guān)聯(lián)具有跨時間尺度的敏感性。活力隨獎賞可能性增加而增加，并在進行中運動中根據(jù)RPE被快速、按比例調(diào)整。從選擇行為中建模得到的特定于試次的學(xué)習(xí)價值，可整合獎賞和主觀努力，并預(yù)測個體在不同時間尺度上的伸手活力。此外，與特定目標(biāo)價值無關(guān)的近期獎賞歷史也能顯著增強活力。這些結(jié)果強調(diào)了已知的短時程多巴胺學(xué)習(xí)信號與運動活力增強之間的聯(lián)系，這種聯(lián)系不僅出現(xiàn)在提示呈現(xiàn)和動作啟動時，也出現(xiàn)在反饋提供后正在進行運動的即刻。這為多巴胺在學(xué)習(xí)、動機和運動控制中的三重角色如何共同塑造行為提供了新的見解。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點
科普

知名企業(yè)招聘

熱點排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號