《SCIENCE ADVANCES》:Rapid dopaminergic signatures in movement: Reach vigor reflects reward prediction error and learned expectation
編輯推薦:
本研究探索了多巴胺(DA)相關(guān)的獎賞學(xué)習(xí)信號如何快速調(diào)節(jié)人類運動活力。通過設(shè)計一個帶概率獎賞的伸手任務(wù),研究者發(fā)現(xiàn),伸手動作的峰速度隨獎賞預(yù)期(Expected Value)增加而提高。至關(guān)重要的是,在獲得結(jié)果反饋后,伸手速度會依據(jù)獎賞預(yù)期誤差(RPE)的符號和大小被瞬時增強或減弱。試次間的運動學(xué)變化反映了價值更新,這與多巴胺階段性學(xué)習(xí)信號一致。這些結(jié)果首次揭示了運動活力在毫秒級時間尺度上受到獎賞學(xué)習(xí)信號的實時調(diào)制,為大腦動機計算如何影響運動控制提供了直接的行為學(xué)證據(jù)。
當(dāng)我們在游戲中為了獲得高分而奮力一擊,或在工作中為了完成任務(wù)而加快節(jié)奏時,我們的動作會變得更加有力、迅速。這種“運動活力”的提升,普遍認(rèn)為與對目標(biāo)的預(yù)期價值有關(guān)——我們期待的獎勵越高,動作就越有勁兒。但大腦究竟是如何將“覺得某事值得做”這種主觀動機,轉(zhuǎn)化為“快速有力地去做”這種具體動作指令的呢?長期以來,神經(jīng)科學(xué)界一直懷疑神經(jīng)遞質(zhì)多巴胺(DA)是連接價值與活力的關(guān)鍵橋梁。多巴胺神經(jīng)元不僅編碼獎賞預(yù)期和“獎賞預(yù)期誤差”——即實際所得與預(yù)期之間的落差,這一學(xué)習(xí)的關(guān)鍵信號,還深入?yún)⑴c運動控制。那么,一個誘人的假設(shè)便是:我們的運動活力,或許能像一面“鏡子”,實時反映出大腦內(nèi)部這些微妙的多巴胺學(xué)習(xí)信號。然而,這種關(guān)聯(lián)是否真的存在?它是在動作啟動時就已決定,還是能在動作執(zhí)行過程中被即時調(diào)整?為了解答這些問題,一篇發(fā)表在《SCIENCE ADVANCES》上的研究,通過精巧的行為實驗,首次在人類身上捕捉到了運動活力動態(tài)追蹤多巴胺經(jīng)典學(xué)習(xí)信號的直接證據(jù)。
研究者們運用了基于機器人臂的伸手任務(wù)、細(xì)致的運動學(xué)分析、廣義線性混合模型、一維統(tǒng)計參數(shù)映射以及貝葉斯分層學(xué)習(xí)模型等關(guān)鍵技術(shù)方法。在實驗中,參與者使用KINARM機器人臂控制屏幕上的光標(biāo),完成“出-回”式伸手動作。任務(wù)的核心是四個與不同獎賞概率(0%、33%、66%、100%)相關(guān)聯(lián)的虛擬目標(biāo)。通過對比“明確告知概率”與“讓參與者從經(jīng)驗中學(xué)習(xí)”兩種實驗條件,研究者系統(tǒng)探討了運動活力與獎賞預(yù)期、獎賞預(yù)期誤差、學(xué)習(xí)價值以及獎賞歷史等多重因素的關(guān)系,并分析了生物力學(xué)努力(目標(biāo)方向)對選擇和活力的影響。
結(jié)果
實驗1:明確獎賞預(yù)期下的活力反應(yīng)
- •
峰速度追蹤獎賞預(yù)期:當(dāng)提示目標(biāo)的獎賞預(yù)期E[R]增加時,伸手出去動作的峰速度也隨之增加。到達(dá)目標(biāo)的時間則隨著獎賞預(yù)期增加而減少。反應(yīng)時也隨E[R]增加而降低。
- •
返回速度受RPE影響:在參與者擊中目標(biāo)并獲得(或未獲得)獎賞反饋后,其返回動作的速度受到該試次獎賞預(yù)期誤差的顯著影響。在控制向外峰速度等因素后,RPE對返回峰速度有顯著正向效應(yīng)。即時速度的標(biāo)準(zhǔn)化分析顯示,在反饋呈現(xiàn)后212毫秒,RPE對相對速度就產(chǎn)生了顯著的負(fù)向效應(yīng)(即更大的正RPE導(dǎo)致更大的返回活力)。同一試次內(nèi),向外與返回峰速度的差異也隨RPE顯著變化,RPE越正,差異越小。
實驗2:學(xué)習(xí)價值下的活力與選擇
- •
選擇行為反映獎賞預(yù)期和努力:在未告知概率、需從經(jīng)驗中學(xué)習(xí)的任務(wù)中,參與者在后續(xù)的選擇試次中能夠選擇獎賞概率更高的選項,平均準(zhǔn)確率為71%。選擇準(zhǔn)確率和反應(yīng)時都隨著選項間隱藏獎賞期望的差值增大而提高/減少。同時,目標(biāo)方向(代表生物力學(xué)努力)顯著影響決策,當(dāng)更高獎賞的選項所需努力更小時,其被選擇的頻率更高。
- •
單目標(biāo)試次活力追蹤預(yù)期并反映學(xué)習(xí):在學(xué)習(xí)的單目標(biāo)試次階段,向外峰速度對獎賞預(yù)期的反應(yīng)斜率隨著試驗的進行而增加,表明活力動態(tài)響應(yīng)了概率性獎賞,反映了學(xué)習(xí)過程。在學(xué)習(xí)階段結(jié)束時,峰速度對獎賞預(yù)期的反應(yīng)斜率能預(yù)測該受試者在后續(xù)選擇試次中的準(zhǔn)確率。
- •
返回速度變化追蹤RPE:與實驗1類似,即使在需學(xué)習(xí)的環(huán)境中,返回動作的活力依然受到RPE的快速調(diào)制,效應(yīng)出現(xiàn)在反饋后214毫秒。RPE對同一試次內(nèi)向外與返回峰速度的差異也有顯著影響。
- •
生物力學(xué)努力減慢向外峰速度:在兩次實驗中,平均向外峰速度均因目標(biāo)方向(即相對慣性)而異,朝向慣性較小方向的動作更快。這表明努力成本影響了基礎(chǔ)運動活力。
- •
單目標(biāo)試次主觀活力反應(yīng)預(yù)測選擇:參與者在單目標(biāo)試次末期對不同目標(biāo)的相對峰速度,與其在后續(xù)選擇試次中選擇這些目標(biāo)的頻率顯著相關(guān)。峰速度差異可以直接預(yù)測選擇偏好率。
價值估計
- •
學(xué)習(xí)價值能更好地解釋單目標(biāo)試次活力:研究者構(gòu)建了一個貝葉斯分層Delta規(guī)則學(xué)習(xí)模型,從選擇行為中估計每個試次、每個目標(biāo)的主觀學(xué)習(xí)價值,該價值整合了獎賞和主觀努力成本。模型顯示,學(xué)習(xí)價值能顯著預(yù)測單目標(biāo)試次的向外峰速度,且其預(yù)測效果優(yōu)于僅使用獎賞期望。此外,試次間的價值更新與相繼試次間峰速度的變化顯著相關(guān),而價值預(yù)期誤差對同一試次內(nèi)向外與返回峰速度的相對差異也有顯著影響。
- •
近期獎賞歷史導(dǎo)致更快動作:在控制當(dāng)前試次價值的情況下,整合了近期獎賞接收歷史的“獎賞歷史”變量,在兩次實驗中均能獨立地預(yù)測向外峰速度的增加。這表明存在一種與特定目標(biāo)價值無關(guān)、但能普遍增強運動動機的獎賞歷史效應(yīng)。
結(jié)論與討論
RPE快速影響進行中的運動
本研究首次證明,獎賞預(yù)期誤差能在進行中的運動上產(chǎn)生調(diào)節(jié)作用,導(dǎo)致與預(yù)期誤差符號相符的加速或減速,且此效應(yīng)與預(yù)期誤差的大小成比例。這種快速的活力反應(yīng),可能與由階段性RPE信號時間整合引起的紋狀體多巴胺水平快速升降有關(guān)。研究表明,從感覺輸入到觀察到行為效應(yīng)(約212-214毫秒)的時間過程,與已知的感覺運動獎勵預(yù)測通路延遲相符,支持了該效應(yīng)源于經(jīng)調(diào)諧的感覺運動獎勵預(yù)測的可行性。
主觀努力成本被整合進相對選擇偏好和運動活力
研究發(fā)現(xiàn),個體在花費生物力學(xué)努力以獲得金錢獎賞的意愿上存在差異,且這種差異既體現(xiàn)在選擇行為上,也體現(xiàn)在先前單目標(biāo)試次的運動活力上。目標(biāo)方向?qū)x擇偏好的影響大小與對個體運動活力的影響大小相關(guān)。研究采用的價值學(xué)習(xí)模型假設(shè)價值預(yù)期誤差整合了獎賞和努力,該模型能更好地描述選擇數(shù)據(jù),并且學(xué)習(xí)價值能有效預(yù)測運動活力在多個時間尺度上的變化。這支持了獎賞和努力成本可以被結(jié)合成一個單一的、主觀的決策變量,該變量同時描述了個體化的運動活力和選擇偏好。
環(huán)境確定性可能解釋獎賞歷史反應(yīng)的差異
研究結(jié)果凸顯了“被告知的隨機性”與“體驗的隨機性”之間的差異。RPE對運動活力的效應(yīng)在兩種環(huán)境中是相似的。最明顯的區(qū)別在于近期獎賞歷史的影響。在需學(xué)習(xí)的環(huán)境中,獎賞歷史對活力的影響具有更長的“記憶”,緩慢整合多次試次;而在明確告知概率的環(huán)境中,其影響更“沖動”、衰減更快。這可能反映了環(huán)境不確定性的差異,當(dāng)平均獎賞期望必須通過經(jīng)驗學(xué)習(xí)時,更新速率會降低。
總結(jié)
兩項實驗共同證明,運動活力對多巴胺學(xué)習(xí)和動機的神經(jīng)關(guān)聯(lián)具有跨時間尺度的敏感性。活力隨獎賞可能性增加而增加,并在進行中運動中根據(jù)RPE被快速、按比例調(diào)整。從選擇行為中建模得到的特定于試次的學(xué)習(xí)價值,可整合獎賞和主觀努力,并預(yù)測個體在不同時間尺度上的伸手活力。此外,與特定目標(biāo)價值無關(guān)的近期獎賞歷史也能顯著增強活力。這些結(jié)果強調(diào)了已知的短時程多巴胺學(xué)習(xí)信號與運動活力增強之間的聯(lián)系,這種聯(lián)系不僅出現(xiàn)在提示呈現(xiàn)和動作啟動時,也出現(xiàn)在反饋提供后正在進行運動的即刻。這為多巴胺在學(xué)習(xí)、動機和運動控制中的三重角色如何共同塑造行為提供了新的見解。