《Scientific Reports》:Future-aware blood glucose forecasting using knowledge distillation with transformer-based sequence-to-sequence models
編輯推薦:
本研究旨在解決血糖預(yù)測(cè)模型在真實(shí)部署時(shí)無法獲取胰島素注射、膳食攝入等未來擾動(dòng)信息的關(guān)鍵難題。研究人員提出一種未來感知的學(xué)習(xí)框架,利用訓(xùn)練時(shí)的特權(quán)信息,通過Transformer教師模型和知識(shí)蒸餾訓(xùn)練的學(xué)生模型,實(shí)現(xiàn)了僅基于歷史數(shù)據(jù)的實(shí)時(shí)、高精度多步血糖預(yù)測(cè)。在OhioT1DM和AZT1D數(shù)據(jù)集上的評(píng)估顯示,該方法在30至120分鐘的預(yù)測(cè)范圍內(nèi),均方根誤差和平均絕對(duì)誤差持續(xù)降低,且超過90%的預(yù)測(cè)點(diǎn)落在克拉克誤差網(wǎng)格分析的臨床可接受區(qū)域,顯著提升了預(yù)測(cè)性能與臨床可靠性。這項(xiàng)工作為在現(xiàn)實(shí)約束下增強(qiáng)血糖預(yù)測(cè)模型的實(shí)用性提供了新思路。
準(zhǔn)確預(yù)測(cè)未來的血糖水平,對(duì)于糖尿病患者而言,就像是擁有了一個(gè)全天候的健康導(dǎo)航儀,能夠預(yù)警“高血糖”或“低血糖”的“交通風(fēng)險(xiǎn)”,從而及時(shí)調(diào)整胰島素或飲食,避免危險(xiǎn)。盡管基于連續(xù)血糖監(jiān)測(cè)(Continuous Glucose Monitoring, CGM)數(shù)據(jù)的深度學(xué)習(xí)模型已經(jīng)取得了令人鼓舞的進(jìn)展,但絕大多數(shù)現(xiàn)有方法存在一個(gè)根本性的“盲區(qū)”:它們僅依賴歷史血糖值進(jìn)行預(yù)測(cè),無法顯式地考慮那些在預(yù)測(cè)時(shí)刻尚未發(fā)生、但對(duì)未來血糖有決定性影響的“未來擾動(dòng)”,比如計(jì)劃中的胰島素注射和即將到來的膳食攝入。這導(dǎo)致模型在實(shí)驗(yàn)室環(huán)境中表現(xiàn)良好,一旦部署到真實(shí)的、無法預(yù)知未來行為的場(chǎng)景中,其預(yù)測(cè)準(zhǔn)確性就會(huì)大打折扣。為了解決這一核心矛盾,一項(xiàng)發(fā)表在《Scientific Reports》上的研究提出了一種創(chuàng)新的“未來感知”學(xué)習(xí)框架,讓模型在訓(xùn)練時(shí)“預(yù)習(xí)”未來,在應(yīng)用時(shí)僅憑“過去”就能做出精準(zhǔn)判斷。
研究人員開展此項(xiàng)研究,旨在開發(fā)一種既能在訓(xùn)練階段利用未來擾動(dòng)信息(特權(quán)信息)、又能在推理階段僅依賴歷史數(shù)據(jù)進(jìn)行實(shí)時(shí)多步血糖水平(Blood Glucose Level, BGL)預(yù)測(cè)的可行框架。他們得出的結(jié)論是,所提出的基于Transformer和知識(shí)蒸餾的未來感知框架,能夠顯著提升多步BGL預(yù)測(cè)的精度和臨床可靠性,在30至120分鐘的預(yù)測(cè)范圍內(nèi)性能優(yōu)于多種基線方法,證明了該策略在現(xiàn)實(shí)約束下的巨大潛力。
為開展研究,作者主要采用了幾個(gè)關(guān)鍵技術(shù)方法。首先,研究基于兩個(gè)公開的1型糖尿病CGM數(shù)據(jù)集——OhioT1DM和AZT1D——構(gòu)建實(shí)驗(yàn)隊(duì)列。其次,研究核心是設(shè)計(jì)了一個(gè)基于Transformer編碼器-解碼器結(jié)構(gòu)的序列到序列教師模型,該模型在離線訓(xùn)練時(shí)能夠同時(shí)接收歷史CGM序列和未來的擾動(dòng)信息(如胰島素、膳食、運(yùn)動(dòng)等)。接著,通過知識(shí)蒸餾技術(shù),訓(xùn)練一個(gè)結(jié)構(gòu)相似但僅接收歷史CGM序列的學(xué)生模型,使其輸出的中間表示逼近教師模型的“未來感知”表示。模型評(píng)估采用了均方根誤差(Root Mean Squared Error, RMSE)、平均絕對(duì)誤差(Mean Absolute Error, MAE)以及克拉克誤差網(wǎng)格(Clarke Error Grid, CEG)分析等指標(biāo)。
研究結(jié)果
1. 未來感知框架的性能優(yōu)勢(shì)
通過與多種基線方法(包括長(zhǎng)效短期記憶網(wǎng)絡(luò)、門控循環(huán)單元、普通Transformer序列到序列模型等)的比較實(shí)驗(yàn)表明,本研究提出的未來感知知識(shí)蒸餾框架,在OhioT1DM和AZT1D數(shù)據(jù)集上,對(duì)于30、60、90、120分鐘的多步預(yù)測(cè)任務(wù),在RMSE和MAE指標(biāo)上均取得了最先進(jìn)或極具競(jìng)爭(zhēng)力的結(jié)果。特別是在較長(zhǎng)的預(yù)測(cè)范圍(如120分鐘),該框架的性能優(yōu)勢(shì)更為明顯。
2. 知識(shí)蒸餾的有效性驗(yàn)證
通過對(duì)比僅用歷史數(shù)據(jù)訓(xùn)練的基準(zhǔn)學(xué)生模型、使用未來信息訓(xùn)練的教師模型、以及通過知識(shí)蒸餾得到的學(xué)生模型,研究發(fā)現(xiàn)經(jīng)過知識(shí)蒸餾的學(xué)生模型性能顯著優(yōu)于基準(zhǔn)學(xué)生模型,并且非常接近甚至在某些情況下媲美能“看到”未來的教師模型。這證明知識(shí)蒸餾成功地將教師模型學(xué)到的、關(guān)于未來擾動(dòng)影響的時(shí)序表征,遷移到了只能使用歷史數(shù)據(jù)的學(xué)生模型中。
3. 臨床可靠性分析
使用克拉克誤差網(wǎng)格(CEG)進(jìn)行臨床可接受性評(píng)估。結(jié)果顯示,相比基線方法,未來感知框架的預(yù)測(cè)結(jié)果有更高比例的點(diǎn)落在臨床可接受的A區(qū)和B區(qū)(兩者合計(jì)超過90%),而落在可能引發(fā)錯(cuò)誤治療決策的C、D、E區(qū)的比例顯著降低。這證明該方法不僅提升了數(shù)值精度,更重要的是提高了預(yù)測(cè)結(jié)果的臨床安全性與實(shí)用性。
4. 消融研究與擾動(dòng)信息貢獻(xiàn)分析
通過控制變量實(shí)驗(yàn),分析了不同未來擾動(dòng)信息(如胰島素、膳食、運(yùn)動(dòng))對(duì)模型性能的貢獻(xiàn)度。結(jié)果表明,胰島素和膳食信息是其中最關(guān)鍵的未來信息,將它們納入教師模型的訓(xùn)練能帶來最顯著的性能提升。而學(xué)生模型通過知識(shí)蒸餾,有效地“繼承”了這些關(guān)鍵信息的影響模式。
研究結(jié)論與討論
本研究的核心結(jié)論是,通過結(jié)合Transformer序列到序列架構(gòu)與知識(shí)蒸餾技術(shù),所提出的未來感知訓(xùn)練策略能夠有效解決BGL預(yù)測(cè)中未來信息不可用的現(xiàn)實(shí)瓶頸。該框架允許模型在訓(xùn)練階段充分利用未來的擾動(dòng)信息來學(xué)習(xí)更精準(zhǔn)的血糖動(dòng)態(tài)表征,隨后通過蒸餾將這種“感知未來”的能力壓縮到一個(gè)僅需歷史數(shù)據(jù)即可運(yùn)行的輕量級(jí)學(xué)生模型中。這使得模型在部署時(shí),無需實(shí)際獲取尚未發(fā)生的用戶行為信息,就能做出接近于“先知”模型的準(zhǔn)確預(yù)測(cè)。
這項(xiàng)工作的重要意義在于其橋梁作用:它彌合了理想化實(shí)驗(yàn)環(huán)境與真實(shí)臨床應(yīng)用場(chǎng)景之間的差距。研究結(jié)果表明,即使在沒有完美未來信息的情況下,通過巧妙的機(jī)器學(xué)習(xí)框架設(shè)計(jì),依然可以大幅提升血糖預(yù)測(cè)系統(tǒng)的魯棒性和可靠性。這為開發(fā)下一代智能化、個(gè)性化的糖尿病管理工具提供了新的技術(shù)路徑。未來的工作可以探索將更多模態(tài)的上下文信息(如情緒、壓力、睡眠)納入框架,并進(jìn)一步優(yōu)化模型以適應(yīng)邊緣設(shè)備上的實(shí)時(shí)運(yùn)行,最終推動(dòng)人工智能在慢性病健康管理中的切實(shí)落地。