《Frontiers in Aging》:Development and validation of a machine learning-based risk prediction model for sarcopenia in community hospital patients: a retrospective cohort study
編輯推薦:
本文通過機(jī)器學(xué)習(xí)算法(如CatBoost、LightGBM、GBDT等)結(jié)合SHAP可解釋性技術(shù),篩選出影響肌肉減少癥(Sarcopenia)的關(guān)鍵風(fēng)險(xiǎn)因素,并構(gòu)建了高精度的風(fēng)險(xiǎn)預(yù)測模型。研究揭示了年齡、SARC-CalF評分、體重指數(shù)(BMI)、營養(yǎng)狀態(tài)(MNA-SF)和握力是重要的預(yù)測指標(biāo),為社區(qū)老年人群的肌肉減少癥早期識別和精準(zhǔn)干預(yù)提供了有力工具。
肌肉減少癥是一種與年齡相關(guān)的、以進(jìn)行性骨骼肌量減少、肌力下降和功能減退為特征的綜合征,是導(dǎo)致老年人衰弱、失能和死亡率增加的關(guān)鍵風(fēng)險(xiǎn)因素。鑒于其在老年人群中的高患病率(尤其是在亞洲國家)及巨大的公共衛(wèi)生負(fù)擔(dān),早期識別和干預(yù)至關(guān)重要。本研究旨在利用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),從多維社區(qū)健康數(shù)據(jù)中,構(gòu)建并評估針對肌肉減少癥的高精度風(fēng)險(xiǎn)預(yù)測模型,以期為社區(qū)篩查和個(gè)體化健康管理提供決策支持。
研究方法與數(shù)據(jù)
本研究的數(shù)據(jù)來源于上海某社區(qū)衛(wèi)生服務(wù)中心,共納入了1656名≥60歲的社區(qū)常住老年人。在排除信息不全者后,最終1650名參與者被納入分析。肌肉減少癥的診斷嚴(yán)格遵循亞洲肌肉減少癥工作組2019年的標(biāo)準(zhǔn),包括低肌肉力量(男性握力<28千克,女性<18千克)和低肌肉質(zhì)量(生物電阻抗法測得)。研究收集了包括人口社會學(xué)特征、生活方式、共患病、用藥情況、營養(yǎng)狀況、功能狀態(tài)在內(nèi)的37個(gè)潛在預(yù)測變量。為了處理數(shù)據(jù)不平衡問題,研究采用了合成少數(shù)類過采樣技術(shù)。隨后,數(shù)據(jù)集被隨機(jī)分為訓(xùn)練集和測試集,用于后續(xù)的模型開發(fā)和驗(yàn)證。
機(jī)器學(xué)習(xí)模型的開發(fā)與評估
研究構(gòu)建并比較了12種主流的機(jī)器學(xué)習(xí)模型,包括隨機(jī)森林、支持向量機(jī)、梯度提升樹家族的CatBoost、LightGBM和XGBoost等。所有模型的性能通過5折交叉驗(yàn)證進(jìn)行評估,采用了一系列評價(jià)指標(biāo),如準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、特異性以及受試者工作特征曲線下面積。結(jié)果顯示,在眾多模型中,CatBoost、LightGBM和梯度提升決策樹模型表現(xiàn)出卓越且穩(wěn)定的性能。其中,CatBoost模型在測試集上展現(xiàn)出最優(yōu)的綜合預(yù)測能力,其AUC達(dá)到了0.986,準(zhǔn)確率為0.944,F(xiàn)1分?jǐn)?shù)為0.940,顯示出在社區(qū)老年人群中識別肌肉減少癥的強(qiáng)大潛力。
關(guān)鍵風(fēng)險(xiǎn)因素的識別與解釋
為了深入理解模型決策背后的邏輯并識別關(guān)鍵風(fēng)險(xiǎn)因素,研究引入了SHAP可解釋性技術(shù)。SHAP值量化了每個(gè)特征對模型預(yù)測結(jié)果的貢獻(xiàn)度。分析發(fā)現(xiàn),五個(gè)變量在CatBoost、LightGBM和GBDT這三個(gè)表現(xiàn)最佳模型中均被一致地識別為最重要的預(yù)測因子,按其重要性排序依次為:年齡、SARC-CalF評分、身體質(zhì)量指數(shù)、微型營養(yǎng)評估簡表得分和握力。具體而言:
- •
年齡是肌肉減少癥最強(qiáng)的正相關(guān)預(yù)測因子。SHAP依賴圖清晰顯示,隨著年齡增長,特別是超過75歲后,患肌肉減少癥的風(fēng)險(xiǎn)顯著增加。
- •
SARC-CalF評分,作為一個(gè)結(jié)合了力量、輔助行走、起立、爬樓和跌倒史的綜合篩查工具,是另一個(gè)強(qiáng)有力的正相關(guān)預(yù)測因子。評分越高,風(fēng)險(xiǎn)越大。
- •
身體質(zhì)量指數(shù)則顯示出強(qiáng)烈的負(fù)相關(guān)關(guān)系。較低的BMI值(尤其低于20千克/平方米)與極高的肌肉減少癥風(fēng)險(xiǎn)相關(guān)。
- •
微型營養(yǎng)評估簡表得分,作為營養(yǎng)狀況的評估工具,其得分降低同樣預(yù)示著更高的肌肉減少癥風(fēng)險(xiǎn),強(qiáng)調(diào)了營養(yǎng)不良在肌肉減少癥發(fā)生發(fā)展中的關(guān)鍵作用。
- •
握力,作為肌肉功能的直接度量,是肌肉減少癥核心的診斷標(biāo)準(zhǔn)之一,其數(shù)值下降是風(fēng)險(xiǎn)的明確信號。
臨床預(yù)測模型的構(gòu)建與驗(yàn)證
基于上述五個(gè)關(guān)鍵變量,研究進(jìn)一步構(gòu)建了易于臨床應(yīng)用的邏輯回歸模型,并可視化為諾莫圖。校準(zhǔn)曲線顯示,該模型的預(yù)測概率與實(shí)際觀測到的風(fēng)險(xiǎn)具有良好的一致性。決策曲線分析證實(shí),該模型在廣泛的閾值概率范圍內(nèi)具有較高的臨床凈收益,優(yōu)于“全干預(yù)”或“不干預(yù)”的策略。此外,通過與僅包含年齡、性別、BMI的傳統(tǒng)基線模型進(jìn)行比較,整合了五個(gè)關(guān)鍵因子的新模型在區(qū)分能力上具有顯著優(yōu)勢,凈重分類改善和綜合判別改善指標(biāo)均具有統(tǒng)計(jì)學(xué)意義。
結(jié)論與展望
本研究成功利用機(jī)器學(xué)習(xí)方法,從社區(qū)老年人健康數(shù)據(jù)中挖掘出年齡、SARC-CalF評分、BMI、MNA-SF得分和握力這五個(gè)核心預(yù)測因子,并構(gòu)建了高性能的肌肉減少癥風(fēng)險(xiǎn)預(yù)測模型。其中,CatBoost模型在預(yù)測準(zhǔn)確性方面表現(xiàn)最佳。基于這些因子構(gòu)建的諾莫圖為社區(qū)醫(yī)務(wù)人員提供了一個(gè)直觀、便捷的工具,可用于快速評估個(gè)體老年人的肌肉減少癥風(fēng)險(xiǎn),從而實(shí)現(xiàn)對高風(fēng)險(xiǎn)人群的早期篩查和針對性干預(yù)。未來,研究團(tuán)隊(duì)計(jì)劃在前瞻性隊(duì)列中進(jìn)一步驗(yàn)證此模型的效能,并探索將其整合到社區(qū)衛(wèi)生信息系統(tǒng)或移動(dòng)健康應(yīng)用中,以推動(dòng)肌肉減少癥的社區(qū)防治向精準(zhǔn)化、智能化方向發(fā)展。