《Journal of Proteome Research》:Feasibility of Integrating Urinary Proteomics and Machine Learning for Diagnosing Diabetic Nephropathy
編輯推薦:
本研究針對(duì)糖尿病腎病(DN)早期診斷技術(shù)不足的臨床難題,聚焦于尿液蛋白質(zhì)組學(xué)與機(jī)器學(xué)習(xí)相結(jié)合的策略。研究人員通過(guò)鑒定差異表達(dá)的尿蛋白,并整合公共數(shù)據(jù)庫(kù)分析,篩選出SERPINF1、FABP4等六個(gè)潛在生物標(biāo)志物。基于這些標(biāo)志物構(gòu)建的機(jī)器學(xué)習(xí)診斷模型展現(xiàn)出優(yōu)異的診斷性能(AUC>0.800),并在外部驗(yàn)證隊(duì)列中得到證實(shí)。該研究為DN的無(wú)創(chuàng)、精準(zhǔn)診斷提供了新的方法學(xué)思路和極具轉(zhuǎn)化前景的候選分子靶標(biāo),對(duì)改善患者預(yù)后具有重要意義。
在糖尿病(Diabetes Mellitus,DM)肆虐的今天,一種名為糖尿病腎病(Diabetic Nephropathy,DN)的并發(fā)癥正悄然成為全球終末期腎病(ESRD)的首要病因。然而,臨床醫(yī)生在診斷這場(chǎng)“靜默危機(jī)”時(shí),卻常常面臨“武器庫(kù)”不足的尷尬——傳統(tǒng)金標(biāo)準(zhǔn)腎活檢因有創(chuàng)而難以常規(guī)開(kāi)展,而尿白蛋白/肌酐比值(UACR)和估算腎小球?yàn)V過(guò)率(eGFR)等常用指標(biāo),在疾病早期敏感性不足或特異性有限。尋找更靈敏、更無(wú)創(chuàng)的診斷“利器”,已成為腎病研究和臨床實(shí)踐領(lǐng)域亟待攻克的堡壘。
面對(duì)這一挑戰(zhàn),科學(xué)家們將目光投向了尿液——這一可以無(wú)創(chuàng)、反復(fù)獲取的“液體活檢”樣本,試圖從中尋找能夠預(yù)警腎臟損傷的“分子信號(hào)”。為了回答“能否通過(guò)尿液蛋白更早、更準(zhǔn)地診斷DN”這一問(wèn)題,研究人員在《Journal of Proteome Research》上發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究。他們巧妙地將前沿的尿液蛋白質(zhì)組學(xué)技術(shù)與強(qiáng)大的機(jī)器學(xué)習(xí)算法相結(jié)合,不僅在分子層面系統(tǒng)描繪了DN的蛋白表達(dá)圖譜,更成功篩選出關(guān)鍵的診斷標(biāo)志物,并構(gòu)建出高性能的診斷模型,為DN的精準(zhǔn)診療開(kāi)啟了新的大門(mén)。
為了開(kāi)展這項(xiàng)研究,作者團(tuán)隊(duì)首先從杭州市蕭山區(qū)第一人民醫(yī)院招募了包含健康對(duì)照(CON,n=60)、2型糖尿病(T2DM,n=59)和DN(n=60)患者在內(nèi)的隊(duì)列,并采集了他們的尿液樣本。研究采用的核心技術(shù)包括:液相色譜-串聯(lián)質(zhì)譜(LC-MS/MS) 技術(shù)對(duì)尿液蛋白進(jìn)行大規(guī)模鑒定和定量;生物信息學(xué)分析(使用limma、ggplot2等R包)篩選差異表達(dá)蛋白,并進(jìn)行KEGG、GO功能富集分析;整合來(lái)自GEO數(shù)據(jù)庫(kù)的多個(gè)公共數(shù)據(jù)集(GSE142025等)進(jìn)行交叉驗(yàn)證,篩選候選標(biāo)志物;運(yùn)用多種機(jī)器學(xué)習(xí)算法(包括glmnet、plr、ranger、gbm、svmRadial、naive_bayes)構(gòu)建DN診斷模型,并通過(guò)外部數(shù)據(jù)集iProX(IPX0003092000) 進(jìn)行驗(yàn)證。
研究結(jié)果
3.1. 患者臨床特征分析
研究人員分析了三組人群(CON、DM、DN)的臨床基線數(shù)據(jù)。結(jié)果顯示,與DM組相比,DN組患者年齡更大、糖尿病病程更長(zhǎng)、估算腎小球?yàn)V過(guò)率(eGFR)顯著降低,這為后續(xù)蛋白組學(xué)分析提供了臨床背景。
3.2. 患者尿液蛋白質(zhì)組學(xué)特征
初步分析發(fā)現(xiàn),DN組的尿液蛋白總數(shù)顯著低于CON和DM組。主成分分析(PCA)顯示CON組與DN組能較好區(qū)分,而DM與DN組分布有重疊,提示蛋白表達(dá)譜的差異。
3.3. 差異表達(dá)蛋白的篩選
通過(guò)火山圖分析,研究發(fā)現(xiàn)了大量在DN患者尿液中表達(dá)發(fā)生顯著變化的蛋白。例如,與CON組相比,DN組有504個(gè)蛋白表達(dá)下調(diào),442個(gè)上調(diào);與DM組相比,DN組有341個(gè)下調(diào),325個(gè)上調(diào)。這些變化揭示了從DM進(jìn)展到DN過(guò)程中的分子擾動(dòng)。
3.4. 差異表達(dá)蛋白的功能分析
KEGG通路富集分析表明,DN中上調(diào)的蛋白主要富集在系統(tǒng)性紅斑狼瘡、PPAR信號(hào)通路、NOD樣受體信號(hào)通路等與免疫炎癥和代謝重編程相關(guān)的通路。而GO分析進(jìn)一步提示,DN進(jìn)展涉及免疫系統(tǒng)激活、細(xì)胞間相互作用破壞以及細(xì)胞對(duì)外部刺激反應(yīng)性的改變。
3.5. DN中上調(diào)蛋白的篩選
通過(guò)層次聚類(lèi),研究者發(fā)現(xiàn)了一個(gè)蛋白模塊(Cluster 3),其表達(dá)水平隨疾病進(jìn)展(CON → DM → DN)而逐漸升高,并在DN患者中達(dá)到峰值。對(duì)該模塊蛋白進(jìn)行蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)分析,初步鎖定了28個(gè)顯著上調(diào)的蛋白作為潛在標(biāo)志物。
3.6. 潛在DN尿液蛋白生物標(biāo)志物的篩選
為了增強(qiáng)發(fā)現(xiàn)的可靠性,研究將本項(xiàng)目的蛋白組學(xué)數(shù)據(jù)與五個(gè)GEO數(shù)據(jù)庫(kù)的基因表達(dá)數(shù)據(jù)進(jìn)行了整合分析。經(jīng)過(guò)交叉驗(yàn)證,最終確定了六個(gè)在DN中持續(xù)高表達(dá)的候選生物標(biāo)志物:色素上皮衍生因子1(SERPINF1)、脂肪酸結(jié)合蛋白4(FABP4)、銅藍(lán)蛋白(CP)、補(bǔ)體因子B(CFB)、補(bǔ)體C4-A(C4A)和α-1B-糖蛋白(A1BG)。
3.7. 潛在尿液蛋白生物標(biāo)志物的診斷能力分析
研究人員利用這六個(gè)生物標(biāo)志物,構(gòu)建了區(qū)分DN與CON、以及DN與DM的機(jī)器學(xué)習(xí)診斷模型。結(jié)果顯示,使用glmnet、plr和ranger方法構(gòu)建的模型性能優(yōu)異,在測(cè)試集中的曲線下面積(AUC)值均超過(guò)0.800,其診斷準(zhǔn)確性超過(guò)了傳統(tǒng)的eGFR指標(biāo)。
3.8. 潛在尿液蛋白生物標(biāo)志物的診斷能力驗(yàn)證
為了驗(yàn)證模型的泛化能力,研究使用獨(dú)立的外部驗(yàn)證數(shù)據(jù)集IPX0003092000進(jìn)行評(píng)估。結(jié)果顯示,ranger、glmnet和plr模型在驗(yàn)證集中的AUC值分別達(dá)到了0.928、0.942和0.850,證明了該六標(biāo)志物組合具有穩(wěn)健的診斷效能。
結(jié)論與討論
本研究成功利用尿液蛋白質(zhì)組學(xué)技術(shù),鑒定出SERPINF1、FABP4、CP、CFB、C4A和A1BG六個(gè)在DN患者尿液中顯著上調(diào)的蛋白質(zhì)。功能分析揭示了這些蛋白與免疫炎癥、補(bǔ)體激活等關(guān)鍵生物學(xué)過(guò)程密切相關(guān),為理解DN發(fā)病機(jī)制提供了新線索。更重要的是,研究者創(chuàng)新性地將這六個(gè)標(biāo)志物與機(jī)器學(xué)習(xí)算法結(jié)合,構(gòu)建了高性能的DN診斷模型。該模型在內(nèi)部測(cè)試和外部獨(dú)立驗(yàn)證中均表現(xiàn)出高精度(AUC最高達(dá)0.942),其診斷效力優(yōu)于臨床常用的eGFR指標(biāo),展現(xiàn)出巨大的臨床應(yīng)用潛力。
這項(xiàng)工作的重要意義在于:第一,它為DN的早期、無(wú)創(chuàng)診斷提供了一套全新的、基于多標(biāo)志物組合的解決方案,有望彌補(bǔ)現(xiàn)有臨床指標(biāo)的不足。第二,研究策略具有示范性,整合了組學(xué)大數(shù)據(jù)、生物信息學(xué)篩選和人工智能建模,為其他復(fù)雜疾病的生物標(biāo)志物發(fā)現(xiàn)與模型構(gòu)建提供了可借鑒的范式。第三,研究所鑒定的六個(gè)蛋白本身可作為深入探究DN分子機(jī)制的新切入點(diǎn)。盡管研究存在樣本量有限、缺乏機(jī)制驗(yàn)證等局限性,但其成果無(wú)疑為推進(jìn)DN的精準(zhǔn)醫(yī)療邁出了堅(jiān)實(shí)的一步,未來(lái)通過(guò)更大規(guī)模的多中心臨床研究和深入的機(jī)制探索,有望早日將這一“液體活檢”診斷工具轉(zhuǎn)化為惠及廣大患者的臨床實(shí)踐。