基于殘留糞便免疫化學(xué)檢測(cè)樣本的蛋白質(zhì)組學(xué)與機(jī)器學(xué)習(xí)優(yōu)化結(jié)腸鏡篩查患者選擇:一項(xiàng)中間性結(jié)直腸癌篩查技術(shù)的探索
《Molecular & Cellular Proteomics》:Exploring an Intermediate Colorectal Cancer Screening Test Based on Stool Proteomics and Machine Learning for Optimizing the Selection of Patients for Colonoscopy Identified from FIT
編輯推薦:
本文研究旨在解決結(jié)直腸癌篩查中糞便免疫化學(xué)檢測(cè)(FIT)假陽(yáng)性率高導(dǎo)致大量不必要結(jié)腸鏡檢查的問(wèn)題。研究者利用機(jī)器學(xué)習(xí)工具分析FIT陽(yáng)性殘留樣本的蛋白質(zhì)組學(xué)數(shù)據(jù),發(fā)現(xiàn)該方法能以≥90%的特異性識(shí)別大部分FIT假陽(yáng)性,并能準(zhǔn)確預(yù)測(cè)真陽(yáng)性CRC病例,為優(yōu)化結(jié)腸鏡篩查患者選擇提供了高效策略,有望顯著減少不必要的侵入性檢查。
結(jié)直腸癌(CRC)是全球范圍內(nèi)致死率最高的癌癥類型之一,但同時(shí)也是少數(shù)通過(guò)篩查可有效降低平均風(fēng)險(xiǎn)人群死亡率的癌癥之一。早期發(fā)現(xiàn)是改善CRC生存率的關(guān)鍵。目前,結(jié)腸鏡檢查是檢測(cè)CRC及其癌前病變——進(jìn)展期腺瘤(AA)的金標(biāo)準(zhǔn)。然而,其侵入性、不適感、準(zhǔn)備過(guò)程復(fù)雜、并發(fā)癥風(fēng)險(xiǎn)、成本及可及性等因素,限制了其作為首步篩查的普適性。因此,非侵入性篩查方法應(yīng)運(yùn)而生,用于對(duì)無(wú)癥狀人群進(jìn)行初篩,篩選出陽(yáng)性者再進(jìn)行結(jié)腸鏡檢查。
糞便免疫化學(xué)檢測(cè)(FIT)是當(dāng)前廣泛應(yīng)用的一種非侵入性篩查方法,通過(guò)檢測(cè)糞便中的人血紅蛋白來(lái)提示腸道出血。雖然FIT在CRC篩查項(xiàng)目中顯示出一定效果,但其對(duì)AA的檢出敏感性較低(10-28%),且會(huì)產(chǎn)生相當(dāng)比例的假陽(yáng)性結(jié)果,導(dǎo)致大量不必要的結(jié)腸鏡檢查。據(jù)統(tǒng)計(jì),在FIT陽(yáng)性結(jié)果中,有高達(dá)45-70%的結(jié)腸鏡檢查最終發(fā)現(xiàn)為非腫瘤性或陰性結(jié)果。這不僅造成了醫(yī)療資源的浪費(fèi)和患者的經(jīng)濟(jì)負(fù)擔(dān),還可能因?yàn)椴槐匾那秩胄詸z查及漫長(zhǎng)的等待名單,降低患者對(duì)篩查后續(xù)步驟的依從性。因此,開(kāi)發(fā)一種能在FIT陽(yáng)性后、結(jié)腸鏡檢前進(jìn)行有效分流的“中間檢測(cè)”方法,精準(zhǔn)識(shí)別出真正需要結(jié)腸鏡的高風(fēng)險(xiǎn)患者,同時(shí)篩除假陽(yáng)性者,成為優(yōu)化CRC篩查流程、提升效率的迫切需求。
一篇發(fā)表于《Molecular & Cellular Proteomics》的研究論文,題為“Exploring an Intermediate Colorectal Cancer Screening Test Based on Stool Proteomics and Machine Learning for Optimizing the Selection of Patients for Colonoscopy Identified from FIT”,為我們帶來(lái)了新的希望。該研究由David Gagné等人領(lǐng)導(dǎo),探索了利用殘留的FIT糞便樣本進(jìn)行蛋白質(zhì)組學(xué)分析,結(jié)合機(jī)器學(xué)習(xí)工具,作為結(jié)腸鏡檢查前的分流步驟的可行性。
研究者主要采用了以下關(guān)鍵技術(shù)方法:他們從加拿大魁北克FIT篩查項(xiàng)目中獲取了141份FIT陽(yáng)性樣本,包括50例無(wú)病變對(duì)照(G1)、45例進(jìn)展期腺瘤(G2)和46例結(jié)直腸癌(G3)。使用高通量液相色譜-串聯(lián)質(zhì)譜(LC?MS/MS)技術(shù),特別是數(shù)據(jù)非依賴性采集(DIA)模式的SWATH方法,對(duì)樣本進(jìn)行蛋白質(zhì)組學(xué)分析。通過(guò)構(gòu)建光譜庫(kù)并進(jìn)行無(wú)標(biāo)記定量,獲得了樣本的蛋白質(zhì)表達(dá)譜。隨后,研究團(tuán)隊(duì)運(yùn)用了包括主成分分析、隨機(jī)森林、正則化隨機(jī)森林、支持向量機(jī)遞歸特征消除、Boruta和Lasso在內(nèi)的多種機(jī)器學(xué)習(xí)算法進(jìn)行特征選擇和模型構(gòu)建。最終利用彈性網(wǎng)絡(luò)正則化廣義線性模型(glmnet)等分類器,基于篩選出的蛋白特征來(lái)區(qū)分假陽(yáng)性FIT結(jié)果與真正的AA/CRC病例,并評(píng)估模型的預(yù)測(cè)性能。
研究結(jié)果
- •
主成分分析基準(zhǔn)模型
研究人員首先對(duì)334個(gè)蛋白質(zhì)進(jìn)行了差異豐度分析,通過(guò)Mann-Whitney U檢驗(yàn),并結(jié)合錯(cuò)誤發(fā)現(xiàn)率校正和光譜質(zhì)量驗(yàn)證,最終確定了13個(gè)在G2/G3組與G1對(duì)照組間表達(dá)存在顯著差異的蛋白質(zhì);谶@13個(gè)蛋白(去除高度相關(guān)的血紅蛋白同源蛋白后保留9個(gè)),他們構(gòu)建了一個(gè)主成分分析結(jié)合邏輯回歸的基準(zhǔn)模型。該模型在區(qū)分所有樣本時(shí),達(dá)到了92%的敏感性(正確識(shí)別G2/G3)和74%的特異性(正確識(shí)別G1),平衡準(zhǔn)確率為83%。尤為突出的是,該模型對(duì)CRC樣本(G3)的識(shí)別敏感性達(dá)到了100%,對(duì)AA樣本(G2)的敏感性為82%,表明蛋白質(zhì)組數(shù)據(jù)中蘊(yùn)含著強(qiáng)大的區(qū)分信號(hào),尤其對(duì)癌癥的識(shí)別能力很強(qiáng)。
- •
機(jī)器學(xué)習(xí)特征選擇與穩(wěn)定性
為了挖掘更深層次的預(yù)測(cè)信息,研究采用監(jiān)督式機(jī)器學(xué)習(xí)方法。研究將數(shù)據(jù)集按8:2的比例分為訓(xùn)練集和獨(dú)立測(cè)試集。在訓(xùn)練集上,使用五種不同的機(jī)器學(xué)習(xí)算法進(jìn)行特征選擇,每種算法運(yùn)行50次以增強(qiáng)穩(wěn)定性,并通過(guò)Borda計(jì)數(shù)法整合排名,最終篩選出25個(gè)共識(shí)特征。穩(wěn)定性分析顯示,Lasso和SVM-RFE的特征選擇最為穩(wěn)定。經(jīng)過(guò)后續(xù)光譜可靠性檢查和方差膨脹因子分析以消除共線性后,最終得到一個(gè)包含16個(gè)蛋白質(zhì)的特征面板用于后續(xù)建模。
- •
機(jī)器學(xué)習(xí)分類模型構(gòu)建與評(píng)估
研究使用包含16個(gè)蛋白特征的面板,在訓(xùn)練集上訓(xùn)練了六種監(jiān)督機(jī)器學(xué)習(xí)分類模型。通過(guò)混合學(xué)習(xí)曲線分析評(píng)估模型在不同訓(xùn)練數(shù)據(jù)量下的表現(xiàn),發(fā)現(xiàn)glmnet(彈性網(wǎng)絡(luò))和支持向量機(jī)(SVM)模型表現(xiàn)最優(yōu),學(xué)習(xí)曲線平穩(wěn)且過(guò)擬合風(fēng)險(xiǎn)低。這兩個(gè)模型在訓(xùn)練集和獨(dú)立測(cè)試集上都表現(xiàn)出色且性能穩(wěn)定。最終選擇glmnet作為最終模型,因其具有更好的可解釋性。在獨(dú)立測(cè)試集上,glmnet模型在區(qū)分G2/G3與G1時(shí),曲線下面積達(dá)到0.961,敏感性為88.9%,特異性為80%。模型對(duì)CRC(G3)的識(shí)別性能(AUC 0.989)再次優(yōu)于對(duì)AA(G2)的識(shí)別(AUC 0.923)。
- •
模型特征貢獻(xiàn)分析
對(duì)最終glmnet模型進(jìn)行SHAP(SHapley Additive exPlanations)分析,以量化每個(gè)特征對(duì)模型預(yù)測(cè)的貢獻(xiàn)。結(jié)果顯示,CD44抗原和轉(zhuǎn)錄起始因子TFIID亞基2(TAF2)是影響模型決策最重要的兩個(gè)特征。血紅蛋白亞基β(HBB)、PGAP2相互作用蛋白(PG2IP)和載脂蛋白D(APOD)也具有較高的重要性。而一些免疫球蛋白相關(guān)蛋白(如IGHA2)的貢獻(xiàn)度相對(duì)較低。這一分析為理解模型決策提供了生物學(xué)見(jiàn)解。
研究結(jié)論與重要意義
本研究成功證明,利用殘留FIT樣本進(jìn)行蛋白質(zhì)組學(xué)分析,并結(jié)合機(jī)器學(xué)習(xí)建模,可以有效區(qū)分FIT陽(yáng)性的CRC/AA患者與假陽(yáng)性健康對(duì)照。所開(kāi)發(fā)的模型,特別是基于彈性網(wǎng)絡(luò)正則化的廣義線性模型,在獨(dú)立測(cè)試集上表現(xiàn)出優(yōu)異的性能,尤其在識(shí)別CRC病例方面接近完美。
這項(xiàng)研究的意義重大且是多方面的。首先,它為解決當(dāng)前CRC篩查中FIT假陽(yáng)性率高這一核心痛點(diǎn)提供了創(chuàng)新的解決方案。通過(guò)引入基于糞便蛋白質(zhì)組學(xué)的“中間檢測(cè)”步驟,可以大幅減少不必要的結(jié)腸鏡檢查。研究數(shù)據(jù)顯示,在固定特異性為80%的情況下(即允許20%的假陽(yáng)性仍建議結(jié)腸鏡),該模型對(duì)CRC的檢測(cè)敏感性高達(dá)98%,對(duì)AA也達(dá)到82%。這意味著在保持較高CRC檢出率的同時(shí),能顯著減少因假陽(yáng)性導(dǎo)致的結(jié)腸鏡資源浪費(fèi)和患者負(fù)擔(dān)。
其次,該策略具有很高的臨床轉(zhuǎn)化潛力。它直接利用現(xiàn)有的、標(biāo)準(zhǔn)化的FIT篩查流程中剩余的樣本,無(wú)需患者重新采樣,提高了便利性和可接受性。這有助于提升篩查項(xiàng)目的整體依從性,因?yàn)楫?dāng)患者得知二次檢測(cè)能更精準(zhǔn)判斷是否需要結(jié)腸鏡時(shí),他們更可能同意進(jìn)行后續(xù)檢查。
再者,該技術(shù)不僅能“排除”假陽(yáng)性,還能“優(yōu)先”真陽(yáng)性。模型對(duì)CRC病例近乎完美的識(shí)別能力,意味著可以優(yōu)先安排這些高風(fēng)險(xiǎn)患者進(jìn)行快速通道結(jié)腸鏡檢查,從而可能改善預(yù)后。同時(shí),減少假陽(yáng)性結(jié)腸鏡的負(fù)擔(dān),使得醫(yī)療系統(tǒng)有可能將篩查年齡門檻降低至建議的45歲,或降低FIT的陽(yáng)性閾值以捕獲更多早期病變,從而惠及更廣泛的人群。
最后,研究篩選出的關(guān)鍵蛋白特征(如CD44、TAF2、HBB等)及其涉及的生物學(xué)通路(如免疫炎癥反應(yīng)、血管穩(wěn)態(tài)等),為理解結(jié)直腸癌及其癌前病變的糞便蛋白質(zhì)組學(xué)特征提供了新線索,具有潛在的生物學(xué)研究?jī)r(jià)值。
總之,這項(xiàng)研究為優(yōu)化結(jié)直腸癌篩查流程邁出了關(guān)鍵一步,展示了一種將蛋白質(zhì)組學(xué)與人工智能相結(jié)合、實(shí)現(xiàn)精準(zhǔn)、高效、非侵入性分流篩查的新范式,有望在未來(lái)顯著提升CRC篩查的成本效益和臨床效用。