亚洲综合图,97超碰电影,亚洲天堂在线播放

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于常規臨床與實驗室數據的機器學習模型在肺癌病理分型中的創新應用與臨床轉化研究

《Annals of Surgical Oncology》：Machine Learning for Classification in Lung Cancer Using Routine Clinical and Laboratory Data

【字體：大中小】 時間：2025年12月05日 來源：Annals of Surgical Oncology 3.5

編輯推薦：

　　本研究針對肺癌病理分型依賴侵入性活檢、高風險患者難以實施的臨床困境，開發了一種基于常規臨床與實驗室指標的機器學習分類模型。研究團隊通過LASSO與Boruta算法篩選出16個關鍵特征（如性別、CEA、CYFRA21-1等），構建的RandomForest模型在測試集中微平均AUC達0.969，顯著提升非侵入性分型準確性，并開發在線計算器（https://nkuwangkai.shinyapps.io/lung-cancer-v1/）推動臨床實用化，為無法活檢患者提供精準診療新策略。

肺癌是全球癌癥相關死亡的首要原因，其五年生存率不足20%。準確區分小細胞肺癌（SCLC）與非小細胞肺癌（NSCLC）及其亞型（如腺癌（ADC）和鱗癌（SCC））對制定治療方案至關重要。然而，傳統依賴組織活檢的病理分型方法存在明顯局限性：對于病灶位置特殊或身體狀況不佳的患者，活檢可能引發氣胸、出血等嚴重并發癥，甚至導致腫瘤種植轉移。此外，約3-10%的EGFR（表皮生長因子受體）突變NSCLC患者可能轉化為SCLC，加劇病情惡化，而反復活檢的可行性低，使得動態監測面臨巨大挑戰。

為突破這一瓶頸，四川癌癥醫院的研究團隊探索利用機器學習技術，整合常規臨床數據和實驗室指標，開發非侵入性肺癌分型工具。研究納入了1122例經病理確診的肺癌患者，收集其人口統計學信息、血液學參數、凝血功能、電解質及五種關鍵腫瘤標志物（CEA、CYFRA21-1、SCCA、NSE、ProGRP）數據。通過LASSO回歸和Boruta算法篩選出16個核心特征，包括性別、年齡、總膽紅素、紅細胞參數、中性粒細胞計數、纖維蛋白原、鎂離子、APTT（活化部分凝血活酶時間）及上述腫瘤標志物。團隊對比了邏輯回歸、XGBoost、CatBoost和RandomForest四種模型，發現RandomForest表現最優，在訓練集中AUC（受試者工作特征曲線下面積）高達0.999，準確率達0.984。

在獨立測試集中，該模型微平均AUC為0.969，宏平均AUC為0.940，對SCLC、SCC和ADC的敏感度分別為0.857、0.995和0.667，特異性均超過0.91。特征重要性分析顯示，性別和腫瘤標志物（CEA、CYFRA21-1、SCCA、NSE、ProGRP）是分型的核心驅動因素。為進一步推動臨床應用，研究團隊開發了基于R Shiny的在線預測工具，醫生輸入16項參數即可實時獲取分型概率。

關鍵技術方法

研究采用回顧性隊列設計，納入四川省級癌癥醫院2023年11月至2024年6月收治的肺癌患者，輔以成都醫學院附屬第一醫院2020年2月至2023年8月的補充隊列。通過LASSO和Boruta算法進行特征篩選，利用五折交叉驗證優化RandomForest等模型的超參數，并以AUC、準確率和F1分數評估性能。缺失數據采用隨機森林法多重插補處理。

研究結果

特征篩選與模型構建

LASSO與Boruta算法共同鑒定出16個關鍵預測特征，涵蓋臨床指標（如性別、年齡）和實驗室參數（如腫瘤標志物、血細胞計數）。RandomForest模型在訓練集中展現近乎完美的分類能力（AUC 0.999），顯著優于其他對比模型。

模型性能與可解釋性

在測試集中，模型對SCLC和SCC的識別靈敏度尤為突出（分別達0.857和0.995），ADC的靈敏度相對較低（0.667），但特異性均保持在較高水平。通過%IncMSE（均方誤差增加百分比）和IncNodePurity（節點純度增加量）指標分析，腫瘤標志物和性別被確認為最具影響力的預測因子。

在線工具的臨床轉化

團隊開發的網絡計算器實現了模型的臨床部署，用戶可通過交互界面輸入參數即時獲取分型結果，為資源有限地區提供低成本、高效率的決策支持。

結論與討論

本研究成功構建了一種基于常規臨床數據的機器學習模型，能夠高精度區分肺癌亞型，尤其適用于無法接受活檢的患者群體。模型的核心優勢在于利用低成本、易獲取的指標（如腫瘤標志物）實現非侵入性分型，克服了傳統活檢的局限性和組學技術的高成本問題。盡管存在回顧性設計的固有偏差和亞型樣本量不均衡（ADC占比70.9%）的局限性，但模型在補充隊列中仍保持良好泛化能力（AUC 0.878）。未來需通過多中心前瞻性研究進一步驗證其魯棒性，并探索其在動態監測EGFR-TKI（酪氨酸激酶抑制劑）耐藥后SCLC轉化中的應用價值。該研究為肺癌精準診療提供了切實可行的工具，有望優化臨床決策流程，提升患者生存質量。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號