亚洲中文字,91超碰在线观看,亚洲日韩字幕

TITAN：基于Transformer的多模態全玻片病理基礎模型實現精準癌癥診斷與報告生成

《Nature Medicine》：A multimodal whole-slide foundation model for pathology

【字體：大中小】 時間：2025年11月06日 來源：Nature Medicine 50

編輯推薦：

　　本研究針對計算病理學中現有基礎模型在處理全玻片圖像（WSI）時面臨的臨床數據有限、跨模態理解不足等挑戰，開發了多模態Transformer架構TITAN模型。通過視覺自監督學習和視覺-語言對齊技術，該模型利用33.5萬張WSI和42.3萬條合成標注進行預訓練，實現在無需微調的情況下完成癌癥分型、生物標志物預測、罕見病檢索和病理報告生成等任務，在14項形態學分類和39項分子分類任務中顯著優于現有模型，為零樣本診斷和跨模態檢索提供了新范式。

在數字病理學快速發展的今天，組織切片的全玻片圖像（Whole-Slide Images, WSIs）已成為癌癥診斷和預后評估的重要工具。盡管基于區域興趣（ROIs）的基礎模型通過自監督學習能夠編碼具有可遷移性的特征表示，但將這些進展轉化為解決患者和玻片級別的復雜臨床挑戰仍然受限于疾病特異性隊列中有限的臨床數據，特別是對于罕見臨床表現。此外，現有的玻片基礎模型多采用純視覺預訓練，忽視了病理報告中豐富的監督信號，且缺乏跨模態能力（如零樣本視覺-語言理解和跨模型檢索），同時由于訓練樣本數量級較少和自監督學習（SSL）方案優化有限，導致玻片表示泛化能力受限。

為了突破這些限制，來自哈佛醫學院、麻省總醫院和布列根婦女醫院的研究團隊在《Nature Medicine》上發表了Transformer-based pathology Image and Text Alignment Network（TITAN），這是一個專為組織病理學中通用玻片表示學習而設計的多模態全玻片視覺-語言模型。TITAN通過知識蒸餾和掩碼圖像建模的成功經驗，引入了一種大規模預訓練范式，利用數百萬個高分辨率區域興趣（ROIs）進行可擴展的WSI編碼。該模型在包含33.5萬張WSI和18.3萬份醫療報告的Mass-340K數據集上進行預訓練，涵蓋20種器官類型，通過視覺自監督學習和與相應病理報告及PathChat生成合成標注的視覺-語言對齊，實現了無需微調即可提取通用玻片表示和生成病理報告的能力。

研究團隊采用的關鍵技術方法包括：1）使用CONCHv1.5補丁編碼器提取512×512像素補丁的特征；2）通過iBOT框架進行視覺only預訓練，采用16×16特征區域作物（對應8,192×8,192像素區域）；3）擴展ALiBi位置編碼至二維以處理長序列外推；4）利用PathChat生成的42.3萬條合成標注和18.3萬份病理報告進行多模態預訓練；5）在線性探測、少樣本和零樣本分類等任務上評估模型性能。

研究結果主要體現在以下幾個方面：

Scaling SSL from histology patches to whole-slide images

TITAN采用Vision Transformer（ViT）架構，通過三個階段預訓練策略獲得玻片表示：第一階段視覺only預訓練使用iBOT框架；第二階段在ROI級別與合成標注進行跨模態對齊；第三階段在WSI級別與臨床報告進行對齊。結果表明，隨著預訓練數據量的增加，模型在四個具有挑戰性的分型任務上性能平均提升3.65%，且參數量僅為48.5百萬的TITAN優于參數量99.0百萬的PRISM和86.3百萬的GigaPath，顯示出卓越的參數效率。

TITAN improves region and slide-level diagnostic capabilities

在包含形態學分類（14項任務）、分級（3項任務）、分子分類（39項任務）和生存預測（6項任務）的多樣化臨床任務評估中，TITAN平均表現優于其他玻片編碼器。特別是在形態學分型任務中，TITAN across the entire spectrum of diagnostic complexities, including fine-grade pan-cancer classification and noncancerous tasks such as cardiac allograft assessment and renal allograft assessment。在分子分類任務中，TITAN顯著優于使用相同CONCHv1.5特征的均值池化基線、GigaPath和CHIEF（P<0.0001）。

Comparison with different learning paradigms for slide encoding

通過比較不同學習范式（均值池化、基于注意力的多實例學習（ABMIL）、線性探測和任務特異性微調），發現TITAN的線性探測性能優于ABMIL，證明其自監督預訓練有效捕獲了玻片的上下文和語義形態學細節。任務特異性微調可進一步提高性能，表明預訓練權重可作為良好的初始化。

Few-shot learning for low-data regime

在少樣本學習設置中，TITAN across different tasks and the number of shots（P<0.0001），表現出強大的泛化能力。在one-shot學習中，TITAN和TITAN_v的表現與其他玻片編碼器使用更多樣本時相當，顯示出卓越的數據效率。

Language-aligned TITAN enables cross-modal capabilities

通過視覺-語言對齊，TITAN具備零樣本分類和跨模態檢索能力。在13項分型任務的零樣本實驗中，TITAN顯著優于PRISM（多類分類任務平衡準確率+56.52%，二類分型任務AUROC+13.8%）。在病理報告生成任務中，TITAN使用CoCa預訓練策略，在TCGA-Slide-Reports數據集上通過METEOR、ROUGE和BLEU指標評估，性能大幅優于PRISM（平均提升161%）。

TITAN enables rare cancer retrieval and cross-modal retrieval

在罕見癌癥檢索任務中，TITAN在Rare-Cancer（186種癌癥類型）、Rare-Cancer-Public（127種癌癥類型）和Rare-Cancer-External（12種罕見癌癥類型）三個數據集上均顯著優于其他玻片編碼器，在外部驗證中顯示出更強的域轉移魯棒性（Accuracy@K提高30.8%）。在跨模態檢索方面，TITAN在slide-to-report和report-to-slide檢索任務中的Recall@K表現均優于PRISM。

研究結論表明，TITAN作為一個多模態全玻片基礎模型，通過結合視覺only和視覺-語言預訓練策略，能夠產生強大的通用玻片表示，在多種下游任務中優于現有最先進的玻片編碼器。這種優勢在數據受限的設置（如罕見疾病分類和組織學玻片檢索）中仍然保持，強調了TITAN表示質量的優越性。與細粒度（ROI標注）和粗粒度（病理報告）描述的對齊對于處理組織玻片中固有的多尺度信息至關重要。盡管TITAN表現出令人鼓舞的性能，但研究團隊也指出了其局限性，如在8k×8k區域作物上預訓練并通過ALiBi外推到整個WSI可能仍無法捕獲完整的上下文信息，以及補丁基礎模型容易編碼非生物特征等問題。未來通過數據量和架構的擴展，TITAN有望進一步改善性能，并融入從業者的日常工具包中，用于常規應用和與其他任務特異性監督框架的比較。

熱點排行

新聞專題