欧洲熟妇色,国产jizz,影音先锋资源

首頁今日動(dòng)態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁 > 今日動(dòng)態(tài) > 正文

探索預(yù)訓(xùn)練數(shù)據(jù)對視網(wǎng)膜基礎(chǔ)模型泛化性與公平性的影響：基于英中大規(guī)模眼底影像隊(duì)列的平行研究

《Nature Communications》：Understanding pre-training data effects in retinal foundation models using two large fundus cohorts

【字體：大中小】 時(shí)間：2026年03月02日 來源：Nature Communications 15.7

編輯推薦：

　　【研究推薦】為解決醫(yī)學(xué)基礎(chǔ)模型（Foundation Model）預(yù)訓(xùn)練數(shù)據(jù)如何影響其下游應(yīng)用中的泛化能力與公平性這一未知問題，研究人員利用英國和中國兩個(gè)大型獨(dú)立眼底影像隊(duì)列，開展了平行模型訓(xùn)練與評估研究。結(jié)果表明，模型對不同來源數(shù)據(jù)具有良好的泛化性，但在年齡亞組中存在公平性差距。研究凸顯了針對特定領(lǐng)域、精細(xì)化的數(shù)據(jù)管理對高效開發(fā)醫(yī)學(xué)基礎(chǔ)模型的重要性。

在人工智能（AI）席卷醫(yī)療領(lǐng)域的浪潮中，一種名為“醫(yī)學(xué)基礎(chǔ)模型（Foundation Model）”的新范式正嶄露頭角。與為單一任務(wù)“量身定制”的傳統(tǒng)模型不同，基礎(chǔ)模型像一位“通才”，先在規(guī)模龐大、未經(jīng)標(biāo)注的通用數(shù)據(jù)上進(jìn)行“預(yù)訓(xùn)練”，學(xué)習(xí)廣泛的醫(yī)學(xué)表征知識，隨后再通過“適應(yīng)”過程，靈活高效地應(yīng)用于多種具體臨床任務(wù)。這種模式展現(xiàn)出強(qiáng)大的性能和卓越的數(shù)據(jù)利用效率，被寄予厚望。然而，一個(gè)核心的“黑箱”問題也隨之浮出水面：為模型注入最初智慧的“預(yù)訓(xùn)練數(shù)據(jù)”本身，究竟如何塑造模型的最終行為？特別是，當(dāng)我們將這些模型部署到全球多樣化的患者群體中時(shí)，訓(xùn)練數(shù)據(jù)集的特性會如何影響模型的“泛化性”（即在未見數(shù)據(jù)上的表現(xiàn)）和“公平性”（即在各個(gè)人口亞組間的性能一致性）？這些問題至今仍未得到充分探索。

為了揭開這個(gè)謎團(tuán)，一項(xiàng)發(fā)表在《自然通訊》（Nature Communications）上的研究進(jìn)行了一次精巧的“平行實(shí)驗(yàn)”。研究人員將目光投向了視網(wǎng)膜醫(yī)學(xué)影像領(lǐng)域。視網(wǎng)膜，作為人體唯一可直接無創(chuàng)觀察血管和神經(jīng)組織的窗口，其影像（眼底照相）包含著豐富的全身健康信息，是AI應(yīng)用的絕佳場景。研究團(tuán)隊(duì)選取了兩個(gè)具有代表性的大規(guī)模獨(dú)立隊(duì)列：一個(gè)來自英國穆爾菲爾德眼科醫(yī)院（Moorfields Eye Hospital, UK），另一個(gè)來自中國上海糖尿病預(yù)防項(xiàng)目（Shanghai Diabetes Prevention Program, China）。每個(gè)隊(duì)列都包含了超過90萬張的眼底照片，為構(gòu)建穩(wěn)健的模型提供了堅(jiān)實(shí)基礎(chǔ)。

利用完全相同的技術(shù)流程，研究人員分別用英國隊(duì)列和中國隊(duì)列的數(shù)據(jù)，訓(xùn)練了兩個(gè)“平行”的視網(wǎng)膜基礎(chǔ)模型。這就像用兩套不同的“教材”培養(yǎng)出了兩位“AI專家”。隨后，他們用來自多個(gè)公開數(shù)據(jù)集以及兩個(gè)研究地點(diǎn)各自預(yù)留的測試數(shù)據(jù)，對這兩個(gè)模型在一系列下游任務(wù)（如疾病檢測）上的表現(xiàn)進(jìn)行了全面評估。這場“同臺競技”旨在回答：預(yù)訓(xùn)練數(shù)據(jù)的來源和人口學(xué)屬性，是否會成為模型能力與偏見的根源？

研究發(fā)現(xiàn)

1.
模型展現(xiàn)出令人鼓舞的泛化能力

盡管預(yù)訓(xùn)練數(shù)據(jù)在來源國和潛在的人群特征上存在顯著差異，但兩個(gè)平行模型在“對方”的數(shù)據(jù)以及第三方公開數(shù)據(jù)上，都表現(xiàn)出了有競爭力的性能。這表明，基于大規(guī)模高質(zhì)量數(shù)據(jù)訓(xùn)練的視網(wǎng)膜基礎(chǔ)模型，其學(xué)到的視覺表征具有較好的普遍適用性，能夠跨越數(shù)據(jù)收集的地理和機(jī)構(gòu)邊界，這為其未來在更廣泛場景中的部署奠定了積極基礎(chǔ)。
2.
公平性缺口在年齡維度顯現(xiàn)

雖然模型整體泛化性良好，但深入的公平性分析揭示了一個(gè)重要現(xiàn)象：在兩個(gè)模型上，都觀察到了明顯的、跨越年齡亞組的性能差異，即存在“公平性差距”。相比之下，性別和種族/族裔亞組之間表現(xiàn)出的影響則微乎其微。這一發(fā)現(xiàn)尤為關(guān)鍵，它表明預(yù)訓(xùn)練數(shù)據(jù)中隱含的“人口學(xué)屬性”對模型公平性的塑造方式是不同的。年齡相關(guān)因素（可能與特定年齡段的眼病流行率、影像特征差異或數(shù)據(jù)集中年齡分布的不均衡有關(guān)）成為了影響模型公平性的更敏感維度。
3.
預(yù)訓(xùn)練數(shù)據(jù)人口學(xué)屬性的差異化影響

研究結(jié)果清晰地指出，并非所有數(shù)據(jù)屬性對模型公平性的影響權(quán)重都相同。預(yù)訓(xùn)練數(shù)據(jù)集的構(gòu)成（特別是其中的年齡分布特征）以一種精細(xì)而具體的方式，直接影響了模型在下游任務(wù)中對不同年齡群體的判斷公平性。這強(qiáng)調(diào)了“一刀切”的數(shù)據(jù)收集策略可能存在風(fēng)險(xiǎn)。

研究結(jié)論與意義

這項(xiàng)研究首次通過精心設(shè)計(jì)的平行對照實(shí)驗(yàn)，實(shí)證揭示了預(yù)訓(xùn)練數(shù)據(jù)在塑造醫(yī)學(xué)基礎(chǔ)模型，特別是視網(wǎng)膜基礎(chǔ)模型，的泛化性與公平性方面的具體作用。其核心結(jié)論是：大規(guī)模預(yù)訓(xùn)練賦予了視網(wǎng)膜基礎(chǔ)模型良好的跨數(shù)據(jù)源泛化潛力，但與此同時(shí)，預(yù)訓(xùn)練數(shù)據(jù)中的人口學(xué)構(gòu)成（尤其是年齡結(jié)構(gòu)）會系統(tǒng)地影響模型在不同年齡亞組中的公平性表現(xiàn)。

這項(xiàng)工作的意義深遠(yuǎn)。首先，它從實(shí)證角度回應(yīng)了AI醫(yī)學(xué)領(lǐng)域?qū)δＰ涂芍貜?fù)性與泛化性的核心關(guān)切，為視網(wǎng)膜基礎(chǔ)模型的實(shí)際應(yīng)用提供了信心和邊界。更重要的是，它像一面“鏡子”，清晰映照出數(shù)據(jù)本身可能攜帶的“偏見”，并精確指出“年齡”是需要優(yōu)先關(guān)注的公平性風(fēng)險(xiǎn)維度。這打破了以往關(guān)于模型偏見來源的模糊認(rèn)知，將問題具體化。它向整個(gè)醫(yī)學(xué)AI研究社區(qū)發(fā)出強(qiáng)烈信號：在狂熱追求更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的同時(shí)，必須同步加強(qiáng)對數(shù)據(jù)本身“質(zhì)”的管理——即針對特定領(lǐng)域的、精細(xì)化的數(shù)據(jù)管理。未來，在開發(fā)諸如視網(wǎng)膜基礎(chǔ)模型這樣的醫(yī)療AI“基礎(chǔ)設(shè)施”時(shí)，需要有意識地審視和優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)集的多樣性，特別是年齡代表性，以從源頭促進(jìn)更公平、更可信的AI醫(yī)療模型誕生，確保技術(shù)紅利能夠公平地惠及所有患者群體。

主要技術(shù)方法

本研究采用了標(biāo)準(zhǔn)化的深度學(xué)習(xí)流程。核心是構(gòu)建并訓(xùn)練視網(wǎng)膜基礎(chǔ)模型，其技術(shù)支柱為基于Transformer架構(gòu)的視覺模型（如ViT）。研究使用來自英國穆爾菲爾德眼科醫(yī)院（904,170張圖）和中國上海糖尿病預(yù)防項(xiàng)目（904,170張圖）的兩個(gè)獨(dú)立大規(guī)模眼底影像隊(duì)列進(jìn)行預(yù)訓(xùn)練，采用掩碼自編碼（Masked Autoencoding）等自監(jiān)督學(xué)習(xí)目標(biāo)。模型評估階段，利用多個(gè)公開眼底影像數(shù)據(jù)集（如EyePACS、APTOS等）及兩個(gè)隊(duì)列的留出測試集，在多種下游疾病分類任務(wù)上進(jìn)行線性探測（Linear Probing）或微調(diào)（Fine-tuning），并系統(tǒng)評估了模型在不同人口學(xué)亞組（年齡、性別、種族）上的性能以量化公平性差距。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號