国产在线精品熟女 ,66精品人妻,夜福利导航

機器學習模型在遺傳性視網膜疾病中框內插入缺失變異致病性評估的應用

《HUMAN MUTATION》：Assessment of In-Frame Indel Variants in an Unsolved Cohort of Inherited Retinal Diseases Using Machine Learning

【字體：大中小】 時間：2026年03月03日 來源：HUMAN MUTATION 3.7

編輯推薦：

　　本文通過系統評估多種機器學習工具，聚焦于解決框內插入缺失變異致病性預測的臨床挑戰，并在一個由1013名未確診的遺傳性視網膜疾病患者組成的隊列中，成功識別出兩個可能致病的候選變異，為提升該領域的診斷效率提供了重要的方法學參考和實際案例。

1. 引言

新一代測序技術已成為遺傳性疾病診斷的標準方法，然而，對檢測到的變異進行解讀仍是主要挑戰。雖然針對單核苷酸變異(SNVs)和剪接變異的計算機模擬預測工具已相對成熟，但對于能夠改變氨基酸序列、可能破壞蛋白質結構域的小型框內插入或缺失變異(in-frame indels)，可靠的致病性預測標準尚不完善。這類變異通常指長度小于48個堿基對且可被3整除的插入或缺失，與SNVs以不同方式改變序列，可能導致疾病表型。

遺傳性視網膜疾病(IRDs)是一組由遺傳變異引起的罕見疾病，可導致嚴重且不可逆的視力喪失，全球有數百萬人受影響。常見亞型包括色素性視網膜炎、Leber先天性黑蒙、錐桿細胞營養不良、Stargardt病和Usher綜合征。這類疾病具有高度的表型和基因型多樣性，迄今已有超過281個基因被證實與IRDs相關。盡管應用了基因panel或全外顯子組測序等NGS技術，仍有約25%的IRD患者無法找到遺傳學病因。研究表明，全基因組測序的應用僅將診斷率小幅提升了24%。此外，在IRDs中已檢測到框內插入缺失變異，這表明框內變異效應預測具有潛在的臨床應用價值。

2. 材料與方法

2.1. 基準數據集

為了評估不同框內插入缺失預測模型的性能，研究人員使用了一個先前收集的包含已知致病性變異的數據集。該數據集包含了來自ClinVar、gnomAD (v2.1.1) 和一項解讀發育障礙研究(DDD)的3964個變異，其中包括1740個致病或可能致病(PLP)以及2224個良性或可能良性(BLB)的框內插入缺失變異（詳見）。接著，從RetNet（視網膜信息網絡，一個與IRDs相關的基因數據庫）獲取IRD相關基因，對基準數據集進行過濾，由此生成了一個包含222個變異的獨立IRD基準數據集。

2.2. 預測模型的選擇

模型選擇基于以下標準：可下載到本地計算機或可通過網絡界面使用，以及能夠輸出用于ROC分析和比較的連續評分。最終，研究者對三個先前的機器學習模型和一個新的深度學習模型進行了基準測試。這三個機器學習模型是：CADD、FATHMM-indel、VEST-indel，深度學習模型是MetaRNN-indel。他們在完整的基準數據集上運行這四個模型，為每個變異生成預測分數，并通過計算ROC曲線下面積和精確率-召回率曲線下面積來比較這些模型。對僅包含IRD基因的數據集也重復了相同的分析。

2.3. 定義MetaRNN-indel用于IRDs的致病性閾值

為確保對患者變異的精確分類，需為MetaRNN評分建立特定的閾值。計算了兩個閾值（一個上限，一個下限）來確定變異是可能致病(LP)、可能良性(LB)還是意義不明確(VUS)。簡而言之，若一個變異的評分超過上限閾值（代表基準數據集中95%的已知致病變異被可靠識別為PLP），則歸類為LP。反之，若分類器評分低于下限閾值（代表基準數據集中由ClinVar專家注釋的95%的已知良性變異被歸類為BLB），則歸類為LB。評分介于兩個閾值之間的變異則被視為VUS。這些閾值的選擇旨在臨床背景下平衡敏感性和特異性。

2.4. 未解決患者數據分析

本研究納入的個體均經臨床診斷為IRD，但在基因panel檢測或WES后，其潛在的遺傳病因學仍未解決，總計1013名未解患者，涉及8604個框內插入缺失變異待分析。許多臨床診斷包括色素性視網膜炎、圖形樣營養不良和Leber先天性黑蒙。對這些未解決病例進行了約30×覆蓋深度的WGS。隨后，研究人員將MetaRNN-indel模型應用于分析在未解決患者隊列的IRD相關基因中發現的框內插入缺失變異。接下來，他們利用MetaRNN-indel閾值將變異分類為LP、LB或VUS（詳見）。對于LP變異，使用IGV手動檢查原始BAM文件，以消除由于比對和測序錯誤導致的潛在不準確性。對于在IRD基因中存在LP框內插入缺失變異的患者，進一步結合其基因型進行臨床表型特征分析。

3. 結果

3.1. 模型性能

在完整基準數據集上，每種工具分析了3964個框內插入缺失變異中的3668至3955個（92%–95%）。以Cannon等人注釋的PLP/BLB作為金標準，MetaRNN-indel取得了最佳性能，其AUROC為0.942，VEST-indel次之（AUROC = 0.934）。在精確率-召回率分析中，MetaRNN-indel也表現最佳，PRAUC為0.936。這些模型的性能對比可通過和進行直觀比較。

在IRD數據集中也觀察到了類似的趨勢。模型僅能分析IRD相關基準數據集中222個變異中的191個。MetaRNN-indel表現最佳，其AUROC為0.938，FATHMM-indel次之（AUROC = 0.889），VEST-indel第三（AUROC = 0.886）。精確率-召回率分析同樣顯示MetaRNN-indel最佳。這表明MetaRNN-indel在基準數據集以及基準數據集中的IRD基因上都擁有最佳性能，因此決定將其應用于內部未解決的患者數據集。

3.2. 定義MetaRNN-indel的致病性閾值分數

確定MetaRNN-indel在基準數據集上表現最佳后，研究人員為LP和LB變異定義了評分閾值。為了定義LP變異，他們使用了MetaRNN-indel評分的最大值（評分 ≥ 0.66），在該閾值下，95%的已知致病變異被正確預測為PLP。同樣，定義LB閾值為MetaRNN-indel評分的最小值（評分 ≤ 0.156），在此閾值下，基準數據集中95%的已知良性變異被正確預測為BLB。評分落在兩個閾值之間的變異被定義為VUS。

接下來，將致病性閾值應用于WGS患者數據的MetaRNN注釋。MetaRNN共分類了患者隊列中的158個IRD變異。其中，有60個LB變異（38%），72個VUS變異（45.5%），以及26個LP變異（16.5%）。直觀地展示了這一分布。

3.3. 鑒定攜帶LP框內插入缺失變異的患者

為過濾掉MetaRNN-indel分類的假陽性LP變異，研究人員使用IGV和RetNet的基因型-表型相關性，手動檢查了這26個框內插入缺失變異，最終在兩名無關的IRD患者中鑒定出兩個潛在候選變異。

其中一名患者RETPH009是一名19歲男性，被診斷為不典型的X連鎖色素性視網膜炎，在RP2基因中發現了一個新的半合子變異。該變異在gnomAD v4.0.0中不存在。通過對父親、母親和一名兄弟進行WGS，發現了從攜帶者母親傳遞給患病兒子的X連鎖遺傳模式，這支持了研究結果�；颊叩呐R床檢查信息詳見表2。另一名患者MEP_066被診斷為單純性RP，在IMPDH1基因的第10號外顯子中發現了一個新的雜合子缺失變異。該變異在gnomAD v4.0.0中同樣不存在，且該患者無IRD家族史�；颊唠p眼有罕見的中周部骨細胞樣色素沉著，這與IMPDH1基因的變異一致。盡管沒有分離數據，但結合ACMG指南和計算證據，這些發現增強了所識別變異在IRD患者中致病的可能性。對患者RETPH009的家系、眼底及OCT影像學檢查，可通過、和進行詳細了解。

4. 討論

本研究旨在利用機器學習工具解決框內插入缺失變異分類的挑戰。與SNVs相比，對框內插入缺失變異的研究仍然有限。研究人員對四個模型進行了基準測試，包括基于機器學習的CADD、FATHMM-indel和VEST-indel模型，以及基于深度學習的MetaRNN-indel模型，以系統評估其性能。模型在基準數據集和IRD數據集上均表現良好，MetaRNN-indel在兩個實驗中均表現最佳，其深度學習架構似乎能學到其他傳統機器學習模型無法捕捉的模式。

在將MetaRNN-indel應用于未解決的IRD患者數據集后，僅鑒定出兩個LP變異。雖然這個數字很低，但對于診斷未解決的患者、引導其尋找可能的致病變異、從而進行進一步檢測并提供改進的疾病管理方案仍然是有用的。

本研究也存在一些局限性。首先，基準數據集的注釋可能不完全準確。其次，MetaRNN-indel本身存在限制，例如它只預測長度不超過48個堿基對的插入缺失，并且偶爾會因基因轉錄本不同而輸出不同的評分。未來的發展方向包括在大型、高質量的框內插入缺失數據集上訓練模型，以及結合蛋白質結構域建模來更好地預測框內插入缺失變異的潛在影響。

總之，這項研究表明，利用現有的計算機模擬預測工具可以實現對小型框內插入缺失變異致病性的高性能預測，其中最新的深度學習算法展現了最佳的整體結果。通過應用這些工具，在IRD患者隊列中鑒定出了兩個候選致病變異�？紤]到鑒定出的候選致病變異數量較少，本研究提示框內插入缺失在IRD患者中的總體致病貢獻相對較小。

熱點排行

新聞專題