東北老熟女黃色A片,亚洲avav,中文字幕av久久爽Av

基于位置感知RNA相互作用建模預(yù)測(cè)PIWI切割特異性的PAIRNet深度學(xué)習(xí)框架

《PLOS Computational Biology》：PAIRNet: Predicting PIWI cleavage specificity via position-aware RNA interaction modeling

【字體：大中小】 時(shí)間：2026年02月20日 來源：PLOS Computational Biology 3.6

編輯推薦：

　　本研究開發(fā)了名為PAIRNet的深度學(xué)習(xí)框架，通過位置感知的RNA相互作用建模，精準(zhǔn)預(yù)測(cè)PIWI蛋白介導(dǎo)的RNA切割速率。該模型整合了配對(duì)狀態(tài)、錯(cuò)配類型及插入缺失等生化特征，并采用CNN-Transformer混合架構(gòu)捕獲局部催化基序和全局結(jié)構(gòu)擾動(dòng)，從而將預(yù)測(cè)準(zhǔn)確性較傳統(tǒng)方法最高提升34.7%，且其可解釋性模塊成功復(fù)現(xiàn)了催化核心(g10-g11)嚴(yán)格配對(duì)、3’端錯(cuò)配容忍等關(guān)鍵生物學(xué)規(guī)則。PAIRNet為設(shè)計(jì)高特異性piRNA沉默工具和加速RNA引導(dǎo)的基因組防御機(jī)制研究提供了計(jì)算路線圖。

PAIRNet：通過位置感知RNA相互作用建模預(yù)測(cè)PIWI切割特異性

引言

小非編碼RNA，如microRNA (miRNA)、small interfering RNA (siRNA) 和 piwi-interacting RNA (piRNA)，通過作為RNA誘導(dǎo)沉默系統(tǒng)內(nèi)的引導(dǎo)者，改變了我們對(duì)基因調(diào)控的理解。其中，piRNA與PIWI蛋白合作形成piRNA誘導(dǎo)沉默復(fù)合體(piRISC)，負(fù)責(zé)識(shí)別并切割互補(bǔ)的RNA靶標(biāo)（如轉(zhuǎn)座子(TE)轉(zhuǎn)錄本），從而保護(hù)生殖系基因組穩(wěn)定性。與miRNA依賴5’端種子區(qū)配對(duì)(g2–g8)和siRNA要求全長(zhǎng)嚴(yán)格互補(bǔ)不同，PIWI蛋白的靶向機(jī)制更為動(dòng)態(tài)和復(fù)雜。它不依賴經(jīng)典種子配對(duì)，且即使在擴(kuò)展的互補(bǔ)區(qū)域內(nèi)也能容忍錯(cuò)配。雖然PIWI催化的切割需要至少15個(gè)連續(xù)堿基對(duì)，但更長(zhǎng)的引導(dǎo)-靶標(biāo)雙鏈體卻允許在幾乎所有位置出現(xiàn)錯(cuò)配，這使其靶向邏輯難以預(yù)測(cè)。

Cleave-N’-Seq (CNS-seq)技術(shù)通過定量繪制切割速率和配對(duì)規(guī)則，極大地增進(jìn)了我們對(duì)PIWI靶向邏輯的理解。然而，其實(shí)驗(yàn)流程復(fù)雜、耗時(shí)且可擴(kuò)展性有限，難以系統(tǒng)地探索序列決定因素。更重要的是，當(dāng)研究多種PIWI蛋白時(shí)，需要測(cè)試大量的引導(dǎo)-靶標(biāo)組合，這使復(fù)雜性呈指數(shù)增長(zhǎng)，限制了更廣泛的應(yīng)用。此外，對(duì)于難以純化的蛋白質(zhì)，無法進(jìn)行完整的CNS-seq實(shí)驗(yàn)分析。這些限制促使了PAIRNet這一AI驅(qū)動(dòng)方法的開發(fā)：通過對(duì)所有引導(dǎo)位置進(jìn)行核苷酸水平的相互作用建模，該框架能夠超越稀疏的實(shí)驗(yàn)數(shù)據(jù)，推斷序列組成和空間配對(duì)如何共同決定PIWI的特異性。

PAIRNet的框架與核心創(chuàng)新

為了在保留CNS-seq定量能力的同時(shí)克服其局限性，研究者基于體外切割數(shù)據(jù)訓(xùn)練了PAIRNet，以根據(jù)引導(dǎo)-靶標(biāo)相互作用模式預(yù)測(cè)PIWI介導(dǎo)的RNA切割速率。PAIRNet的框架通過三項(xiàng)關(guān)鍵創(chuàng)新，將生化精度與計(jì)算可擴(kuò)展性結(jié)合起來。

1. 以相互作用為中心的編碼

PAIRNet摒棄了簡(jiǎn)單的序列編碼范式（如拼接的獨(dú)熱向量、K-mer頻率或基于CNN的嵌入），轉(zhuǎn)而采用以相互作用為中心的特征工程。傳統(tǒng)方法通常將序列獨(dú)立處理，難以模擬驅(qū)動(dòng)切割效率的引導(dǎo)RNA與靶標(biāo)RNA之間的關(guān)鍵位置相互作用。為解決此問題，PAIRNet明確編碼位置配對(duì)狀態(tài)、錯(cuò)配類型、插入和缺失。這種以相互作用為中心的編碼方式將每個(gè)引導(dǎo)位置映射到一個(gè)可學(xué)習(xí)的嵌入向量，以捕獲其空間層次結(jié)構(gòu)，使模型能夠區(qū)分關(guān)鍵位置與非必需區(qū)域。該編碼策略的優(yōu)勢(shì)在于，它不僅考慮了是否配對(duì)，還區(qū)分了錯(cuò)配的核苷酸身份（例如，區(qū)分部分穩(wěn)定的G-U擺動(dòng)配對(duì)和破壞雙鏈體幾何結(jié)構(gòu)的A-A沖突），并專門處理插入和刪除帶來的結(jié)構(gòu)擾動(dòng)。

2. 混合CNN-Transformer架構(gòu)

PAIRNet采用混合CNN-Transformer架構(gòu)來聯(lián)合建模局部雙鏈體穩(wěn)定性和全局結(jié)構(gòu)依賴性。一維卷積層檢測(cè)催化位點(diǎn)基序（例如，g10–g11處的連續(xù)Watson-Crick配對(duì)），而Transformer層解析由插入或缺失影響的遠(yuǎn)端相互作用。這種設(shè)計(jì)反映了PIWI的結(jié)構(gòu)動(dòng)力學(xué)：局部配對(duì)穩(wěn)定催化核心，而全局靈活性則容納錯(cuò)配。該混合架構(gòu)，結(jié)合以相互作用為中心的編碼，在所有數(shù)據(jù)集中始終位居性能前兩名，在MILI（數(shù)據(jù)集3）和MIWI（數(shù)據(jù)集2）上分別實(shí)現(xiàn)了Pearson相關(guān)系數(shù)(PCC)最顯著的34.7%和14.6%的相對(duì)提升，同時(shí)在所有實(shí)驗(yàn)背景下都保持了穩(wěn)健的準(zhǔn)確性，這反映了其解碼PIWI動(dòng)態(tài)RNA靶向邏輯的能力。

3. 可解釋的位置特異性切割規(guī)則

PAIRNet通過可解釋的顯著圖(Saliency maps)和反事實(shí)分析(Counterfactual analysis)來量化位置特異性的切割規(guī)則。可學(xué)習(xí)的位置嵌入和基于梯度的評(píng)分識(shí)別出關(guān)鍵位置（如g10–g11）。該模型成功地復(fù)現(xiàn)了已知的生物學(xué)先驗(yàn)知識(shí)，例如催化核心的嚴(yán)格配對(duì)要求和3’端錯(cuò)配的容忍性，為piRNA引導(dǎo)鏈設(shè)計(jì)提供了可行的見解。

材料與方法

PAIRNet旨在學(xué)習(xí)一個(gè)函數(shù)，以預(yù)測(cè)切割速率，同時(shí)顯式建模位置依賴的配對(duì)相互作用。其方法概覽包括位置感知的引導(dǎo)-靶標(biāo)RNA對(duì)數(shù)據(jù)編碼，以及用于相互作用模式表征學(xué)習(xí)的混合CNN-Transformer網(wǎng)絡(luò)。具體來說，PAIRNet首先明確編碼引導(dǎo)-靶標(biāo)相互作用（包括Watson-Crick配對(duì)、錯(cuò)配、插入和缺失），并輔以可學(xué)習(xí)的位置嵌入，以優(yōu)先考慮催化核心(g10–g11)等關(guān)鍵區(qū)域，同時(shí)降低非必需位點(diǎn)的優(yōu)先級(jí)。接著，這些空間層次特征通過混合CNN-Transformer架構(gòu)處理：卷積層檢測(cè)局部基序，而Transformer層解析全局依賴性。最后，框架應(yīng)用多層網(wǎng)絡(luò)預(yù)測(cè)切割速率，并以可解釋的輸出（突出顯示對(duì)切割效率有位置特異性貢獻(xiàn)的顯著圖和量化錯(cuò)配容忍度的反事實(shí)分析）作為結(jié)束，在實(shí)現(xiàn)高預(yù)測(cè)精度的同時(shí)提供了對(duì)PIWI靶向規(guī)則的生化見解。

結(jié)果

1. 以相互作用為中心的編碼優(yōu)于基于序列的方法

PAIRNet的以相互作用為中心的編碼策略在所有數(shù)據(jù)集和模型上都表現(xiàn)出主導(dǎo)性能，突顯了其模擬RNA引導(dǎo)切割的獨(dú)特適用性。這種優(yōu)越性在傳統(tǒng)序列方法（CNN、拼接、K-mer）表現(xiàn)出零相關(guān)或負(fù)相關(guān)的預(yù)測(cè)失敗情況下尤為明顯。對(duì)于MIWI和MILI蛋白，該編碼策略均顯示出系統(tǒng)性改進(jìn)。在全部40個(gè)模型-數(shù)據(jù)集對(duì)（針對(duì)MILI/MIWI的4個(gè)數(shù)據(jù)集的5個(gè)模型）的比較中，以相互作用為中心的編碼在82.5%的情況下顯著優(yōu)于基于序列的方法。基于序列的方法表現(xiàn)出高變異性，而以相互作用為中心的預(yù)測(cè)則相對(duì)穩(wěn)定。這種普遍的優(yōu)越性表明，顯式建模引導(dǎo)-靶標(biāo)相互作用（而不是將序列視為獨(dú)立實(shí)體）對(duì)于預(yù)測(cè)PIWI切割效率至關(guān)重要。

2. PAIRNet實(shí)現(xiàn)了穩(wěn)健的泛化能力

在已證實(shí)的以相互作用為中心編碼的優(yōu)越性基礎(chǔ)上，PAIRNet將該策略與混合CNN-Transformer架構(gòu)相結(jié)合，以進(jìn)一步解析切割效率的局部和全局決定因素。PAIRNet在留出數(shù)據(jù)集和混合數(shù)據(jù)集上均展現(xiàn)出穩(wěn)健的泛化能力，實(shí)現(xiàn)了最先進(jìn)的預(yù)測(cè)準(zhǔn)確性，在MILI（數(shù)據(jù)集3）和MIWI（數(shù)據(jù)集2）上，其PCC相對(duì)于次優(yōu)方法分別獲得了34.7%和14.6%的最顯著提升。對(duì)于MIWI，數(shù)據(jù)集1展示了最顯著的增益：PAIRNet以0.648的PCC優(yōu)勢(shì)超過kNN。對(duì)于MILI，數(shù)據(jù)集3顯示出最寬的差距：PAIRNet超過XGBoost的PCC達(dá)0.353。統(tǒng)計(jì)驗(yàn)證進(jìn)一步鞏固了這一優(yōu)勢(shì)，在MILI和MIWI的比較中，分別有80.0%和96.0%的情況達(dá)到p < 0.05的顯著性水平。這些結(jié)果突顯了PAIRNet在解碼不同實(shí)驗(yàn)背景下PIWI動(dòng)態(tài)RNA相互作用方面的能力。

3. 消融研究驗(yàn)證PAIRNet的核心組件

為剖析PAIRNet架構(gòu)的貢獻(xiàn)，研究者系統(tǒng)地消融了關(guān)鍵組件，并評(píng)估了它們對(duì)MIWI和MILI混合及留出數(shù)據(jù)集中切割速率預(yù)測(cè)的影響。測(cè)試了四個(gè)變體：NoPosition（移除位置嵌入）、PureCNN（移除Transformer層）、SimplePairing（將配對(duì)特征簡(jiǎn)化為二元匹配/錯(cuò)配）和NoInsert（忽略插入處理）。消融研究表明了PAIRNet設(shè)計(jì)的必要性。移除位置嵌入降低了關(guān)鍵留出數(shù)據(jù)集中的預(yù)測(cè)準(zhǔn)確性。移除Transformer削弱了全局相互作用建模。簡(jiǎn)化錯(cuò)配編碼或忽略插入進(jìn)一步降低了性能，強(qiáng)調(diào)了生化特異性的重要性。值得注意的是，NoPosition變體在混合數(shù)據(jù)集上獲得了略高的PCC，但其顯著圖顯示，它將重要性均勻分布在所有引導(dǎo)位置上，未能優(yōu)先考慮對(duì)PIWI切割至關(guān)重要的催化殘基(g9–g11)。相比之下，PAIRNet在保持穩(wěn)健預(yù)測(cè)穩(wěn)定性的同時(shí)，其顯著得分與結(jié)構(gòu)見解保持一致——這是消融變體所不具備的雙重優(yōu)勢(shì)。總之，完整的PAIRNet模型在多樣化數(shù)據(jù)集上提供了穩(wěn)健、可泛化的性能，鞏固了其在PIWI切割預(yù)測(cè)中的價(jià)值。

4. 位置特異性切割規(guī)則與結(jié)構(gòu)和催化見解一致

研究者使用反事實(shí)分析來研究錯(cuò)配對(duì)切割速率的影響。針對(duì)位置錯(cuò)配的反事實(shí)推理結(jié)果與結(jié)構(gòu)特性和功能域仔細(xì)對(duì)齊，強(qiáng)調(diào)了模型的解釋性。該模型首先正確地淡化了引導(dǎo)RNA最5’端位置的重要性，該位置在piRISC中的物理位置被明確定義為錨定在Argonautes蛋白MID域的一個(gè)特殊口袋中。接著，結(jié)果顯示g2至g8具有中等重要性，這些位置對(duì)于動(dòng)物AGO蛋白是經(jīng)典不間斷種子配對(duì)所必需的，但對(duì)于PIWI切割則是可有可無的。從結(jié)構(gòu)角度看，由于PIWI寬松的配對(duì)規(guī)則，這些位置對(duì)靶標(biāo)識(shí)別的重要性較低。我們的模型將最重要的位置標(biāo)記為g9、g10和g11，這確實(shí)是PIWI蛋白的催化核心，對(duì)切割活性不可或缺。這些位置形成了“切割”位點(diǎn)，并通過與PIWI結(jié)構(gòu)域U環(huán)的廣泛相互作用而穩(wěn)定。最后，從第16位（引導(dǎo)RNA的3’端）開始，重要性下降。我們的模型識(shí)別出該區(qū)域的重要性降低，相關(guān)工作表明與piRNA 3’端的配對(duì)對(duì)PIWI切割是可有可無的。從結(jié)構(gòu)角度看，引導(dǎo)RNA的3’端（位置20–26）在鎖定狀態(tài)下是暴露的。雖然初始結(jié)合需要它，但此處的錯(cuò)配對(duì)切割效率影響最小。PAZ域最初結(jié)合引導(dǎo)RNA的3’端，但在雙鏈體延伸時(shí)釋放它，從而減少了對(duì)種子配對(duì)的依賴。實(shí)際上，結(jié)構(gòu)研究捕獲了piRISC與靶標(biāo)RNA結(jié)合的結(jié)構(gòu)，這些靶標(biāo)RNA的長(zhǎng)度和與引導(dǎo)鏈核苷酸g2–g8、g2–g15或g2–g26的完美互補(bǔ)性不斷增加。我們的模型對(duì)這種配對(duì)延伸顯示了相似的三階段重要性。

5. PAIRNet可推廣至AGO2并捕獲不同譜系特異性靶向規(guī)則

為了評(píng)估PAIRNet推廣到PIWI蛋白之外的能力，研究者在AGO2的Cleave-N’-Seq數(shù)據(jù)上重新訓(xùn)練了該框架。與PIWI蛋白利用“寬松”靶向機(jī)制不同，AGO2執(zhí)行更嚴(yán)格的幾何約束，特別是在中央裂口處。AGO2特異性模型達(dá)到了0.769 ± 0.028的PCC。關(guān)鍵的是，比較可解釋性分析揭示了特征重要性的明顯差異：雖然PIWI模型顯示出與錯(cuò)配容忍度兼容的分布重要性，但AGO2模型在催化核心和中央?yún)^(qū)域(g10-g15)表現(xiàn)出高量級(jí)的顯著峰值。這與結(jié)構(gòu)證據(jù)一致，即AGO2對(duì)切割磷酸鹽附近的錯(cuò)配高度敏感，證實(shí)了PAIRNet捕獲了不同Argonautes家族不同的生物物理特征，而不是記憶單一的規(guī)則集。

結(jié)論與討論

PAIRNet整合了以相互作用為中心的編碼來定義哪些配對(duì)幾何結(jié)構(gòu)重要，位置嵌入來精確定位哪些催化殘基占主導(dǎo)地位，以及混合CNN-Transformer架構(gòu)來解析局部和全局相互作用如何共同控制切割效率——建立了一個(gè)全面的框架，其Pearson相關(guān)系數(shù)比傳統(tǒng)的基于序列的方法高出最多34.7% (MILI) 和 14.6% (MIWI)。

補(bǔ)充這種編碼，PAIRNet的混合架構(gòu)解析了局部催化基序（例如，g10–g11處的連續(xù)配對(duì)）和全局結(jié)構(gòu)擾動(dòng)（例如，遠(yuǎn)端插入），以前沿的準(zhǔn)確性實(shí)現(xiàn)了關(guān)鍵的改進(jìn)。可解釋性模塊進(jìn)一步將計(jì)算預(yù)測(cè)與生物學(xué)現(xiàn)實(shí)聯(lián)系起來：顯著圖優(yōu)先考慮了經(jīng)結(jié)構(gòu)研究驗(yàn)證的催化殘基，而反事實(shí)分析量化了非必需區(qū)域的錯(cuò)配容忍度。

通過超越CNS-seq的通量限制，PAIRNet加速了用于轉(zhuǎn)座子沉默和抗病毒防御的高特異性piRNA引導(dǎo)鏈的設(shè)計(jì)。未來的工作可以將該框架擴(kuò)展到模擬體內(nèi)環(huán)境，整合3D結(jié)構(gòu)數(shù)據(jù)以優(yōu)化位置依賴性，或?qū)⑵湟韵嗷プ饔脼橹行牡脑磉m配到其他RNA引導(dǎo)的沉默系統(tǒng)（例如CRISPR-Cas）。PAIRNet的成功表明，決定RNA功能的是生化精度，而不僅僅是序列——這是一個(gè)對(duì)基因組工程和可編程RNA治療具有廣泛影響的范式轉(zhuǎn)變。

PAIRNet的優(yōu)勢(shì)在于其生物可解釋性、高準(zhǔn)確性和可擴(kuò)展性。然而，仍存在一些局限性。該模型基于體外CNS-seq數(shù)據(jù)訓(xùn)練，可能無法完全再現(xiàn)體內(nèi)的復(fù)雜性。此外，PAIRNet是在哺乳動(dòng)物PIWI數(shù)據(jù)上訓(xùn)練的，這反映了一種“寬松”的靶向機(jī)制。因此，當(dāng)前的模型可能無法完全推廣到其他系統(tǒng)，例如需要廣泛3’配對(duì)來結(jié)構(gòu)激活復(fù)合體的蠶Siwi-RE。同時(shí)，當(dāng)前數(shù)據(jù)集中引導(dǎo)序列多樣性的有限性限制了模型完全泛化內(nèi)在引導(dǎo)功效規(guī)則的能力。未來的工作應(yīng)擴(kuò)展到體內(nèi)切割實(shí)驗(yàn)、更多的PIWI同源物以及其他物種特異性數(shù)據(jù)。整合3D結(jié)構(gòu)數(shù)據(jù)可能會(huì)進(jìn)一步細(xì)化特征表征。最后，擴(kuò)展PAIRNet以預(yù)測(cè)脫靶效應(yīng)或與基于CRISPR的系統(tǒng)協(xié)同作用，可能為RNA引導(dǎo)的基因組工程開辟新途徑。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題