
-
生物通官微
陪你抓住生命科技
跳動的脈搏
無需RNA三級結構,RNA相互作用預測新方法
《Nature Biotechnology》:Predicting small molecule–RNA interactions without RNA tertiary structures
【字體: 大 中 小 】 時間:2026年01月05日 來源:Nature Biotechnology 41.7
編輯推薦:
本文介紹了一種名為SMRTnet的深度學習方法,該方法通過整合RNA二級結構(無需三級結構信息)與小分子簡化分子線性輸入規范(SMILES),利用多模態數據融合(MDF)策略,結合大型語言模型(LLM)、卷積神經網絡(CNN)和圖注意力網絡(GAT),實現了對小分子-RNA相互作用(SRI)的高精度預測。其在多個實驗基準測試中表現優異,顯著優于現有工具,并成功鑒定出針對MYC內部核糖體進入位點(IRES)等疾病相關RNA靶點的高親和力結合小分子,為RNA靶向藥物發現提供了強大新工具。
摘要
小分子能夠與RNA結合以調控其命運和功能,為治療人類疾病提供了廣闊前景。然而,當前預測小分子–RNA相互作用(SRI)的工具需要已知RNA三級結構。本研究提出SMRTnet,一種深度學習方法,它利用多模態數據融合整合了兩個大型語言模型、卷積神經網絡和圖注意力網絡,僅基于RNA二級結構即可預測SRI。SMRTnet在多個實驗基準測試中均表現出高性能,顯著優于現有工具。SMRTnet針對十種疾病相關RNA靶點的預測,鑒定出40個具有納摩爾至微摩爾解離常數(Kd)的RNA靶向小分子命中化合物。聚焦于MYC內部核糖體進入位點(IRES),SMRTnet預測的小分子結合得分與實驗驗證率密切相關。其中一個預測小分子在三種癌細胞系中下調了MYC表達、抑制增殖并促進凋亡。因此,通過消除對RNA三級結構的需求,SMRTnet擴展了可行RNA靶點的范圍,并加速了RNA靶向治療藥物的發現。
引言
RNA近年來已成為藥物發現中一個頗具吸引力的靶點,其復雜結構可被小分子選擇性調控,從而影響多種生物學過程,包括前體mRNA剪接、mRNA翻譯、RNA-蛋白質相互作用、非編碼RNA加工以及RNA病毒的復制。靶向RNA的能力擴展了小分子藥物的治療靶點譜,即那些與疾病相關的“不可成藥”蛋白的基因。一個顯著的例子是Evrysdi(risdiplam),它是首個靶向RNA的藥物,可促進SMN2 pre-mRNA剪接過程中外顯子7的包含,用于治療脊髓性肌萎縮癥。然而,盡管前景廣闊,RNA的探索程度仍遠低于蛋白質,這源于幾個關鍵挑戰——其中最主要的困難在于確定RNA三級結構的難度,這制約了RNA靶向小分子的發現。
除了基于直接實驗測量的方法外,計算方法的開發也旨在預測SRI。例如,分子對接工具,如AutoDock Vina、RLDOCK、NLDock和rDock,已被改進或開發用于執行小分子與核酸三級結構之間的對接。深度學習方法最近也被應用于預測SRI。其中,RNAmigos2使用變分自編碼器和圖神經網絡來預測RNA的可能結合物,而RLaffinity引入了三維卷積神經網絡來預測小分子與RNA靶點的結合親和力。盡管取得了這些進展,但這些計算方法都需要已知的RNA三級結構,限制了它們的實用性,因為大多數疾病相關的RNA缺乏明確的三級結構,只有少數具有已知的活性位點。
結果
SMRTnet概述
SMRTnet是一種深度學習方法,它以RNA序列及其二級結構和小分子的SMILES作為輸入,預測結合得分。SMRTnet的架構包括一個RNA編碼器、一個小分子編碼器、一個MDF模塊和一個解碼器。RNA編碼器整合了一個內部開發的RNA語言模型(RNASwan-seq)和一個帶有殘差神經網絡的兩層CNN,以提取核苷酸和堿基配對信息作為輸入RNA的表征。小分子編碼器整合了一個已發布的化學語言模型(MoLFormer)和一個三層GAT,以捕獲原子組成和化學結構作為輸入小分子的表征。我們還開發了一個MDF模塊,通過協同注意力和自注意力神經網絡逐步整合成對的結合信息,以捕獲RNA和小分子表征在定義SRI中的復雜相互作用,并輸出一個相互作用表征,該表征被傳遞到一個全連接神經網絡解碼器以預測結合得分。
為訓練SMRTnet,我們從蛋白質數據庫(PDB)中收集了1,061個高質量三維結構,這些結構包含至少一個RNA和一個小分子。通過處理,我們獲得了8,672個RNA片段與小分子的相互作用作為訓練和測試的正樣本。我們還隨機配對RNA片段和小分子,在過濾掉已知相互作用后,創建非相互作用對作為負樣本。為了評估模型的魯棒性,我們以不同的比例(1:1, 1:2, 1:3, 1:4, 1:5 和 1:10)相對于正樣本來采樣負樣本。我們將SMRTnet數據集按8:1:1的比例劃分為訓練集、驗證集和測試集,并應用基于配體的數據拆分策略,確保測試集中的小分子不出現在訓練集和驗證集中。我們還應用了五折交叉驗證來評估模型穩定性,并最終使用集成評分策略,基于五折交叉驗證的五個模型計算中位數結合得分作為最終結合得分,以最小化單個模型中的隨機預測誤差。
評估SMRTnet在來自PDB的SRI數據上的性能
SMRTnet在SMRTnet數據集上,在五折交叉驗證中,對不同正負樣本比例(1:1至1:10)均表現出穩健的性能,平均受試者工作特征曲線下面積(auROC)在0.830至0.844之間。相比之下,RNAmigos2——唯一可應用于SMRTnet測試集的另一工具——獲得的auROC值較低(0.567–0.596)。為評估小分子結構相似性可能造成的數據泄露,我們計算了訓練集和測試集中分子之間的Tanimoto相似性,發現平均值始終低于0.75。我們進一步強制執行了0.7至1.0的最大Tanimoto相似性閾值,發現模型性能保持穩定,平均auROC值在0.844至0.855之間,表明即使沒有小分子相似性約束,也未發生明顯的數據泄露。
為了檢查RNA結合位點相似性造成的數據泄露,我們排除了測試集中與訓練集RNA共享相同多鏈結合位點的RNA。這導致平均auROC值從0.844降至0.798。此外,我們使用基于結構的數據拆分策略在SMRTnet數據集上重新訓練了SMRTnet,將結構相似的結合口袋聚類到同一訓練集或測試集中,得到的平均auROC為0.806。這些結果表明,雖然在RNA側可能存在輕微的數據泄露,但即使在排除訓練集和測試集之間相同或相似RNA結合位點的情況下,SMRTnet仍保持強大的預測性能。
我們進一步通過在RNAmigos2自身數據集上對SMRTnet進行基準測試來研究其魯棒性,無論是在RNAmigos2數據集上重新訓練和評估SMRTnet,還是在過濾掉具有相似配體和結合位點的數據后的RNAmigos2測試集上評估原始SMRTnet。在這兩種測試中,SMRTnet都表現出與RNAmigos2高度競爭的性能,盡管其訓練數據集小得多和/或在新的化學和結構空間中進行評估。這些結果強調了SMRTnet是用于RNA靶向藥物發現的穩健且可推廣的方法。
為了調查SMRTnet是否學習了特定的RNA-配體相互作用,而不是依賴于配體中心特征,我們創建了一個錯配的RNA-配體對測試集。我們發現SMRTnet表現出性能急劇下降(auROC = 0.572)。當我們將這些錯配對的標簽從“陽性”改為“陰性”后,模型的性能完全恢復到auROC為0.830。這些結果證明SMRTnet已經學會了SRI的基本原理。
評估SMRTnet在已發表研究的SRI數據上的性能
除了從PDB生成的SMRTnet數據集,我們還從四個數據庫和22篇新出版物中整理了一個經過實驗驗證的SRI數據集(連同非相互作用的小分子-RNA對)。在排除已出現在SMRTnet數據集中的SRI后,我們獲得了1,665個SRI和346個非相互作用對,統稱為SMRTnet-benchmark數據集。
我們提取了相關出版物中的RNA序列及其二級結構來運行SMRTnet,發現SMRTnet在SMRTnet-benchmark數據集上達到了0.720的平均auROC,性能范圍從SMMRNA子集的0.684到NewPub子集的0.765。此外,我們根據RNA類型將這些數據分為八類,觀察到SMRTnet對任何特定RNA類型沒有明顯偏好,除了核糖開關。這些結果強調了SMRTnet適用于多種RNA類型的廣泛適用性及其在預測未見過的SRI方面的效用。
SMRTnet在誘餌評估任務中優于其他計算方法
我們使用誘餌評估對SMRTnet與現有方法進行了基準測試,這是評估對接工具判別能力的常用任務。在此任務中,對于每個RNA靶點及其真正的結合物,會設計一個誘餌庫,這些誘餌在物理上相似但化學上區別于真正的結合物。然后,工具對真正的結合物在這些誘餌中進行排名。
SMRTnet在SMRTnet測試集上實現了92.6%的平均排名,優于四個對接工具(范圍從27.3%到46.6%),并超過了兩個深度學習工具(范圍從16.0%到23.8%)。具體來說,SMRTnet在測試集的七個代表性案例中,始終將真正的結合物排在前五名之內。例如,對于茶堿結合適體,SMRTnet將茶堿排在首位,其后是共享相同官能團的誘餌,而缺乏該官能團的誘餌則排在底部。這些結果證明了SMRTnet從結構密切相關的小分子中識別真正結合物的卓越能力。
我們還通過測量預測不同數量SRI的推理時間來評估SMRTnet的計算效率。結果表明,SMRTnet比GPU加速的對接工具Vina-GPU 2.0提供了顯著更高的計算效率。
RNA編碼器和實驗衍生的RNA二級結構數據對于準確的SRI預測至關重要
我們進行了消融研究以評估不同SMRTnet組件對其性能的貢獻。SMRTnet的auROC從完整模型的0.844下降到移除MDF模塊的變體7的0.812,并進一步略微下降到變體5和6的0.808和0.802。然后,對于變體1-4,它大幅下降到0.561, 0.552, 0.571 和 0.591。這些發現表明,RNA序列和結構信息都是最關鍵的,而MDF模塊也有助于實現高預測性能。
接下來,我們專注于RNA二級結構,并研究了其對SMRTnet性能的貢獻。我們訓練了一個僅包含序列的SMRTnet版本(稱為SMRTnet-seq),排除了RNA結構特征。這將SMRTnet數據集上的平均auROC從0.844降低到0.760,并將SMRTnet-benchmark數據集上的平均auROC從0.720降低到0.578。我們還在SMRTnet-benchmark數據集上用RNAstructure的預測替換了檢索到的結構數據(其中超過80%的情況是實驗衍生的)。這種替換將auROC值降低到0.664。這些發現強調了RNA二級結構——尤其是那些通過實驗確定的——在獲得高預測準確性方面的關鍵作用。
此外,我們評估了使用不同RNA LLM對SMRTnet性能的影響,比較了基于RNASwan-seq的實現與RNA-FM和RNAErine的實現。結果表明,與兩種替代方案相比,SMRTnet在使用RNASwan-seq時表現略好。
SMRTnet識別RNA上的小分子結合位點
先前的研究表明,模型可解釋性分析可以揭示各種分子相互作用的結合位點。遵循這種方法,我們將RNA靶點上的小分子結合位點識別為高度重要區域,稱為高注意力區域(HAR)。具體來說,我們應用Grad-CAM算法來量化每個核苷酸對SRI預測結合得分的貢獻。
我們通過將梯度信號與來自四個數據集的實驗確定的結合位點進行比較來評估這種結合位點識別方法的準確性。首先,在結合位點信息完全可用的SMRTnet數據集上,SMRTnet在五折交叉驗證中實現了0.695的平均auROC。其次,在來自先前提出專門結合位點預測工具RNAsite的研究的兩個額外基準數據集上,在排除無效條目后,SMRTnet分別達到了0.741和0.770的auROC,與RNAsite的性能相當。
最后,聚焦于SMRTnet-benchmark數據集,我們檢查了五個具有已知結合位點信息的代表性SRI:MYC-RiboTAC結合到MYC IRES的內部環、一個噻吩并吡啶衍生物結合到HIV-1 TAR RNA的凸起區域周圍、洛蒙真菌素結合到高度結構化的r(CUG)重復擴展的內部環、一個苯并咪唑衍生物二聚體結合到pre-miR-18a的凸起區域、以及6-N-羥基氨基嘌呤結合到鳥嘌呤核糖開關的三向連接處。SMRTnet在這些相互作用上達到了0.793的平均auROC。我們通過計算梯度信號與實驗確定的結合位點鄰近度之間的Pearson相關系數(r)來進一步檢查預測結合位點與實驗確定的結合位點匹配的精確度。我們發現SMRTnet預測的HAR與所有這些位點緊密匹配(r值分別為0.550, 0.783, 0.214, 0.322 和 0.527)。這些發現共同凸顯了SMRTnet在不同RNA結構中識別小分子結合位點的精確性。
SMRTnet預測結合疾病相關RNA靶點的化合物
我們應用SMRTnet篩選能夠結合十種疾病相關RNA靶點的化合物,使用一個包含7,350個天然產物和代謝物化合物的精選庫。除了MYC IRES,這些RNA靶點還包括在多種癌癥中過表達的前體miR-155、抑制腫瘤和轉移抑制劑的HOTAIR螺旋7、病毒復制關鍵決定因子HIV-1 Rev反應元件(RRE)IIB元件、引起亨廷頓病的HTT基因CAG重復擴展,以及SARS-CoV-2 5'非翻譯區中的五個其他RNA結構元件:莖環1(SL1)、參與病毒復制的SL2/3、與亞基因組RNA合成相關的SL4、以及涉及病毒包裝的SL5a和SL5b。
對于每個RNA靶點,我們使用SMRTnet預測了所有7,350個化合物的結合得分。然后根據結合得分(同時要求得分高于分類閾值0.704)為每個靶點選擇前20個化合物, resulting in 190個預測的SRI用于實驗驗證。我們主要使用微量熱泳動(MST)的結合檢查模式,并結合SDS變性測試(SD-test)來驗證可能干擾MST測量的固有熒光化合物。在190個預測的SRI中,有40個被實驗驗證,平均驗證率為21.1%。每個靶點也顯示出獨特的已驗證結合物譜,強調了SMRTnet辨別RNA結構和配體特異性細微差異的能力。
我們隨后使用MST的結合親和力模式測定了40個已驗證SRI的解離常數(Kd),發現大多數SRI表現出微摩爾水平的親和力,這是RNA靶向藥物發現中初始命中物常見的范圍。然而,有六個SRI表現出納摩爾水平的親和力。這些發現突出了SMRTnet在預測針對多種疾病相關RNA靶點的SRI方面的強大能力,并具有識別高親和力結合物的潛力。
SMRTnet預測的結合得分與MYC IRES的實驗驗證相關
致癌轉錄因子MYC是許多人類癌癥的標志,但通常被認為是“不可成藥”的。然而,最近的研究表明,靶向位于MYC mRNA 5'非翻譯區、負責MYC不依賴帽的翻譯的MYC IRES,可能是控制該癌基因的可行策略。為了進一步探索這一點,我們進行了大規模實驗驗證,從一個包含7,350個化合物的天然產物庫中,根據不同的預測結合得分和高化學結構多樣性,隨機抽樣了一個包含376個化合物的子集。
來自該子集庫的15個化合物通過MST被驗證為MYC IRES的結合物,揭示了預測結合得分與驗證率之間存在明顯的正相關。具體來說,在0.9-1.0得分范圍內的七個預測中有兩個(28.6%)被驗證為陽性,并且驗證率隨著結合得分的降低而穩步下降,在0.0-0.1范圍內降至0/93(0%)。這些結果表明,SMRTnet能有效優先選擇具有高預測得分的真正結合物。此外,對這15個化合物的Tanimoto相似性分析顯示結構相似性普遍較低。我們進一步量化了這15個命中物的Kd,發現它們都表現出微摩爾水平的親和力,且結合親和力與結合得分之間沒有相關性。
SMRTnet識別伊立替康鹽酸鹽三水合物(IHT)在MYC IRES上的結合位點
在鑒定出的15個MYC IRES結合物中,只有伊立替康鹽酸鹽三水合物(IHT)符合藥物開發潛力的標準,包括理化性質和藥物化學特性,如通過ADMETlab 3.0評估所示。為了進一步闡明其與MYC IRES相互作用的分子基礎,我們使用SMRTnet預測了IHT的結合位點,HAR分析將相互作用定位到MYC IRES的內部環。這一預測得到了分子對接的進一步證實,分子對接將IHT精確定位在相同的內部環內。
為了驗證這個預測的結合位點,我們設計了20個MYC IRES的突變變體,將其分為五類。分析顯示,預測結合得分從2×2構型到1×1形式逐漸下降,在完全堿基配對的突變體中得分最低。有趣的是,當從2×2構型改變為3×3形式時,預測結合得分增加。這些預測結合得分的趨勢與實驗驗證率高度一致,證實了IHT在MYC IRES上的結合位點,并強調了SMRTnet結合位點預測的可靠性。
一個MYC IRES靶向化合物抑制MYC表達和細胞增殖
我們檢測了IHT與MYC IRES結合在多種癌細胞中的生物學后果。在HeLa細胞中,IHT處理導致MYC mRNA水平降低約56.9%,MYC蛋白水平降低約71.6%,超過了MYC-RiboTAC觀察到的效果。此外,在三種已知需要MYC以實現最佳增殖的癌細胞系(HeLa、Jurkat和Raji)中,IHT使細胞增殖減少了19.6-48.4%,并使細胞凋亡增加了56.6-124.2%。再次值得注意的是,IHT對細胞增殖和活力的影響高于MYC-RiboTAC,這與IHT在降低MYC mRNA和蛋白水平方面的影響高于MYC-RiboTAC一致。
我們進一步研究了IHT對HEK293T細胞中MYC IRES熒光素酶報告基因的影響,使用完全堿基配對的MYC IRES作為對照熒光素酶報告基因。與MYC-RiboTAC的效果相似,IHT將MYC IRES報告基因的熒光素酶水平降低了約14.2%,但對對照報告基因沒有
生物通微信公眾號
知名企業招聘