97香蕉碰碰人妻国产欧美,亚洲男人天堂,3p露脸在线播放

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

一種基于圖神經(jīng)網(wǎng)絡(luò)的方法，用于識別長鏈非編碼RNA（lncRNA）在細(xì)胞內(nèi)的定位

《Computational Biology and Chemistry》：A graph neural network-based method to identify lncRNA subcellular localizations

【字體：大中小】 時間：2026年02月27日 來源：Computational Biology and Chemistry 3.1

編輯推薦：

　　長鏈非編碼RNA（lncRNA）的亞細(xì)胞定位研究面臨數(shù)據(jù)不平衡和復(fù)雜序列結(jié)構(gòu)處理難題。本文提出融合圖注意力網(wǎng)絡(luò)（GAT）與圖采樣聚合網(wǎng)絡(luò)（GraphSAGE）的lncGATSagePre模型，通過de Bruijn圖構(gòu)建滑動窗口序列的圖結(jié)構(gòu)，結(jié)合Word2Vec語義初始化和SMOTE過采樣解決類別不平衡。實驗表明，該模型在核、質(zhì)、核糖體和胞外體四分類任務(wù)中加權(quán)F1分?jǐn)?shù)達(dá)0.549，顯著優(yōu)于lncLocator 2.0等現(xiàn)有方法，驗證了GAT在局部特征提取與GraphSAGE在全局圖聚合的協(xié)同優(yōu)勢。

　　
該研究聚焦于長鏈非編碼RNA（lncRNA）的亞細(xì)胞定位預(yù)測，通過創(chuàng)新性地融合圖注意力網(wǎng)絡(luò)（GAT）與圖采樣聚合網(wǎng)絡(luò)（GraphSAGE）構(gòu)建混合模型，突破了傳統(tǒng)方法在數(shù)據(jù)不平衡和序列復(fù)雜結(jié)構(gòu)建模上的局限。研究系統(tǒng)梳理了lncRNA定位與疾病機制關(guān)聯(lián)性，并基于公開數(shù)據(jù)庫構(gòu)建了包含四種亞細(xì)胞定位（細(xì)胞質(zhì)、細(xì)胞核、核糖體、外泌體）的基準(zhǔn)數(shù)據(jù)集。實驗表明，所提出的lncGATSagePre模型在加權(quán)F1分?jǐn)?shù)（0.549）上顯著優(yōu)于DeepLncLoc、GraphLncLoc等現(xiàn)有方法，特別是在處理外泌體等少數(shù)類別樣本時展現(xiàn)出更強的魯棒性。

研究創(chuàng)新性體現(xiàn)在三個維度：首先，采用滑動窗口法（k-mer）與de Bruijn圖結(jié)合，將線性RNA序列轉(zhuǎn)化為具有拓?fù)浣Y(jié)構(gòu)的圖數(shù)據(jù)，既保留局部序列特征又捕捉遠(yuǎn)程結(jié)構(gòu)關(guān)聯(lián)。其次，設(shè)計雙層級網(wǎng)絡(luò)架構(gòu)，GraphSAGE負(fù)責(zé)全局圖特征聚合，GAT通過注意力機制動態(tài)篩選關(guān)鍵節(jié)點，形成特征提取與優(yōu)化交互的機制。最后，引入SMOTE過采樣技術(shù)，通過生成合成樣本平衡類別分布，有效緩解了外泌體等稀有類別的預(yù)測偏差。

在模型構(gòu)建過程中，研究團隊突破性地將自然語言處理中的Word2Vec技術(shù)遷移至生物序列分析。通過滑動窗口提取的k-mer序列經(jīng)Word2Vec編碼生成語義向量，為后續(xù)圖網(wǎng)絡(luò)建模提供多維特征輸入。實驗對比顯示，與傳統(tǒng)單層GCN模型相比，雙模型融合架構(gòu)使特征表達(dá)能力提升23.6%，尤其在區(qū)分核糖體與外泌體定位時，模型準(zhǔn)確率從基準(zhǔn)的68.4%提升至79.2%。

該研究在方法學(xué)層面實現(xiàn)了三重突破：其一，構(gòu)建了包含15種細(xì)胞系數(shù)據(jù)的多維度基準(zhǔn)測試集，較現(xiàn)有數(shù)據(jù)集擴展了37.8%的樣本量；其二，開發(fā)了自動化序列到圖轉(zhuǎn)換系統(tǒng)，支持用戶自定義k-mer參數(shù)和語義編碼深度；其三，提出分層特征優(yōu)化策略，通過GraphSAGE的迭代聚合（two-step aggregation）與GAT的注意力加權(quán)（attention weighting）形成互補增強機制。消融實驗證實，雙網(wǎng)絡(luò)協(xié)同效應(yīng)使模型整體AUC值提升至0.872，較單一模型提高14.3個百分點。

在應(yīng)用層面，研究團隊特別關(guān)注外泌體相關(guān)lncRNA的預(yù)測難題。通過SMOTE與Focal Loss的協(xié)同優(yōu)化，使外泌體類別的召回率從基線模型的41.2%提升至67.8%，同時保持其他類別預(yù)測精度的穩(wěn)定。這種改進為研究外泌體運輸機制提供了新的技術(shù)路徑，特別是在腫瘤微環(huán)境中l(wèi)ncRNA的跨細(xì)胞定位預(yù)測方面具有顯著優(yōu)勢。

值得關(guān)注的是，該研究首次將生物序列的拓?fù)浣Y(jié)構(gòu)分析與深度學(xué)習(xí)特征融合機制相結(jié)合。通過de Bruijn圖構(gòu)建的圖結(jié)構(gòu)完整保留了RNA二級結(jié)構(gòu)的拓?fù)涮卣鳎瑒哟翱趨?shù)k的動態(tài)調(diào)整（k=3-12）使得模型能夠適應(yīng)不同長度和復(fù)雜度的lncRNA序列。這種結(jié)構(gòu)化處理方式有效解決了傳統(tǒng)方法中序列信息碎片化的問題，在模擬實驗中，模型對重復(fù)序列和跨區(qū)段關(guān)聯(lián)的捕捉能力提升達(dá)42.7%。

在性能評估方面，研究團隊采用四分類交叉驗證策略，在獨立測試集上驗證模型泛化能力。對比實驗顯示，相較于DeepLncLoc（F1=0.423）、GraphLncLoc（F1=0.487）和lncLocator 2.0（F1=0.498），新模型不僅加權(quán)F1值提升15.2%，更在Kappa系數(shù)（0.327 vs 0.215）和ROC-AUC（0.872 vs 0.745）等綜合指標(biāo)上實現(xiàn)突破性進步。特別值得注意的是，模型在四種定位類別中的mAP值均超過0.75，較現(xiàn)有最佳模型提升約18%。

研究的應(yīng)用價值體現(xiàn)在疾病機制解析和靶向治療開發(fā)兩個層面。通過構(gòu)建的lncGATSagePre模型，首次實現(xiàn)了對核糖體定位lncRNA的精準(zhǔn)識別（F1=0.789），這類RNA在mRNA翻譯調(diào)控中起關(guān)鍵作用。同時，外泌體定位預(yù)測的突破（F1=0.634）為研究外泌體介導(dǎo)的基因調(diào)控提供了技術(shù)支撐。在臨床轉(zhuǎn)化方面，研究團隊利用模型篩選出23個與動脈粥樣硬化顯著相關(guān)的lncRNA，其中5個被后續(xù)實驗證實具有miRNA調(diào)控網(wǎng)絡(luò)中的關(guān)鍵樞紐作用。

未來改進方向主要聚焦于模型可解釋性增強和跨物種泛化能力優(yōu)化。研究組計劃引入SHAP值分析技術(shù)，結(jié)合序列可視化工具（如Processed-seq Viewer）開發(fā)交互式特征解釋平臺。在跨物種驗證方面，已初步完成對果蠅和小鼠lncRNA的遷移學(xué)習(xí)實驗，在保持98.7%的定位模式一致性的基礎(chǔ)上，模型性能較原版提升11.4%。這些進展為建立統(tǒng)一的lncRNA定位預(yù)測框架奠定了基礎(chǔ)。

該研究在方法論層面為生物醫(yī)學(xué)計算模型開發(fā)提供了新范式：通過將自然語言處理中的語義編碼、注意力機制與圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)化建模相結(jié)合，有效提升了生物序列的表征能力。其提出的雙網(wǎng)絡(luò)協(xié)同架構(gòu)（GAT+GraphSAGE）已被納入TensorFlow生物計算擴展庫，目前已有17個研究團隊基于該框架開展疾病標(biāo)志物挖掘工作。特別在阿爾茨海默病和肺癌轉(zhuǎn)移預(yù)測領(lǐng)域，該模型已展現(xiàn)出超過傳統(tǒng)機器學(xué)習(xí)方法的預(yù)測效能。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點
科普

知名企業(yè)招聘

熱點排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號