
-
生物通官微
陪你抓住生命科技
跳動的脈搏
營養與健康所生物醫學大數據中心合作開發大模型驅動的結核疫苗抗原優選系統
【字體: 大 中 小 】 時間:2026年03月01日 來源:中國科學院上海營養與健康研究所
編輯推薦:
2 月 4 日 ,國際學術期刊 Biosafety and Health 在線發表了中國科學院上海營養與健康研究所生物醫學大數據中心張國慶研究員團隊與 上海交通大學醫學院王穎 教授團隊的合作論文 “ MTB-ImmunogenKG: An LLM-assisted knowledge graph for antigen selection in tuberculosis vaccine research ”
2月4日,國際學術期刊Biosafety and Health在線發表了中國科學院上海營養與健康研究所生物醫學大數據中心張國慶研究員團隊與上海交通大學醫學院王穎教授團隊的合作論文“MTB-ImmunogenKG: An LLM-assisted knowledge graph for antigen selection in tuberculosis vaccine research”。研究團隊開發了一種大模型輔助知識圖譜系統——MTB-ImmunogenKG,基于PubMed收錄的超過7.7萬篇結核分枝桿菌相關文獻,不僅能夠進行基于知識增強的抗原保護效力預測,還可系統構建具有證據溯源能力與矛盾識別功能的抗原全景檔案,為新一代結核病疫苗的理性設計與抗原優選提供透明可信的決策支持工具。
結核病(tuberculosis, TB)由結核分枝桿菌感染引起,至今仍是全球負擔最重的傳染病之一。具有百年歷史的BCG疫苗雖能在一定程度上預防嬰幼兒重癥結核,但對成人肺結核的保護效力有限,攻克結核病仍依賴新一代疫苗的研發。在新疫苗的研發中,核心挑戰在于從約4000個結核分枝桿菌蛋白中篩選出真正具有保護性的抗原。然而相關免疫學證據高度碎片化,分散在海量文獻中,難以形成系統、可審計的證據基礎。現有計算方法多依賴序列或結構特征,難以回答哪些抗原值得優先驗證;直接依托大語言模型又面臨事實準確性和可追溯性不足的限制。如何在保證可靠與可追溯的前提下,將分散文獻證據整合為面向抗原優選的結構化知識體系,成為當前結核疫苗研發亟待解決的關鍵挑戰。
針對這一問題,研究團隊構建了抗原中心化知識圖譜MTB-ImmunogenKG,通過大模型驅動的信息抽取流程與知識增強推理,將文獻證據轉化為可計算、可審計的知識結構,實現面向抗原篩選的理性決策支持。利用涵蓋逾148萬條句子級證據進行評估,MTB-ImmunogenKG在預測抗原保護效力方面顯著優于傳統的序列分析工具(MCC提升0.19)及單純大模型基線(MCC提升0.45),并能對抗原的免疫原性證據進行矛盾檢測與整合。模型覆蓋3,154種MTB蛋白質(約占全基因組注釋蛋白的77%),展示了其在抗原全景刻畫方面的廣度。
在具體應用層面,該系統能夠精準解析抗原在不同研究中的免疫反應差異,識別文獻中潛在的對立觀點,并提示其在不同實驗條件下可能產生截然不同的免疫結局。同時,通過基于知識模式的過濾策略,框架可有效聚合抗原協同作用與佐劑搭配信息,揭示不同抗原組合的潛在保護效力。
MTB-ImmunogenKG為結核病疫苗的抗原篩選提供了透明、可信的決策支持工具,也從證據鏈角度幫助研究人員更直觀地理解復雜的免疫反應。而隨著生物醫學文獻的指數級增長與大模型技術的不斷發展,“知識圖譜+大模型”的方法范式有望把分散在文獻中的證據系統整合起來,支持更理性的抗原篩選,從而優化疫苗實驗設計流程,為加速新型結核病疫苗研發、應對全球公共衛生挑戰提供重要的數據支撐。
中國科學院上海營養與健康研究所生物醫學大數據中心張國慶研究員、高級工程師凌鋆超、上海交通大學醫學院王穎教授為論文共同通訊作者;營養與健康所博士研究生彭杰龍、莊心昊為論文共同作者。該研究得到了科技部國家重點研發計劃、上海市科技創新行動計劃、廣州國家實驗室研發計劃等項目的資助。
論文鏈接:https://doi.org/10.1016/j.bsheal.2026.02.001

圖:MTB-ImmunogenKG示意圖
推送單元:張國慶研究組、生物醫學大數據中心、科技規劃與任務處