《Journal of Structural Biology》:ProPicker: Promptable segmentation for particle picking in cryogenic electron tomography
編輯推薦:
Cryo-ET數據中高效靈活的粒子檢測方法ProPicker基于預訓練的3D分割模型,通過提示機制實現多粒子類別的快速檢測,支持微調提升性能,顯著優于現有方法速度。
西蒙·維德曼(Simon Wiedemann)|扎蘭·法比安(Zalan Fabian)|馬赫迪·索爾塔諾爾科塔比(Mahdi Soltanolkotabi)|萊因哈德·赫克爾(Reinhard Heckel)
慕尼黑工業大學,Arcisstra?e 21,80333 慕尼黑,德國
摘要
低溫電子斷層掃描(cryo-ET)能夠生成細胞環境的詳細3D圖像(斷層圖)。在cryo-ET數據分析中,一個關鍵步驟是檢測斷層圖中所有特定粒子的實例,這一過程被稱為粒子選。╬article picking)。由于噪聲較大、圖像偽影明顯以及細胞結構復雜,這成為一個具有挑戰性的目標檢測任務。在這里,我們提出了ProPicker,這是一種預訓練的、可接受提示的3D分割模型,它能夠實現靈活且高效的數據處理流程,適用于多種粒子類型。通過指定提示,ProPicker可以被訓練為檢測特定粒子,或者進一步微調以提升檢測精度。在模擬和真實世界斷層圖上的實驗表明,使用單一提示時,ProPicker的性能接近或達到了最先進方法的水平,同時速度提高了一個數量級。此外,ProPicker還能檢測到訓練過程中未出現的粒子類型。如果訓練數據有限,對其進行微調后,其性能甚至優于現有的特定粒子檢測器。
引言
低溫電子斷層掃描(cryo-ET)因其能夠在其天然環境中成像生物大分子而受到關注(Turk和Baumeister,2020;Hylton和Swulius,2021)。cryo-ET的一個雄心勃勃的目標是獲得包含所有大分子的細胞圖譜,這些大分子都處于其天然狀態。這將徹底改變我們對蛋白質相互作用的理解,并有可能在細胞生物學到藥物發現等多個領域帶來突破(Bodakuntla等人,2023)。
在本文中,我們重點討論了粒子選取問題,即在通過cryo-ET獲得的3D體積數據(稱為斷層圖)中找到所有感興趣的粒子實例。粒子選取是重要的步驟,往往是關鍵分析流程中的瓶頸(Genthe等人,2023)。
粒子選取是一個3D目標檢測問題,由于多種原因而極具挑戰性。由于cryo-ET數據采集的固有限制,斷層圖的信噪比非常低,并且存在明顯的偽影。此外,斷層圖通常體積龐大(200 × 1000 × 1000體素及以上),而cryo-ET數據集可能包含數百張斷層圖,這使得分析計算量巨大(Genthe等人,2023;Zeng等人,2023)。最后,由于細胞內蛋白質類型的多樣性,需要檢測的對象類別繁多,其中許多類別之間的差異非常微妙,因此區分起來非常困難。例如,人體內估計含有超過20,000種獨特的蛋白質(Li和Buck,2021)。
一種粒子選取方法應該既快速又靈活,即能夠在幾乎不需要額外數據或只需少量數據訓練/微調的情況下準確檢測多種粒子,F有的粒子選取方法要么速度慢,要么不夠靈活。大多數最先進的方法(Moebel等人,2021;De Teresa-Trueba等人,2023;Liu等人,2024)都基于深度學習模型,這些模型只能檢測少數固定類型的粒子,并且需要大量標記數據進行訓練,而在cryo-ET領域獲取這些數據尤為困難。
在這里,我們提出了ProPicker,這是一種可通過多種提示機制針對廣泛粒子類型的可提示粒子選取器。ProPicker在一個大型、多樣化的合成數據集上進行了訓練,利用3D分割網絡來分割斷層圖中的目標粒子并準確定位它們的位置。其可提示的設計允許用戶選擇分割模型所要檢測的具體粒子類別(基于提示的選取)。通過對ProPicker進行粒子特定的微調,可以進一步提升其性能。ProPicker的可提示設計受到了用于(自然)2D圖像分割的方法的啟發,如Segment Anything Model(SAM)(Kirillov等人,2023)和CLIPSeg(Lüddecke和Ecker,2022)。
ProPicker能夠基于單一提示在合成斷層圖中檢測到訓練過程中未出現的新粒子,并具有較高的F1分數(見第4.2.1節)。在五個具有挑戰性的真實世界數據集上的實驗表明,基于提示的選取方法能夠檢測到大型粒子,并產生強烈的對比度,例如核糖體和載鐵蛋白。
我們也遇到過一些情況,即使用ProPicker和其他靈活的基線方法(如TomoTwin Rice等人,2023;CryoSAM(Zhao等人,2024))無法獲得滿意的結果。在第4.3節“通過微調改進基于提示的選取”和第4.2.2節“在真實世界斷層圖中的基于提示的選取”中,我們討論了這些情況,并證明了即使使用不到斷層圖的數據,通過對ProPicker進行微調,F1分數也能提高多達4倍,具體取決于所檢測的粒子類型。
此外,我們發現,與訓練最先進的特定粒子檢測器DeepETPicker(Liu等人,2024)相比,微調ProPicker所需的數據更少,卻能夠實現類似的檢測性能。
最后,ProPicker是所有基于提示的靈活粒子選取器中速度最快的,其速度比最先進的TomoTwin Rice等人(2023)快一個數量級(見第4.2.1節)。
我們的發現展示了ProPicker的強大潛力,并強調了需要大型、多樣化且注釋詳盡的真實世界訓練數據集來充分發揮其潛力(見第5節)。
章節片段
背景與相關工作
深度學習方法已經徹底改變了從2D顯微照片中選取單個粒子的技術(Wang等人,2016;Bepler等人,2019;Wagner等人,2019)。這些方法在cryo-ET領域也日益普及,但傳統方法仍然發揮著重要作用:
ProPicker:用于粒子選取的可提示分割模型
在正式闡述粒子選取問題后,我們描述了ProPicker的可提示分割模型,并詳細介紹了如何使用該模型進行基于提示的粒子選取和微調。
實驗
我們首先描述了ProPicker的訓練過程和評估協議。
討論
在這項工作中,我們提出了ProPicker,這是一種用于cryo-ET的粒子選取方法,它利用了一個在大型、多樣化合成數據集上訓練的可提示3D分割模型。ProPicker能夠基于單個示例(提示)準確檢測多種粒子。根據目標粒子和細胞環境的不同,ProPicker的性能可以達到或接近最先進水平,同時速度提高了一個數量級。經過微調的ProPicker模型
縮寫
cryo-ET:低溫電子斷層掃描;FiLM:特征線性調制;NN:最近鄰;PDB:蛋白質數據庫;ProPicker:可提示選取器;ProPicker-C:基于簇選取的ProPicker;ProPicker-TM:基于模板匹配的ProPicker;SAM:Segment Anything Model;TM:模板匹配;VLP:類病毒粒子;2D:二維;3D:三維
CRediT作者貢獻聲明
西蒙·維德曼(Simon Wiedemann):撰寫——審稿與編輯、撰寫——初稿、可視化、軟件開發、方法論設計、數據整理、概念構思。扎蘭·法比安(Zalan Fabian):撰寫——審稿與編輯、撰寫——初稿、軟件開發、方法論設計、數據整理、概念構思。馬赫迪·索爾塔諾爾科塔比(Mahdi Soltanolkotabi):撰寫——審稿與編輯、監督、資源協調、方法論設計、資金獲取、概念構思。萊因哈德·赫克爾(Reinhard Heckel):撰寫——審稿與編輯、監督、資源協調、方法論設計、資金獲取
未引用的參考文獻
Ioffe和Szegegy(2015),Meseguer-Brocal和Peeters(2019),Sudre等人(2017),Ulyanov等人(2016)利益沖突聲明
作者聲明他們沒有已知的財務利益沖突或個人關系可能影響本文的研究結果。
致謝
作者感謝德國聯邦教育和研究部在“Souver?n. Digital. Vernetzt”項目中的財政支持(項目編號:16KISK002),以及德國研究基金會(DFG)的支持(項目編號:456465471、464123524、517586365)。
本研究還部分得到了AWS學分的支持,包括亞馬遜教師研究獎和NAIRR試點獎。馬赫迪·索爾塔諾爾科塔比也參與了這項研究。