《Artificial Intelligence in Agriculture》:YOLOSc-SAM: An acceptable extraction method for farmland regions in remote sensing images using SAM
編輯推薦:
本研究針對高分辨率遙感影像農田提取中存在的語義模糊、邊界破碎及標注成本高等挑戰,提出一種結合YOLO目標檢測與Segment Anything Model(SAM)的協同框架YOLOSc-SAM。該研究利用YOLOSc網絡進行農田目標檢測與語義定位,并將檢測框作為提示引導SAM在指定區域內完成高質量分割。實驗表明,該方法在1米、2米、3米分辨率數據集上均表現出優異的性能,有效解決了農田內部非耕地目標(如溫室)的誤分問題,并顯著降低了訓練數據的標注工作量,為構建輕量化高效的農田提取框架提供了新思路。
農田,作為農業生產與管理的核心空間單元,其邊界的精確劃定對于農業資源調查、耕地監測乃至國家糧食安全都具有至關重要的意義。隨著遙感技術的飛速發展,高分辨率衛星與無人機影像為大規模、高效率的農田信息獲取提供了可能。然而,從這些海量影像中自動、精準地“勾勒”出每一塊農田的輪廓,卻并非易事。傳統的基于光譜信息的方法,在面對高分辨率影像豐富的空間和紋理特征時,往往力不從心,導致提取的農田邊界粗糙、模糊。近年來,基于深度學習的語義分割模型(如U-Net、DeepLabV3+等)在該領域展現出巨大潛力,但它們通常嚴重依賴大量精確到像素級的標注數據來進行訓練,這類數據的人工標注耗時耗力、成本高昂。更棘手的是,真實的農田場景復雜多樣:田塊內部可能包含溫室、建筑、防護林等非耕地目標;田塊形狀不規則、邊界與道路、溝渠等交錯模糊;山區地塊更是破碎零散。這些挑戰使得傳統模型難以精確識別語義輪廓,并有效解譯農田的語義信息,最終影響耕地檢測統計的準確性。
近年來,一個名為“Segment Anything Model (SAM)”的通用分割模型橫空出世,它能夠根據點、框等簡單提示,對未見過的圖像進行高質量的零樣本分割,展現出了強大的分割能力。但SAM本身也存在局限:它產生的分割掩碼是“無類別”的,即它知道“那里有個東西”,但不知道“那是什么東西”。在農田提取任務中,我們不僅需要知道地塊的邊界,還需要明確其語義類別(是農田,還是溫室、道路?)。那么,能否將SAM強大的分割能力與一個能提供語義信息的檢測模型結合起來,取長補短,實現高精度、低標注成本的農田提取呢?這正是發表在《Artificial Intelligence in Agriculture》上的一項研究試圖解答的問題。
為了回答上述問題,研究人員開展了一項主題為“YOLOSc-SAM: An acceptable extraction method for farmland regions in remote sensing images using SAM”的研究。他們巧妙地設計了一個兩階段的檢測-分割協同框架。該框架的核心思想是:首先,利用一個改進的YOLO(You Only Look Once)目標檢測網絡(被稱為YOLOSc)在遙感影像中快速檢測出潛在的農田區域,并輸出帶有類別語義信息的檢測框;然后,將這些檢測框作為“提示”(Prompts),輸入到預先訓練好的SAM模型中,引導SAM在檢測框劃定的區域內進行精細化的分割。通過這種方式,YOLO負責提供“這是什么”(語義)和“大概在哪里”(位置),而SAM則負責解答“精確的邊界是什么樣”(分割)。實驗結果表明,這種結合策略不僅在1米(無人機影像)、2米(山地數據集)、3米(Planet衛星影像)多種分辨率數據上取得了優異的分割精度(mIoU分別達到0.9240, 0.9449, 0.8211),更重要的是,它只需要相對容易獲取的檢測框標注(而非精細的像素級標注)來訓練YOLO部分,SAM部分則無需微調,從而大幅降低了整體方法的標注工作量。這項研究為在農業遙感領域構建輕量、高效且準確的農田提取框架提供了新的可行路徑。
研究者為開展此項研究,主要應用了以下幾項關鍵技術方法:首先,構建了多分辨率、多場景的遙感影像數據集,包括1米分辨率無人機影像(中國雙河農場)、2米分辨率公開山地農田數據集(中國重慶地區)和3米分辨率Planet衛星影像,并進行了裁剪、數據增強等預處理。其次,提出了YOLOSc-SAM框架,其核心是改進的YOLOv8檢測網絡與SAM分割模型的集成。在YOLOSc網絡中,研究者用ScConv(Spatial and Channel Reconstruction Convolution)模塊替換了原YOLOv8 C2f結構中的標準3x3卷積,以增強特征表示、減少冗余并提升對細小邊界的敏感性。最后,利用YOLOSc產生的檢測框作為提示,輸入到凍結權重的SAM ViT-H編碼器中,由SAM完成區域內的精細分割,并將分割掩碼賦予檢測框對應的語義類別。
研究結果
3.1. 不同方法的效果比較
研究人員在1米、3米分辨率數據集上,將YOLOSc-SAM與U-Net、DeepLab V3+、HRNet、PSPNet、SegFormer、Mask2Former、UNetFormer等主流語義分割模型進行了全面對比。
- •
在1米分辨率圖像上的預測效果比較:定量結果顯示,YOLOSc-SAM在1米數據上取得了最高的mIoU(0.9240)和IoU(0.9691),顯著優于其他對比方法。可視化分析進一步揭示,在包含建筑、溫室、防護林等復雜場景中,傳統CNN(卷積神經網絡)方法和部分Transformer方法容易將非農田目標誤分為農田,或產生噪聲。而YOLOSc-SAM得益于SAM的零樣本分割能力,即使訓練標簽未單獨標注溫室,也能在檢測框的引導下將溫室從農田中有效分離出來,展現了更強的場景適應性和語義區分能力。
- •
在3米分辨率圖像上的預測效果比較:在分辨率較低、地物差異減小的3米衛星影像上,所有方法的性能均有所下降,但YOLOSc-SAM仍保持了競爭力(mIoU為0.8211)。在包含綠色植被干擾的場景中,YOLOSc-SAM表現出更好的穩定性,減少了誤分類。
- •
模型參數量與運行時效率評估:分析表明,YOLOSc-SAM中可訓練參數量(主要來自YOLOSc)相對較少(約3.07 M),但因其集成了參數量龐大的SAM模型(約2.4G),導致整體預測時間顯著長于其他對比方法。然而,其優勢在于極大地降低了對標注數據的要求。
- •
標注工作量對比:研究特別對比了傳統像素級標注與YOLOSc-SAM所需的框標注的耗時。對于不規則農田、邊界模糊地塊等復雜目標,傳統標注平均需要40-65個點,而YOLOSc-SAM僅需4個角點(一個檢測框),標注工作量平均降低約93.6%,優勢極其明顯。
3.2. 消融實驗的效果比較
為驗證各模塊貢獻,研究者進行了系統的消融實驗。
- •
卷積模塊的影響:用ScConv替換YOLOv8中的標準卷積形成YOLOv8-ScConv,在僅使用檢測框的任務上,mIoU從0.7123提升至0.7795,參數量減少,預測時間縮短,PR(精確率-召回率)曲線下面積增加,證明了ScConv在提升特征表示效率和邊界敏感性方面的有效性。與GhostConv、RepConv等其他輕量化卷積相比,ScConv取得了最佳的精度-效率平衡。
- •
與SAM結合的影響:在YOLOv8-ScConv基礎上引入SAM后,mIoU大幅躍升至0.9240,顯著提升了分割精度。同時,改進后的YOLOSc-SAM相比原始YOLOv8與SAM的組合,在保持高精度的同時,推理時間略有縮短。實驗還表明,YOLOSc檢測框的質量和位置直接影響SAM的分割效果,優化檢測器有助于提升最終性能。
3.3. 與SAM結合時不同提示方式的效果
研究比較了使用點(Anchor)提示和框(Box)提示對SAM分割的影響。
- •
點提示的局限性:當點提示落在溫室等非農田目標上時,SAM會錯誤地將該目標作為分割主體,導致嚴重誤判。
- •
框提示的優勢:使用檢測框作為提示,能為SAM提供更明確的空間范圍,使其專注于框內的農田區域進行分割,有效避免了點提示的歧義性問題,從而實現了高精度的語義一致性分割。定量結果顯示,使用框提示的mIoU(0.9240)遠超點提示(0.3576)。
3.4. YOLOSc-SAM在山地農田數據集(2米分辨率)上的預測效果
為檢驗模型的跨區域泛化能力,研究在具有復雜地形、破碎田塊、模糊邊界的2米分辨率山地數據集上進行了測試。
- •
性能對比:YOLOSc-SAM取得了所有方法中最高的mIoU(0.9449),在“非農田”類別上表現尤其突出,說明其在區分背景地物(如道路、森林)方面能力更強。
- •
場景分析:在包含不同海拔山地、森林與農田交錯等復雜場景中,傳統方法難以準確識別邊緣小地塊和農田內部非作物實體,而YOLOSc-SAM結合了YOLO的快速定位和SAM的精細分割優勢,表現更為穩健和準確。
3.5. YOLOSc-SAM對高分辨率圖像的影響
研究評估了該方法在大范圍遙感影像上的提取性能。可視化結果表明,YOLOSc-SAM能夠有效地對整區影像完成農田分割任務,準確識別出非農田實體,證明了其處理高分辨率、大尺度場景的實際應用潛力。
研究結論與討論
本研究的核心結論是,所提出的YOLOSc-SAM框架成功地將目標檢測的語義感知能力與通用分割模型的強大零樣本分割能力相結合,為高分辨率遙感影像中的農田提取問題提供了一種高效、準確的解決方案。該框架的主要貢獻和創新點包括:1) 提出了一種新穎的檢測-分割協同范式,將SAM模型引入農業遙感領域,用于精準的農田提取;2) 在1米分辨率影像上展示了更高的精度和更精細的識別能力;3) 通過在網絡中集成ScConv模塊,同時提升了模型的效率和精度;4) 該方法利用檢測標簽進行訓練,顯著減少了人工數據標注的工作量。
在討論中,作者將YOLOSc-SAM與近年來基于深度學習的農田提取方法(如BSNet、U2Net++等)進行了對比,指出傳統方法嚴重依賴像素級標注的準確性,在標簽不完備或存在錯誤(如未區分溫室)時性能會受損。而YOLOSc-SAM對標簽粒度的依賴性較低,僅需基本的檢測框信息,通過SAM的零樣本能力能在推理時糾正標簽中的部分錯誤,具有更強的實用性。此外,研究還探討了不同卷積操作(如深度可分離卷積、空洞卷積)對網絡性能的影響,闡明了ScConv通過同時抑制空間和通道維度的特征冗余,在提升特征表達效率方面的機制。
然而,研究也客觀指出了該方法的局限性:由于集成了參數量巨大的SAM模型,其推理速度目前慢于傳統的輕量級分割網絡,這可能會在一定程度上限制其對實時性要求極高場景的適用性。未來的工作可以著眼于優化SAM的推理效率,或探索更輕量化的提示生成器與分割器的組合。
總而言之,這項研究不僅證實了結合前沿視覺基礎模型(如SAM)與特定領域檢測器來解決農業遙感挑戰的有效性,更重要的是,它通過創新的弱監督范式,為在標注數據稀缺的大規模應用場景中實現高精度農田信息自動化提取開辟了一條切實可行的新途徑,對推動智慧農業和精準農業管理具有重要的理論與實踐意義。