中文字幕自拍,中文字幕一二区,中文字幕av久久爽Av

MDFE-Net：一種基于多尺度空洞特征增強的小目標檢測網絡及其在農業領域的應用驗證

《Frontiers in Plant Science》：MDFE-Net: a multiscale dilated feature enhancement network for small object detection

【字體：大中小】 時間：2026年02月25日 來源：Frontiers in Plant Science 4.8

編輯推薦：

　　本文提出了一種創新的多尺度空洞特征增強網絡（MDFE-Net），針對小目標檢測中特征信息缺乏和背景復雜的挑戰，設計了兩個即插即用的增強模塊。多尺度空洞特征聚合（MDFA）模塊通過結合注意力機制與多速率空洞卷積，有效捕獲多尺度上下文信息，增強底層特征表達。上下文特征增強（CFE）模塊利用多分支卷積結構與空洞卷積擴展感受野，最大限度地保留和提取小目標的有效信息。該網絡在YOLO11N基礎上，額外引入P2層檢測頭以保留更多淺層細節。在VisDrone、GTSDB兩個公開數據集及自建的植物幼苗節點（PSD-Node）數據集上的實驗表明，MDFE-Net在多個評價指標上超越了基準模型及當前先進方法，為農業小目標檢測提供了可靠的技術方案。

引言

在目標檢測領域，小目標檢測是一項重要但極具挑戰性的任務。近年來，隨著無人機航拍、交通監控和智慧農業等領域遙感技術的快速發展與探索，小目標檢測研究取得了顯著進展。然而，小目標檢測主要面臨兩大難點：一是由目標尺寸小、像素數少導致的特征表示有限；二是復雜圖像背景帶來的頻繁遮擋與混淆，這給模型檢測小目標帶來了額外的困難。因此，小目標檢測一直是目標檢測中最具挑戰性的任務之一。

相關工作

小目標定義：小目標的定義通常分為相對大小和絕對大小兩類。相對大小強調目標與圖像尺寸的關系，一般指目標占圖像面積的比例。絕對大小的定義則關注目標本身的像素值，例如COCO數據集提出小目標的像素應小于32×32像素。不同公共數據集對小目標的絕對大小也有不同定義。

小目標檢測近期進展：近期研究提出了多種專門針對密集小目標檢測的設計。例如，FBRT-YOLO通過針對小目標的特征表示和檢測策略進行任務導向的改進，以增強在擁擠場景中的檢測魯棒性。EDSOD則提出了一種專用的小目標檢測器，在具有挑戰性的背景下改善了特征提取和定位質量。

多尺度特征融合：在目標檢測任務中，物體常以各種尺寸出現，單一尺度的特征提取難以有效捕獲所有物體的特征。因此，多尺度方法通過在不同尺度上提取特征，能更好地檢測不同大小的物體。特征金字塔是一種處理多尺度特征信息的結構。通過使用多尺度特征，網絡可以提取更全面的信息，從而提高網絡模型對小目標的檢測效果。特征金字塔網絡（FPN）作為一種增強的特征架構，被提出來很好地改善多尺度問題。基于特征金字塔的目標檢測方法和許多應用研究方法在后續的視覺任務中也取得了顯著成果。

特征增強：在目標檢測中，可以通過特征增強在特征融合之前進一步增強模型的語義表達能力。在此過程中，通過對不同尺度的特征圖進行精細處理，提高特征的表現力和判別能力，從而為后續的特征融合提供更豐富、更準確的信息。特征增強可以通過注意力機制實現，此外，多分支卷積和Transformer編碼器也是兩種常見的特征增強方法。

方法

網絡概覽：本節介紹了兩個即插即用模塊和MDFE-Net的整體架構。具體來說，MDFA模塊用于捕獲多尺度上下文信息，CFE模塊用于增強小目標的特征表示。我們將這兩個模塊與一個P2級別的額外檢測頭（EDH）一起集成到輕量級的YOLO11N基線中，從而構成了所提出的MDFE-Net。

MDFA模塊：在目標檢測中，分層特征負責檢測相應大小的物體，而小目標通常尺寸小，缺乏足夠的特征，難以準確定位和檢測。底層特征包含豐富的位置和局部細節。有效利用底層特征信息可以提高較小物體的定位和檢測能力。受Dilate Former的啟發，我們提出了一種新的多尺度空洞特征聚合（MDFA）模塊，其整體結構如圖所示。該模塊旨在通過整合注意力機制和空洞卷積的優勢，同時捕獲多尺度范圍內豐富的上下文信息，來增強模型提取小目標特征的能力。此模塊分為兩個主要部分：卷積塊注意力模塊和多尺度空洞注意力模塊，它們共同工作以提高特征表達能力和多尺度適應性。

首先，卷積塊注意力模塊的工作流程如下：輸入特征首先經過通道注意力和空間注意力處理，生成兩組注意力權重；然后，通過逐元素相乘，將注意力權重與輸入特征結合，得到增強的特征表示。這個過程可以有效提高網絡在處理小目標時的敏感性和表示能力，尤其是在復雜背景下能更好地捕獲小目標的關鍵信息。

其次，我們設計了一個受多頭注意力機制和空洞卷積啟發的多尺度空洞注意力模塊。其核心思想是結合多頭注意力機制和空洞卷積的特點來捕獲多尺度上下文信息。具體來說，該模塊首先基于多頭注意力機制的原理，將卷積注意力模塊輸出的特征通過線性投影映射到查詢（Q）、鍵（K）和值（V）空間。然后，為了增強不同尺度下的特征表達能力，我們將特征通道分為四組，并輸入到四個具有不同空洞率（r分別=1,2,3,4）的空洞卷積的Dilated Attention頭中。每個Dilated Attention頭利用空洞卷積在不增加參數的情況下擴展感受野的特性，從不同尺度和上下文范圍提取特征。在經過Dilated Attention頭處理后，所有特征輸出通過多尺度聚合操作進行融合，以整合來自多尺度上下文的信息。

然而，僅依賴空洞卷積可能存在以下問題：一方面，空洞卷積的稀疏采樣特性可能導致一些細粒度特征被忽略；另一方面，過大的空洞率可能導致感受野分布不均，導致對某些區域特征的關注不足。為了解決這些問題，我們設計了一個跳躍連接，將原始特征引入聚合過程，進一步補充細粒度信息和全局一致性。這種設計不僅避免了特征信息的丟失，還提高了原始特征的利用效率。空洞注意力機制通過空洞卷積擴大了感受野，從而展現出更強的捕獲上下文信息的能力。此外，與傳統的下采樣操作相比，該機制可以在不降低輸入圖像分辨率的情況下保留更多的空間細節，這使得模型在小目標檢測任務中表現更好。通過結合多頭注意力機制的靈活性和空洞卷積的多尺度特性，MDFA模塊實現了對多尺度特征的高效捕獲和利用，大大提高了模型在處理小目標時的檢測精度和魯棒性。

CFE模塊：小目標在圖像中通常只由少數像素組成。當前主流的目標檢測網絡通常由骨干網絡、頸部網絡和檢測頭三部分組成。骨干網絡對于中大型物體的檢測表現較好，但對于紋理簡單、尺寸小的檢測目標，其特征提取能力有限。在特征提取過程中，骨干網絡提取的特征往往包含較少的語義信息，并且受限于狹窄的感受野，這使得小目標的特征難以與背景中的遮擋物區分開來，從而影響檢測精度。為了解決這個問題，受RFB-s和FFCA-YOLO的啟發，我們提出了上下文特征增強（CFE）模塊，其整體結構如圖所示。

CFE模塊從兩個方面增強目標特征的表達能力：首先，它通過采用多分支卷積結構來提取更豐富的語義信息，從而增強特征飽和度，以提高小目標的特征表達能力。其次，通過引入空洞卷積來擴展特征的感受野，以獲得更充分的局部上下文信息，從而增強對小目標的上下文感知能力。這種設計不僅可以顯著提高小目標的特征表達能力，還能優化計算效率，在一定程度上減少網絡的參數量。

在CFE模塊中，我們使用多分支卷積和空洞卷積的組合來實現小目標特征的高效提取和多尺度增強。該模塊的整體設計包含三個主要分支，它們承擔不同的特征處理任務，最后通過特征聚合的方式最大限度地發揮特征的有效性。

第一分支的設計重點是使用多分支卷積結構提取豐富的語義信息，并在此過程中擴展感受野，以增強上下文信息的表達能力。我們對輸入特征映射執行1×1卷積操作，初步調整通道數以進行后續處理，降低計算成本并為后續多分支處理奠定基礎。然后，將處理后的輸入特征輸入到三個分支的卷積操作中。其中，一個分支僅包含一個卷積核為3×3的標準卷積。另外兩個分支分別由一個大小為1×7和7×1的標準條狀卷積與一個空洞率為7的3×3空洞卷積組成，通過條狀卷積的長軸感受野擴展特性，有效捕獲特征中的不對稱和方向性信息。同時，空洞卷積通過引入稀疏感受野，在不增加參數數量的情況下擴展了感受野。這樣，捕獲了上下文信息與目標之間的長距離依賴關系，并將三個分支上的特征進行拼接（Concat）操作，再輸入1×1卷積進行處理。通過第一主分支的特征不僅包含局部細節，還保留了全局上下文信息，并通過條狀卷積和空洞卷積的結合有效提高了感受野。模塊對小目標的多尺度特征表達能力得到顯著增強。此外，與直接使用大卷積核的方法相比，多分支設計在保證感受野擴展效果的同時，可以顯著降低計算復雜度和參數量，從而實現模塊的輕量化。

第二分支是一個由1×1卷積組成的殘差結構。殘差結構形成了等效映射，其主要功能是通過等效映射機制直接保留輸入特征，以避免小目標的關鍵特征在多分支卷積操作中丟失。殘差結構的引入不僅保證了特征流的完整性，還使CFE模塊能更好地適應不同尺度物體的特征表示需求。通過這種設計，小目標的細粒度特征得以保留，為后續的特征融合提供了準確的尺度信息。

第三分支是原始全局特征信息的輸入，它在局部特征增強的基礎上補充全局信息，從而提高網絡對物體整體特征的感知。全局特征的保留對于小目標檢測尤為重要，因為小目標的語義信息稀疏，容易受局部信息限制。全局特征的引入可以有效提高模型對小目標的上下文感知能力，并進一步增強檢測的魯棒性。

最后，將上下文信息、關鍵信息和全局信息進行逐元素相加，以最大限度地保留和提取小目標的有效信息。這種特征融合機制實現了上下文信息、關鍵特征信息和全局信息的有效整合，并從三個不同的尺度增強了目標特征。具體而言，上下文信息的增強顯著提高了小目標的語義飽和度，關鍵特征信息的保留保證了小目標的細粒度描述，全局信息的添加增強了目標特征的總體一致性。

額外檢測頭：在特征提取過程中，目標檢測模型通常將骨干網絡獲得的三種不同分辨率（P3、P4、P5）的特征圖送入頸部進行特征融合。這是因為隨著下采樣或卷積操作的疊加，感受野逐漸擴大，高層特征圖可以捕獲更豐富的語義信息，這對于一般物體的目標檢測是足夠的。然而，對于大量待檢測的小目標，由于其信息量少，其大小、位置等特征信息可能會隨著模型層數的增加而逐漸丟失，這不利于準確的物體識別和定位，并且預測頭無法從特征圖中獲得足夠的特征信息，導致識別精度低。淺層特征圖具有較小的感受野，更關注細節信息，具有更高的空間分辨率和準確的位置信息，適用于缺乏特征信息且難以精確定位的小目標檢測任務。

為了保留更多的淺層特征和小目標位置信息，引入了分辨率最高的P2特征圖。通過減少下采樣次數并保留更多細節信息，將通過骨干網絡提取的P2特征圖與其他尺度的特征圖融合，以提高融合特征的豐富度。此外，利用融合后的特征構建了一個額外的基于P2特征的小目標預測頭，使模型擁有更多小目標的位置信息和特征信息，有效減少了特征下采樣過程中的位置特征丟失，增強了小目標的上下文信息，提高了小目標的位置檢測精度。并結合其他三個預測頭，可以很好地緩解因物體尺度劇烈變化帶來的負面影響。

MDFE-Net整體架構：為了有效解決小目標檢測的挑戰，將提出的創新模塊MDFA和CFE引入YOLO系列方法的YOLO11N目標檢測模型，并以輕量級版本模型YOLO11N作為基準網絡框架。構建了一個創新模型——多尺度空洞特征增強網絡（MDFE-Net），其整體框架如圖所示。采用CSPDarkNet53作為骨干網絡，從圖像中高效提取分層的多尺度特征。頸部結構用于特征融合，結合多分辨率特征圖以提高對小目標上下文信息的感知。檢測頭結構用于對物體進行分類和定位。CFE模塊用于增強主干輸出的四個不同分辨率的圖像上下文特征信息，以提高對小目標的特征提取能力。同時，為了更好地利用底層特征的細節，使用MDFA模塊對底層特征進行多尺度特征聚合，以增強底層特征的注意力表達能力。為了進一步提高小目標位置的檢測精度，我們將底層特征圖P2引入檢測頭，并基于此構建了額外的檢測頭，有效提高了模型對小目標的分類和定位性能。

實驗

實驗設置

數據集描述：我們選擇了三種不同類型的小目標數據集，包括兩個公共數據集和一個自建數據集。

VisDrone：這是一個現實場景中的大規模無人機視角數據集，包含大量小目標，數據分布多樣，檢測場景復雜，使得該數據集更具挑戰性。該數據集包含來自14個城市不同區域的10,209張無人機拍攝的靜態圖像，涵蓋了交通場景中的10個常見物體類別，包括約540,000個實例。

GTSDB：德國交通標志檢測基準數據集是一個德國的交通標志檢測基準數據集，總共包含900張1360×800像素的圖像和4種類別的標簽類型，并有大量的小型交通標志。

PSD-Node：植物幼苗節點數據集是一個用于植物幼苗節點檢測的數據集，由我們在獨立的幼苗圖像數據采集室中收集和標注（如圖所示）。總共收集了1350張原始幼苗圖像，包括810張訓練集、270張驗證集和270張測試集，其中包含數萬個幼苗節點的小目標標簽。該數據集具有以下特點：（1）PSD-Node中幼苗節點的標簽屬于相對大小定義下的小目標。（2）PSD-Node中存在大量種子和幼苗節點，可以更有效地驗證模型在低光照條件和葉片遮擋條件下檢測小目標的性能。（3）PSD-Node屬于農業領域的小目標數據集，對于提高模型在農業領域的小目標檢測性能具有參考價值。

評估指標：我們使用精確率（P）、召回率（R）、F1分數、平均精度（AP，在IoU閾值從0.50到0.95，步長為0.05上取平均）和AP₅₀（IoU=0.50時的平均精度）作為模型的主要評估指標。除了AP和AP₅₀，我們還報告了尺度感知指標AP_S、AP_M和AP_L，以更好地評估不同物體大小下的性能。這些指標遵循標準檢測評估中常用的小、中、大尺度劃分。此外，我們在表中報告了GFLOPs和參數量，以在相同輸入分辨率下提供與效率相關的參考。

其他細節：我們在1塊GPU（NVIDIA GeForce RTX 2080）、Intel(R) Core(TM) i7-8700 CPU和Windows 10操作系統上進行訓練，并選擇最佳性能作為實驗結果。我們選擇隨機梯度下降（SGD）作為網絡優化器。訓練周期和批量大小分別設置為300和4。在訓練過程中，初始學習率設置為0.01，并使用余弦退火策略來降低學習率。動量設置為0.937，權重衰減設置為0.0005。為確保公平比較，我們排除了所有用于比較的方法使用預訓練和自蒸餾策略。此外，考慮到輸入圖像大小對評估的潛在影響，我們將所有數據圖像的輸入分辨率統一歸一化為640×640，這是目標檢測領域的常見選擇。為了可復現性，我們還報告了主要的軟件環境：Python 3.8, PyTorch 2.0.1, CUDA 11.7, 和 cuDNN 8.5.0。除非另有說明，我們為Python、NumPy和PyTorch固定隨機種子（例如42），并在適用的情況下啟用確定性設置。

訓練目標和損失：為避免歧義，MDFE-Net遵循與YOLO11N基線相同的訓練目標。具體來說，我們保持默認的YOLO11N損失公式（分類、定位和目標性項）及其權重不變。此外，標簽分配策略與基線相同，我們沒有引入任何額外的損失項、自定義匹配規則或輔助監督。因此，性能提升主要來自提出的MDFA和CFE模塊，而非訓練目標的變化。

與先進算法的比較

為了評估MDFE-Net，我們選擇了當前先進的單階段目標檢測方法進行對比實驗，包括YOLOv5N、YOLOv6N、YOLOv8N、YOLOv9T、YOLOv10N、YOLO11N、Hyper-YOLO-N和YOLOv12N。同時，選擇了基于端到端非CNN框架的RT-DETR-L進行對比實驗。

PSD-Node數據集：如表所示，MDFE-Net在PSD-Node數據集上的F1、AP₅₀和AP指標上取得了最佳性能。與基線YOLO11N相比，MDFE-Net將F1、AP₅₀和AP分別提高了3.7%、4.8%和6.8%。與最新的SOTA模型Hyper-YOLO-N相比，MDFE-Net在F1、AP₅₀和AP上仍然分別實現了1.5%、1.4%和1.4%的持續增益。具體而言，MDFE-Net達到了84.8%的F1分數、89.5%的AP₅₀和47.6%的AP。盡管MDFE-Net的精確率略低于FBRT-YOLO-N，但在所有對比方法中仍位居第二，同時在F1、AP₅₀和AP上取得了最佳結果。此外，MDFE-Net的性能也優于表中包含的其他強檢測器，如RT-DETR-L、YOLOv12N和FBRT-YOLO-N，證明了我們的方法在這個具有挑戰性的數據集上的有效性。我們提供了可視化示例，在放大的區域中，YOLO11N和YOLOv12N產生了一個額外的假陽性（用紅色突出顯示），而MDFE-Net抑制了此誤報，表明小目標檢測的魯棒性和準確性得到了提高。

VisDrone數據集：如表所示，MDFE-Net在VisDrone數據集上優于基線YOLO11N，將F1、AP₅₀和AP分別提高了3.2%、3.7%和2.3%。此外，MDFE-Net實現了AP_S/AP_M/AP_L為0.077/0.268/0.361，在不同物體尺度上顯示出明顯的增益，特別是對于小物體。與表中包含的最新先進輕量級檢測器相比，在相同的評估設置下，MDFE-Net實現了最佳的整體性能。我們還報告了GFLOPs（在640×640輸入下計算）和參數量，以表征計算成本，并提供對精度-效率權衡的更完整視圖。為了進一步說明MDFE-Net在小目標檢測上的有效性，我們提供了與兩個強基線YOLO11N和YOLOv12N在VisDrone數據集上的定性比較。不同類別用不同顏色表示：紫色表示摩托車，青色表示汽車，藍色表示貨車。在這個具有密集小目標的挑戰性場景中，YOLO11N和YOLOv12N表現出更多的漏檢，尤其是摩托車，而MDFE-Net在放大區域檢測到更多有效實例且漏檢更少。這些觀察結果與表中的定量結果一致，其中MDFE-Net在VisDrone上實現了最佳的整體性能。

GTSDB數據集：如表所示，MDFE-Net在GTSDB數據集上取得了一致的改進。與基線YOLO11N相比，MDFE-Net將F1、AP₅₀和AP分別提高了2.5%、2.6%和3.2%。此外，MDFE-Net獲得了AP_S/AP_M/AP_L為0.593/0.828/0.910，展示了在不同物體尺度上的強大性能。我們進一步報告了GFLOPs（在640×640輸入下計算）和參數量，以在相同評估設置下提供與效率相關的參考。盡管MDFE-Net的召回率略低于EDSOD，但在所有對比方法中仍位居第二，而MDFE-Net在其他主要指標（F1、AP₅₀、AP和AP_S/AP_M/AP_L）上取得了最佳結果，表明其強大的整體檢測性能。我們通過提供GTSDB數據集的可視化示例進一步驗證了所提方法在小目標檢測任務中的有效性，將MDFE-Net與最先進的目標檢測器YOLO11N和YOLOv12N進行比較。不難看出，所提方法能有效提高交通小目標檢測模型的精度，并且比其他SOTA模型具有更好的小目標檢測性能和更低的漏檢率。

消融研究

對于MDFA模塊，該模塊的原始設計意圖是通過多尺度空洞卷積的特性，在更大范圍的感受野內提取更多的底層特征信息，以提高小目標的檢測性能，因此我們將該模塊置于YOLO11N的四條特征輸出路徑中進行消融研究，以驗證模塊在網絡中的放置位置。根據實驗結果，P2特征層是MDFA模塊的最佳位置。主要原因是P2特征層作為網絡的底層特征輸出，具有最高的特征圖分辨率，包含了最豐富的細節信息和紋理數據，這對于小目標檢測至關重要。通過多尺度空洞卷積的設計，MDFA模塊可以在保持高分辨率特征圖完

熱點排行

新聞專題