www.youjizz日本,色二区,中文字字幕在线中文乱码

面向自動采收規劃的茶樹茶芽三維視覺感知一體化集成管線：TeaNeRF

《Frontiers in Plant Science》：TeaNeRF: an integrated 3D visual perception pipeline for tea bud harvesting

【字體：大中小】 時間：2026年03月02日 來源：Frontiers in Plant Science 4.8

編輯推薦：

　　本文綜述了茶芽自動采收領域面臨的感知挑戰，并系統性地提出了一個創新的解決方案——TeaNeRF。該研究將茶芽精準采收視為一個集成的三維視覺感知問題，提出了一種面向采收規劃的感知管線，巧妙地將二維檢測與分割、單目深度估計以及神經輻射場（NeRF）三維重建技術融合貫通。通過在4,700張真實茶園圖像數據集上的驗證，該方法在檢測準確率（mAP@50 = 91.7%）、分割質量（IoU = 0.640）及三維感知性能上均表現出顯著提升，最終從重建的語義點云中實現了茶芽精確計數和采收候選點定位，為下游自動化收割系統提供了可靠、結構化的三維空間信息基礎。

Introduction

精準的茶芽感知是茶葉智能化、精細化采收規劃的基本前提。然而，在實際茶園環境中，由于茶芽目標尺寸小、遮擋嚴重、背景復雜混亂以及缺乏準確的三維空間信息，實現面向采收規劃的可靠感知仍然極具挑戰性。為解決這些挑戰，本研究提出了TeaNeRF，一個專為采收導向茶芽分析設計的集成三維視覺感知管線。區別于將檢測、分割和空間分析作為獨立任務，TeaNeRF將順序的二維識別、單目深度估計和神經輻射場重建整合為一個連貫的感知流程，從而實現對復雜自然場景中茶芽的準確空間理解。該集成主要在感知輸出層面進行，通過固定接口連接多個模塊化組件，而非聯合優化或端到端可訓練的形式。所提出的框架結合了增強的基于YOLO的檢測器、提示引導分割和單目深度先驗，以指導基于NeRF的三維重建。通過結合深度監督和語義感知神經場，TeaNeRF生成密集且幾何一致的點云，并具有可靠的語義分離能力。基于重建的語義點云，進一步開發了三維聚類和幾何擬合策略，以實現感知層面的茶芽計數和采收導向候選點估計。在包含4,700張茶園圖像的真實數據集上進行的實驗表明，TeaNeRF在檢測準確率、分割質量和整體三維感知性能上均有提升。代表性茶樹的案例分析結果表明，所提出的基于3D語義點云的方法可以為下游采收規劃提供可行的茶芽計數行為和一致的空間引導線索。通過提供包括茶芽位置、數量和采收候選點在內的結構化三維空間信息，TeaNeRF為自動化茶葉采收系統的下游規劃提供了實用的感知級輸出。

Materials and methods

Pipeline overview

本研究提出了一種集成的三維視覺感知管線，它整合了茶芽識別、語義分割、計數和面向采收的候選采摘點估計，以支持真實茶園環境中的采收規劃和準備。整體工作流程包括：(A) 獲取茶樹的多視角圖像，并使用COLMAP估計相機位姿；(B) 使用YOLOv11檢測茶芽，并使用檢測結果引導SAM2進行精準語義分割；(C) 應用Depth Anything v2估計單目深度圖；(D) 基于圖像和深度先驗，通過語義NeRF模型重建茶樹的三維結構，從中提取芽級點云用于茶芽計數和采收候選點定位。模塊選擇（YOLOv11、SAM2、Depth Anything V2、NeRF）旨在復雜戶外采收環境中平衡準確性、魯棒性和實際應用性。

Data acquisition

研究聚焦于復雜戶外環境下的茶芽圖像采集。開發了一個自動圖像采集系統，以圍繞單棵茶樹進行可控旋轉，并通過設置采集間隔靈活調整捕獲圖像的數量。所有圖像使用Obsmeet 4K相機捕獲，分辨率為3840 × 2160像素，存儲在JPG格式中。數據采集于2025年4月在中國湖北省咸寧市崇陽縣的自然田間條件下進行。最終數據集包含4700張黃茶茶芽的靜態圖像，涵蓋了多樣的視角和遮擋條件。圖像中的茶芽目標使用Trex標注工具手動標注，生成用于模型訓練的邊界框標簽。

Data preprocessing

在數據預處理階段，首先使用COLMAP估計原始圖像的相機位姿，從而恢復采集時的幾何信息。同時，為了在可用訓練數據條件下增強數據多樣性并提高基于YOLO的茶芽識別模型的泛化能力，對數據集應用了多種數據增強技術，包括灰度轉換、亮度調整、高斯噪聲添加、色調飽和度調整和Cutout。這些增強僅用于二維識別模型的訓練。對于三維重建過程，不應用數據增強和噪聲注入，而是根據光照條件、清晰度等質量指標進一步篩選圖像，手動移除過曝、欠曝或低對比度等低質量圖像，以確保相機位姿估計和后續神經重建的幾何穩定性。篩選后，每組保留的高質量圖像數量在168到225張之間。

2D image processing

YOLOv11是新版本的YOLO系列，在實時目標檢測任務中結合了準確性、速度和效率。相比其前代，YOLOv11在網絡結構和訓練策略上進行了深度優化，顯著增強了特征提取能力和推理性能。本研究針對YOLOv11引入了多項改進以提升其在茶園復雜環境下的檢測性能。首先，采用輕量級的DySample動態上采樣模塊取代傳統的最近鄰插值上采樣策略。DySample采用基于點的自適應采樣機制，根據局部特征響應動態調整采樣位置，顯著減少了參數數量和計算開銷，同時保留了細粒度的空間細節。其次，在YOLOv11骨干網絡的C3k2模塊中，引入了C3k2_DG-SimAM模塊，該模塊集成了卷積門控線性單元（CGLU）和簡單注意力模塊（SimAM）。CGLU通過輕量級的深度門控抑制冗余激活并選擇性強調信息性特征響應，而SimAM則在不引入額外可學習參數的情況下，跨空間和通道維度建模神經元級重要性，從而增強特征判別力。最后，引入了一種新的損失函數——innerIoU，用于提高小型、難以定位的茶芽目標的邊界框定位精度。InnerIoU不僅評估邊界框之間的重疊區域，還進一步考慮預測框與實際框的對齊程度，為目標定位提供了更嚴格的標準。通過上述改進，檢測的準確性和魯棒性得到了提升。

Image semantic segmentation

Segment Anything Model 2 (SAM2)是Meta AI引入的新一代圖像分割模型，在推理效率和分割性能上均優于其前身SAM。SAM2采用更緊湊、高效的架構設計，支持以點、邊界框或文本等形式靈活分割感興趣區域。為實現茶芽區域的精準提取和背景剔除，本研究結合YOLOv11和SAM2構建了高效的語義分割框架。該方法利用YOLOv11提供的目標檢測框作為提示，引導SAM2生成相應的掩碼，從而克服了SAM2僅輸出二進制掩碼、缺乏語義標注的限制，完成了語義級的分割。為進一步提高分割掩碼的準確性和魯棒性，引入了基于面積和分割穩定性的過濾策略，以消除不滿足閾值要求的掩碼區域。同時，使用形態學腐蝕操作優化保留掩碼的邊緣，去除區域中的小偽影，改善目標輪廓的完整性和清晰度。該方法不僅顯著降低了人工標注成本，還提高了復雜環境下茶芽圖像的分割精度，為后續目標分析和三維重建提供了可靠基礎。

Depth estimation

由于茶樹結構復雜、葉片遮擋嚴重、表面紋理重復度高且易受光照條件影響，傳統的基于圖像匹配的方法在茶樹三維重建中面臨巨大挑戰。為此，引入高質量深度圖可顯著提高重建的幾何精度和魯棒性。深度圖為每個像素提供空間位置信息，有效緩解了由遮擋、紋理丟失或稀疏特征引起的匹配困難。本研究使用Depth Anything V2模型進行深度估計。該模型是一個基于視覺模型的通用深度估計框架，能夠在無監督和弱監督場景下對廣泛的自然圖像進行高質量深度預測。Depth Anything V2在架構上結合了圖像編碼器和多尺度深度解碼器，具有良好的跨場景泛化能力和對復雜光照及紋理遮擋的魯棒性。通過將該模型應用于多視角圖像，可以為后續三維重建任務提供密集、連續的深度信息，為提高NeRF的訓練精度和幾何恢復能力提供有力支持。

Tea tree 3D reconstruction

為實現茶樹的高質量三維重建，本研究采用了NeRFStudio內的Nerfacto框架。Nerfacto通過優化采樣策略和網絡設計，提供了神經輻射場的高效實現，在渲染質量和計算效率之間取得了良好的平衡，適用于田間條件下復雜植物結構的高分辨率重建。為提升幾何保真度并加速收斂，在訓練過程中通過深度監督損失引入了單目深度先驗，使模型能更好地捕捉細枝和密集茶芽簇等精細結構。此外，引入了一個語義分支，將Nerfacto從純外觀建模擴展到語義感知的三維重建。語義場預測作為空間位置函數的茶芽概率，使得語義信息與重建幾何保持一致對齊。標準的顏色、深度和語義的體積渲染公式與原始NeRF框架保持一致。

Tea bud point cloud processing

與大多數專注于視覺重建或表型分析的現有基于NeRF的農業研究不同，本節介紹了一種面向采收的三維感知策略。通過顯式處理芽級語義點云，所提出的方法將三維重建與實際采收任務（包括茶芽計數和采收候選點估計）聯系起來。采收候選點從芽級語義點云中獲得，為后續的采收規劃提供三維空間參考。該設計使得能夠從重建的點云中提取可操作的空間線索，為采收導向的應用建立有效的感知基礎。

Point cloud processing and bud-level clustering

在聚類分析之前，首先對重建的三維點云進行預處理以去除孤立的噪聲點。具體而言，應用基于半徑的濾波策略，丟棄在預定義半徑內鄰點數量不足的點。此步驟有效減少了重建過程中引入的虛假點，提高了后續聚類和幾何分析的可靠性。為實現可靠的茶芽實例分離和計數，采用了基于密度的空間聚類算法（DBSCAN）。DBSCAN通過評估預定義鄰域內的局部點密度來識別核心點，并將密度可達的點分組為簇，同時自動拒絕稀疏的離群點。通過此過程，單個茶芽被分離為不同的三維簇，每個簇對應一個候選茶芽實例。對于空間尺度較小的簇，應用了額外的合并策略。如果兩個簇質心之間的歐氏距離小于茶芽的平均半徑，則認為它們屬于同一茶芽結構并進行合并。剩余的微小簇通過估計其體積大小進行進一步檢查，體積顯著小于典型茶芽簇的簇被視為非目標結構并被移除。經過這些步驟后，得到的芽級簇為茶芽計數和后續空間分析提供了穩健的基礎。

Harvesting-oriented candidate point estimation

基于上一步獲得的芽級點云簇，為每個茶芽估計一個采收導向候選點。此估計旨在提供一個源自感知的、穩定的三維空間參考，而非最終的機器人可執行切割指令。對于每個茶芽簇，首先沿Z軸（垂直方向）對所有點進行排序，并提取最低高度范圍（例如，最低的5%）內的點子集。這些點用作采收導向先驗下基側表面區域的幾何近似，而非假設固定的解剖學莖-芽連接點。這種代理通常在重建點云中可見基部結構時對應于簇的附著側，但它不依賴于所有茶芽在全局坐標系中嚴格向上生長的假設。因此，橫向或斜向生長的茶芽仍可被處理。為減輕噪聲和孤立極端點的影響，采用了穩健的估計策略。具體而言，對所選的較低子集應用基于RANSAC的平面擬合或局部幾何中心估計，為基側定位提供局部幾何先驗。擬合平面的幾何中心（或在平面擬合退化時估計的局部中心）被作為候選點。與直接選擇單個極端點相比，該策略在點云擾動下具有更好的穩定性和可重復性。估計的候選點純粹源自三維感知，代表了采收導向的引導線索，可以為下游采收規劃提供一致的空間參考。

Results

Detection modeling of tea buds

本研究使用精確率（P）、召回率（R）和平均精度（mAP）對檢測模型進行評估。消融實驗表明，所提出的每個組件（DySample、DG-SimAM、InnerIoU）都對整體檢測性能有積極貢獻。當組合使用時，所提模型取得了最佳結果，精確率、召回率、mAP@50和mAP@50:95分別達到0.827、0.843、0.917和0.651。與基線YOLOv11n相比，這些值分別提高了5.1%、4.2%、4.8%和2.7%，同時保持了相當的參數量和計算成本。這表明引入的模塊不僅增強了特征提取和定位精度，而且在準確性和效率之間取得了良好的權衡。此外，與其他YOLO變體（YOLOv5n、YOLOv8n、YOLOv10n、YOLOv11n）的比較顯示，改進后的基于YOLOv11的模型在所有評估指標上均表現出色。特別是在mAP@50:95上的提升表明，在更嚴格的IoU閾值下，邊界框回歸更加精確，這對于檢測復雜茶園環境中小型、密集分布和部分遮擋的茶芽至關重要。

2D image segmentation

為實現茶芽的語義分割，本研究采用了三種方法進行比較：YOLO+SAM、YOLO+SAM2和自訓練的U-Net，并以代表性單階段實例分割模型Mask R-CNN作為基線。U-Net的訓練數據集包括兩部分：從捕獲數據集中手動標注的60張圖像，以及從YOLO+SAM2分割結果中精煉得到的30張額外圖像。性能對比結果顯示，YOLO+SAM2取得了最高的IoU（0.640）和Dice系數（0.779），同時保持了合理的推理時間（0.511秒）。YOLO+SAM緊隨其后，IoU為0.629，Dice為0.771。U-Net速度顯著更快（0.013秒）但精度較低（IoU 0.597, Dice 0.747）。Mask R-CNN表現出較低的分割精度（IoU 0.578, Dice 0.725），但計算效率較高（0.028秒）。定性比較顯示，YOLO+SAM2在小型和遮擋茶芽的分割上產生更精確的結果，邊界描繪優于SAM。U-Net盡管速度快且不依賴提示信息，但在復雜樹冠條件下傾向于過度分割茶葉，且難以處理精細或深嵌的茶芽。Mask R-CNN雖然能夠直接預測實例級掩碼，但在密集遮擋區域通常遭受不完整或碎片化的茶芽分割。總體而言，YOLO+SAM2在分割精度和推理效率之間實現了最佳平衡。

Tea tree 3D reconstruction

本研究采用多模態編碼和協作神經網絡建模，在重建層面建立了三維空間與二維圖像之間的高效映射。具體而言，沿每條射線的空間點（x, y, z）及其對應的視圖方向向量d分別使用哈希編碼和球諧（SH）編碼進行特征提取。哈希編碼有效降低了傳統位置編碼的計算開銷，支持高分辨率幾何建模，而

熱點排行

新聞專題